Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

Lọc thông tin (Information Filtering) là lĩnh vực nghiên cứu các quá trình lọc bỏ những thông tin không thích hợp và cung cấp thông tin thích hợp đến với mỗi người dùng. Lọc thông tin được xem là phương pháp hiệu quả hạn chế tình trạng quá tải thông tin được quan tâm nhiều nhất hiện nay.

Lọc thông tin được tiếp cận theo hai xu hướng chính, đó là lọc dựa trên tri thức và lọc dựa trên dữ liệu. Trong trường hợp dựa vào tri thức, hệ thống thực hiện lọc thông tin bằng cách sử dụng tập luật xây dựng trước. Nhược điểm của phương pháp này là để có được một tập luật đủ tốt đòi hỏi chi phí nhiều thời gian và kinh nghiệm của chuyên gia; việc cập nhật các luật không thể thực hiện được tự động vì nguồn dữ liệu vào thường không có cấu trúc và luôn trong trạng thái biến động. Chính vì vậy, lọc dựa trên tri thức có xu hướng ít được sử dụng.

Đóng góp thứ nhất của luận án là đề xuất áp dụng một kỹ thuật Boosting cải tiến cho nhiều bài toán phân loại vào lọc cộng tác, bao gồm:

  • –  Đề xuất phương pháp giải quyết bài toán lọc cộng tác bằng kỹ thuật Boosting dựa trên biểu diễn dữ liệu phù hợp cho bài toán phân loại của học máy;
  • –  Áp dụng kỹ thuật Boosting cải tiến cho nhiều bài toán phân loại bằng phƣơng pháp học đa nhiệm dựa trên gốc quyết định (Decision Stump) cho lọc cộng tác nhằm hạn chế ảnh hƣởng của vấn đề dữ liệu thưa;
  • –  Thử nghiệm và đánh giá kết quả phương pháp cải tiến, đặc biệt chú trọng đánh giá kết quả dự đoán trong trường hợp dữ liệu thưa của lọc cộng tác.Hầu hết các phương pháp học máy cho lọc cộng tác hiện nay đều thực hiện những nhiệm vụ học đơn lẻ (Single Task Learning) với giả thiết dữ liệu huấn luyện và dữ liệu kiểm tra được mô tả trong cùng một không gian các giá trị đặc trưng với cùng một phân bố. Khi phân bố thay đổi, tập dữ liệu huấn luyện và dữ liệu kiểm tra phải xây dựng lại. Trên thực tế, việc làm này không phải lúc nào cũng thực hiện được làm cho kết quả dự đoán các phương pháp kém tin cậy.

    Mặt khác, tại mỗi thời điểm, phương pháp chỉ thực hiện một nhiệm vụ đơn lẻ, kết quả của mỗi nhiệm vụ cụ thể hoàn toàn độc lập với các nhiệm vụ khác. Chính vì vậy, phương pháp tiếp cận này sẽ gặp khó khăn khi dữ liệu huấn luyện thưa thớt. Để giải quyết vấn đề này, luận án đề xuất áp dụng phương pháp học đa nhiệm (Multi-Task Learning) cho lọc cộng tác nhằm sử dụng tập thông tin chung giữa các nhiệm vụ học đơn lẻ. Tập thông tin chung tìm được đóng vai trò chia sẻ và bổ sung thông tin vào quá trình huấn luyện cho mỗi người dùng khác nhau, góp phần nâng cao kết quả dự đoán và hạn chế được ảnh hƣởng của tình trạng dữ liệu thưa trong lọc cộng tác.

    Nôị dung luận án đƣợc xây dựng thành ba chương và một phụ lục, trong đó:

    Chương 1. giới thiệu tổng quan về lọc thông tin. Trình bày những nghiên cứu cơ bản của lọc thông tin, các phương pháp lọc thông tin cho hệ tư vấn và những vấn đề cần tiếp tục nghiên cứu của mỗi phương pháp. Trên cơ những nghiên cứu cơ bản, xác định rõ hướng nghiên cứu của đề tài. Một kết quả nghiên cứu cơ bản của đề tài được công bố.

    Chương 2. trình bày phương pháp hạn chế ảnh hưởng của vấn đề dữ liệu thưa trong lọc cộng tác bằng phương pháp học đa nhiệm. Nội dung trình bày trong chương này được tổng hơp̣ dưạ trên kết quả nghiên cứu đã công bố.

    Chương 3. trình bày phương pháp kết hợp giữa lọc cộng tác và lọc nội dung dựa trên mô hình đồ thị. Nội dung trình bày trong chương này được tổng hợp từ kết quả nghiên cứu đã công bố. Cuối cùng là một số kết luận và đề xuất các nghiên cứu tiếp theo.

    Phần phụ lục. trình bày thiết kế và xây dựng ứng dụng cho phương pháp lọc kết hợp được đề xuất trong Chương 3.

    Tải về miễn phí bản đầy đủ luận văn tại địa chỉ:

    https://www.file-upload.com/x2qthjnze7lc 

Tác giả

NGUYỄN DUY PHƯƠNG

Đánh giá

Chưa có đánh giá nào.

Hãy là người đầu tiên đánh giá “Phát triển một số phương pháp lọc thông tin cho hệ tư vấn”

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *