Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số
Luận văn Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số giới thiệu tổng quan về lĩnh vực nghiên cứu, nêu các khái niệm, định nghĩa, cơ sở khoa học, các công trình nghiên cứu liên quan, các phương pháp nghiên cứu và nhận xét ưu khuyết điểm của các phương pháp; đề xuất phương pháp khai thác Top-rank-k tập phổ biến được đánh trọng; trình bày về thực nghiệm bao gồm môi trường thực nghiệm, cơ sở dữ liệu thực nghiêm, đánh giá các kết quả thu được.
Mục lục nội dung
1. Mở đầu
1.1 Đặt vấn đề
Khai thác dữ liệu là lĩnh vực đã và đang được nghiên cứu nhiều trong thời gian vừa quavới mục đích hỗ trợ các nhà quản lý tìm ra mối quan hệ giữa các sản phẩm trong số lượng lớn danh mục sản phẩm và nhờ đó có thể giúp tăng doanh thu. Quá trình khai thác dữ liệu là quá trình phát hiện ra các mẫu thông tin có giá trị tiềm ẩn trong cơ sở dữ liệu. Khai thác luật kết hợp là một trong những phương thức hay và phổ biến nhất để đạt được mục đích này. Việc khai thác các luật kết hợp nhằm mục đích phát hiện ra các mối quan hệ giữa các tập thuộc tính trong cơ sửo dữ liệu với nhau, trongđó khai thác tập phổ biến đóng vai trò quan trọng trong việc khai thác các luật kết hợp. Các tập phổ biến thường được khai thác từ các cơ sở dữ liệu nhị phân trong đó từng hạng mục trong một giao dịch có thể có những ý nghĩa khác nhau.
1.2 Mục tiêu của đề tài
Đề tài tập trung vào nghiên cứu các thuật toán khai thác các tập được đánh trọng số dựa trên các thuật toán khai thác tập phổ biến trên cơ sở dữ liệu giao dịch nhị phân. Đề xuất ra thuật toán khai thác các Top-rank-k của các tập được đánh trọng số dựa trên cơ sở dữ liệu giao dịch có trọng số. Từ đó ứng dụng các thuật toán này vào trong thực tiễn.
1.3 Giới hạn của đề tài
Luận văn nhằm nghiên cứu các thuật toán khai thác các tập được đánh trọng số dựa trên các thuật toán khai thác tập phổ biến trên cơ sở dữ liệu giao dịch nhị phân. Cải tiến thuật toán khai thác các Top-rank-k tập được đánh trọng số dựa trên cơ sở dữ liệu giao dịch có trọng số bằng cách sử dụng diffset.
2. Nội dung
2.1 Tổng quan và cơ sở lí thuyết
Các khái niệm, định nghĩa
- Tổng quan về khai thác luật kết hợp
- Phương pháp Apriori
- Phương pháp IT-tree
- Phương pháp FP-tree
Tổng quan về khai thác luật kết hợp trên cơ sửo dữ liệu được đánh trọng số
- Định nghĩa và tính chất của tập được đánh trọng số
- Thuật toán khai thác dựa trên WIT-tree
Phương pháp khai thác Top-rank-k các mẫu phổ biến bằng Node-list
- Cấu trúc PPC-tree
2.2 Thuật toán khai thác Top-rank-k phổ biến
Top-rank-k tập phổ biến được đánh trọng phổ biến
- Định nghĩa về Top-rank-k tập được đánh trọng phổ biến
- Nghiên cứu liên quan
Top-rank-k được đánh trọng số sử dụng Diffset
- Giới thiệu Diffset
- Thuật toán dựa trên Diffset
2.3 Thực nghiệm và đánh giá
Môi trường thực nghiệm
Đặc điểm cơ sở dữ liệu thực nghiệm
Kết quả thực nghiệm
3. Kết luận
Đề tài tập trung vào nghiên cứu các thuật toán khai thác các tập phổ biến được đánh trọng số dựa trên các thuật toán khai thác tập phổ biến trên cơ sở dữ liệu giao dịch nhị phân. Thông qua quá trình thực hiện đề tài đã thực hiện được các mục tiêu:
- Nghiên cứu cơ sở lý thuyết về các kỹ thuật khai thác các tập phổ biến như các phương pháp Apriori, FP-tree, IT-tree.
- Tìm hiểu về cơ sở dữ liệu giao dịch có trọng số, trọng số hỗ trợ và các định nghĩa lý thuyết liên quan.
- Tìm hiểu về độ khác nhau của hai tập tương đương Diffset
- Nghiên cứu các thuật toán khai thác các tập phổ biến trên cơ sở dữ liệu giao dịch có trọng số WIT-FWI, WIT-FWI-DIF.
- Cài đặt thực nghiệm để khảo sát kết quả của thuật toán đề xuất: tiến hành khai thác Top-rank-k trên các cơ sở dữ liệu chuẩn như BMSPOS, Chess, Connect, Mushroom.
4. Tài liệu tham khảo
Agrawal at al. (1993). Mining Association Rule between sets of items in large databases. ACM SIGMOD Record 22 (2) 207-216
Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. In: VLDB’94 (pp. 487-499)
Cai, C. H., Fu, A. W., Cheng, C. H., & Kwong, W. W. (1998). Mining association rules with weighted items. In: Proceedingss of international database engineering and applications symposium (IDEAS 98) (pp. 68-77).
Ramkumar, G. D., Ranka, S., & Tsur, S. (1998). Weighted association rules: Model and algorithm. In: SIGKDD’98 (pp. 661-666)...
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---
Tham khảo thêm
- pdf Luận văn ThS: Theo dõi đối tượng chuyển động bằng phương pháp lọc tích hợp
- pdf Luận văn ThS: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
- pdf Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
- pdf Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia
- pdf Luận văn ThS: Nén Fractal cho bài toán ẩn dữ liệu
- pdf Luận văn ThS: Khai thác mẫu tuần tự nén
- pdf Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
- pdf Luận văn ThS: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
- pdf Luận văn ThS: Khai thác tập mục lợi ích cao
- pdf Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp
- pdf Luận văn ThS: Một số kỹ thuật kiểm thử an toàn hệ thống
- pdf Luận văn ThS: Khai thác quan điểm của các bình luận tiếng Anh trên mạng xã hội sử dụng phương pháp xử lý ngôn ngữ tự nhiên
- pdf Luận văn ThS: Phát hiện tự động một số lỗi phát âm tiếng Anh của người học
- pdf Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web
- pdf Luận văn ThS: Khai thác mẫu phổ biến cực đại trong đồ thị đơn bằng phương pháp so sánh gần đúng
- pdf Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch
- pdf Luận văn ThS: Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang
- pdf Luận văn ThS: Một thuật toán cải tiến trong khai thác luật kết hợp bảo toàn tính riêng tư
- pdf Luận văn ThS: Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic
- pdf Luận văn ThS: Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng
- pdf Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic
- pdf Luận văn ThS: Nghiên cứu phương án tỉa ứng viên trong khai thác tập hữu ích cao
- pdf Luận văn ThS: Phân đoạn đối tượng trong ảnh MRI