Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch
Luận văn Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch giới thiệu tổng quan và cơ sở lí thuyết; khai thác mẫu phổ biến tối đại và thực nghiệm.
Mục lục nội dung
1. Mở đầu
1.1 Mục tiêu nghiên cứu
Đưa ra các bước thực nghiệm cần thiết để đánh giá khách quan ưu điểm và khuyết điểm của các thuật toán MWFIM. Đánh giá thuật toán khai thác cải tiến mới. So sánh hiệu quả của tác giả và thuật toán cải tiến. Kiểm tra tính đúng đắn của mã nguồn các thuật toán khai thác mẫu trọng số phổ biến tối đại MWFIM so với mã giả của các thuật toán đưa ra trong các bài báo. Hiện thực lại các thực nghiệm cho từng thuật toán đã trình bày trong các bài báo đã công bố. Qua đó, đảm bảo môi trường thực nghiệm là hoàn toàn đáng tin cậy để so sánh và đánh giá với các kết quả mới sau này nếu có.
1.2 Đối tượng phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Thuật toán khai mẫu trọng số phổ biến tối đại như: MWFIM của U.Yun.
- Khai thác độ hỗ trợ bằng kỹ thuật Diffsets.
- Dữ liệu mẫu như: Chess, mushroom, connect, MS1_itemset_mining.
- Nghiên cứu ngôn ngữ C#
Phạm vi nghiên cứu: Có nhiều khó khăn và hạn chế khách quan, nên giai đoạn này tác giả tìm hiểu các thuật toán khai thác mẫu trọng số phổ biến tối đại trên dữ liệu tĩnh (dữ liệu không có biến động), dữ liệu nghiên cứu được lấy từ nguồn dữ liệu nghiên cứu chuẩn (chưa thử nghiệm trên dữ liệu thực), việc đánh giá chỉ mới đánh giá dựa trên tốc độ xử lý dữ liệu của các thuật toán (chưa đánh giá tính có ích thực sự so với ý kiến thực của khách hàng). Việc xử lý dữ liệu theo hướng tập trung (chưa nghiên cứu hướng phân tán).
1.3 Phương pháp nghiên cứu
Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài.
Tìm hiểu các thuật toán hiện có để đánh giá các ưu, nhược điểm của từng thuật toán.
Nghiên cứu phương pháp khắc phục nhược điểm của thuật toán cũ
2. Nội dung
2.1 Tổng quan và cơ sở lí thuyết
Các khái niệm và định nghĩa
- Tổng quan về khai thác luật kết hợp
- Phương pháp Apriori
- Phương pháp IT - tree
- Phương pháp FP - tree
Tổng quan về khai thác luật kết hợp trên cơ sở dữ liệu được đánh trọng số
- Định nghĩa và tính chất của tập được đánh trọng số
- Thuật toán khai thác dựa trên WIT - tree
Khai thác mẫu phổ biến tối đại MFP
2.2 Khai thác mẫu phổ biến tối đại
Tổng quát khai thác tập phổ biến trọng số tối đại
- Mẫu trọng số phổ biến tối đại
- Ví dụ
Phương pháp khai thác MWFP
Nghiên cứu liên quan
Giới thiệu Diffset
Thuật toán dựa trên Diffset
- Thuật toán WIT - FWI - DIFF dựa trên Diffset
- Khai thác MWFIM_DIFF dựa trên Diffset
2.3 Thực nghiệm và đánh giá
Môi trường thực nghiệm
Kết quả thực nghiệm
3. Kết luận
Trong những cơ sở dữ liệu dày đặc, kích thước của Diffset là nhỏ hơn so với Tidset. Vì vậy, sử dụng Diffset sẽ tiêu tốn ít dung lượng bộ nhớ, không gian lưu trữ giảm đáng kể và do đó cho phép các máy tính nhanh độ hỗ trợ của các itemset. Thuật toán phù hợp với tất cả các loại cơ sở dữ liệu, nhưng đặc biệt hiệu quả khi khai thác với những cơ sở dữ liệu mà mật độ trùng lắp giữa các giao dịch là lớn hoặc vừa được thu thập từ thông tin trạng thái của người chơi trong các game (chứa các nước đi của người chơi), hoặc Mushroom chứa các bản ghi mô tả đặc điểm của các loài nấm khác nhau.
4. Tài liệu tham khảo
Agrawal at al. (1993). Mining Association Rule between sets of items in large databases. ACM SIGMOD Record 22 (2) 207-216
Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. In: VLDB’94 (pp. 487-499)
Cai, C. H., Fu, A. W., Cheng, C. H., & Kwong, W. W. (1998). Mining association rules with weighted items. In: Proceedingss of international database engineering and applications symposium (IDEAS 98) (pp. 68-77)
Ramkumar, G. D., Ranka, S., & Tsur, S. (1998). Weighted association rules: Model and algorithm. In: SIGKDD’98 (pp. 661-666)....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---
Tham khảo thêm
- pdf Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số
- pdf Luận văn ThS: Theo dõi đối tượng chuyển động bằng phương pháp lọc tích hợp
- pdf Luận văn ThS: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
- pdf Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
- pdf Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia
- pdf Luận văn ThS: Nén Fractal cho bài toán ẩn dữ liệu
- pdf Luận văn ThS: Khai thác mẫu tuần tự nén
- pdf Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
- pdf Luận văn ThS: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
- pdf Luận văn ThS: Khai thác tập mục lợi ích cao
- pdf Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp
- pdf Luận văn ThS: Một số kỹ thuật kiểm thử an toàn hệ thống
- pdf Luận văn ThS: Khai thác quan điểm của các bình luận tiếng Anh trên mạng xã hội sử dụng phương pháp xử lý ngôn ngữ tự nhiên
- pdf Luận văn ThS: Phát hiện tự động một số lỗi phát âm tiếng Anh của người học
- pdf Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web
- pdf Luận văn ThS: Khai thác mẫu phổ biến cực đại trong đồ thị đơn bằng phương pháp so sánh gần đúng
- pdf Luận văn ThS: Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang
- pdf Luận văn ThS: Một thuật toán cải tiến trong khai thác luật kết hợp bảo toàn tính riêng tư
- pdf Luận văn ThS: Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic
- pdf Luận văn ThS: Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng
- pdf Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic
- pdf Luận văn ThS: Nghiên cứu phương án tỉa ứng viên trong khai thác tập hữu ích cao
- pdf Luận văn ThS: Phân đoạn đối tượng trong ảnh MRI