Luận văn ThS: Khai thác tập được đánh trọng phổ biến trên cơ sở dữ liệu tăng trưởng

Luận văn Khai thác tập được đánh trọng phổ biến trên cơ sở dữ liệu tăng trưởng giới thiệu tổng quan lĩnh vực nghiên cứu, các khái niệm, định nghĩa, cơ sở khoa học, các công trình nghiên cứu có liên quan, các phương pháp nghiên cứu và nhận xét ưu khuyết điểm của các phương pháp; ứng dụng khái niệm pre-large vào khai thác tập được đánh trọng phổ biến trên cơ sở dữ liệu tăng trưởng; trình bày về thực nghiệm bao gồm môi trường thực nghiệm, cơ sở dữ liệu thực nghiêm, đánh giá các kết quả thu được.

Luận văn ThS: Khai thác tập được đánh trọng phổ biến trên cơ sở dữ liệu tăng trưởng

1. Mở đầu

1.1 Đặt vấn đề

Khai thác luật kết hợp là một trong những phương pháp phổ biến nhất mà các nhà nghiên cứu thường hay dùng. Mục đính của việc khai thác luật kết hợp nhằm tìm ra các mối quan hệ giữa các tập trong cơ sở dữ liệu, trong đó khai thác tập phổ biến đóng vai trò quan trọng trong khai thác luật kết hợp. Khai thác tập phổ biến thường được khai thác từ cơ sở dữ liệu nhị phân, trong đó từng mục trong giao dịch có thể mang nhiều ý nghĩa khác nhau.

1.2 Mục tiêu nghiên cứu

Nghiên cứu các thuật toán để khai thác tập được đánh trọng phổ biến.

Nghiên cứu khai thác tập phổ biến trên cơ sửo dữ liệu tăng trưởng.

Ứng dụng các thuật toán nghiên cứu vào khai thác tập được đánh trọng phổ biến trên cơ sở dữ liệu tăng trưởng

1.3 Đối tượng phạm vi nghiên cứu

Đối tượng nghiên cứu:

  • Các thuật toán khai thác luật kết hợp.
  • Các thật toán khai thác tập phổ biến được đánh trọng số.
  • Các thuật toán khai khác tập phổ biến trên cơ sở dữ liệu tăng trưởng.
  • Các cơ sở dữ liệu lớn thường xuyên thay đổi (Giới hạn trong trường hợp thêm dữ liệu)

Phạm vi nghiên cứu: Luận văn tập trung vào nghiên cứu các thuật toán để khai thác tập phổ biến được đánh trọng và nghiên cứu khai thác tập phổ biến trên cơ sở dữ liệu tăng trưởng.

2. Nội dung

2.1 Tổng quan và cơ sở lí thuyết

Các khái niệm và định nghĩa 

Tổng quan về khai thác luật kết hợp

Thuật toán Apriori

Thuật toán Eclat

Định nghĩa và tính chất của tập được đánh trọng số

Khai thác tập phổ biến được đánh trọng số

Cấu trúc WIT-tree

Thuật toán WIT-FWI

Khái niệm PRE - LARGE trong khai thác dữ liệu tăng trưởng

Khai thác tập phổ biến trên cơ sở dữ liệu tăng trưởng

2.2 Khai thác tập phổ biến

Khai thác tập phổ biến được đánh trọng số

Khai thác tập phổ biến được đánh trọng số trên dữ liệu tăng trưởng

Các bước của thuật toán tăng trưởng INCREMENTAL - WIT - FWI

Mô tả thuật toán INCREMENTAL_WIT_FWI

Thực thiện thuật toán tăng trưởng trên dữ liệu mẫu

2.3 Thực nghiệm và đánh giá

Môi trường thực nghiệm

Đặc điểm dữ liệu thực nghiệm

Kết quả thực nghiệm

3. Kết luận

Đề tài này tập trung nghiên cứu khai thác tập phổ biến được đánh trọng số trên dữ liệu tăng trưởng, đề xuất một thuật toán hiệu quả để khai thác dữ liệu tăng trưởng và duy trì cây WIT - FWI dựa trên khái niệm pre-large. Thông qua quá trình thực hiện đề tài tôi đã thực hiện được các mục tiêu:

  • Nghiên cứu cơ sở lý thuyết về các kỹ thuật khai thác tập phổ biến như phương pháp Apriori, IT-tree, WIT-tree.
  • Tìm hiểu cơ sở dữ liệu giao dịch có trọng số, trọng số hỗ trợ và các lý thuyết có liên quan.
  • Nghiên cứu các thuật toán khai thác các tập phổ biến trên cơ sở dữ liệu giao dịch có trọng số WIT - FWI, WIT - FWI - MODIFY, WIT - FWI - DIF.
  • Cài đặt thực nghiệm để khảo sát kết quả của thuật toán đề xuất: tiến hành khai thác tập phổ biến được đánh trọng số trên các cơ sở dữ liệu chuẩn như Chess, Mushroom, Connect.

4. Tài liệu tham khảo

Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Huy Trọng, Huỳnh Văn Đức (2007). Thuật toán khai thác dữ liệu tăng trưởng. Tạp chí khoa học và công nghệ, Tập 45, Số 2 (9-18).

Mai Ngoc Thu (2015), Khai thác TOP-RANK K cho tập đánh trọng trên cơ sở dữ liệu có trọng số. Trường Đại Học Công Nghệ TP.HCM. (1-64)

B. Vo, F. Coenen, B. Le (2013). A new method for mining Frequent Weighted Itemsets based on WIT-trees. Expert Systems with Applications 40:1256–1264.

B. Vo, F. Coenen, B. Le (2014). An effective approach for maintenance of pre-largebased frequent-itemset lattice in incremental mining, Appl Intell (2014) 41:759 – 775....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---

Ngày:05/09/2020 Chia sẻ bởi:Denni Trần

CÓ THỂ BẠN QUAN TÂM