Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến

Luận văn Phương pháp phân vùng phân cấp trong khai thác tập phổ biến giưới thiệu tổng quan về khai thác dữ liệu, cơ sửo dữ liệu kích thước lớn; khai phá tập phổ biến và phương pháp phân vung phân cấp.

Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến

1. Mở đầu

1.1 Đặt vấn đề

Trong thời đại ngày nay, với sự phát triển vượt bậc của công nghệ thông tin và sự phổ biến của Internet. Lượng dữ liệu tại các hệ thống thông tin này ngày càng trở nên phong phú, đa dạng và thực sự khổng lồ. Trong tình hình đó, việc chắt lọc những thông tin quý giá từ những dữ liệu khổng lồ này càng có ý nghĩa hơn bao giờ hết, nó đóng vai trò chìa khóa thành công cho sự phát triển của các tổ chức, cá nhân. Các thông tin tìm được có thể được vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu, cải thiện thời gian tìm kiếm, hay đƣa ra những dự đoán giúp cải thiện những quyết định trong tương lai… Các kỹ thuật khai thác dữ liệu (data mining) ngày càng được quan tâm và ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống như kinh tế, giáo dục, y tế, trong siêu thị,…

1.2 Mục tiêu của đề tài

Mục tiêu của đề tài tìm hiểu việc khai thác các tập phổ biến (frequent item sets) trong cơ sở dữ liệu lớn, dựa trên cấu trúc dữ liệu mới hay gọi là danh sách mẫu phổ biến PL (requent Pattern List). Phương pháp này phân vùng không gian tìm kiếm và chia cơ sở dữ liệu thành một tập các cơ sở dữ liệu con có kích thước có thể quản lý được. Kết quả thu được là, tiếp cận phương pháp chia để trị để khai thác dữ liệu mong muốn mà không cần phải quét lại dữ liệu ban đầu. Phương pháp này đƣợc gọi là “Phương pháp phân cấp trong khai thác tập phổ biến”, nó có thể cải thiện tốc độ và hiệu suất đáng kể trong khai thác tập phổ biến từ cơ sở dữ liệu lớn.

2. Nội dung

2.1 Giới thiệu

Tổng Quan về khai thác dữ liệu

  • Mục tiêu của khai thác dữ liệu
  • Các bước chính của quá trình khai thác dữ liệu
  • Các dạng dữ liệu có thể khai thác được
  • Hướng tiếp cận và các kỹ thuật trong khai thác dữ liệu
  • Phân loại các hệ thống khai thác dữ liệu
  • Ứng dụng của khai thác dữ liệu

Cơ Sở Dữ Liệu Kích Thước Lớn

2.2 Khai phá tập phổ biến

Phương pháp tìm tập phổ biến

Thuật toán Apriori

Phương pháp dựa trên c y P-Tree

  • Cấu trúc cây P-Tree 
  • Xây dựng cây P-tree
  • Phép chiếu trên cây FP-tree
  • Tìm các tập phổ biến với thuật toán FP-growth

2.3 Phương pháp phân vùng phân cấp

Giới thiệu

Danh sách mẫu phổ biến (PL) dùng để khai thác tập phổ biến

Phân vùng thứ bậc với danh sách mẫu phố biến

  • Một ví dụ về phân vùng thứ bậc
  • Các thuật toán để phân vùng thứ bậc cơ sở dữ liệu và khai thác tập phổ biến 

Kết quả thực nghiệm phân vùng phân cấp

3. Kết luận

Nghiên cứu này giới thiệu một phương pháp tiếp cận hiệu quả là phương pháp phân vùng thứ bậc để khai thác tập phổ biến trong cơ sở dữ liệu lớn. Phương pháp này dựa trên hai nguyên tắc. Nguyên tắc đầu tiên là tính chất phân vùng của Danh sách mẫu phổ biến (PL), danh sách này phân vùng không gian tìm kiếm (cơ sở dữ liệu) và không gian giải pháp (tập hoàn chỉnh của các tập phổ biến hoặc CIs). Vì vậy, một cách tiếp cận chia để trị có thể được áp dụng một cách có thứ bậc cho các cơ sở dữ liệu để khai thác dữ liệu. Nguyên tắc thứ hai là tính đối ngẫu giữa các nút mục của PL và cơ sở dữ liệu con: một nút của PL có thể được coi là một cơ sở dữ liệu con thường trú trong bộ nhớ, và một cơ sở dữ liệu con có thể được coi như là một nút mục của PL thường trú trên đĩa. Vì vậy, các thao tác và các kỹ thuật tối ưu hóa cho PL cũng tương tự và có thể được áp dụng cho cơ sở dữ liệu con.

4. Tài liệu tham khảo

Lê Hoài Bắc (2013), Bài giảng môn Data Mining, Đại học KHTN (Đại học Quốc gia Tp.HCM).

Võ Đình Bảy (2013), Bài giảng Luật Kết Hợp, Đại học KHTN (Đại học Quốc gia Tp.HCM)

Hồ Anh Tài (2004), Ứng dụng kỹ thuật khai khoáng dữ liệu trong nghiệp vụ xử lý cước điện thoại tại bưu điện tỉnh Ninh Thuận, Luận văn Thạc Sỹ, Đại Học KHTN TP. HCM, TP.HCM.

Bùi Danh Hƣờng (2010), Ứng dụng khai mỏ trên cơ sở dữ liệu tai nạn giao thông, Luận văn Thạc Sỹ, Đại Học KHTN TP. HCM, TP.HCM....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:31/08/2020 Chia sẻ bởi:Ngoan

CÓ THỂ BẠN QUAN TÂM