Luận văn ThS: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
Luận văn Phương pháp phân vùng phân cấp trong khai thác tập phổ biến giưới thiệu tổng quan về khai thác dữ liệu, cơ sửo dữ liệu kích thước lớn; khai phá tập phổ biến và phương pháp phân vung phân cấp.
Mục lục nội dung
1. Mở đầu
1.1 Đặt vấn đề
Trong thời đại ngày nay, với sự phát triển vượt bậc của công nghệ thông tin và sự phổ biến của Internet. Lượng dữ liệu tại các hệ thống thông tin này ngày càng trở nên phong phú, đa dạng và thực sự khổng lồ. Trong tình hình đó, việc chắt lọc những thông tin quý giá từ những dữ liệu khổng lồ này càng có ý nghĩa hơn bao giờ hết, nó đóng vai trò chìa khóa thành công cho sự phát triển của các tổ chức, cá nhân. Các thông tin tìm được có thể được vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu, cải thiện thời gian tìm kiếm, hay đƣa ra những dự đoán giúp cải thiện những quyết định trong tương lai… Các kỹ thuật khai thác dữ liệu (data mining) ngày càng được quan tâm và ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống như kinh tế, giáo dục, y tế, trong siêu thị,…
1.2 Mục tiêu của đề tài
Mục tiêu của đề tài tìm hiểu việc khai thác các tập phổ biến (frequent item sets) trong cơ sở dữ liệu lớn, dựa trên cấu trúc dữ liệu mới hay gọi là danh sách mẫu phổ biến PL (requent Pattern List). Phương pháp này phân vùng không gian tìm kiếm và chia cơ sở dữ liệu thành một tập các cơ sở dữ liệu con có kích thước có thể quản lý được. Kết quả thu được là, tiếp cận phương pháp chia để trị để khai thác dữ liệu mong muốn mà không cần phải quét lại dữ liệu ban đầu. Phương pháp này đƣợc gọi là “Phương pháp phân cấp trong khai thác tập phổ biến”, nó có thể cải thiện tốc độ và hiệu suất đáng kể trong khai thác tập phổ biến từ cơ sở dữ liệu lớn.
2. Nội dung
2.1 Giới thiệu
Tổng Quan về khai thác dữ liệu
- Mục tiêu của khai thác dữ liệu
- Các bước chính của quá trình khai thác dữ liệu
- Các dạng dữ liệu có thể khai thác được
- Hướng tiếp cận và các kỹ thuật trong khai thác dữ liệu
- Phân loại các hệ thống khai thác dữ liệu
- Ứng dụng của khai thác dữ liệu
Cơ Sở Dữ Liệu Kích Thước Lớn
2.2 Khai phá tập phổ biến
Phương pháp tìm tập phổ biến
Thuật toán Apriori
Phương pháp dựa trên c y P-Tree
- Cấu trúc cây P-Tree
- Xây dựng cây P-tree
- Phép chiếu trên cây FP-tree
- Tìm các tập phổ biến với thuật toán FP-growth
2.3 Phương pháp phân vùng phân cấp
Giới thiệu
Danh sách mẫu phổ biến (PL) dùng để khai thác tập phổ biến
Phân vùng thứ bậc với danh sách mẫu phố biến
- Một ví dụ về phân vùng thứ bậc
- Các thuật toán để phân vùng thứ bậc cơ sở dữ liệu và khai thác tập phổ biến
Kết quả thực nghiệm phân vùng phân cấp
3. Kết luận
Nghiên cứu này giới thiệu một phương pháp tiếp cận hiệu quả là phương pháp phân vùng thứ bậc để khai thác tập phổ biến trong cơ sở dữ liệu lớn. Phương pháp này dựa trên hai nguyên tắc. Nguyên tắc đầu tiên là tính chất phân vùng của Danh sách mẫu phổ biến (PL), danh sách này phân vùng không gian tìm kiếm (cơ sở dữ liệu) và không gian giải pháp (tập hoàn chỉnh của các tập phổ biến hoặc CIs). Vì vậy, một cách tiếp cận chia để trị có thể được áp dụng một cách có thứ bậc cho các cơ sở dữ liệu để khai thác dữ liệu. Nguyên tắc thứ hai là tính đối ngẫu giữa các nút mục của PL và cơ sở dữ liệu con: một nút của PL có thể được coi là một cơ sở dữ liệu con thường trú trong bộ nhớ, và một cơ sở dữ liệu con có thể được coi như là một nút mục của PL thường trú trên đĩa. Vì vậy, các thao tác và các kỹ thuật tối ưu hóa cho PL cũng tương tự và có thể được áp dụng cho cơ sở dữ liệu con.
4. Tài liệu tham khảo
Lê Hoài Bắc (2013), Bài giảng môn Data Mining, Đại học KHTN (Đại học Quốc gia Tp.HCM).
Võ Đình Bảy (2013), Bài giảng Luật Kết Hợp, Đại học KHTN (Đại học Quốc gia Tp.HCM)
Hồ Anh Tài (2004), Ứng dụng kỹ thuật khai khoáng dữ liệu trong nghiệp vụ xử lý cước điện thoại tại bưu điện tỉnh Ninh Thuận, Luận văn Thạc Sỹ, Đại Học KHTN TP. HCM, TP.HCM.
Bùi Danh Hƣờng (2010), Ứng dụng khai mỏ trên cơ sở dữ liệu tai nạn giao thông, Luận văn Thạc Sỹ, Đại Học KHTN TP. HCM, TP.HCM....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---
Tham khảo thêm
- pdf Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số
- pdf Luận văn ThS: Theo dõi đối tượng chuyển động bằng phương pháp lọc tích hợp
- pdf Luận văn ThS: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
- pdf Luận văn ThS: Nhận biết chủ đề của tài liệu dựa trên Wikipedia
- pdf Luận văn ThS: Nén Fractal cho bài toán ẩn dữ liệu
- pdf Luận văn ThS: Khai thác mẫu tuần tự nén
- pdf Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
- pdf Luận văn ThS: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
- pdf Luận văn ThS: Khai thác tập mục lợi ích cao
- pdf Luận văn ThS: Khảo sát ảnh hưởng của các độ đo lợi ích lên độ chính xác trong bài toán phân lớp dựa trên luật kết hợp
- pdf Luận văn ThS: Một số kỹ thuật kiểm thử an toàn hệ thống
- pdf Luận văn ThS: Khai thác quan điểm của các bình luận tiếng Anh trên mạng xã hội sử dụng phương pháp xử lý ngôn ngữ tự nhiên
- pdf Luận văn ThS: Phát hiện tự động một số lỗi phát âm tiếng Anh của người học
- pdf Luận văn ThS: Ứng dụng khai thác mẫu chuỗi để khai thác hành vi sử dụng web
- pdf Luận văn ThS: Khai thác mẫu phổ biến cực đại trong đồ thị đơn bằng phương pháp so sánh gần đúng
- pdf Luận văn ThS: Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch
- pdf Luận văn ThS: Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang
- pdf Luận văn ThS: Một thuật toán cải tiến trong khai thác luật kết hợp bảo toàn tính riêng tư
- pdf Luận văn ThS: Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic
- pdf Luận văn ThS: Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng
- pdf Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic
- pdf Luận văn ThS: Nghiên cứu phương án tỉa ứng viên trong khai thác tập hữu ích cao
- pdf Luận văn ThS: Phân đoạn đối tượng trong ảnh MRI