Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu

Luận văn Sử dụng cây quyết định để phân loại dữ liệu nhiễu giới thiệu tổng quan về khai thác và phân loại dữ liệu; tìm hiểu và sử dụng cây quyết định; thực nghiệm và đánh giá kết quả.

Luận văn ThS: Sử dụng cây quyết định để phân loại dữ liệu nhiễu

1. Mở đầu

1.1 Mục đích nghiên cứu

Áp dụng cây quyết định để phân loại dữ liệu nhiễu. Đưa ra thuật toán dựa trên cây quyết định để có thể khai thác các dữ liệu bị nhiễu từ đó đưa được ra các thông tin hữu ích.

1.2 Đối tượng phạm vi nghiên cứu

Đối tượng nghiên cứu của đề tài là dữ liệu nhiễu và thuật toán cây quyết định.

Phạm vi của đề tài là thuật toán khai thác dữ liệu nhiễu dựa trên cây quyết định

1.3 Phương pháp nghiên cứu

Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài.

Nghiên cứu tổng quan về dữ liệu nhiễu và các khái niệm có liên quan.

Nghiên cứu về cây quyết định và các thuật toán khai thác dữ liệu dựa trên cây quyết định

Nghiên cứu áp dụng thuật toán dựa trên cây quyết định để phân loại dữ liệu nhiễu hiệu quả.

Xây dựng chương trình demo và đánh giá kết quả đạt được

2. Nội dung

2.1 Tổng quan

Giới thiệu

  • Các vấn đề liên quan đến phân lớp dữ liệu 
  • Các phương pháp đánh giá độ chính xác của mô hình phân lớp

Cây quyết định 

  • Cây quyết định 
  • Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định 
  • Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu
  • Xây dựng cây quyết định

Các thuật toán xây dựng cây quyết định

  • Tư tưởng chung
  • Thuật toán ID3
  • Thuật toán C4.5

2.2 Sử dụng cây quyết định

Giới thiệu

Cây quyết định Credal

Thuật toán N.C4.5

2.3 Thực nghiệm – đánh giá kết quả

Bộ dữ liệu

Đánh giá thực nghiệm

3. Kết luận

Phân loại dữ liệu nhiễu là một lĩnh vực quan trọng của khái thác dữ liệu. Luận văn đã đưa được ra một phương pháp xây dựng cây quyết định gọi là NC4.5. Phương pháp này có nhiều cải tiến so với thuật toán C4.5 bằng cách sử dụng xác suất mơ hồ và đo lường không chắc chắn. Do vậy nó hoạt động hiệu quả hơn các thuật toán trước đây trong việc khai thác dữ liệu nhiễu. Kết quả thực nghiệm cho thấy thuật toán NC4.5 có cải tiến so với các thuật toán trước đây về hiệu quả, độ chính xác và kích thước cây quyết định trong việc phân loại dữ liệu nhiễu. Nó là một phương pháp phù hợp để phân loại những dữ liệu nhiễu.

4. Tài liệu tham khảo

Lê Hoài Bắc (2013), Bài giảng môn Data Mining, Đại học KHTN (Đại học Quốc gia Tp.HCM).

Abellán, J., & Moral, S. (2003). Building classification trees using the total uncertainty criterion. International Journal of Intelligent Systems, 18(12), 1215–1225

Abellán, J., & Moral, S. (2005). Upper entropy of credal sets. Applications to creedal classification.International Journal of Approximate Reasoning, 39(2– 3), 235–255

Abellán, J. (2006). Uncertainty measures on probability intervals from Imprecise Dirichlet model.International Journal of General Systems, 35(5), 509–528....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---

Ngày:03/09/2020 Chia sẻ bởi:Phuong

CÓ THỂ BẠN QUAN TÂM