Đồ án: Tìm hiểu và cài đặt một số thuật toán phân cụm dữ liệu cơ bản

Đồ án Tìm hiểu và cài đặt một số thuật toán phân cụm dữ liệu cơ bản trình bày tổng quan về phân cụm dữ liệu, phân tích chi tiết các vấn đề cơ bản trong phân cụm dữ liệu và ý nghĩa của phân cụm dữ liệu, đặc điểm của các kiểu dữ liệu cơ bản thường sử dụng trong phân cụm dữ liệu; trình bày các thuật toán trong phân cụm dữ liệu phân hoạch, trong đó đi sâu vào tìm hiểu về 2 thuật toán phân cụm dữ liệu phân hoạch điển hình: K-MEANS, PAM; lựa chọn và cài đặt các thuật toán K-MEANS, PAM.

Đồ án: Tìm hiểu và cài đặt một số thuật toán phân cụm dữ liệu cơ bản

1. Mở đầu

Data Mining là một lĩnh vực mới xuất hiện, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những cơ sở dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp, …từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này. Từ những ứng dụng thành công trong khám phá tri thức, cho thấy Data Mining là một lĩnh vực phát triển bền vững mang lại nhiều lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truỳên thống. Hiện nay, Data Mining đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như: thương mại, tài chính, điều trị y học, viễn thông, tin-sinh, …

2. Nội dung

2.1 Phân cụm dữ liệu - Data Clustering

Vấn đề phân cụm dữ liệu 

Bài toán phân cụm dữ liệu

Kiểu dữ liệu và độ đo tương tự sử dụng trong bài toán phân cụm dữ liệu

Khái niệm về tương tự và phi tương tự

Ứng dụng của phân cụm dữ liệu

2.2 Phân cụm dữ liệu phân hoạch

Giới thiệu

Thuật toán K-means

Thuật toán PAM

Thuật toán CLARA

Thuật toán CLARANS

Nhận xét chung về họ các thuật toán phân hoạch

2.3 Cài đặt chương trình

Bài toán 

Giới thiệu chương trình ứng dụng

Nhận xét chương trình

3. Kết luận

Phân cụm dữ liệu trong lĩnh vực Data Mining là một hướng nghiên cứu rất quan trọng. Hiện nay, tuy có ít các kết quả khoa học mới trong phân cụm dữ liệu, nhưng do các hệ thống cơ sở dữ liệu ngày càng đa dạng, và tăng trưởng nhanh cả về chất lẫn về lượng. Hơn nữa, nhu cầu về khai thác các tri thức từ các cơ sở dữ liệu này ngày càng lớn. Vì vậy, việc nghiên cứu các mô hình dữ liệu mới và hoàn thiện và áp dụng các phương pháp và kỹ thuật phân cụm dữ liệu là việc làm rất cần thiết và có nhiều ý nghĩa trong khoa học cũng như trong thực tiễn. Phân cụm dữ liệu trong lĩnh vực Data Mining là một hướng nghiên cứu rất quan trọng. Hiện nay, tuy có ít các kết quả khoa học mới trong phân cụm dữ liệu, nhưng do các hệ thống cơ sở dữ liệu ngày càng đa dạng, và tăng trưởng nhanh cả về chất lẫn về lượng. Hơn nữa, nhu cầu về khai thác các tri thức từ các cơ sở dữ liệu này ngày càng lớn. Vì vậy, việc nghiên cứu các mô hình dữ liệu mới và hoàn thiện và áp dụng các phương pháp và kỹ thuật phân cụm dữ liệu là việc làm rất cần thiết và có nhiều ý nghĩa trong khoa học cũng như trong thực tiễn.

4. Tài liệu tham khảo

Nguyễn Thị Ngọc, Phân cụm dữ liệu dựa trên mật độ, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2008.

Trần Thị Quỳnh, Thuật toán phân cụm dữ liệu nửa giám sát và giải thuật di truyền, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2008.

Nguyễn. . Lâm, Thuật toán phân cụm dữ liệu nửa giám sát,- Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2007.

Charles Elkan, Department of Comput er Science and Engineering, University of California, San Diego La jolla, CA 92093...

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Đồ án trên ---

Ngày:01/09/2020 Chia sẻ bởi:Thi

CÓ THỂ BẠN QUAN TÂM