Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic

Luận văn Khai thác song song tập phổ biến dựa trên mảng Systolic tổng hợp phân tích các nghiên cứu về khai thác song song tập phổ biến; nghiên cứu về khai thác tập phổ biến sử dụng mảng Systolic để khai thác song song tập phổ biến trên một máy tính thay vì trên hệ thống song song.

Luận văn ThS: Khai thác song song tập phổ biến dựa trên mảng Systolic

1. Mở đầu

Thế giới đang ở trong thời đại mà thông tin có giá trị rất lớn. Trong kinh doanh ai có nhiều thông tin hơn người đó sẽ làm chủ thị trường, trong nghiên cứu ai càng nhiều thông tin thì người đó càng có nhiều cơ hội thành công hơn. Với sự phát triển và ứng dụng của công nghệ thông tin vào nhiều lĩnh vực, đặc biệt là Internet thì lượng thông tin đó càng ngày càng trở nên khổng lồ. Để thu thập những thông tin có ích từ những nguồn dữ liệu khổng lồ cần những kỹ thuật, công cụ mới để chuyển đổi nguồn dữ liệu này thành tri thức có ích. Mặt khác, trong môi trường cạnh tranh hiện nay thì người ta cần thông tin với tốc độ nhanh để giúp việc ra quyết định được hiệu quả hơn. Việc sử dụng các kỹ thuật khai thác dữ liệu để thu thập và trích xuất những thông tin hữu ích tiềm ẩn trong các cơ sở dữ liệu lớn là quá trình phát hiện tri thức trong cơ sở dữ liệu. Khai thác dữ liệu hiện nay là lĩnh vực mang tính cấp thiết của nền công nghệ thông tin. Nhiều tổ chức, công ty lớn trên thế giới đã áp dụng khai thác dữ liệu vào các hoạt động của mình và thu được nhiều lợi ích.

2. Nội dung

2.1 Cơ sở lí thuyết

Tổng quan về khai thác dữ liệu

  • Mục tiêu của khai thác dữ liệu
  • Quá trình phát hiện tri thức từ cơ sở dữ liệu
  • Kiến trúc của một hệ thống khai thác dữ liệu
  • Các phương pháp khai thác dữ liệu
  • Ứng dụng của khai thác dữ liệu
  • Một số khó khăn trong việc khai thác dữ liệu

Tổng quan về khai thác dữ liệu song song

  • Cấu trúc hệ thống song song
  • Phân loại các kiến trúc song song
  • Các chiến lược khai thác dữ liệu song song

Một số khái niệm về cơ sở dữ liệu giao dịch và tập phổ biến

  • Cơ sở dữ liệu giao dịch
  • Khái niệm về tập phổ biến
  • Các tính chất của tập phổ biến
  • Một số phương pháp biểu diễn cơ sở dữ liệu trong khai thác dữ liệu

2.2 Một số phương pháp khai thác tập phổ biến

Thuật toán Apriori 

  • Ý tưởng thuật toán
  • Nội dung thuật toán
  • Nhận xét thuật toán Apriori

Thuật toán Eclat

  • Ý tưởng thuật toán
  • Nội dung thuật toán Eclat
  • Nhận xét thuật toán Eclat

Thuật toán FP - Growth

  • Ý tưởng thuật toán
  • Cấu trúc cây FP – Tree
  • Phép chiếu trên cây FP - tree
  • Nội dung thuật toán FP - Growth
  • Nhận xét thuật toán FP - Growth

2.3 Thuật toán khai thác song song

Bài toán khai thác song song tập phổ biến dựa trên mảng Systolic

  • Cấu trúc mảng Systolic
  • Mục đích sử dụng và hiệu quả của mảng Systolic
  • Mô tả chi tiết mảng Systolic

Thuật toán khai thác tập phổ biến sử dụng mảng Systolic 

  • Mã hóa dữ liệu bằng ma trận bit
  • Xây dựng cấu trúc mảng Systolic để khai thác tập phổ biến

Phương pháp khai thác song song dựa trên mảng Systolic

  • Phương pháp tiếp cận chia để trị
  • Mảng Systolic 2 chiều

Thuật toán khai thác dựa trên mảng Systolic

2.4 Xây dựng chương trình thử nghiệm

Môi trường cài đặt 

Kết quả của thuật toán 

Nhận xét

3. Kết luận

Luận văn đã đạt được một số kết quả cụ thể như sau:

  • Luận văn đã trình bày tổng quan về khai thác dữ liệu để phát hiện tri thức, mục tiêu, quá trình, các phương pháp khai thác dữ liệu. Trình bày các ứng dụng, khó khăn và thách thức trong việc khai thác dữ liệu.
  • Tìm hiểu về các vấn đề trong khai thác tập phổ biến để tìm luật kết hợp. Trình bày phân tích, đánh giá chi tiết về khái niệm, ưu, nhược điểm một số thuật toán khai thác tập phổ biến đã được phát triển.
  • Dựa trên các phân tích, đánh giá về ưu, nhược điểm của các thuật toán khai thác song song tập phổ biến, luận văn đã nghiên cứu về một phương pháp khai thác song song tập phổ biến chỉ sử dụng một máy tính thay vì khai thác song song trên hệ thống lớn nhằm tối ưu hóa khả năng sử dụng phần cứng trong khai thác tập phổ biến.
  • Xây dựng và cài đặt chương trình thử nghiệm khai thác song song tập phổ biến dựa trên thuật toán song song SABMA để ứng dụng cho bài toán khai thác tập phổ biến.

4. Tài liệu tham khảo

Đỗ Phúc (2006), “Giáo trình khai thác dữ liệu”, Nxb Đại học Quốc gia TP Hồ Chí Minh.

Đoàn văn Ban, Nguyễn Mậu Hân, “Xử lý song song và phân tán”, NXB KH&KT, 2006.

Giang Thị Thu Huyền, Luận văn “Nghiên cứu các luật kết hợp song song trong khai thác dữ liệu”, 2010.

M.K. Sohrabi and A.A. Barforoush (2013), “Parallel frequent itemset mining using systolic arrays”, Knowledge-Based Systems, 37, 462–471.

A. Javed, A. Khokhar, “Frequent pattern mining on message passing Multiprocessor systems”, Distributed and Parallel Databases 16 (2004) 321–334....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---

Ngày:05/09/2020 Chia sẻ bởi:Denni

CÓ THỂ BẠN QUAN TÂM