Đồ án: Tìm hiểu bài toán khai phá dữ liệu văn bản

Đồ án Tìm hiểu bài toán khai phá dữ liệu văn bản tìm hiểu khái niệm, quá trình và các bài toán trong khai phá dữ liệu; tìm hiểu về lấy tin tự động và ứng dụng khai phá dữ liệu trong lấy tin tự động (tìm hiểu ngôn ngữ XML và công nghệ RSS); khảo sát, phân tích và thiết kế chi tiết cho chương trình hỗ trợ đọc tin RSS và xây dựng chương trình.

Đồ án: Tìm hiểu bài toán khai phá dữ liệu văn bản

1. Mở đầu

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Vấn đề đặt ra là làm sao ta có thể nắm bắt, cập nhật, chia sẻ thông tin một cách tổng quát, nhanh chóng và dễ dàng trong một khối lượng thông tin khổng lồ như vậy. Do đó đòi hỏi phải khai phá nguồn dữ liệu đó để lấy được những thông tin có ích một cách tự động. Trên thế giới hiện nay, rất nhiều website cung cấp tập tin RSS để chia sẻ và cập nhật thông tin một cách dễ dàng và nhanh chóng. Một số website hỗ trợ đọc tin RSS như: Google Reader, Yahoo,…và một số phần mềm như: RSSReader, FeedDemon. Còn hiện tại ở Việt Nam, có một số phần mềm hỗ trợ đọc tin như: Vietspider, iCA và website hỗ trợ đọc tin RSS trực tuyến thì chưa nhiều.

2. Nội dung

2.1 Khái quát về khai phá dữ liệu

Khái niệm khai phá dữ liệu

Quá trình khai phá dữ liệu

Các bài toán thông dụng trong khai phá dữ liệu

2.2 Khai phá dữ liệu trong lấy tin tự động

Lấy tin tự động

  • Định nghĩa
  • Quy trình lấy tin tự động

Khai phá dữ liệu trong lấy tin tự động

  • Tìm hiểu XML
  • Tìm hiểu RSS

2.3 Phân tích thiết kế chương trình

Tổng quan về chương trình

Khảo sát, phân tích và đánh giá yêu cầu

  • Khảo sát một số chương trình hỗ trợ đọc tin tức RSS
  • Tổng hợp yêu cầu người dùng 
  • Đánh giá và lựa chọn giải pháp

Phân tích chức năng hệ thống

  • Biểu đồ Use Case
  • Đặc tả các Use - case
  • Biểu đồ tuần tự (Sequence Diagram)

Thiết kế cơ sở dữ liệu

  • Đặc tả chi tiết bảng dữ liệu
  • Mô hình quan hệ

2.4 Xây dựng chương trình

Quy trình tự động lấy đường dẫn tới tập tin RSS

Quy trình đọc tập tin RSS

Một số màn hình giao diện đạt được

3. Kết luận

Trong quá trình tìm hiểu một số công nghệ XML, em thấy rằng XML là một chuẩn khá thân thiện, dễ đọc hiểu, là nền tảng để phát triển nhiều ngôn ngữ khác có ứng dụng cao trong đó có RSS. Hiện nay rất nhiều website chia sẻ tin tức đều dùng chuẩn RSS, nên việc xây dựng một chương trình hỗ trợ đọc tin RSS là điều hết sức cần thiết. Với sự nỗ lực và cố gắng, đồ án đã đạt được những kết quả sau:

  • Hiểu và biết cách sử dụng một tài liệu XML trong vấn đề chia sẻ dữ liệu
  • Biết cách đọc và ghi một tài liệu XML.
  • Hiểu và biết cách sử dụng biểu thức chính qui trong việc tìm kiếm chuỗi.
  • Xây dựng được website hỗ trợ đọc tin RSS với những chức năng cơ bản.
  • Hiểu và nắm được kiến thức cơ bản XML trong .NET.
  • Biết cách lập trình với ngôn ngữ C# 

4. Tài liệu tham khảo

Dương Quang Thiện. .NET toàn tập - Tập 5: Lập trình Web dùng ASP.NET và C# - Nhà xuất bản Tổng hợp TP.HCM

Nguyễn Ngọc Bình Phương – Thái Thanh Phong. Ebook: Các giải pháp lập trình C#. Nhà sách Đất Việt

http://www.w3schools.com/xml/

http://msdn.microsoft.com/.....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Đồ án trên ---

Ngày:03/09/2020 Chia sẻ bởi:Xuân Quỳnh

CÓ THỂ BẠN QUAN TÂM