Luận văn ThS: Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng Việt

Luận văn Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng Việt giới thiệu tổng quan bài toán trích chọn thông tin và một số lĩnh vực nghiên cứu liên quan; trình bày một số phương pháp trích chọn thông tin; đưa ra mô hình trích chọn thông tin du lịch trong văn bản tiếng Việt; cài đặt, thử nghiệm mô hình trích chọn thông tin du lịch trên một số trang web du lịch bằng tiếng Việt trên mạng Internet.

Luận văn ThS: Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng Việt

1. Mở đầu

1.1 Mục tiêu đề tài

Tìm hiểu các phương pháp trích chọn thông tin và xây dựng mô hình giải quyết bài toán trích chọn thông tin về các tour du lịch từ các trang thông tin điện tử tiếng Việt trên Internet.

1.2 Đối tượng phạm vi nghiên cứu

Đối tượng nghiên cứu của đề tài là các phương pháp tiếp cận giải quyết bài toán trích chọn thông tin trong văn bản tiếng Việt và các trang thông tin điện tử tiếng Việt trên mạng Internet về lĩnh vực du lịch.

Phạm vi nghiên cứu của đề tài là bài toán trích chọn thông tin về các tour du lịch trên một số trang thôn tin điện tử tiếng Việt (website) trên mạng Internet.

1.3 Phương pháp nghiên cứu

Phương pháp nghiên cứu của đề tài là nghiên cứu lý thuyết và nghiên cứu thực nghiệm.

Về nghiên cứu lý thuyết, đề tài đã tổng hợp các kết quả nghiên cứu về các phương pháp trích chọn thông tin từ văn bản tiếng Việt phục vụ phân tích, thống kê, báo cáo, ra quyết định.

Về nghiên cứu thực nghiệm, đề tài xây dựng và cài đặt, thử nghiệm mô hình trích chọn thông tin du lịch từ một số trang web về du lịch bằng tiếng Việt trên mạng Internet.

2. Nội dung

2.1 Tổng quan

Tổng quan về trích chọn thông tin

  • Bài toán trích chọn thực thể
  • Bài toán trích chọn quan hệ
  • Bài toán trích chọn cụm từ khóa

Bài toán trích chọn thông tin du lịch

Ý nghĩa của bài toán trích chọn thông tin du lịch

  • Ý nghĩa khoa học
  • Ý nghĩa thực tế

Ứng dụng của bài toán trích chọn thông tin du lịch

  • Hệ thống tìm kiếm và tư vấn du lịch
  • Bài toán dự đoán xu hướng du lịch

2.2 Một số phương pháp trích chọn thông tin

Trích chọn thông tin dựa vào cây DOM 

  • Khái niệm cây DOM
  • Xây dựng cây DOM
  • Sử dụng cây DOM để trích chọn thông tin

Trích chọn thông tin dựa trên tập luật

  • Hình thức và biểu diễn của luật
  • Đặc trưng của từ tố (token)
  • Tập luật xác định thực thể đơn
  • Các luật đánh dấu biên của thực thể
  • Các luật xác định nhiều thực thể
  • Đánh giá phương pháp tiếp cận dựa trên luật

Trích chọn thông tin dựa trên học máy

Phương pháp kết hợp giữa phân tích mã HTML và luật

2.3 Bài toán trích chọn tour du lịch

Bài toán trích chọn thông tin du lịch trên một số trang thông tin điện tử tiếng Việt

  • Phát biểu bài toán
  • Ý tưởng giải quyết

Phương pháp giải quyết bài toán

  • Bộ thu thập dữ liệu
  • Bộ lọc dữ liệu
  • Bộ trích chọn tour
  • Bộ trích chọn thuộc tính

2.4 Thử nghiệm và đánh giá kết quả

Bài toán thử nghiệm

Môi trường và các công cụ thử nghiệm 

  • Môi trường thử nghiệm
  • Công cụ phần mềm sử dụng để thử nghiệm

Xây dựng cơ sở dữ liệu

Thử nghiệm quy trình trích chọn tour du lịch

  • Thu thập dữ liệu (Web Crawler)
  • Lọc dữ liệu
  • Trích chọn các tour du lịch và các thuộc tính

Phân tích lỗi

  • Phân tích lỗi của bộ lọc dữ liệu
  • Phân tích lỗi của quá trình trích chọn

Một số ứng dụng kết quả trích chọn tour du lịch

  • Thống kê theo định danh
  • Thống kê theo giá tour
  • Thống kê theo thời gian

3. Kết luận

Luận văn đã đạt được mục tiêu đề ra ban đầu:

  • Tìm hiểu tổng quan về các phương pháp trích chọn thông tin, tìm hiểu bài toán trích chọn thông tin về các tour du lịch từ các website tiếng Việt, đưa ra phương pháp, mô hình giải quyết bài toán.
  • Thử nghiệm mô hình trích chọn thông tin về các tour du lịch trên 07 website về du lịch, lập một số báo cáo, thống kê phục vụ công tác quản lý, điều hành.

Luận văn vẫn còn một số hạn chế như sau:

  • Không tự động trích chọn thông tin khi đưa vào một bài viết thuộc website mới.
  • Tập luật được xây dựng thủ công, do đó khó bao phủ tới toàn bộ miền dữ liệu. Điều này dẫn tới tập luật có thể bỏ sót những dữ liệu có liên quan tới miền dữ liệu.
  • Kết quả của bộ lọc dữ liệu chưa cao, còn bỏ qua nhiều bài viết chứa thông tin du lịch.

4. Tài liệu tham khảo

Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.

Alexander Yates. Information Extraction from the Web: Techniques and Applications. Phd thesis, University of Washington, 2007

Adam Berger. The Improved Iterative Scaling Algorithm: A gentle Introduction. School of Computer Science, Carnegie Mellon University

A. McCallum, D. Freitag, and F. Pereia. Maximum entropy markov models for information extraction and segmentation. In Proc. Interational Conference on Machine Learning, 2000....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:28/08/2020 Chia sẻ bởi:Minh Ngoan

CÓ THỂ BẠN QUAN TÂM