Luận văn ThS: Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng Việt
Luận văn Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng Việt giới thiệu tổng quan bài toán trích chọn thông tin và một số lĩnh vực nghiên cứu liên quan; trình bày một số phương pháp trích chọn thông tin; đưa ra mô hình trích chọn thông tin du lịch trong văn bản tiếng Việt; cài đặt, thử nghiệm mô hình trích chọn thông tin du lịch trên một số trang web du lịch bằng tiếng Việt trên mạng Internet.
Mục lục nội dung
1. Mở đầu
1.1 Mục tiêu đề tài
Tìm hiểu các phương pháp trích chọn thông tin và xây dựng mô hình giải quyết bài toán trích chọn thông tin về các tour du lịch từ các trang thông tin điện tử tiếng Việt trên Internet.
1.2 Đối tượng phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài là các phương pháp tiếp cận giải quyết bài toán trích chọn thông tin trong văn bản tiếng Việt và các trang thông tin điện tử tiếng Việt trên mạng Internet về lĩnh vực du lịch.
Phạm vi nghiên cứu của đề tài là bài toán trích chọn thông tin về các tour du lịch trên một số trang thôn tin điện tử tiếng Việt (website) trên mạng Internet.
1.3 Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài là nghiên cứu lý thuyết và nghiên cứu thực nghiệm.
Về nghiên cứu lý thuyết, đề tài đã tổng hợp các kết quả nghiên cứu về các phương pháp trích chọn thông tin từ văn bản tiếng Việt phục vụ phân tích, thống kê, báo cáo, ra quyết định.
Về nghiên cứu thực nghiệm, đề tài xây dựng và cài đặt, thử nghiệm mô hình trích chọn thông tin du lịch từ một số trang web về du lịch bằng tiếng Việt trên mạng Internet.
2. Nội dung
2.1 Tổng quan
Tổng quan về trích chọn thông tin
- Bài toán trích chọn thực thể
- Bài toán trích chọn quan hệ
- Bài toán trích chọn cụm từ khóa
Bài toán trích chọn thông tin du lịch
Ý nghĩa của bài toán trích chọn thông tin du lịch
- Ý nghĩa khoa học
- Ý nghĩa thực tế
Ứng dụng của bài toán trích chọn thông tin du lịch
- Hệ thống tìm kiếm và tư vấn du lịch
- Bài toán dự đoán xu hướng du lịch
2.2 Một số phương pháp trích chọn thông tin
Trích chọn thông tin dựa vào cây DOM
- Khái niệm cây DOM
- Xây dựng cây DOM
- Sử dụng cây DOM để trích chọn thông tin
Trích chọn thông tin dựa trên tập luật
- Hình thức và biểu diễn của luật
- Đặc trưng của từ tố (token)
- Tập luật xác định thực thể đơn
- Các luật đánh dấu biên của thực thể
- Các luật xác định nhiều thực thể
- Đánh giá phương pháp tiếp cận dựa trên luật
Trích chọn thông tin dựa trên học máy
Phương pháp kết hợp giữa phân tích mã HTML và luật
2.3 Bài toán trích chọn tour du lịch
Bài toán trích chọn thông tin du lịch trên một số trang thông tin điện tử tiếng Việt
- Phát biểu bài toán
- Ý tưởng giải quyết
Phương pháp giải quyết bài toán
- Bộ thu thập dữ liệu
- Bộ lọc dữ liệu
- Bộ trích chọn tour
- Bộ trích chọn thuộc tính
2.4 Thử nghiệm và đánh giá kết quả
Bài toán thử nghiệm
Môi trường và các công cụ thử nghiệm
- Môi trường thử nghiệm
- Công cụ phần mềm sử dụng để thử nghiệm
Xây dựng cơ sở dữ liệu
Thử nghiệm quy trình trích chọn tour du lịch
- Thu thập dữ liệu (Web Crawler)
- Lọc dữ liệu
- Trích chọn các tour du lịch và các thuộc tính
Phân tích lỗi
- Phân tích lỗi của bộ lọc dữ liệu
- Phân tích lỗi của quá trình trích chọn
Một số ứng dụng kết quả trích chọn tour du lịch
- Thống kê theo định danh
- Thống kê theo giá tour
- Thống kê theo thời gian
3. Kết luận
Luận văn đã đạt được mục tiêu đề ra ban đầu:
- Tìm hiểu tổng quan về các phương pháp trích chọn thông tin, tìm hiểu bài toán trích chọn thông tin về các tour du lịch từ các website tiếng Việt, đưa ra phương pháp, mô hình giải quyết bài toán.
- Thử nghiệm mô hình trích chọn thông tin về các tour du lịch trên 07 website về du lịch, lập một số báo cáo, thống kê phục vụ công tác quản lý, điều hành.
Luận văn vẫn còn một số hạn chế như sau:
- Không tự động trích chọn thông tin khi đưa vào một bài viết thuộc website mới.
- Tập luật được xây dựng thủ công, do đó khó bao phủ tới toàn bộ miền dữ liệu. Điều này dẫn tới tập luật có thể bỏ sót những dữ liệu có liên quan tới miền dữ liệu.
- Kết quả của bộ lọc dữ liệu chưa cao, còn bỏ qua nhiều bài viết chứa thông tin du lịch.
4. Tài liệu tham khảo
Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.
Alexander Yates. Information Extraction from the Web: Techniques and Applications. Phd thesis, University of Washington, 2007
Adam Berger. The Improved Iterative Scaling Algorithm: A gentle Introduction. School of Computer Science, Carnegie Mellon University
A. McCallum, D. Freitag, and F. Pereia. Maximum entropy markov models for information extraction and segmentation. In Proc. Interational Conference on Machine Learning, 2000....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---
Tham khảo thêm
- pdf Luận văn ThS: Bài toán xác định vị trí của một điểm so với đa giác và ứng dụng trong bản đồ số
- pdf Luận văn ThS: Dự báo chuỗi thời gian mờ dựa trên đại số gia tử với mô hình ngữ nghĩa định lượng tối ưu và ứng dụng
- pdf Luận văn ThS: Nghiên cứu nhận dạng biển số xe ô tô Cộng hòa dân chủ nhân dân Lào
- pdf Luận văn ThS: Nghiên cứu một số kỹ thuật tạo chuyển động theo điểm điều khiển trong thực tại ảo
- pdf Luận văn ThS: Nghiên cứu mô hình người sử dụng mở trong các hệ thống gợi ý thông tin theo nhu cầu
- pdf Luận văn ThS: Phương pháp xây dựng cây quyết định dựa trên tập phụ thuộc hàm xấp xỉ
- pdf Luận văn ThS: Xác định vùng tìm kiếm trên hình ảnh địa hình và ứng dụng
- pdf Luận văn ThS: Hiển thị ảnh DICOM trong y tế theo thành phần
- pdf Luận văn ThS: Điều khiển dựa trên đại số gia tử với phép ngữ nghĩa hóa và giải nghĩa mở rộng
- pdf Luận văn ThS: Sử dụng công nghệ GIS để phân tích dữ liệu và dự báo sản lượng chè của tỉnh Thái Nguyên
- pdf Luận văn ThS: Nghiên cứu một số phương pháp bảo đảm an toàn thông tin trong mạng máy tính
- pdf Luận văn ThS: Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh
- pdf Luận văn ThS: Tích hợp và dung hòa các ý kiến trong hệ trợ giúp quyết định đa tiêu chuẩn ngôn ngữ với thông tin trọng số không đầy đủ
- pdf Luận văn ThS: Nghiên cứu kỹ thuật Rainbow- Crack thám khóa mã RC4 và ứng dụng
- pdf Luận văn ThS: Cụm dữ liệu và ứng dụng trong phân tích lương của cán bộ trường Cao đẳng Nghề Hà Nam
- pdf Luận văn ThS: Kỹ thuật Datamining để khuyến nghị khách hàng trong hệ thống BI - Business Intelligence
- pdf Luận văn ThS: Tích hợp cơ sở dữ liệu quan hệ XML
- pdf Luận văn ThS: Kỹ thuật phân cụm dữ liệu trong phát hiện xâm nhập trái phép
- pdf Luận văn ThS: Phương pháp tối ưu đàn kiến dóng hàng hai đồ thị
- pdf Luận văn ThS: Nghiên cứu một số phương pháp cơ bản về nhận dạng mặt người trong ảnh và ứng dụng
- pdf Luận văn ThS: Xây dựng vùng đệm trong hệ thống thông tin địa lý sử dụng logic mờ
- pdf Luận văn ThS: Nghiên cứu sự ảnh hưởng của bộ tâm nội suy đến độ chính xác của xấp xỉ đạo hàm dựa trên nội suy hàm cơ sở bán kính
- pdf Luận văn ThS: Bảo vệ bản quyền ảnh màu kỹ thuật số bằng lược đồ thủy vân dựa vào phép biến đổi DFT kết hợp với phép biến đổi SIFT
- pdf Luận văn ThS: Phát hiện lỗi sản phẩm trên dây chuyền đóng chai nước bằng xử lý ảnh
- pdf Luận văn ThS: Khôi phục ảnh bằng tối ưu độ tương tự cục bộ
- pdf Luận văn ThS: Tối ưu bảng cụm từ để cải tiến dịch máy thống kê
- pdf Luận văn ThS: Giấu tin trong file âm thanh bằng các phép biến đổi rời rạc
- pdf Luận văn ThS: Một số thuật toán chọn lọc và ứng dụng trong tin học phổ thông
- pdf Luận văn ThS: Một số thuật toán tìm core và ứng dụng trong phân tích mạng xã hội
- pdf Luận văn ThS: Nội suy ảnh trong hỗ trợ chẩn đoán hình ảnh
- pdf Luận văn ThS: Tối ưu hóa phân bổ và định giá đất đai theo thuật toan di truyền định hướng không gian
- pdf Luận văn ThS: Đề tài nhận dạng khuôn mặt trong hỗ trợ công tác quản lý tiếp dân
- pdf Luận văn ThS: Tìm hiểu khả năng an toàn của hệ mật mã RSA
- pdf Luận văn ThS: Tạo lập hệ luật mờ sử dụng phân cụm trừ mờ dữ liệu
- pdf Luận văn ThS: Giải pháp kết hợp công nghệ tính toán mềm với phương pháp lập luận mờ dựa trên đại số gia tử có tham số hiệu chỉnh
- pdf Luận văn ThS: Mạng Noron Wavelet và ứng dụng cho dự báo chứng khoán
- pdf Luận văn ThS: Phân đoạn từ tiếng Việt
- pdf Luận văn ThS: Xây dựng hệ thống truy vấn video nông nghiệp hướng ngữ nghĩa có sử dụng Ontology
- pdf Luận văn ThS: Tối ưu hoá truy vấn trong hệ cơ sở dữ liệu phân tán
- pdf Luận văn ThS: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa
- pdf Luận văn ThS: Rút trích tri thức ngữ nghĩa từ tên thể loại Wikipedia
- pdf Luận văn ThS: Nghiên cứu mạng nơron nhân tạo và ứng dụng vào trao đổi khóa bí mật
- pdf Luận văn ThS: Xây dựng Ontology từ kho ngữ liệu dạng văn bản
- pdf Luận văn ThS: Ứng dụng GIS phục vụ công tác quản lý cầu tại TP Hồ Chí Minh
- pdf Luận văn ThS: Ứng dụng đồ thị euler tối ưu hóa bài toán tìm đường đi ngắn nhất
- pdf Luận văn ThS: Nghiên cứu về chuyển đổi lược đồ cơ sở dữ liệu quan hệ sang cơ sở dữ liệu NoSQL
- pdf Luận văn ThS: Trích chọn đặc trưng kết cấu màu cục bộ cho bài toán nhận dạng ảnh màu mặt người
- pdf Luận văn ThS: Thuật toán hiệu quả cho khai thác tăng trưởng các mô hình duyệt web
- pdf Luận văn ThS: Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu bị sửa đổi