Luận văn ThS: Rút trích tri thức ngữ nghĩa từ tên thể loại Wikipedia
Luận văn Rút trích tri thức ngữ nghĩa từ tên thể loại Wikipedia phân tích, đánh giá các công trình nghiên cứu về rút trích thông tin Wikipedia của các tác giả trong và ngoài nước; trình bày các cơ sở lý thuyết, lý luận; trình bày quá trình thực nghiệm tính các độ đo WordNet, tính hệ số tương quan Pearson (ký hiệu là r); thực nghiệm và đánh giá kết quả.
Mục lục nội dung
1. Mở đầu
1.1 Tính cấp thiết
Wikipedia ngày một lớn dần, miễn phí, cập nhật thường xuyên và là tiêu điểm của nhiều nghiên cứu gần đây. Các công trình nghiên cứu chủ yếu tập trung phân tích bài viết trong hệ thống Wikipedia. Nội dung các bài viết trong Wikipedia chứa nhiều thông tin để khai thác. Tuy nhiên dung lượng thông tin bài viết khá lớn, ngược lại hệ thống phân loại Wikipedia với dung lượng lưu trữ nhỏ hơn nhiều nhưng đầy tính ngữ nghĩa. Do vậy việc khai thác dữ liệu ở mảng này sẽ có nhiều ưu điểm về thời gian và hiệu quả hơn so với sử dụng toàn bộ bài viết của hệ thống Wikipedia. Thêm vào đó, với sự phát triển mạnh mẽ và không ngừng của công nghệ thông tin, dữ liệu trên internet trở thành nguồn thông tin đồ sộ của nhân loại. Nhu cầu tìm kiếm, truy xuất thông tin từ đó cũng gia tăng, mà chủ yếu là người dùng tìm kiếm nội dung của các trang trên internet.
1.2 Mục đích nghiên cứu
Mục tiêu của luận văn là khai thác kho dữ liệu đồ sộ của Wikipedia với chủ đích xử lý nhanh, ít tốn kém. Luận văn kế thừa và cải tiến phương pháp sử dụng hệ thống tên loại Wikipedia (Wikipedia Category Network - WCN) để tính độ tương quan giữa hai từ. Độ đo này có thể được sử dụng cho nhiều lĩnh vực: học máy có giám sát, tóm tắt văn bản, rút trích thông tin, truy xuất thông tin, mở rộng truy vấn.
1.3 Đối tượng phạm vi nghiên cứu
Từ mục đích nghiên cứu, luận văn xác định khai thác hệ thống tên thể loại của Wikipedia (Wikipedia Category Network - WCN) để rút trích tri thức ngữ nghĩa và tính độ tương đồng từ vựng và áp dụng trong mô phỏng mở rộng truy vấn tìm kiếm.
Luận văn tập trung nghiên cứu dữ liệu bách khoa toàn thư mở Wikipedia. Trong phạm vi hệ thống phân cấp thể loại với các tiêu đề bài viết thuộc các loại đó. Luận văn tìm hiểu và sử dụng dữ liệu Wikipedia cập nhật tháng 11 năm 2014. Ngoài hệ thống phân cấp thể loại của Wikipedia, luận văn còn nghiên cứu về Wordnet, máy học hỗ trợ vectơ (Support Vector Machine - SVM), gán nhãn từ loại (Part of Speech – POS tagging) và các đối tượng liên quan khác.
2. Nội dung
2.1 Tổng quan
Trong nước
Nước ngoài
2.2 Rút trích đặc trưng ngữ nghĩa từ tên loại Wikipedia
Cơ sở lý luận
Phân tích hệ thống cấp bậc
- Category đơn
- Cặp category
Phân tích cú pháp
Cơ sở lý thuyết kiến thức liên quan
- Thư viện libsvm
- Thư viện ws4j
- Độ tương quan (correlation)
2.3 Thực nghiệm
Môi trường thực nghiệm
Dữ liệu
Thực nghiệm
Mô hình mở rộng truy vấn
Xử lý dữ liệu lớn của Wikipedia
2.4 Đánh giá
Đánh giá kết quả thực nghiệm
Đánh giá chung
3. Kết luận
Luận văn này đã kế thừa và cải tiến phương pháp để trích xuất thông tin hữu ích từ Wikipedia, sử dụng tính năng ngữ nghĩa được lấy từ hệ thống tên thể loại của Wikipedia. Phương pháp này cho kết quả khả quan. Các đặc trưng ngữ nghĩa lấy được từ phương pháp này có mối tương quan tốt với đánh giá của con người. Từ việc khảo sát, phân tích cấu trúc thể loại và tài liệu lưu trữ trong Wikipedia, luận văn đã thực hiện phương pháp khai thác rút trích các đặc trưng ngữ nghĩa từ tên thể loại. Phát triển trên cơ sở kế thừa một phương pháp rút trích ngữ nghĩa từ tên thể loại, dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia. Kết quả thực nghiệm, đánh giá cho thấy phương pháp đề xuất là khả quan, có ý nghĩa thực tiễn.
4. Tài liệu tham khảo
Nguyễn Chánh Thành. (2010). Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản. Luận văn Tiến sĩ Kỹ thuật. Chuyên ngành Khoa học máy tính, Đại học Bách khoa tp HCM.
Nguyễn Quang Châu, Phan Thị Tươi. (2008). Nhận diện cụm từ đặc trưng ngữ nghĩa trong tiếng Việt. Tạp chí Bưu chính Viễn thông và Công nghệ thông tin, số19, 2/2008.
Trần Mai Vũ. (2009). Tóm tắt đa văn bản dựa vào trích xuất câu. Luận văn Thạc sĩ. Đại học Công nghệ, Đại học quốc gia Hà Nội.
D. Milne and I. H. Witten. (2008). An effective, low-cost measure of semantic relatedness obtained from wikipedia links. In In Proceedings of AAAI 2008....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---
Tham khảo thêm
- pdf Luận văn ThS: Bài toán xác định vị trí của một điểm so với đa giác và ứng dụng trong bản đồ số
- pdf Luận văn ThS: Dự báo chuỗi thời gian mờ dựa trên đại số gia tử với mô hình ngữ nghĩa định lượng tối ưu và ứng dụng
- pdf Luận văn ThS: Nghiên cứu nhận dạng biển số xe ô tô Cộng hòa dân chủ nhân dân Lào
- pdf Luận văn ThS: Nghiên cứu một số kỹ thuật tạo chuyển động theo điểm điều khiển trong thực tại ảo
- pdf Luận văn ThS: Nghiên cứu mô hình người sử dụng mở trong các hệ thống gợi ý thông tin theo nhu cầu
- pdf Luận văn ThS: Phương pháp xây dựng cây quyết định dựa trên tập phụ thuộc hàm xấp xỉ
- pdf Luận văn ThS: Xác định vùng tìm kiếm trên hình ảnh địa hình và ứng dụng
- pdf Luận văn ThS: Hiển thị ảnh DICOM trong y tế theo thành phần
- pdf Luận văn ThS: Điều khiển dựa trên đại số gia tử với phép ngữ nghĩa hóa và giải nghĩa mở rộng
- pdf Luận văn ThS: Sử dụng công nghệ GIS để phân tích dữ liệu và dự báo sản lượng chè của tỉnh Thái Nguyên
- pdf Luận văn ThS: Nghiên cứu một số phương pháp bảo đảm an toàn thông tin trong mạng máy tính
- pdf Luận văn ThS: Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh
- pdf Luận văn ThS: Tích hợp và dung hòa các ý kiến trong hệ trợ giúp quyết định đa tiêu chuẩn ngôn ngữ với thông tin trọng số không đầy đủ
- pdf Luận văn ThS: Nghiên cứu kỹ thuật Rainbow- Crack thám khóa mã RC4 và ứng dụng
- pdf Luận văn ThS: Cụm dữ liệu và ứng dụng trong phân tích lương của cán bộ trường Cao đẳng Nghề Hà Nam
- pdf Luận văn ThS: Kỹ thuật Datamining để khuyến nghị khách hàng trong hệ thống BI - Business Intelligence
- pdf Luận văn ThS: Tích hợp cơ sở dữ liệu quan hệ XML
- pdf Luận văn ThS: Kỹ thuật phân cụm dữ liệu trong phát hiện xâm nhập trái phép
- pdf Luận văn ThS: Phương pháp tối ưu đàn kiến dóng hàng hai đồ thị
- pdf Luận văn ThS: Nghiên cứu một số phương pháp cơ bản về nhận dạng mặt người trong ảnh và ứng dụng
- pdf Luận văn ThS: Xây dựng vùng đệm trong hệ thống thông tin địa lý sử dụng logic mờ
- pdf Luận văn ThS: Nghiên cứu sự ảnh hưởng của bộ tâm nội suy đến độ chính xác của xấp xỉ đạo hàm dựa trên nội suy hàm cơ sở bán kính
- pdf Luận văn ThS: Bảo vệ bản quyền ảnh màu kỹ thuật số bằng lược đồ thủy vân dựa vào phép biến đổi DFT kết hợp với phép biến đổi SIFT
- pdf Luận văn ThS: Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng Việt
- pdf Luận văn ThS: Phát hiện lỗi sản phẩm trên dây chuyền đóng chai nước bằng xử lý ảnh
- pdf Luận văn ThS: Khôi phục ảnh bằng tối ưu độ tương tự cục bộ
- pdf Luận văn ThS: Tối ưu bảng cụm từ để cải tiến dịch máy thống kê
- pdf Luận văn ThS: Giấu tin trong file âm thanh bằng các phép biến đổi rời rạc
- pdf Luận văn ThS: Một số thuật toán chọn lọc và ứng dụng trong tin học phổ thông
- pdf Luận văn ThS: Một số thuật toán tìm core và ứng dụng trong phân tích mạng xã hội
- pdf Luận văn ThS: Nội suy ảnh trong hỗ trợ chẩn đoán hình ảnh
- pdf Luận văn ThS: Tối ưu hóa phân bổ và định giá đất đai theo thuật toan di truyền định hướng không gian
- pdf Luận văn ThS: Đề tài nhận dạng khuôn mặt trong hỗ trợ công tác quản lý tiếp dân
- pdf Luận văn ThS: Tìm hiểu khả năng an toàn của hệ mật mã RSA
- pdf Luận văn ThS: Tạo lập hệ luật mờ sử dụng phân cụm trừ mờ dữ liệu
- pdf Luận văn ThS: Giải pháp kết hợp công nghệ tính toán mềm với phương pháp lập luận mờ dựa trên đại số gia tử có tham số hiệu chỉnh
- pdf Luận văn ThS: Mạng Noron Wavelet và ứng dụng cho dự báo chứng khoán
- pdf Luận văn ThS: Phân đoạn từ tiếng Việt
- pdf Luận văn ThS: Xây dựng hệ thống truy vấn video nông nghiệp hướng ngữ nghĩa có sử dụng Ontology
- pdf Luận văn ThS: Tối ưu hoá truy vấn trong hệ cơ sở dữ liệu phân tán
- pdf Luận văn ThS: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa
- pdf Luận văn ThS: Nghiên cứu mạng nơron nhân tạo và ứng dụng vào trao đổi khóa bí mật
- pdf Luận văn ThS: Xây dựng Ontology từ kho ngữ liệu dạng văn bản
- pdf Luận văn ThS: Ứng dụng GIS phục vụ công tác quản lý cầu tại TP Hồ Chí Minh
- pdf Luận văn ThS: Ứng dụng đồ thị euler tối ưu hóa bài toán tìm đường đi ngắn nhất
- pdf Luận văn ThS: Nghiên cứu về chuyển đổi lược đồ cơ sở dữ liệu quan hệ sang cơ sở dữ liệu NoSQL
- pdf Luận văn ThS: Trích chọn đặc trưng kết cấu màu cục bộ cho bài toán nhận dạng ảnh màu mặt người
- pdf Luận văn ThS: Thuật toán hiệu quả cho khai thác tăng trưởng các mô hình duyệt web
- pdf Luận văn ThS: Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu bị sửa đổi