Luận án TS: Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa
Luận án Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa giới thiệu kiến thức nền tảng; trình bày nội dung nghiên cứu về các phương pháp sinh chú thích ngữ nghĩa cho tin tức thể thao dựa trên Ontology, cơ sở tri thức và luật trích chọn; đề xuất một phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL; trình bày nội dung kết quả nghiên cứu của phương pháp gợi ý tin tức thể thao có quan tâm đến khía cạnh ngữ nghĩa. Luận án đề xuất độ đo tương đồng giữa hai tin tức trên cơ sở kết hợp độ liên quan ngữ nghĩa và độ tương đồng nội dung.
Mục lục nội dung
1. Mở đầu
1.1 Mục tiêu nghiên cứu
Tìm ra một mô hình kiến trúc cho hệ thống tổng hợp tin tức nói chung và thể thao nói riêng dựa trên nền tảng công nghệ Web ngữ nghĩa.
Nghiên cứu đề xuất các phương pháp sinh ra một cách tự động hoặc bán tự động các siêu dữ liệu còn gọi là chú thích ngữ nghĩa cho các tin tức thể thao. Kết quả của nhiệm vụ này là cơ sở để tiến hành kỹ thuật tìm kiếm ngữ nghĩa trên tin tức. Luận án hướng tới việc sinh ra tự động các chú thích ngữ nghĩa mà nội dung của nó phục vụ cho việc tìm kiếm, đối sánh, giới thiệu, khuyến nghị tin tức. Do đó, các ngữ nghĩa của tin tức thể thao có một số khác biệt (ví dụ, diễn đạt sự kiện xảy ra, con người liên quan, chủ đề liên quan…)
Thực hiện tìm kiếm ngữ nghĩa trong hệ thống dưới hình thức các câu hỏi bằng ngôn ngữ tự nhiên. Luận án hướng đến giải quyết bài toán chuyển đổi các câu hỏi hay yêu cầu về tin tức dưới dạng ngôn ngữ tự nhiên sang
Nghiên cứu phương pháp gợi ý tin tức tới người đọc trên cơ sở sự phù hợp với nội dung của tin tức đang đọc, có khai thác khía cạnh ngữ nghĩa.
1.2 Đối tượng phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án là các bài toán xử lý trên dữ liệu tin tức dựa trên tiếp cận Web ngữ nghĩa. Như vậy luận án sẽ vừa phải tìm hiểu các kiến thức cơ sở lý thuyết nền tảng về Web ngữ nghĩa, vừa phải nắm chắc các phương pháp phân tích xử lý văn bản, cũng như các vấn đề về độ tương quan giữa các văn bản và Ontology.
Luận án được thực hiện trong phạm vi các tin tức tiếng Anh trong lĩnh vực thể thao. Các tin tức ở dạng thức phổ biến nhất là văn bản (text).
Đặt mục tiêu nâng cao hiệu quả của nghiên cứu, luận án xác định không giải quyết bài toán trên phạm vi rộng, bao trùm nhiều lĩnh vực như chính trị, văn hóa, kinh tế … mà chỉ tập trung vào lĩnh vực thể thao. Một nguyên nhân khác là chưa có nhiều nghiên cứu tương tự trong lĩnh vực này. Luận án cũng không xét đến tiếng Việt, lý do là so với tiếng Việt, tiếng Anh có phạm vi áp dụng rộng hơn nhiều.
1.3 Phương pháp nghiên cứu
Để thực hiện các nội dung nghiên cứu trong luận án, tác giả tiến hành theo phương pháp tiếp cận từ trên xuống, đồng thời kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm.
- Về lý thuyết: Bên cạnh nghiên cứu tổng quan các lý thuyết và kỹ thuật cơ bản về Web ngữ nghĩa, các hệ thống tổng hợp tin tức, tác giả phân tích tổng hợp những kết quả nghiên cứu liên quan đã được công bố trong các hội thảo và tạp chí quốc tế. Trên cơ sở đó, tác giả đã xác định được các bài toán nghiên cứu và đề xuất những phương pháp nghiên cứu cho các bài toán nêu trên.
- Về thực nghiệm: Luận án tiến hành cài đặt và chạy thực nghiệm, sau đó đánh giá kết quả các phương pháp đã đề xuất trên các tập dữ liệu được xây dựng từ miền lĩnh vực của bài toán.
2. Nội dung
2.1 Kiến thức nền tảng
Giới thiệu về Web ngữ nghĩa
Ontology
Ngôn ngữ biểu diễn ontology và dữ liệu ngữ nghĩa
Tìm kiếm ngữ nghĩa
Kho dữ liệu ngữ nghĩa mở
Một số lĩnh vực ứng dụng Web ngữ nghĩa
Một số nghiên cứu Web ngữ nghĩa tiêu biểu
Website và cổng thông tin tin tức có ngữ nghĩa
Ứng dụng Web ngữ nghĩa trong lĩnh vực thể thao
Tiếp cận Web ngữ nghĩa xây dựng hệ thống tin tức thể thao
Mô hình kiến trúc hệ thống tổng hợp tin tức thể thao
2.2 Sinh chú thích ngữ nghĩa cho tin tức thể thao
Đặt vấn đề
Chú thích ngữ nghĩa cho tài liệu
- Khái niệm
- Các phương pháp tạo chú thích ngữ nghĩa
- Một số nghiên cứu liên quan
Một phương pháp sinh chú thích ngữ nghĩa cho tin tức thể thao dựa trên ontology và luật trích chọn
- Tổng quan về phương pháp đề xuất
- Xây dựng Ontology cho hệ thống
- Thu thập và tiền xử lý tin tức
- Xây dựng cơ sở tri thức thể thao
- Nhận dạng, trích rút và xác định lớp ngữ nghĩa cho thực thể có tên
- Trích rút “ngữ nghĩa” từ tin tức
Thực nghiệm
- Nhận dạng thực thể có tên trong tin tức
- Trích rút ngữ nghĩa từ tin tức thể thao
- Đánh giá chung
2.3 Một phương pháp truy vấn tin tức thể thao
Giới thiệu
Các nghiên cứu liên quan
Phân loại câu hỏi đầu vào và cấu trúc truy vấn đầu ra
- Phân loại câu hỏi
- Chú thích và truy vấn ngữ nghĩa về tin tức thể thao
Phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL
- Tiền xử lý câu hỏi
- Phân tích cú pháp
- Biểu diễn ngữ nghĩa cho câu hỏi
- Sinh câu truy vấn SPARQL trung gian
- Xác định thực thể, khái niệm và vị từ
- Sinh truy vấn SPARQL hoàn chỉnh
Thử nghiệm và đánh giá
- Kịch bản thử nghiệm và kết quả
- Nhận xét và đánh giá
2.4 Gợi ý tin tức dựa trên ngữ nghĩa
Giới thiệu
Nghiên cứu liên quan
Độ tương đồng giữa các tin
- Độ tương đồng về ngữ nghĩa
- Độ tương đồng về nội dung
- Thuật toán gợi ý tin tức với độ tương đồng kết hợp
Cài đặt thử nghiệm và đánh giá
- Kịch bản thử nghiệm
- Kết quả thử nghiệm và đánh giá
3. Kết luận
Luận án tận dụng những ưu điểm vượt trội của Web ngữ nghĩa như tìm kiếm tốt hơn, tổ chức, sắp xếp, trực quan hóa một cách tự động. Luận án đã ứng dụng công nghệ Web ngữ nghĩa để xây dựng mô hình ngữ nghĩa trong hệ thống tổng hợp tin tức thể thao được đặt tên là BKSport. Đối với người dùng, hệ thống hoạt động như trang tin tức thông thường mà ở đó người dùng có thể xem tin tức tổng hợp từ một số nguồn tin cậy và được hỗ trợ tính năng tìm kiếm và gợi ý tin tức. Thứ nhất, luận án đề xuất một số phương pháp sinh chú thích ngữ nghĩa cho các tin tức thể thao bằng văn bản một cách tự động. Thứ hai, luận án đề xuất phương pháp chuyển đổi câu hỏi bằng ngôn ngữ tự nhiên tiếng Anh sang truy vấn ngữ nghĩa được biểu diễn ở dạng thức SPARQL. Truy vấn này được dùng để thực hiện tìm kiếm ngữ nghĩa. Từ đó, hệ thống thực hiện được tìm kiếm sử dụng mô tơ tìm kiếm ngữ nghĩa. Thứ ba, luận án đã đưa ra độ đo tương đồng giữa hai tin tức trên cơ sở kết hợp độ liên quan ngữ nghĩa và độ tương đồng nội dung. Khác với độ tương đồng nội dung được tính dựa trên phương pháp truyền thống, độ liên quan ngữ nghĩa giữa hai tin tức là sự kết hợp của các độ liên quan ngữ nghĩa giữa các thực thể, độ tương đồng về kiểu thực thể, độ tương đồng về chú thích ngữ nghĩa của hai tin.
4. Tài liệu tham khảo
Akamai, "Akamai Company History", 2 March 2019. [Online]. Available: https://www.akamai.com/uk/en/about/company-history.jsp. [Accessed 2 March 2019].
C. Nicholson, "WORLD CUP 2014: THE DRAMA IN THE DATA", 31 July 2014. [Online]. Available: Nicholson, C.(2014, ngày 31/07). WORLD CUP 2014: THE DRAMA IN THE DATA. The Akamai Bloghttps://blogs.akamai.com/2014/07/world-cup-2014-the-drama-in-the-data.html. [Accessed 18 February 2019].
M. Castillo, "Univision, ESPN Score Digital Victories During 2014 World Cup", 15 July 2014. [Online]. Available: https://www.adweek.com/digital/univision-espn-score- digital-victories-during-2014-world-cup-158929/. [Accessed 18 February 2019]
N. Adie, "Sky Sports sees record digital traffic over summer" , 6 September 2013. [Online]. Available: https://www.cable.co.uk/news/sky-sports-sees-record-digital- traffic-over-summer-801634665/. [Accessed 15 February 2019]......
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận án Tiến sĩ trên ---
Tham khảo thêm