Luận án TS: Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa

Luận án Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa giới thiệu kiến thức nền tảng; trình bày nội dung nghiên cứu về các phương pháp sinh chú thích ngữ nghĩa cho tin tức thể thao dựa trên Ontology, cơ sở tri thức và luật trích chọn; đề xuất một phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL; trình bày nội dung kết quả nghiên cứu của phương pháp gợi ý tin tức thể thao có quan tâm đến khía cạnh ngữ nghĩa. Luận án đề xuất độ đo tương đồng giữa hai tin tức trên cơ sở kết hợp độ liên quan ngữ nghĩa và độ tương đồng nội dung. 

Luận án TS: Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa

1. Mở đầu

1.1 Mục tiêu nghiên cứu

Tìm ra một mô hình kiến trúc cho hệ thống tổng hợp tin tức nói chung và thể thao nói riêng dựa trên nền tảng công nghệ Web ngữ nghĩa. 

Nghiên cứu đề xuất các phương pháp sinh ra một cách tự động hoặc bán tự động các siêu dữ liệu còn gọi là chú thích ngữ nghĩa cho các tin tức thể thao. Kết quả của nhiệm vụ này là cơ sở để tiến hành kỹ thuật tìm kiếm ngữ nghĩa trên tin tức. Luận án hướng tới việc sinh ra tự động các chú thích ngữ nghĩa mà nội dung của nó phục vụ cho việc tìm kiếm, đối sánh, giới thiệu, khuyến nghị tin tức. Do đó, các ngữ nghĩa của tin tức thể thao có một số khác biệt (ví dụ, diễn đạt sự kiện xảy ra, con người liên quan, chủ đề liên  quan…) 

Thực hiện tìm kiếm ngữ nghĩa trong hệ thống dưới hình thức các câu hỏi bằng ngôn ngữ tự nhiên. Luận án hướng đến giải quyết bài toán chuyển đổi các câu hỏi hay yêu cầu về tin tức dưới dạng ngôn ngữ tự nhiên sang 

Nghiên cứu phương pháp gợi ý tin tức tới người đọc trên cơ sở sự phù hợp với nội dung của tin tức đang đọc, có khai thác khía cạnh ngữ nghĩa. 

1.2 Đối tượng phạm vi nghiên cứu

Đối tượng nghiên cứu của luận án là các bài toán xử lý trên dữ liệu tin tức dựa trên tiếp cận Web ngữ nghĩa. Như vậy luận án sẽ vừa phải tìm hiểu các kiến thức cơ sở lý thuyết nền tảng về Web ngữ nghĩa, vừa phải nắm chắc các phương pháp phân tích xử lý văn bản, cũng như các vấn đề về độ tương quan giữa các văn bản và Ontology. 

Luận án được thực hiện trong phạm vi các tin tức tiếng Anh trong lĩnh vực thể thao. Các tin tức ở dạng thức phổ biến nhất là văn bản (text). 

Đặt mục tiêu nâng cao hiệu quả của nghiên cứu, luận án xác định không giải quyết bài toán trên phạm vi rộng, bao trùm nhiều lĩnh vực như chính trị, văn hóa, kinh tế  … mà chỉ tập trung vào lĩnh vực thể thao. Một nguyên nhân khác là chưa có nhiều nghiên cứu tương tự trong lĩnh vực này. Luận án cũng không xét đến tiếng Việt, lý do là so với tiếng Việt, tiếng Anh có phạm vi áp dụng rộng hơn nhiều. 

1.3 Phương pháp nghiên cứu

Để thực hiện các nội dung nghiên cứu trong luận án, tác giả tiến hành theo phương pháp tiếp cận từ trên xuống, đồng thời kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm. 

  • Về lý thuyết: Bên cạnh nghiên cứu tổng quan các lý thuyết và kỹ thuật cơ bản về Web ngữ nghĩa, các hệ thống tổng hợp tin tức, tác giả phân tích tổng hợp những kết quả nghiên cứu liên quan đã được công bố trong các hội thảo và tạp chí quốc tế. Trên cơ sở đó, tác giả đã xác định được các bài toán nghiên cứu và đề xuất những phương pháp nghiên cứu cho các bài toán nêu trên. 
  • Về thực nghiệm: Luận án tiến hành cài đặt và chạy thực nghiệm, sau đó đánh giá kết quả các phương pháp đã đề xuất trên các tập dữ liệu được xây dựng từ miền lĩnh vực của bài toán. 

2. Nội dung

2.1 Kiến thức nền tảng

Giới thiệu về Web ngữ nghĩa 

Ontology

Ngôn ngữ biểu diễn ontology và dữ liệu ngữ nghĩa

Tìm kiếm ngữ nghĩa

Kho dữ liệu ngữ nghĩa mở 

Một số lĩnh vực ứng dụng Web ngữ nghĩa

Một số nghiên cứu Web ngữ nghĩa tiêu biểu

Website và cổng thông tin tin tức có ngữ nghĩa

Ứng dụng Web ngữ nghĩa trong lĩnh vực thể thao 

Tiếp cận Web ngữ nghĩa xây dựng hệ thống tin tức thể thao

Mô hình kiến trúc hệ thống tổng hợp tin tức thể thao

2.2 Sinh chú thích ngữ nghĩa cho tin tức thể thao

Đặt vấn đề 

Chú thích ngữ nghĩa cho tài liệu 

  • Khái niệm 
  • Các phương pháp tạo chú thích ngữ nghĩa 
  • Một số nghiên cứu liên quan 

Một phương pháp sinh chú thích ngữ nghĩa cho tin tức thể thao dựa trên ontology và luật trích chọn

  • Tổng quan về phương pháp đề xuất 
  • Xây dựng Ontology cho hệ thống
  • Thu thập và tiền xử lý tin tức
  • Xây dựng cơ sở tri thức thể thao
  • Nhận dạng, trích rút và xác định lớp ngữ nghĩa cho thực thể có tên
  • Trích rút “ngữ nghĩa” từ tin tức

Thực nghiệm

  • Nhận dạng thực thể có tên trong tin tức
  • Trích rút ngữ nghĩa từ tin tức thể thao
  • Đánh giá chung

2.3 Một phương pháp truy vấn tin tức thể thao

Giới thiệu

Các nghiên cứu liên quan 

Phân loại câu hỏi đầu vào và cấu trúc truy vấn đầu ra 

  • Phân loại câu hỏi 
  • Chú thích và truy vấn ngữ nghĩa về tin tức thể thao

Phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL

  • Tiền xử lý câu hỏi 
  • Phân tích cú pháp 
  • Biểu diễn ngữ nghĩa cho câu hỏi
  • Sinh câu truy vấn SPARQL trung gian
  • Xác định thực thể, khái niệm và vị từ
  • Sinh truy vấn SPARQL hoàn chỉnh

Thử nghiệm và đánh giá

  • Kịch bản thử nghiệm và kết quả
  • Nhận xét và đánh giá

2.4 Gợi ý tin tức dựa trên ngữ nghĩa

Giới thiệu 

Nghiên cứu liên quan 

Độ tương đồng giữa các tin

  • Độ tương đồng về ngữ nghĩa
  • Độ tương đồng về nội dung
  • Thuật toán gợi ý tin tức với độ tương đồng kết hợp

Cài đặt thử nghiệm và đánh giá

  • Kịch bản thử nghiệm
  • Kết quả thử nghiệm và đánh giá 

3. Kết luận

Luận án tận dụng những ưu điểm vượt trội của Web ngữ nghĩa như tìm kiếm tốt hơn, tổ chức, sắp xếp, trực quan hóa một cách tự động. Luận án đã ứng dụng công nghệ Web ngữ nghĩa để xây dựng mô hình ngữ nghĩa trong  hệ thống tổng hợp tin tức thể thao được đặt tên là BKSport. Đối với người dùng, hệ thống hoạt động như trang tin tức thông thường mà ở đó người dùng có thể xem tin tức tổng hợp từ một số nguồn tin cậy và được hỗ trợ tính năng tìm kiếm và gợi ý tin tức. Thứ nhất, luận án đề xuất một số phương pháp sinh chú thích ngữ nghĩa cho các tin tức thể thao bằng văn bản một cách tự động. Thứ hai, luận án đề xuất phương pháp chuyển đổi câu hỏi bằng ngôn ngữ tự nhiên tiếng Anh sang truy vấn ngữ nghĩa được biểu diễn ở dạng thức SPARQL. Truy vấn này được dùng để thực hiện tìm kiếm ngữ nghĩa. Từ đó, hệ thống thực hiện được tìm kiếm sử dụng mô tơ tìm kiếm ngữ nghĩa. Thứ ba, luận án đã đưa ra độ đo tương đồng giữa hai tin tức trên cơ sở kết hợp độ liên quan ngữ nghĩa và độ tương đồng nội dung. Khác với độ tương đồng nội dung được tính dựa trên phương pháp truyền thống, độ liên quan ngữ nghĩa giữa hai tin tức là sự kết hợp của các độ liên quan ngữ nghĩa giữa các thực thể, độ tương đồng về kiểu thực thể, độ tương đồng về chú thích ngữ nghĩa của hai tin.

4. Tài liệu tham khảo

Akamai, "Akamai Company History", 2 March 2019.    [Online]. Available:  https://www.akamai.com/uk/en/about/company-history.jsp. [Accessed 2 March 2019]. 

C. Nicholson, "WORLD CUP 2014: THE DRAMA IN THE DATA", 31 July 2014. [Online]. Available:  Nicholson, C.(2014, ngày 31/07). WORLD CUP 2014: THE DRAMA IN THE DATA. The Akamai Bloghttps://blogs.akamai.com/2014/07/world-cup-2014-the-drama-in-the-data.html. [Accessed 18 February 2019].

M. Castillo, "Univision, ESPN Score Digital Victories During 2014 World Cup",  15 July 2014. [Online]. Available: https://www.adweek.com/digital/univision-espn-score- digital-victories-during-2014-world-cup-158929/. [Accessed 18 February 2019]

 N.   Adie,  "Sky   Sports   sees   record   digital   traffic   over   summer" ,  6  September   2013. [Online].      Available: https://www.cable.co.uk/news/sky-sports-sees-record-digital- traffic-over-summer-801634665/. [Accessed 15 February 2019]......

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận án Tiến sĩ trên ---

  • Tham khảo thêm

Ngày:20/08/2020 Chia sẻ bởi:Xuân Quỳnh

CÓ THỂ BẠN QUAN TÂM