Luận văn ThS: Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm

Luận văn Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm giới thiệu tổng quan về bài toán nhận dạng thực thể trong văn bản Tiếng Việt; định nghĩa học suốt đời, kiến trúc mô hình học suốt đời; trình bày thuật toán L-CRFs nhằm tăng hiệu quả của  mô hình trường ngẫu nhiên có điều kiện áp dụng cho bài toán nhận dạng thực thể định danh trong văn bản ngắn Tiếng Việt; trình bày đánh giá thực nghiệm.

Luận văn ThS: Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm

1. Mở đầu

Nhận dạng thực thể định danh là một cầu nối quan trọng trong việc kết nối dữ liệu có cấu trúc và dữ liệu phi cấu trúc. Nó cũng có rất nhiều ứng dụng như: xây dựng máy tìm kiếm thực thể, tóm tắt văn bản, tự động đánh chỉ số cho các sách, bước tiền xử lí làm đơn giản hóa các bài toán dịch máy,… Bên cạnh đó, việc bùng nổ của các mạng xã hội như  Facebook, Twitter,.. và các hệ thống hỏi đáp đã mang lại một lượng thông tin khổng lồ. Đặc điểm của các dữ liệu đó thường là các văn bản ngắn, từ ngữ được sử dụng thường là văn nói và liên quan đến nhiều miền dữ liệu khác nhau. Chính đặc điểm này đã mang lại nhiều khó khăn khi thực hiện bài toán nhận dạng thực thể định danh. Khi gặp phải một vấn đề mới, chúng ta thường giải quyết nó dựa vào những tri thức, kinh nghiệm có trước. Việc áp dụng những tri thức này thường làm tăng tốc độ cũng như chất lượng của việc học. Nhận xét này không chỉ liên quan đến việc học của con người mà còn liên quan đến học máy. Việc học trong một nhiệm vụ mới được cải thiện bằng việc sử tri thức đã  được lưu lại từ những nhiệm vụ học trước đó. Nói cách khác là ta sử dụng những tri thức đã có nhằm nâng cao hiệu quả của việc học cho nhiệm vụ mới. 

2. Nội dung

2.1 Bài toán nhận dạng thực thể cho văn bản ngắn Tiếng Việt

Bài toán nhận dạng thực thể

  • Bài toán 
  • Khó khăn của bài toán nhận dạng thực thể trong văn bản ngắn Tiếng Việt  

Các nghiên cứu có liên quan 

  • Các nghiên cứu về nhận dạng thực thể trong Tiếng Anh 
  • Các nghiên cứu về nhận dạng thực thể trong Tiếng Việt

2.2 Học suốt đời và mô hình trường ngẫu nhiên có điều kiện

Mô hình trường ngẫu nhiên có điều kiện áp dụng cho bài toán nhận dạng thực thể

  • Khái niệm mô hình trường ngẫu nhiên có điều kiện
  • Ước lượng tham số cho mô hình 
  • Tìm chuỗi nhãn phù hợp nhất

Thuộc tính phụ thuộc tổng quát (G)  

Định nghĩa học suốt đời 

Kiến trúc hệ thống học suốt đời 

Phương pháp đánh giá 

Học giám sát suốt đời 

Áp dụng học suốt đời vào mô hình trường ngẫu nhiên có điều kiện

2.3 Mô hình học suốt đời áp dụng vào bài toán nhận dạng thực thể

Mẫu phụ thuộc

Thuật toán L-CRF

2.4 Thực nghiệm và kết quả

Môi trường và các công cụ sử dụng

  • Cấu hình phần cứng 
  • Các phần mềm và thư viện 

Dữ liệu thực nghiệm

Mô tả thực nghiệm

Đánh giá 

Kết quả thực nghiệm

  • Kết quả đánh giá nội miền 
  • Kết quả đánh giá chéo miền 
  • Kết quả đánh giá chéo miền có dữ liệu của miền đích 
  • Kết quả đánh giá chéo miền chỉ lấy dữ liệu miền gần

3. Kết luận

Luận văn đã đạt được:

  • Tìm hiểu bài toán nhận dạng thực thể trong văn bản Tiếng Việt và cách tiếp cận bằng  phương pháp học máy sử  dụng mô hình trường ngẫu nhiên (Conditional  Random Fields) 
  • Tìm hiểu những kiến thức cơ bản về học suốt đời (định nghĩa, phân loại, cách đánh giá… ) cùng những áp dụng của học suốt đời. 
  • Tìm hiểu việc áp dụng học suốt đời cho mô hình CRFs nhằm cải tiến phương pháp nhận dạng thực thể trong văn bản ngắn để khắc phục những khó khăn gặp phải do đặc điểm của văn bản ngắn. 

4. Tài liệu tham khảo

Thụy, H. Q., Hiếu, P. X., & Sơn, Đ. Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình Khai phá dữ liệu Web

Abdallah, Z. S., Carman, M., & Haffari, G. (2017). Multi-domain evaluation framework for named entity recognition tools. Computer Speech & Language, 43, 34-55

Chen, M., Jin, X., & Shen, D. (2011, July). Short text classification improved by learning multi-granularity topics. In IJCAI (pp. 1776-1781)

De Marneffe, M. C., & Manning, C. D. (2008). Stanford typed dependencies manual (pp. 338-345). Technical report, Stanford University

Farmakiotou, D., Karkaletsis, V., Koutsias, J., Sigletos, G., Spyropoulos, C. D., & Stamatopoulos, P. (2000, September). Rule-based named entity recognition for Greek financial texts. In Proceedings of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000) (pp. 75-78)...

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:19/08/2020 Chia sẻ bởi:Thi

CÓ THỂ BẠN QUAN TÂM