Luận văn ThS: Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm

Luận văn Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm giới thiệu tổng quan về bài toán nhận dạng thực thể trong văn bản Tiếng Việt; định nghĩa học suốt đời, kiến trúc mô hình học suốt đời; trình bày thuật toán L-CRFs nhằm tăng hiệu quả của mô hình trường ngẫu nhiên có điều kiện áp dụng cho bài toán nhận dạng thực thể định danh trong văn bản ngắn Tiếng Việt; trình bày đánh giá thực nghiệm.

Mục lục nội dung

1. Mở đầu

2. Nội dung

2.1 Bài toán nhận dạng thực thể

2.2 Học suốt đời và mô hình trường ngẫu nhiên

2.3 Mô hình học suốt đời

2.4 Thực nghiệm và kết quả

3. Kết luận

4. Tài liệu tham khảo

1. Mở đầu

Nhận dạng thực thể định danh là một cầu nối quan trọng trong việc kết nối dữ liệu có cấu trúc và dữ liệu phi cấu trúc. Nó cũng có rất nhiều ứng dụng như: xây dựng máy tìm kiếm thực thể, tóm tắt văn bản, tự động đánh chỉ số cho các sách, bước tiền xử lí làm đơn giản hóa các bài toán dịch máy,… Bên cạnh đó, việc bùng nổ của các mạng xã hội như Facebook, Twitter,.. và các hệ thống hỏi đáp đã mang lại một lượng thông tin khổng lồ. Đặc điểm của các dữ liệu đó thường là các văn bản ngắn, từ ngữ được sử dụng thường là văn nói và liên quan đến nhiều miền dữ liệu khác nhau. Chính đặc điểm này đã mang lại nhiều khó khăn khi thực hiện bài toán nhận dạng thực thể định danh. Khi gặp phải một vấn đề mới, chúng ta thường giải quyết nó dựa vào những tri thức, kinh nghiệm có trước. Việc áp dụng những tri thức này thường làm tăng tốc độ cũng như chất lượng của việc học. Nhận xét này không chỉ liên quan đến việc học của con người mà còn liên quan đến học máy. Việc học trong một nhiệm vụ mới được cải thiện bằng việc sử tri thức đã được lưu lại từ những nhiệm vụ học trước đó. Nói cách khác là ta sử dụng những tri thức đã có nhằm nâng cao hiệu quả của việc học cho nhiệm vụ mới.

2. Nội dung

2.1 Bài toán nhận dạng thực thể cho văn bản ngắn Tiếng Việt

Bài toán nhận dạng thực thể

Bài toán
Khó khăn của bài toán nhận dạng thực thể trong văn bản ngắn Tiếng Việt

Các nghiên cứu có liên quan

Các nghiên cứu về nhận dạng thực thể trong Tiếng Anh
Các nghiên cứu về nhận dạng thực thể trong Tiếng Việt

2.2 Học suốt đời và mô hình trường ngẫu nhiên có điều kiện

Mô hình trường ngẫu nhiên có điều kiện áp dụng cho bài toán nhận dạng thực thể

Khái niệm mô hình trường ngẫu nhiên có điều kiện
Ước lượng tham số cho mô hình
Tìm chuỗi nhãn phù hợp nhất

Thuộc tính phụ thuộc tổng quát (G)

Định nghĩa học suốt đời

Kiến trúc hệ thống học suốt đời

Phương pháp đánh giá

Học giám sát suốt đời

Áp dụng học suốt đời vào mô hình trường ngẫu nhiên có điều kiện

2.3 Mô hình học suốt đời áp dụng vào bài toán nhận dạng thực thể

Mẫu phụ thuộc

Thuật toán L-CRF

2.4 Thực nghiệm và kết quả

Môi trường và các công cụ sử dụng

Cấu hình phần cứng
Các phần mềm và thư viện

Dữ liệu thực nghiệm

Mô tả thực nghiệm

Đánh giá

Kết quả thực nghiệm

Kết quả đánh giá nội miền
Kết quả đánh giá chéo miền
Kết quả đánh giá chéo miền có dữ liệu của miền đích
Kết quả đánh giá chéo miền chỉ lấy dữ liệu miền gần

3. Kết luận

Luận văn đã đạt được:

Tìm hiểu bài toán nhận dạng thực thể trong văn bản Tiếng Việt và cách tiếp cận bằng phương pháp học máy sử dụng mô hình trường ngẫu nhiên (Conditional Random Fields)
Tìm hiểu những kiến thức cơ bản về học suốt đời (định nghĩa, phân loại, cách đánh giá… ) cùng những áp dụng của học suốt đời.
Tìm hiểu việc áp dụng học suốt đời cho mô hình CRFs nhằm cải tiến phương pháp nhận dạng thực thể trong văn bản ngắn để khắc phục những khó khăn gặp phải do đặc điểm của văn bản ngắn.

4. Tài liệu tham khảo

Thụy, H. Q., Hiếu, P. X., & Sơn, Đ. Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình Khai phá dữ liệu Web

Abdallah, Z. S., Carman, M., & Haffari, G. (2017). Multi-domain evaluation framework for named entity recognition tools. Computer Speech & Language, 43, 34-55

Chen, M., Jin, X., & Shen, D. (2011, July). Short text classification improved by learning multi-granularity topics. In IJCAI (pp. 1776-1781)

De Marneffe, M. C., & Manning, C. D. (2008). Stanford typed dependencies manual (pp. 338-345). Technical report, Stanford University

Farmakiotou, D., Karkaletsis, V., Koutsias, J., Sigletos, G., Spyropoulos, C. D., & Stamatopoulos, P. (2000, September). Rule-based named entity recognition for Greek financial texts. In Proceedings of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000) (pp. 75-78)...

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:19/08/2020 Chia sẻ bởi:Thi

TẢI VỀ XEM ONLINE

Luận văn ThS: Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm

Mục lục nội dung

1. Mở đầu

2. Nội dung

2.1 Bài toán nhận dạng thực thể cho văn bản ngắn Tiếng Việt

2.2 Học suốt đời và mô hình trường ngẫu nhiên có điều kiện

2.3 Mô hình học suốt đời áp dụng vào bài toán nhận dạng thực thể

2.4 Thực nghiệm và kết quả

3. Kết luận

4. Tài liệu tham khảo

Tham khảo thêm

Hệ thống thông tin

Công nghệ tri thức

Kỹ thuật máy tính

Khoa học máy tính

Mạng và Hệ thống

Đồ hoạ - Ứng dụng

Công nghệ phần mềm

TRANG CHỦ

HỌC TẬP

TÀI LIỆU

BIỂU MẪU

VĂN BẢN LUẬT

HƯỚNG DẪN

THỦ THUẬT

Luận văn ThS: Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm

Mục lục nội dung

1. Mở đầu

2. Nội dung

2.1 Bài toán nhận dạng thực thể cho văn bản ngắn Tiếng Việt

2.2 Học suốt đời và mô hình trường ngẫu nhiên có điều kiện

2.3 Mô hình học suốt đời áp dụng vào bài toán nhận dạng thực thể

2.4 Thực nghiệm và kết quả

3. Kết luận

4. Tài liệu tham khảo

Tham khảo thêm

CÓ THỂ BẠN QUAN TÂM

Hệ thống thông tin

Công nghệ tri thức

Kỹ thuật máy tính

Khoa học máy tính

Mạng và Hệ thống

Đồ hoạ - Ứng dụng

Công nghệ phần mềm

TRANG CHỦ

HỌC TẬP

TÀI LIỆU

BIỂU MẪU

VĂN BẢN LUẬT

HƯỚNG DẪN

THỦ THUẬT