Luận văn ThS: Phân đoạn từ tiếng Việt

Luận văn Phân đoạn từ tiếng Việt trình bày tổng quan về các hướng tiếp cận và các công trình nghiên cứu có liên quan đến đề tài; trình bày về cơ sở lý thuyết của đề tài, bao gồm cơ sở lý thuyết về ngôn ngữ và ngôn ngữ học thống kê; giới thiệu mô hình MMSeg – mô hình tham khảo chính của đề tài.

Luận văn ThS: Phân đoạn từ tiếng Việt

1. Mở đầu

1.1 Đặt vấn đề

Nghiên cứu về xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), truy vấn và khai thác thông tin (IR-IE: Information Retrieval and Extraction), hệ thống hỏi đáp (Q&A: Question and Answer), tóm lược văn bản (ATS: Automatic Text Summarization), nhận dạng tiếng nói (SR: Speech Recognition), v.v... từng bước giúp máy tính hiểu được con người. Phân đoạn từ (WS: Word Segmention) là một bước quan trọng trong xử lý ngôn ngữ tự nhiên tiếng Việt, đặc biệt là xử lý văn bản. Phân đoạn từ là việc xác định ranh giới giữa các từ trong câu. Không giống như tiếng Anh và các ngôn ngữ Ấn-Âu khác, tiếng Việt không sử dụng khoảng cách làm dấu hiệu xác định ranh giới từ. Ranh giới giữa các từ không có dấu hiệu rõ ràng mà cần phải dựa vào các yếu tố như: ngữ nghĩa, ngữ cảnh, văn phong, các từ lân cận, v.v...

1.2 Lí do chọn đề tài

Tiếng Việt là ngôn ngữ thuộc hệ đơn lập, không biến hình. Về mặt hình thức một từ có thể được cấu tạo bới một hoặc nhiều âm tiết ghép lại. Khoảng trắng chỉ dùng để phân cách các âm tiết với nhau. Để có thể tiến tới các xử lý xa hơn về xử lý ngôn ngữ tự nhiên trước hết ta phải làm tốt bài toán phân đoạn từ. Từ là đơn vị cơ bản nhất để phân tích cú pháp, ngữ nghĩa của ngôn ngữ. Cho đến nay, đã có rất nhiều công trình nghiên cứu về phân đoạn từ tiếng Việt với những kết quả khả quan. Tuy nhiên các vấn đề như: hiện tượng phát sinh từ mới, sự nhập nhằng ngữ nghĩa, v.v...đã ảnh hưởng không ít đến chất lượng phân đoạn từ. Vì vậy phân đoạn từ tiếng Việt vẫn là chủ đề được nhiều nhà nghiên cứu quan tâm và là động lực của luận văn này.

1.3 Mục tiêu và phạm vi nghiên cứu

Chúng tôi đặt ra mục tiêu nghiên cứu chính của luận văn là xây dựng một mô hình phân đoạn từ tiếng Việt dựa trên mô hình lai kết hợp nhiều phương pháp nhằm tăng cường độ chính xác khi phân đoạn từ. 

Phạm vi của đề tài tập trung nghiên cứu phân đoạn từ trên văn bản tiếng Việt. Với đầu vào là một văn bản tiếng Việt, đầu ra là một văn bản tiếng Việt đã được phân đoạn thành các từ.

2. Nội dung

2.1 Cơ sở lí thuyết

Cơ sở lý thuyết về ngôn ngữ

  • Phân loại ngôn ngữ
  • Đơn vị chủ yếu của ngôn ngữ
  • Cấu trúc của đơn vị từ tiếng Việt 
  • Từ vựng tiếng Việt 
  • Vấn đề nhập nhằng nghĩa của từ

Cơ sở lý thuyết về ngôn ngữ học thống kê 

  • Tổng quan về ngôn ngữ học thống kê
  • Một số lý thuyết xác suất thống kê trong xử lý ngôn ngữ

2.2 Giới thiệu mô hình MMSeg

Tổng quan về MMSeg

Áp dụng MMSeg vào tiếng Việt

Đánh giá MMSeg trên ngôn ngữ tiếng Việt

2.3 Mô hình đề xuất

Mô hình phân đoạn từ

Thiết kế giải thuật

  • Giải thuật tiền xử lý văn bản
  • Giải thuật phân đoạn từ 

Từ điển và kho ngữ liệu 

Thực nghiệm

3. Kết luận

Luận văn đã nghiên cứu và đưa ra một mô hình phân đoạn từ tiếng Việt. Bước đầu luận văn đã
thu được một số kết quả sau:

  • Xây dựng được một từ điển danh từ riêng với 1.068.435 tên. Trong đó có 1,065,613 tên người và 2,822 tên địa danh ở Việt Nam.
  • Xây dựng được một kho ngữ liệu gồm có 3.356 bài báo chứa trong 26Mb dữ liệu.
  • Thực nghiệm và đánh giá hệ thống MMSeg trên ngôn ngữ tiếng Việt với ngữ liệu gồm 10,000 câu trích từ VietTreebank.
  • Xây dựng một mô hình phân đoạn từ cho tiếng Việtdựa trên mô hình lai sử dụng nhiều phương pháp tích hợp: phương pháp dựa trên từ điển, phương pháp dựa trên thống kê, phương pháp so trùng mẫu và phương pháp phân giải nhập nhằng dựa trên các luật.

4. Tài liệu tham khảo

Trần Ngọc Anh, Nguyễn Nhật An. (2011). Lựa chọn tập gán nhãn ranh giới từ cho mô hình Markov ẩn trong bài toán tách từ tiếng Việt.

Luu Tuan Anh, Yamamoto Kazuhide. (2012). A pointwise approach for Vietnamese Diacritics Restoration. 2012 International Conference on Asian Language Processing, pp.189 – 192.

Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen. (2012). An effective context-based method forVietnamese-word segmentation. IEEE 9th, pp.34-40.

Dương Hữu Biên. (2010). Giáo trình cơ sở ngôn ngữ học, ĐH Đà Lạt....

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---

Ngày:31/08/2020 Chia sẻ bởi:Minh Ngoan

CÓ THỂ BẠN QUAN TÂM