Luận văn ThS: Phân đoạn từ tiếng Việt
Luận văn Phân đoạn từ tiếng Việt trình bày tổng quan về các hướng tiếp cận và các công trình nghiên cứu có liên quan đến đề tài; trình bày về cơ sở lý thuyết của đề tài, bao gồm cơ sở lý thuyết về ngôn ngữ và ngôn ngữ học thống kê; giới thiệu mô hình MMSeg – mô hình tham khảo chính của đề tài.
Mục lục nội dung
1. Mở đầu
1.1 Đặt vấn đề
Nghiên cứu về xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), truy vấn và khai thác thông tin (IR-IE: Information Retrieval and Extraction), hệ thống hỏi đáp (Q&A: Question and Answer), tóm lược văn bản (ATS: Automatic Text Summarization), nhận dạng tiếng nói (SR: Speech Recognition), v.v... từng bước giúp máy tính hiểu được con người. Phân đoạn từ (WS: Word Segmention) là một bước quan trọng trong xử lý ngôn ngữ tự nhiên tiếng Việt, đặc biệt là xử lý văn bản. Phân đoạn từ là việc xác định ranh giới giữa các từ trong câu. Không giống như tiếng Anh và các ngôn ngữ Ấn-Âu khác, tiếng Việt không sử dụng khoảng cách làm dấu hiệu xác định ranh giới từ. Ranh giới giữa các từ không có dấu hiệu rõ ràng mà cần phải dựa vào các yếu tố như: ngữ nghĩa, ngữ cảnh, văn phong, các từ lân cận, v.v...
1.2 Lí do chọn đề tài
Tiếng Việt là ngôn ngữ thuộc hệ đơn lập, không biến hình. Về mặt hình thức một từ có thể được cấu tạo bới một hoặc nhiều âm tiết ghép lại. Khoảng trắng chỉ dùng để phân cách các âm tiết với nhau. Để có thể tiến tới các xử lý xa hơn về xử lý ngôn ngữ tự nhiên trước hết ta phải làm tốt bài toán phân đoạn từ. Từ là đơn vị cơ bản nhất để phân tích cú pháp, ngữ nghĩa của ngôn ngữ. Cho đến nay, đã có rất nhiều công trình nghiên cứu về phân đoạn từ tiếng Việt với những kết quả khả quan. Tuy nhiên các vấn đề như: hiện tượng phát sinh từ mới, sự nhập nhằng ngữ nghĩa, v.v...đã ảnh hưởng không ít đến chất lượng phân đoạn từ. Vì vậy phân đoạn từ tiếng Việt vẫn là chủ đề được nhiều nhà nghiên cứu quan tâm và là động lực của luận văn này.
1.3 Mục tiêu và phạm vi nghiên cứu
Chúng tôi đặt ra mục tiêu nghiên cứu chính của luận văn là xây dựng một mô hình phân đoạn từ tiếng Việt dựa trên mô hình lai kết hợp nhiều phương pháp nhằm tăng cường độ chính xác khi phân đoạn từ.
Phạm vi của đề tài tập trung nghiên cứu phân đoạn từ trên văn bản tiếng Việt. Với đầu vào là một văn bản tiếng Việt, đầu ra là một văn bản tiếng Việt đã được phân đoạn thành các từ.
2. Nội dung
2.1 Cơ sở lí thuyết
Cơ sở lý thuyết về ngôn ngữ
- Phân loại ngôn ngữ
- Đơn vị chủ yếu của ngôn ngữ
- Cấu trúc của đơn vị từ tiếng Việt
- Từ vựng tiếng Việt
- Vấn đề nhập nhằng nghĩa của từ
Cơ sở lý thuyết về ngôn ngữ học thống kê
- Tổng quan về ngôn ngữ học thống kê
- Một số lý thuyết xác suất thống kê trong xử lý ngôn ngữ
2.2 Giới thiệu mô hình MMSeg
Tổng quan về MMSeg
Áp dụng MMSeg vào tiếng Việt
Đánh giá MMSeg trên ngôn ngữ tiếng Việt
2.3 Mô hình đề xuất
Mô hình phân đoạn từ
Thiết kế giải thuật
- Giải thuật tiền xử lý văn bản
- Giải thuật phân đoạn từ
Từ điển và kho ngữ liệu
Thực nghiệm
3. Kết luận
Luận văn đã nghiên cứu và đưa ra một mô hình phân đoạn từ tiếng Việt. Bước đầu luận văn đã
thu được một số kết quả sau:
- Xây dựng được một từ điển danh từ riêng với 1.068.435 tên. Trong đó có 1,065,613 tên người và 2,822 tên địa danh ở Việt Nam.
- Xây dựng được một kho ngữ liệu gồm có 3.356 bài báo chứa trong 26Mb dữ liệu.
- Thực nghiệm và đánh giá hệ thống MMSeg trên ngôn ngữ tiếng Việt với ngữ liệu gồm 10,000 câu trích từ VietTreebank.
- Xây dựng một mô hình phân đoạn từ cho tiếng Việtdựa trên mô hình lai sử dụng nhiều phương pháp tích hợp: phương pháp dựa trên từ điển, phương pháp dựa trên thống kê, phương pháp so trùng mẫu và phương pháp phân giải nhập nhằng dựa trên các luật.
4. Tài liệu tham khảo
Trần Ngọc Anh, Nguyễn Nhật An. (2011). Lựa chọn tập gán nhãn ranh giới từ cho mô hình Markov ẩn trong bài toán tách từ tiếng Việt.
Luu Tuan Anh, Yamamoto Kazuhide. (2012). A pointwise approach for Vietnamese Diacritics Restoration. 2012 International Conference on Asian Language Processing, pp.189 – 192.
Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen. (2012). An effective context-based method forVietnamese-word segmentation. IEEE 9th, pp.34-40.
Dương Hữu Biên. (2010). Giáo trình cơ sở ngôn ngữ học, ĐH Đà Lạt....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---
Tham khảo thêm
- pdf Luận văn ThS: Bài toán xác định vị trí của một điểm so với đa giác và ứng dụng trong bản đồ số
- pdf Luận văn ThS: Dự báo chuỗi thời gian mờ dựa trên đại số gia tử với mô hình ngữ nghĩa định lượng tối ưu và ứng dụng
- pdf Luận văn ThS: Nghiên cứu nhận dạng biển số xe ô tô Cộng hòa dân chủ nhân dân Lào
- pdf Luận văn ThS: Nghiên cứu một số kỹ thuật tạo chuyển động theo điểm điều khiển trong thực tại ảo
- pdf Luận văn ThS: Nghiên cứu mô hình người sử dụng mở trong các hệ thống gợi ý thông tin theo nhu cầu
- pdf Luận văn ThS: Phương pháp xây dựng cây quyết định dựa trên tập phụ thuộc hàm xấp xỉ
- pdf Luận văn ThS: Xác định vùng tìm kiếm trên hình ảnh địa hình và ứng dụng
- pdf Luận văn ThS: Hiển thị ảnh DICOM trong y tế theo thành phần
- pdf Luận văn ThS: Điều khiển dựa trên đại số gia tử với phép ngữ nghĩa hóa và giải nghĩa mở rộng
- pdf Luận văn ThS: Sử dụng công nghệ GIS để phân tích dữ liệu và dự báo sản lượng chè của tỉnh Thái Nguyên
- pdf Luận văn ThS: Nghiên cứu một số phương pháp bảo đảm an toàn thông tin trong mạng máy tính
- pdf Luận văn ThS: Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh
- pdf Luận văn ThS: Tích hợp và dung hòa các ý kiến trong hệ trợ giúp quyết định đa tiêu chuẩn ngôn ngữ với thông tin trọng số không đầy đủ
- pdf Luận văn ThS: Nghiên cứu kỹ thuật Rainbow- Crack thám khóa mã RC4 và ứng dụng
- pdf Luận văn ThS: Cụm dữ liệu và ứng dụng trong phân tích lương của cán bộ trường Cao đẳng Nghề Hà Nam
- pdf Luận văn ThS: Kỹ thuật Datamining để khuyến nghị khách hàng trong hệ thống BI - Business Intelligence
- pdf Luận văn ThS: Tích hợp cơ sở dữ liệu quan hệ XML
- pdf Luận văn ThS: Kỹ thuật phân cụm dữ liệu trong phát hiện xâm nhập trái phép
- pdf Luận văn ThS: Phương pháp tối ưu đàn kiến dóng hàng hai đồ thị
- pdf Luận văn ThS: Nghiên cứu một số phương pháp cơ bản về nhận dạng mặt người trong ảnh và ứng dụng
- pdf Luận văn ThS: Xây dựng vùng đệm trong hệ thống thông tin địa lý sử dụng logic mờ
- pdf Luận văn ThS: Nghiên cứu sự ảnh hưởng của bộ tâm nội suy đến độ chính xác của xấp xỉ đạo hàm dựa trên nội suy hàm cơ sở bán kính
- pdf Luận văn ThS: Bảo vệ bản quyền ảnh màu kỹ thuật số bằng lược đồ thủy vân dựa vào phép biến đổi DFT kết hợp với phép biến đổi SIFT
- pdf Luận văn ThS: Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng Việt
- pdf Luận văn ThS: Phát hiện lỗi sản phẩm trên dây chuyền đóng chai nước bằng xử lý ảnh
- pdf Luận văn ThS: Khôi phục ảnh bằng tối ưu độ tương tự cục bộ
- pdf Luận văn ThS: Tối ưu bảng cụm từ để cải tiến dịch máy thống kê
- pdf Luận văn ThS: Giấu tin trong file âm thanh bằng các phép biến đổi rời rạc
- pdf Luận văn ThS: Một số thuật toán chọn lọc và ứng dụng trong tin học phổ thông
- pdf Luận văn ThS: Một số thuật toán tìm core và ứng dụng trong phân tích mạng xã hội
- pdf Luận văn ThS: Nội suy ảnh trong hỗ trợ chẩn đoán hình ảnh
- pdf Luận văn ThS: Tối ưu hóa phân bổ và định giá đất đai theo thuật toan di truyền định hướng không gian
- pdf Luận văn ThS: Đề tài nhận dạng khuôn mặt trong hỗ trợ công tác quản lý tiếp dân
- pdf Luận văn ThS: Tìm hiểu khả năng an toàn của hệ mật mã RSA
- pdf Luận văn ThS: Tạo lập hệ luật mờ sử dụng phân cụm trừ mờ dữ liệu
- pdf Luận văn ThS: Giải pháp kết hợp công nghệ tính toán mềm với phương pháp lập luận mờ dựa trên đại số gia tử có tham số hiệu chỉnh
- pdf Luận văn ThS: Mạng Noron Wavelet và ứng dụng cho dự báo chứng khoán
- pdf Luận văn ThS: Xây dựng hệ thống truy vấn video nông nghiệp hướng ngữ nghĩa có sử dụng Ontology
- pdf Luận văn ThS: Tối ưu hoá truy vấn trong hệ cơ sở dữ liệu phân tán
- pdf Luận văn ThS: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa
- pdf Luận văn ThS: Rút trích tri thức ngữ nghĩa từ tên thể loại Wikipedia
- pdf Luận văn ThS: Nghiên cứu mạng nơron nhân tạo và ứng dụng vào trao đổi khóa bí mật
- pdf Luận văn ThS: Xây dựng Ontology từ kho ngữ liệu dạng văn bản
- pdf Luận văn ThS: Ứng dụng GIS phục vụ công tác quản lý cầu tại TP Hồ Chí Minh
- pdf Luận văn ThS: Ứng dụng đồ thị euler tối ưu hóa bài toán tìm đường đi ngắn nhất
- pdf Luận văn ThS: Nghiên cứu về chuyển đổi lược đồ cơ sở dữ liệu quan hệ sang cơ sở dữ liệu NoSQL
- pdf Luận văn ThS: Trích chọn đặc trưng kết cấu màu cục bộ cho bài toán nhận dạng ảnh màu mặt người
- pdf Luận văn ThS: Thuật toán hiệu quả cho khai thác tăng trưởng các mô hình duyệt web
- pdf Luận văn ThS: Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu bị sửa đổi