Đồ án: Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt
Đồ án Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt giới thiệu tổng quan về bài toán thêm dấu cho văn bản tiếng Việt; giới thiệu mô hình dịch máy thống kê cho bài toán thêm dấu cho văn bản tiếng Việt và thực nghiệm.
Mục lục nội dung
1. Mở đầu
Chữ viết tiếng Việt của chúng ta có có sự xuất hiện của các dấu thanh dấu của các ký tự. Điều này giúp cho tiếng Việt “thêm thanh, thêm điệu”. Tuy nhiên, chính việc “thêm thanh, thêm điệu” làm cho việc gõ tiếng Việt trở nên tốn nhiều thời gian hơn. Trong cuộc sống hêịn đại ngày nay, việc sử dụng các ứng dụng công nghệ thông tin để trai đổi và truyền thông tin càng trở nên phổ biến. Hàng ngày chúng ta đọc và nhận được rất nhiều e-mail, blog, những tin nhắn messenger... nhưng một số trong đó lại được truyền bởi chữ Việt không dấu. Chúng ta thật là vất vả khi phải vừa đọc vừa đoán nội dung. Chính vì vậy phát triển một công cụ giúp thêm dấu tiếng Việt vào văn bản không dấu là việc rất cần thiết và thú vị.
2. Nội dung
2.1 Tổng quan về bài toán
Phát biểu bài toán
Đặc điểm
Giới thiệu công trình đã có
- AMPad
- VietPad
- viAccent
- VietMarker
- Hướng tiếp cận trong đề tài
2.2 Giới thiệu mô hình dịch máy thống kê
Giới thiệu
Nguyên lí và các thành phần
- Mô hình ngôn ngữ
Mô hình dịch
- Sự gióng hàng
Giải mã (Decode)
- Translation Options
- Thuật toán cơ bản (Core Algorithm)
- Kết hợp lại các giả thuyết (Recombining Hypotheses)
- (Beam Search)
- (N-Best Lists Generation)
2.3 Thực nghiệm
Cấu hình và hệ điều hành
Các công cụ sử dụng.
- Bộ công cụ xây dựng mô hình ngôn ngữ - SRILM
- Bộ công cụ xây dựng mô hình dịch máy thống kê – MOSES
- Các bước huấn luyện dich và kiểm tra
- Chuẩn hóa dữ liệu
- Xây dựng mô hình ngôn ngữ
- Huấn luyện mô hình
- Kết quả dịch
- Đánh giá kết quả dịch
3. Kết luận
Về lý thuyết:
- Tìm hiểu về bài toán thêm dấu cho văn bản tiếng Việt chưa có dấu
- Tìm hiểu, nghiên cứu mô hình dịch máy thống kê với tiếp cận cho bài toán thêm dấu cho văn bản tiếng Việt
Về thực nghiệm:
- Sử dụng bộ công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mô hình dịch máy thống kê. Cài đặt và ứng dụng được mô hình dịch máy thống kê cho bài toán bỏ dấu tiếng Việt
- Đánh giá kết quả
4. Tài liệu tham khảo
Thắng, Tô Hồng. NGRAM. s.l. : Khóa luận tốt nghiệp Trường đại học Công Nghệ, 2007.
Thắng, Tô Hồng. Building language model for vietnamese and its application, graduation thesis. 2008.
Brown, P. F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J. D., Mercer R. L., and Roossin P. S. A statistical approach to machine translation. s.l. : Computational Linguistics, 1990.
http://www.statmt.org/moses/
MOSES Statistical Machine Translation System User Manual and Code Guide. Philipp Koehn pkoehn@inf.ed.ac.uk University of Edinburgh
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Đồ án trên ---