Luận văn: Nhận dạng ngôn ngữ

Luận văn Nhận dạng ngôn ngữ tập trung nghiên cứu (Recognition of language) tự nhiên dựa vào phân hoạch không gian (hay nhận dạng theo thống kê toán học), trong đó một lớp ngôn ngữ tiêu biểu được nghiên cứu đó là Tiếng anh

Luận văn: Nhận dạng ngôn ngữ

1. Mở đầu

Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc trong xã hội và trong cuộc sống của chúng ta. Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực chính trị, quân sự, quốc phòng, kinh tế, thương mại… Và chính trong môi trường mở và tiện nghi như thế xuất hiện những vấn nạn, tiêu cực đang rất cần đến các giải pháp hữu hiệu cho vấn đề an toàn thông tin như nạn xuyên tạc thông tin

2. Nội dung

2.1 Tổng quan về nhận dạng

Tổng quan về nhận dạng

Nhận dạng (pattern recognition) là một ngành thuộc lĩnh vực học máy (machine learning). Nhận dạng nhằm mục đích phân loại dữ liệu (là các mẫu) dựa trên: hoặc là kiến thức tiên nghiệm (a priori) hoặc dựa vào thông tin thống kê được trích rút từ các mẫu có sẵn. Các mẫu cần phân loại thường được biểu diễn thành các nhóm của các dữ liệu đo đạc hay quan sát được, mỗi nhóm là một điểm ở trong một không gian đa chiều phù hợp. Đó là không gian của các đặc tính để dựa vào đó ta có thể phân loại. Quá trình nhận dạng dựa vào những mẫu học biết trước gọi là nhận dạng có thầy hay học có thầy (supervised learning); trong trường hợp ngược lại là học không có thầy (unsupervised learning).

Nhận dạng dựa trên phân hoạch không gian

Trong kỹ thuật này, các đối tượng nhận dạng là các đối tượng định lượng, mỗi đối tượng được biểu diễn bởi một vectơ nhiều chiều. Trước tiên, ta xem xét một số khái niệm như: phân hoạch không gian, hàm phân biệt sau đó sẽ đi vào một số kỹ thuật

2.2  Ứng dụng lý thuyết thống kê toán học đề giải bài toán nhận dạng ngôn ngữ tự nhiên

Kỹ thuật nhận dạng bằng thống kê toán học có nhiều ý nghĩa trong nghiên cứu và thực tiễn. Nó không những được ứng dụng trong nhận dạng ngôn ngữ mà còn đối với hình ảnh, âm thanh, tiếng nói v.v... Trong phạm vi nghiên cứu này, tác giả trình bày một ứng dụng quan trọng. Đó là ứng dụng kỹ thuật thống kê Toán học để nhận dạng các ngôn ngữ tự nhiên (lớp ngôn ngữ la tinh)

Dạng tổng quát của bài toán

Một số khái niệm và thuật toán

Mô hình xích Markov và phép kiểm định thống kê cho bài toán nhận dạng ngôn ngữ

2.3 Xây dựng thuật toán giấu tin 

Bài toán

Thuật toán

Phần on-line

Thuật toán NSAS

3. Kết luận

Từ thuật toán này ta có thể mở rộng ra tính toán nhận dạng bản rõ Tiếng Pháp, Tiếng Đức… và các ngôn ngữ la tinh và phi la tinh khác. Ta thấy vấn đề khó khăn nhất của việc xây dựng thuật toán chính là phần offline hay là xây dựng được ma trận tần số bộ đôi móc xích (B1) của ngôn ngữ cần nhận dạng (cái này đòi hỏi sự hiểu biết về ngôn ngữ để chọn lựa các mẫu tính toán và thơi gian công sức lớn). Vì độ chính xác càng cao thì độ chính xác của bảng đối sánh giữa các ngôn ngữ càng cao (B1). Khi đó, thuật toán tính toán cho ra một kết quả tốt hơn chỉ với dãy mẫu ngắn; giúp cho hệ thống chạy nhanh khi với số lượng mẫu khổng lồ

4. Tài liệu tham khảo

Lương Mạnh Bá, Nguyễn Thanh Thuỷ, Nhập môn xử lý ảnh số, Nhà xuất bản khoa học và kỹ thuật, 1999. tr.154-170.
Hồ Văn Canh, Phạm Quốc Doanh, Thuật toán nhận dạng các ngôn ngữ tự nhiên, 2002. tr. 3-20

-- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Công nghệ thông tin trên--

Ngày:19/08/2020 Chia sẻ bởi:Denni

CÓ THỂ BẠN QUAN TÂM