Luận văn tốt nghiệp: Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt

Luận văn Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt giới thiệu tổng quan về hệ thống Search Engine, bộ thu thập thông tin, bộ lập chỉ mục, bộ tìm kiếm thông tin, xây dựng ứng dụng thử nghiệm.

Luận văn tốt nghiệp: Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt

1. Mở đầu

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Tuy nhiên tồn tại một nghịch lý là dù được ví như thư viện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xung quanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữa con người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có thể giao tiếp tốt với nhau. Hơn nữa, mỗi search engine sẽ mang đặc thù của ngôn ngữ mà nó hiển thị như search engine Tiếng Việt phải giải quyết những vấn đề đặc trưng của Tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp trong Tiếng Việt. Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine sẽ tiếp cận thì ta có thể tối ưu hoá cơ hội nhận được các thông tin hữu ích. Đây là mục tiêu chính của luận văn.

2. Nội dung

2.1 Tổng quan về hệ thống Search Engine

Các bộ phận cấu thành hệ thống Search Engine

  • Bộ thu thập thông tin – Robot
  • Bộ lập chỉ mục – Index
  • Bộ tìm kiếm thông tin – Search Engine

Nguyên lý hoạt động

2.2 Bộ thu thập thông tin – Robot

Ứng dụng của Robot

  • Phân tích, thống kê – Statistical Analysis
  • Duy trì siêu liên kế - Maintenance
  • Ánh xạ địa chỉ web - Mirroring
  • Phát hiện tài nguyên – Resource Discovery
  • Kết hợp các công dụng trên- Combined uses

Robot chỉ mục – Robot Indexing

Các chiến thuật thu thập dữ liệu

  • Chiến thuật tìm kiếm theo chiều sâu
  • Chiến thuật tìm kiếm theo chiều rộng
  • Chiến thuật tìm kiếm theo ngẫu nhiên

Những vấn đề cần lưu ý của web robot

  • Chi phí và hiểm hoạ
  • Tiêu chuẩn loại trừ robot

2.3 Bộ lập chỉ mục – Index

Khái quát về hệ thống lập chỉ mục

Tổng quan về phương pháp lập chỉ mục

  • Xác định mục từ quan trọng cần lập chỉ mục
  • Một số hàm tính trọng số mục từ
  • Lập chỉ mục tự động cho tài liệu

Lập chỉ mục cho tài liệu tiếng Việt

  • Khó khăn cho việc lập chỉ mục tiếng Việt
  • Đặc điểm về từ trong tiếng Việt và việc tách từ
  • Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả)
  • Giải quyết các vấn đề về từ của tiếng Việt
  • Xây dựng từ điển tiếng Việt

2.4 Bộ tìm kiếm thông tin – Search Engine

Vì sao ta cần một công cụ tìm kiếm (SE)?

Các phương thức tìm kiếm

  • Tìm theo từ khoá – Keyword searching
  • Những khó khăn khi tìm theo từ khoá
  • Tìm theo ngữ nghĩa – Concept-based searching

Các chiến lược tìm kiếm

  • Tìm thông tin với các thư mục chủ đề
  • Tìm thông tin với các công cụ tìm kiếm
  • Tối ưu câu truy vấn
  • Truy vấn bằng ví dụ

2.5 Một số Search Engine thông dụng trên thế giới và Việt Nam

Một số search engine thông dụng trên thế giới

  • Thư mục của Yahoo, Google
  • Alltheweb
  • AltaVista
  • Lycos
  • HotBot

Một số search engine thông dụng ở Việt Nam

  • Netnam
  • Vinaseek

2.6 Thiết kế dữ liệu

Cơ sở dữ liệu trong SQL

Hệ thống tập tin

2.7 Thu thập thông tin

Cấu trúc dữ liệu

  • Cấu trúc UrlInfo
  • Cấu trúc StartUrlInfo
  • Cấu trúc FileRetrieval
  • Cấu trúc ProjectInfo

Xử lý của web robot

Giải quyết các vấn đề của web robot

  • Tránh sự lặp lại
  • Tránh làm qúa tải server
  • Tránh truy xuất đến các dạng tài nguyên không thích hợp
  • Tránh các lỗ đen (black holes)
  • Tránh những nơi cấm robot

Các thuật toán phân tích cấu trúc file HTML

  • Thuật toán lấy liên kết
  • Thuật toán lấy tiêu đề
  • Thuật toán lấy nội dung

Duy trì thông tin cho cơ sở dữ liệu

Resume project

  • Nguyên tắc resume của ứng dụng cũ
  • Cải tiến của ứng dụng mới

2.8 Lập chỉ mục

Tính trọng số của từ

Tập tin nghịch đảo

Từ điển chỉ mục

Quá trình stemming

2.9 Các module, package, lớp chính của chương trình

Các module, package của chương trình

Các lớp đối tượng chính trong từng module

3. Kết luận

Về cơ bản luận văn đã thực hiện tốt các nội dung đề ra và đạt được một số kết quả nhất định :

  • Luận văn đã trình bày cơ sở lý thuyết về nguyên lý vận hành của một hệ thống search engine.
  • Tìm hiểu các phương thức và chiến lược trong việc thiết kế từng module cụ thể cho hệ thống.
  • Tìm hiểu các vấn đề đặc trưng của một hệ thống thu thập thông tin hoạt động trên môi trường mạng. Đề xuất một vài giải pháp xử lý những khó khăn của webrobot.
  • Tìm hiểu các vấn đề đặc trưng của một hệ thống search engine tiếng Việt. Đề xuất một vài giải pháp đơn giản để xử lý những vấn đề khó khăn của tiếng Việt.
  • Tìm hiểu hoạt động, thống kê một số đặc trưng và cách sử dụng của một số search engine thông dụng trên thế giới và Việt Nam
  • Tìm hiểu cơ bản về Semantic Search Engine
  • Xây dựng ứng dụng thử nghiệm cho một hệ thống search engine tiếng Việ

4. Tài liệu tham khảo

Gerard Salton, Michael J.McGill, Introduction to Modern Information Retrieval

C.J. van Rijsbergen , Department of Computing Science University of Glasgow, Information Retrieval

Huỳnh Thụy Bảo Trân. Luận án thạc sĩ khoa học. Nghiên cứu một số mô hình và xây dựng thử nghiệm một search engine Tiếng Việt. Người hướng dẫn khoa học : GS.TS.Hoàng Văn Kiếm.

Đoàn Hữu Quang Vinh. Luận văn cử nhân tin học. Xây dựng công cụ hỗ trợ quá trình tiền xử lý cho hệ thống search engine. GVHD : Huỳnh Thụy Bảo Trân.

Bùi Ngọc Tuấn Anh, Trần Nguyễn Hoàng Phương. Luận văn cử nhân tin học. Nghiên cứu một số thuật toán tra cứu thông tin trên Internet và cài đặt thử nghiệm. GVHD: Hồ Bảo Quốc...

--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---

Ngày:25/08/2020 Chia sẻ bởi:Oanh

CÓ THỂ BẠN QUAN TÂM