Luận văn ThS: Xây dựng hệ thống phát hiện những xu hướng nổi lên trên mạng xã hội sử dụng tiếng Việt
Luận văn Xây dựng hệ thống phát hiện những xu hướng nổi lên trên mạng xã hội sử dụng tiếng Việt tìm hiểu các nghiên cứu liên quan; cơ sở lí thuyết; đề xuất mô hình phát hiện xu hướng và thựuc nghiệm.
Mục lục nội dung
1. Mở đầu
1.1 Lí do chọn đề tài
Trong những năm gần đây mạng xã hội ngày càng phát triển mạnh mẽ ở Việt Nam cũng như trên thế giới. Theo một số liệu thống kê tháng 10 năm 2012 có gần 30 triệu người ở Việt Nam tham gia mạng xã hội, đến tháng 1 năm 2014 lên đến gần 40 triệu người ở Việt Nam tham gia mạng xã hội. Đây không những là nơi để con người trò chuyện, giải trí, kết nối bạn bè mà còn là một kênh cung cấp và chia sẽ thông tin giữa người sử dụng hoặc các doanh nghiệp, công ty muốn quảng cáo sản phẩm của mình. Sự phát triển nhanh chóng của mạng xã hội cũng kéo theo sự bùng nổ dữ liệu: khối lượng dữ liệu trực tuyến, thông tin chia sẽ trên mạng xã hội ngày càng trở nên khổng lồ. Đây là một nguồn thông tin rất hữu ích, được cập nhật liên tục. Với thực tế trên, vấn đề đặc ra là làm thế nào để có thể khai thác được những thông tin hữu ích này từ mạng xã hội. Các nguồn thông tin này phải được xử lý như thế nào để người dùng có thể phát hiện được những chủ đề được thảo luận phổ biến trên mạng xã hội.
1.2 Mục tiêu nghiên cứu
Đưa ra những cơ sở lý thuyết và hướng tiếp cận mới từ đó hình thành nên phương pháp xây dựng một hệ thống phát hiện những xu hướng nổi lên trên mạng xã hội.
2. Nội dung
2.1 Các nghiên cứu liên quan
Giới thiệu
Các phương pháp phát hiện xu hướng
- Phương pháp bán tự động (semi-automatic)
- Phương pháp tự động (automatic)
- Phương pháp phân tích cụm dựa trên ngữ cảnh
2.2 Cơ sở lí thuyết
Tiền xử lý văn bản
Vector trọng số tf-idf
Thuật toán k-means
Thuật toán HAC
Phương pháp tính khoảng cách khi gom cụm
- Giới thiệu về link - strength và correlation
- Kết hợp link - strength và correlation để tính khoảng cách
2.3 Mô hình phát hiện xu hướng đề xuất
Kiến trúc của hệ thống
Dữ liệu đầu vào
Phân đoạn dữ liệu theo thời gian
Tiền xử lý văn bản và Tìm từ khóa quan trọng
Phát hiện xu hướng
2.4 Thực nghiệm
Kết quả thí nghiệm
- Cách xây dựng tập dữ liệu thí nghiệm
- Kết quả thí nghiệm
Đánh giá
3. Kết luận
Trong hướng tiếp cận nghiên cứu này chúng tôi đưa ra một phương pháp mới, sử dụng phương pháp gom cụm (clustering) trong khai phá dữ liệu (data mining) kết hợp với thông tin thời gian (temporal information) để phát hiện những xu hướng nổi lên trên mạng xã hội. Những mục tiêu chính đạt được trong nghiên cứu này được tóm tắt như sau:
- Xây dựng thành phần tương tác với cơ sở dữ liệu của mạng xã hội, thành phần này chia khối lượng dữ liệu rất lớn của mạng xã hội thành nhiều phân đoạn theo thời gian.
- Xây dựng thành phần phát hiện những từ khóa quan trọng dùng kỹ thuật vector trọng số tf
- Xây dựng thành phần gom cụm các từ khóa quan trọng để hình thành nên các cụm chủ đề nổi lên. Kết hợp hai phương pháp gom cụm k-means và HAC để gom nhóm các từ khóa quan trọng tìm được ở bước áp dụng vector trọng số tf.
- Xây dựng thành phần xuất kết quả các xu hướng được phát hiện bởi hệ thống
4. Tài liệu tham khảo
A. Porter and . Detampel (1995), “Technology opportunities analysis” , Technological Forecasting and Social Change, vol. 49, pp. 237-255
A. Popescul, G. Flake, S. L. S., L. Ungar, and C. Giles (2000), “Clustering and identifying temporal trends in document databases”, IEEE Advances in Digital Libraries, pp. 173-182
Ceren Budak, Divyakant Agrawal and Amr El Abbadi (2011), “Structural Trend Analysis for Online Social Networks”, Proceedings of the VLDB Endowment,Vol. 4, (No. 10), Pages 646-656
Cuneyt Gurcan Akcora, Murat Ali Bayir and Murat Demirbas. Trend sensing via Twitter. International Journal of Ad Hoc and Ubiquitous Computing, List of Issues, Volume 14, Issue 1, 2013, pages 16 - 26.....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn trên ---
Tham khảo thêm
- pdf Luận văn: Tìm hiểu và so sánh các kỹ thuật mã hóa trong kết nối VPN
- pdf Luận văn ThS: Phát triển tính năng loại bỏ dữ liệu trùng lặp - Data Deduplication cho dữ liệu đính kèm trong hệ thống thư điện tử sử dụng phần mềm hMailServer
- pdf Luận văn ThS: Nghiên cứu kỹ thuật chuyển đổi Dual stack 6VPE từ IPv4 sang IPv6 và mô phỏng cấu hình chuyển đổi trên môi trường mạng IP MPLS
- pdf Luận văn ThS: Phân tích tự động các Website để phát hiện lỗ hổng tiêm nhiễm SQL và XSS
- pdf Luận văn ThS: Nghiên cứu kỹ thuật dự báo thời tiết tại một khu vực có phạm vi nhỏ dựa trên cường độ tín hiệu GPS qua các thiết bị thu thông minh
- pdf Luận văn ThS: Các lừa đảo trên mạng máy tính và cách phòng tránh
- pdf Luận văn ThS: Chống tấn công tiêm nhiễm SQL sử dụng các khuôn mẫu hợp lệ theo bối cảnh
- pdf Luận văn ThS: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trên bộ dữ liệu sinh viên đại học phục vụ công tác cố vấn học tập
- pdf Luận văn ThS: Phát hiện tranh chấp trong mạng nội bộ không dây
- pdf Luận văn ThS: Phát hiện tình trạng giao thông dựa trên cơ sở dữ liệu hành vi người dùng điện thoại thông minh
- pdf Luận văn ThS: Nghiên cứu mạng phân phối nội dung (CDN) trên nền giao thức truyền đa đường
- pdf Luận văn ThS: Phát triển một hệ thống hỗ trợ chẩn đoán bệnh và đề xuất các hướng điều trị
- pdf Luận văn ThS: Nghiên cứu xây dựng mạng cảm biến không dây dựa trên giao thức LEACH và ZigBee
- pdf Luận văn ThS: Kỹ thuật điều khiển lưu lượng mạng trên hệ thống IP sử dụng công nghệ MPLS