Luận văn ThS: Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu
Luận văn Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu nghiên cứu cơ sở lý thuyết các khái niệm về protein, cấu trúc protein trong sinh học, nhằm phục vụ cho việc khai thác các thuộc tính của chúng sử dụng trong tính toán; nghiên cứu cơ sở lý thuyết về các kỹ thuật khai phá dữ liệu (nói chung) và kỹ thuật phân lớp dữ liệu (nói riêng), làm cơ sở cho xây dựng chương trình thực nghiệm và chứng minh tính đúng đắn của kết quả thực nghiệm.
Mục lục nội dung
1. Mở đầu
1.1 Lí do chọn đề tài
Vào thời điểm bắt đầu nghiên cứu về tương tác protein – protein, các nhà khoa học thường sử dụng phương pháp hóa sinh để phân tích và dự đoán. Tuy nhiên các phương pháp thực nghiệm này đắt tiền, tốn nhiều thời gian, công sức, và nhiều khi rất khó để thực hiện. Vì vậy nên yêu cầu cấp thiết được đặt ra là dự đoán bằng cách áp dụng khai phá dữ liệu và phát triển các mô hình tính toán tự động để đạt hiệu quả cao, nhanh hơn như là sự bổ sung cho các phương pháp thực nghiệm. Theo thời gian, số lượng ngày càng tăng của tập các cặp protein – protein tương tác với nhau (và tập không tương tác) đã được thực nghiệm xác định. Sự tích lũy dữ liệu về tương tác protein – protein bằng thực nghiệm đem lại lợi thế về mặt đầy đủ thông tin để có thể tính toán dự đoán được thêm các tương tác protein – protein mới.
1.2 Mục tiêu đề tài
Trong khuôn khổ luận văn này, tôi trình bày một phương pháp tính toán cho dự đoán tương tác protein – protein khác với các phương pháp phân lớp truyền thống, đó là xây dựng mô hình phân lớp theo hướng áp dụng thuật toán phân lớp tổng hợp, hay là sự kết hợp mô hình các bộ phân lớp đơn lẻ yếu hơn thành một mô hình mạnh, nhằm đạt được hiệu quả phân lớp tối ưu. Với bài toán như trên, đặt ra mục tiêu cho đề tài là tìm hiểu và xây dựng thành công một mô hình dự đoán tương tác protein-protein dựa trên thuật toán phân lớp tổng hợp, là phương pháp đã được chứng minh là tốt hơn thuật toán phân lớp đơn lẻ truyền thống, từ đó làm tiền đề áp dụng vào thực tế triển khai nghiên cứu dự đoán tương tác protein – protein một cách hiệu quả nhất.
2. Nội dung
2.1 Cơ sở lí thuyết
Các khái niệm liên quan đến protein
- Cấu trúc Protein
- Chức năng của Protein
- Định nghĩa quan hệ tương tác protein – protein (PPI)
- Tầm quan trọng của tương tác protein – protein
Khái niệm cơ bản về khai phá dữ liệu
- Định nghĩa về khai phá dữ liệu
- Định nghĩa về học có giám sát
- Khái niệm về thuật toán phân lớp trong học có giám sát
- Bài toán phân lớp
- Tổng quan về một số thuật toán phân lớp cơ bản
- Kết hợp các bộ phân lớp
- Một số phương pháp kết hợp các bộ phân lớp cơ bản
- Đánh giá mô hình phân lớp
2.2 Dự đoán tương tác protein - protein
Mô hình dự đoán tương tác protein – protein
Xây dựng mô hình thực nghiệm
- Xây dựng bộ dữ liệu
- Trích xuất thuộc tính/ đặc trưng
- Lựa chọn thuộc tính/ đặc trưng
- Phân lớp đặc trưng
2.3 Kết quả thực nghiệm và kết luận
Chương trình cài đặt
- Yêu cầu cấu hình
- Cài đặt
Kết quả dự đoán tương tác protein – protein
Nhận xét
3. Kết luận
Luận văn đã đạt được hai kết quả quan trọng trong quá trình xây dựng chương trình dự đoán tương tác protein - protein sử dụng kỹ thuật khai phá dữ liệu.
- Về nghiên cứu tìm hiểu: Nghiên cứu các khái niệm sinh học liên quan protein, cấu trúc protein. Nghiên cứu các khái niệm khai phá dữ liệu nền tảng liên quan đến kỹ thuật phân lớp dữ liệu. Tìm hiểu tổng quan về một số thuật toán phân lớp cơ bản. Tìm hiểu về phương pháp phân lớp tổng hợp (ensemble) và một số phương pháp kết hợp các bộ phân lớp cơ bản. Tìm hiểu các khái niệm về đánh giá mô hình phân lớp
- Về thực nghiệm: Xây dựng được chương trình dự đoán tương tác protein - protein bằng phương pháp phân lớp tổng hợp. Xây dựng được hàm đánh giá và so sánh kết quả thực nghiệm giữa phương pháp phân lớp tổng hợp và phân lớp đơn lẻ. Tiến hành thử nghiệm trên nhiều tập dữ liệu ngẫu nhiên khác nhau để đảm bảo tính chính xác khách quan
- Xây dựng giao diện trực quan, dễ dàng sử dụng cho người dùng
Luận văn đã giới thiệu phương pháp áp dụng mô hình phân lớp tổng hợp vào nghiên cứu dự đoán tương tác protein - protein. Cũng như chứng minh được về mặt lý thuyết và thực nghiệm rằng phương pháp áp dụng mô hình phân lớp tổng hợp này ưu việt hơn giải thuật mô hình phân lớp đơn lẻ, có độ chính xác cao hơn và độ ổn định tốt hơn.
4. Tài liệu tham khảo
R. E. H. Geoffrey M. Cooper (2004). The Cell: A Molecular Approach, 832 pages.
P. J. Chaput (2012).[online] Available at: http://www.futura-sciences.com/sante/ actualites/medecine-alzheimer-parkinson-nouvelle-piste-300-maladies- 35922/ [Accessed 12 September 2017]
D. Whitford (2005). Proteins : Structure and Function, 542 pages.
R. Bailey (2017). [online] Available at: https://www.thoughtco.com/protein- function-373550 [Accessed 12 September 2017]
G. Filiano (2016). [online]. Available at: http://sb.cc.stonybrook.edu/news/ general/2016-07-12-new-method-to-model-protein-interactions-may-help-accelerate-drug-development. php [Accessed 12 September 2017]....
--- Nhấn nút TẢI VỀ hoặc XEM ONLINE để tham khảo đầy đủ nội dung Luận văn Thạc sĩ trên ---
Tham khảo thêm
- pdf Luận văn ThS: Nghiên cứu tìm hiểu thực trạng về an ninh mạng và biện pháp khắc phục
- pdf Luận văn ThS: Đánh giá dự án đầu tư và lập lịch quản lý dự án tự động
- pdf Luận văn ThS: Ứng dụng kho dữ liệu và webservice để tích hợp dữ liệu xây dựng hệ thống báo cáo thống kê tại trường Cao đẳng Nghề số 3 BQP
- pdf Luận văn ThS: Tra cứu ảnh dựa trên nội dung sử dụng nhiều đặc trưng và phản hồi liên quan
- pdf Luận văn thS: Xây dựng hệ thống tìm kiếm âm thanh theo nội dung dựa trên đặc trưng miền tần số
- pdf Luận văn ThS: Học bán giám sát trên đồ thị với ứng dụng tra cứu ảnh
- pdf Luận văn ThS: Chiến lược thiết kế lĩnh vực và ứng dụng phần mềm quản lý người dùng tập trung
- pdf Luận văn ThS: Công nghệ ảo hóa Docker và ứng dụng tại Đại học Dân lập Hải Phòng
- pdf Luận văn ThS: Xây dựng hệ thống quản lý dữ liệu video tại Đài phát thanh và truyền hình Hải Phòng bằng phương pháp hướng đối tượng, ứng dụng mẫu thiết kế
- pdf Luận văn ThS: Nghiên cứu đề xuất thuật toán mã hóa văn bản có độ bảo mật cao trên cơ sở mật mã truyền thống
- pdf Luận văn ThS: Nghiên cứu xử lý các đoạn video để trợ giúp phát triển tư duy học sinh
- pdf Luận văn ThS: Cải tiến công cụ SEO Panel
- pdf Luận văn ThS: Xây dựng hệ thống quản lý, hỗ trợ yêu cầu phần mềm
- pdf Luận văn ThS: Giải pháp backup dữ liệu, sử dụng cơ chế phân cụm động trong mạng ngang hàng có cấu trúc
- pdf Luận văn ThS: Nghiên cứu, ứng dụng công nghệ Blockchain trong thanh toán di động
- pdf Luận văn ThS: Tích hợp nghiệp vụ dựa trên công nghệ ESB Middleware
- pdf Luận văn ThS: Nghiên cứu và xây dựng ứng dụng giám sát hành trình trên điện thoại di động
- pdf Luận văn ThS: Mật mã dòng trong mật mã nhẹ và triển vọng trong IoT
- pdf Luận văn thS: Các phương pháp dự đoán khả năng ức chế bệnh dựa trên các biểu diễn khác nhau của RNA và ứng dụng
- pdf Luận văn ThS: Nghiên cứu và đánh giá các phương pháp tổng hợp dữ liệu cho bài toán phân loại lớp phủ đô thị tại Việt Nam
- pdf Luận văn ThS: Nghiên cứu và đánh giá các phương pháp nội suy ảnh viễn thám cho bài toán phân loại lớp phủ đô thị tại việt Nam
- pdf Luận văn ThS: Mô hình 3D và tối ưu hóa mô hình trong thực tại ảo
- pdf Luận văn ThS: Phát hiện bất thường bằng phân tích Tensor để nhận biết xung động kinh trong dữ liệu điện não
- pdf Luận văn ThS: Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm
- pdf Luận văn ThS: Truy hồi chéo mô hình cho nhạc và lời bài hát
- pdf Luận văn ThS: Nghiên cứu giải pháp tự động phát hiện sự có hệ thống dựa trên công nghệ ELK
- pdf Luận văn ThS: Phân tích đột biến trong kiểm thử phần mềm và áp dụng trong kiểm thử ứng dụng Android
- pdf Luận văn ThS: Nghiên cứu và ứng dụng học máy trong phân lớp lúa sử dụng ảnh viễn thám
- pdf Luận văn ThS: Nghiên cứu hệ thống trợ lý thông minh ảo
- pdf Luận văn ThS: Nghiên cứu và phát triển phương pháp phân lớp lúa ở đồng bằng sông Hồng sử dụng ảnh vệ tinh Landsat 8
- pdf Luận văn ThS: Nghiên cứu tính khả dụng của các hệ thống thông tin doanh nghiệp dựa trên dịch vụ web
- pdf Luận văn ThS: Nghiên cứu mô hình kiểm soát truy xuất cho dữ liệu lớn