Bài giảng Tin sinh học - Chương 4: Phép phân tích hệ thống cây phát sinh loài (Phylogeny Analysis) - ThS. Nguyễn Thành Luân

pdf 23 trang phuongnguyen 6830
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tin sinh học - Chương 4: Phép phân tích hệ thống cây phát sinh loài (Phylogeny Analysis) - ThS. Nguyễn Thành Luân", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_tin_sinh_hoc_chuong_4_phep_phan_tich_he_thong_cay.pdf

Nội dung text: Bài giảng Tin sinh học - Chương 4: Phép phân tích hệ thống cây phát sinh loài (Phylogeny Analysis) - ThS. Nguyễn Thành Luân

  1. 4/9/2013 TRƢỜNG ĐẠI HỌC CN THỰC PHẨM TPHCM KHOA CNSH & KTMT HỆ ĐẠI HỌC Chƣơng 4 Phép phân tích hệ thống cây phát sinh loài (Phylogeny Analysis) ThS. Nguyễn Thành Luân luannt@cntp.edu.vn Các ứng dụng thực tiễn Bioinformatics Bioinformatics 1
  2. 4/9/2013 Bioinformatics Câu hỏi Tại sao ngày nay vẫn còn tồn tại những động vật có cấu tạo phức tạp như động vật có xương sống bên cạnh động vật nguyên sinh có cấu tạo rất đơn giản? Bioinformatics Tìm hiểu các quan hệ loài Bioinformatics 2
  3. 4/9/2013 CÂY PHÁT SINH LOÀI LÀ GÌ? Miêu tả lịch sử tiến hóa của một nhóm loài với những đặc tính khác nhau nhưng có cùng mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên trong quá khứ PHYLOGENETIC TREE Bioinformatics Cây phát sinh loài (Phylogeny) Cây phát sinh loài „kể lại‟các thời điểm „lâu đời nhất‟ trong mối quan hệ loài từ 1 tổ tiên chung.  Biểu hiện tổ tiên chung cho tất cả các loài/gene trong cây phát sinh  Các loài gần nhau, có khoảng cách từ gốc đến ngọn sát nhau có thể là họ hàng „gần‟ của nhau trong 1 thời điểm ở quá khứ Bioinformatics Ý nghĩa cây phát sinh loài Phản ánh  Mức độ quan hệ giữa các nhóm loài sinh vật  Quá trình tiến hoá của các nhóm sinh vật từ thấp đến cao, từ đơn giản đến phức tạp.  Biết được số lượng của các nhóm động vật Bioinformatics 3
  4. 4/9/2013 Tác phẩm “Nguồn gốc các loài” Tác giả: Charles Darwin Xuất bản năm 1859 Giới thiệu giả thuyết các loài tiến hóa là kết quả của quá trình chọn lọc tự nhiên Quyển sách gây tranh cãi vì mâu thuẫn với niềm tin tôn giáo Bioinformatics 10 Charles Darwin (1809 – 1882) HMS Beagle Bioinformatics 11 Hành trình trên chuyến tàu Beagle Bioinformatics 1831 - 1836 12 4
  5. 4/9/2013 Cây phát sinh loài đầu tiên được vẽ Bioinformatics 13 Ý tưởng về cây phát sinh loài Bioinformatics 14 Ý tưởng Darwin cho rằng các loài có chung một nguồn gốc khi ông quan sát các loài “tương tự” trong suốt chuyến hành trình Bioinformatics 15 5
  6. 4/9/2013 Ý tưởng Nhóm 1: 6 loài (1, 3, 4, 5, 6, 10) sống trên cây Nhóm 2: 6 loài (7, 8, 11, 12, 13, 14) sống trên mặt đất Nhóm 3: 1 loài (9) sống ở đảo Cocos Nhóm 4: 1 loài (2) khác với chim sẽ và giống chim nháy Bioinformatics 16 Darwin‟s tree of life Bioinformatics 17 Quan điểm Darwin về tiến hóa của loài người Bioinformatics 18 6
  7. 4/9/2013 Darwin vs Tôn giáo Bioinformatics 19 Xây dựng cây phát sinh loài Hình thái Hóa thạch Bằng chứng phôi thai học Di chỉ khảo cổ học Gen Bioinformatics 20 Xây dựng cây phát sinh loài hiện đại Hình thái Hóa thạch Di chỉ khảo cổ học Gen Bioinformatics 21 7
  8. 4/9/2013 Trình tự bảo tồn Là những trình tự mã hóa hoặc không mã hóa protein đóng vai trò chức năng quan trọng đối với sinh vật Bioinformatics 22 Ví dụ: promoter Trình tự -10: TATAAT, trong đó T cuối có mức độ bảo tồn cao nhất. Trình tự này chứa nhiều T/A để 2 mạch dễ tách nhau. Trình tự -35: TTGACA, trong đó TTG có mức độ bảo tồn cao nhất Khoảng giữa: cần cho sự nhận diện Bioinformatics 23 Ví dụ: vị trí bảo tồn của protein Bioinformatics 24 8
  9. 4/9/2013 Phương pháp nghiên cứu Sắp xếp các trình tự Phối hợp với thời gian Xây dựng cây phát sinh loài Bioinformatics 25 Các phần mềm hỗ trợ Sắp xếp đa trình tự BLAST của NCBI Sắp xếp đa trình tự ClustalX, ClustalW Thể hiện cây phát sinh loài TreeView hoặc MEGA Bioinformatics 26 Các thuật ngữ trong cây phát sinh loài Phylogeny –phylogenetic –phylo Bootstrap Distance Parsimony Likelihood Rooted tree Unrooted tree Bioinformatics 9
  10. 4/9/2013 Các đột biến có thể xảy ra  Transition (Sự chuyển đoạn)  Xảy ra ở các nhóm chuyển tiếp từ purine (A G) hay pyrimidine (C T)  Transversion (Sự đảo đoạn)  Xảy ra ở các nhóm chuyển từ purine sang pyrimidine hoặc ngược lại (A T, C G, A C, T G)  Tất cả các đột biến trên đều là đột biến điểm (point mutation) trong di truyền với các loại: mất đoạn, chuyển đoạn, thêm đoạn, hoặc đảo đoạn Bioinformatics Bioinformatics Các dạng khác nhau của cây tiến hóa Các dạng cây tiến hóa loài với dạng cây phát sinh loài không biết rõ nguồn gốc (a) và cây biết rõ nguồn gốc (b) Bioinformatics 10
  11. 4/9/2013 Cây phát sinh loài không rõ nguồn gốc (Unrooted tree) Là dạng mạng lƣới quan hệ loài Không chắc chắn thời gian, không gian khởi đầu Biểu hiện quan hệ họ hàng nhưng không phản ánh sự tiến hóa Không thể nhận rõ khi quá trình nhân bản gene diễn ra Bioinformatics Cây phát sinh loài biết rõ nguồn gốc (Rooted tree) Cây phát sinh loài biểu hiện rõ sự tiến hóa  Có thể chỉ ra quá trình nhân bản gene xuất hiện  Có nguồn gốc - Ví dụ tổ tiên chung liên quan đến tất cả các trình tự gene hoặc loài  Đòi hỏi1 nhóm đặc biệt không liên quan đến nhóm nghiên cứu (outgroup) Bioinformatics Cây phát sinh loài biết rõ nguồn gốc (Rooted tree) Outgroup là một trình tự có khoảng cách xa/mối quan hệ xa với tất cả các nhóm trình tự nghiên cứu. Ví dụ: Nghiên cứu quan hệ Hemoglobin A, sử dụng nhóm không liên quan là Hemoglobin B Bioinformatics 11
  12. 4/9/2013 Các dạng của cây phát sinh loài biết rõ nguồn gốc (Rooted tree) Cây phát sinh sơ đồ phân ly (Cladograms) biểu hiện tất cả các tỷ lệ quan hệ loài ngang nhau ở mức độ quan hệ họ hàng. Cây phát sinh nhánh tiến hóa (phylograms) biểu hiện các nhánh có tỷ lệ khác nhau tiêu biểu cho sự khác biệt giữa gene/loài. Bioinformatics Cây phát sinh nhánh tiến hóa Các nhánh dài hơn chỉ ra việc tiến hóa diễn ra nhanh hơn – đặc biệt hữu ích trong việc tìm hiểu các quan hệ đƣợc sinh ra từ dữ liệu mã hóa trình tự, có thể chỉ ra sự thay đổi về chức năng, hoặc về môi trƣờng sống Bioinformatics Ví dụ Cây phát sinh loài 1, 2, 3 theo thứ tự là; (a) Dạng phân ly, nhánh tiến hóa và dendrogram (b) Không rõ nguồn gốc, nhánh tiến hóa và phân ly. (c) Có nguồn gốc, phân ly và nhánh tiến hóa (d) Không có đáp án nào đúng Bioinformatics 12
  13. 4/9/2013 Các phƣơng pháp để xây dựng cây phát sinh loài Các phương pháp cơ bản trong phân tích quan hệ loài: 3 dạng PP dựa vào ma trận khoảng cách (Distance Matrix) PP thống kê không tham số (Parsimony) PP dựa vào khả năng có thể xảy ra (Likelihood) Bioinformatics Phƣơng pháp Distance Bioinformatics Distance Matrix Các trình tự giống nhau nhất = có mối liên hệ loài gần nhất Là 1 cơ chế phân tử nghiêm ngặt (theo dạng đồng hồ) –Tỷ lệ đột biến gen ngang nhau trong mỗi giống loài – Khi tỷ lệ khác biệt 1 cách chắn chắn không chính xác Bioinformatics 13
  14. 4/9/2013 Cách tính (1) a + b = 3 (2) a + e + c = 9 (3) b + e + c = 8 ___ (2)-(3) a - b = 1 (1) a+ b = 3 (2-3+1) 2a = 4 a = 2 b = 1 Tương tự: c = 5 d = 3 e = 2 Bioinformatics Kết quả  Sự khác biệt giữa các nhánh có thể biểu hiện dạng số hay độ dài của các nhánh tiến hóa.  Nhánh tiến hóa càng ngắn, loài đó được xem như xuất hiện trước, nhánh tiến hóa dài biểu hiện loài xuất hiện sau Bioinformatics Phƣơng pháp thống kê không tham số (Parsimony) Nguồn gốc Parsimony: giả thuyết đơn giản nhất nên là 1 giả thuyết thích hợp nhất (the preferred hypothesis) Là 1 dạng ứng dụng xây dựng cây phát sinh loài dựa trên trình tự, cây nào được suy ra có ít tỷ lệ đột biến nhất sẽ được chọn là cây phát sinh loài thích hợp. Bioinformatics 14
  15. 4/9/2013 Ví dụ •Xây dựng cây phát sinh loài dạng Parsimony bằng cách vẽ ra mọi trƣờng hợp có thể có về cây phát sinh loài đó: •4 loài -> 3 cây •5 loài -> 15 cây •6 loài -> 105 cây • Sau đó vẽ sơ đồ cột đầu tiên của trình tự đƣợc sắp xếp trên mỗi cây, đếm số lƣợng các thay đổi trong trình tự Bioinformatics Phƣơng pháp Parsimony Sequence 1 GCACCT Sequence 2 GCACGT Sequence 3 ATTCGA Sequence 4 ACTCGA  Lặp lại các phân tích cho mỗi cột trình tự  Tổng hợp các thay đổi cho mỗi loại cây phát sinh có thể xảy ra tạo nên cây phát sinh loài:  Ví dụ: Tree 1 = 1 (Cột 1) + 1 (Cột 2) + 1(Cột 3) + 0(Cột 4)  Cây phát sinh thích hợp được lựa chọn dựa trên sự thay đổi ít nhất của số lần thay đổi. Bioinformatics Phƣơng pháp tìm kiếm các khả năng có thể xảy ra (Likelihood)  Tương tự như PP Parsimony tối đa  Tập trung phân tích mỗi cột trong 1 chuỗi trình tự  Tập trung vào các cây phát sinh có thể có.  Thay vì tính toán số lượng thay đổi riêng biệt, tính toán các khả năng có thể xảy ra Đƣa ra 1 mô hình tiến hóa nhất.  Tính toán lại các nghiên cứu thực tiễn để so sánh các khác biệt Bioinformatics 15
  16. 4/9/2013 Khảo sát sự tiến hóa  Quá trình chuyển đoạn (transition A↔G, C↔T) xảy ra thường xuyên hơn quá trình đảo đoạn (transversion A↔C, A↔T, G↔C, G↔T)  Sequence 1 GCACAT  Sequence 2 GCACGT  Sequence 3 ATGCGC  Sequence 4 ACTCGC  Các sự đảo đoạn miêu tả những sự thay đổi mãnh liệt hơn so với các trình tự nhóm với nhau bởi quá trình chuyển đoạn. Bioinformatics Khảo sát sự tiến hóa Bioinformatics Khảo sát sự tiến hóa  Các nguồn thông tin về các mẫu base quyết định tỷ lệ đột biến (Base thường xuất hiện và các tỷ lệ đột biến).  Đưa ra các hình mẫu, sau đó tính toán các khả năng có thể xảy ra của mỗi cây phát sinh loài tại mỗi vị trí của trình tự sắp xếp.  Tổng hợp các khả năng đồng thời và xác định cây phát sinh loài thích hợp nhất Bioinformatics 16
  17. 4/9/2013 Câu hỏi ôn tập Theo bảng cột dữ liệu trình tự dưới đây,cây phát sinh loài nào thích hợp hơn nếu PP likelihood được sử dụng để phân tích dữ liệu. Bioinformatics Độ tin cậy của cây phát sinh loài Phương pháp chuẩn cho tất cả các cây (ma trận khoảng cách, parsimony, likelihood) là điểm lặp lại (bootstrap) Sequence1 GAGCTAGGGAATCTTAATTTGAAGGTT Sequence2 GAACTCGGGACTCTTGATCTGAGGGTT Sequence3 ATGTGAGGGAATCTTATATTGAAGGTT Sequence4 ATATGAGGAAATCTTAATTTGAAGGTT Bioinformatics Điểm lặp lại (Bootstrap)  Là kỹ thuật xử lý thống kê các phép đo lường về độ chính xác với các khoảng ước lượng về mẫu nghiên cứu  Cho phép sự ước lượng các giá trị khác biệt trong 1 sự phân bố các mẫu nghiên cứu (sample)  Kiểm định giả thuyết trong thống kê bằng số lần thử lại (resampling) với sự thay thế từ nguồn dữ liệu gốc (original data) Bioinformatics 17
  18. 4/9/2013 Điểm lặp lại (Bootstrap) Ngẫu nhiên khảo sát các cột từ trình tự n lần  1 số cột được trình bày nhiều lần, 1 số khác thì hoàn toàn không  Xác định cây phát sinh loài tốt nhất trong nguồn dữ liệu  Lặp lại ngẫu nhiên mẫu nghiên cứu và khảo sát cây phát sinh loài nhiều lần khác nhau (100 – 1000 lần)  Đếm số lần mỗi nhóm phục hồi lại cây phát sinh loài đó Bioinformatics Re-sampling Bioinformatics Các mặt hạn chế của cây phát sinh loài Không hoàn toàn mô tả chính xác lịch sử tiến hóa của các loài Các vấn đề về việc dựa vào các phân tích trên 1 loại đơn lẻ về tính trạng hoặc biểu hiện gen & protein Thường khác biệt với loài đầu tiên so sánh dựa trên dữ liệu khác biệt trong nghiên cứu Bioinformatics 18
  19. 4/9/2013 Các hạn chế của cây phát sinh Dữ liệu đầu ra của phân tích quan hệ loài là 1 phép ước lượng các biểu hiện phát sinh loài (phylogenetic characteristic) VD: 1 cây phát sinh loài về 1 tiểu phần gen về Haemoglobin) không phải cây phát sinh loài về phân loại về Haemoglobin của loài từ các đặc tính được khảo sát. => 1 gen không thể quyết định quan hệ 1 loài nào đó Bioinformatics Các hạn chế Khi 1 loài đã tuyệt chủng có trong cây phát sinh loài, chúng là đại diện cho 1 nhánh cuối không liên quan vì chúng hầu như không giống 1 tổ tiên trực tiếp của 1 loài đang còn tồn tại khi chưa được chứng minh. Theo quan điểm chủ nghĩa hoài nghi, 1 loài đã tuyệt chủng được phân tích trình tự hoàn toàn hoặc 1 phần khó chính xác mặc dù sự thật là chỉ 1 đoạn DNA cổ đại hữu ích được bảo quản hơn 100,000 năm Bioinformatics Luận điểm của Louisiana vs Schmidt  Nha sĩ truyền bệnh HIV/AIDS cho bệnh nhân nhổ răng.  Lần đầu tiên trong lịch sử một ngành nghiên cứu tiến hóa được ứng dụng trong việc xác định các tội phạm trong xét xử.  Xác định phụ nữ mang thai mang virus HIV+ trong các biểu đồ tuần hoàn máu sau khi mang thai  Chồng cô đã kiểm tra HIV âm tính  Người phu nữ khẳng định rằng cô ta không có thói quen “bừa bãi trong sinh hoạt” Bioinformatics 19
  20. 4/9/2013 Luận điểm của Louisiana vs Schmidt  Cô ta khẳng định rằng chỉ 1 nguồn duy nhất có thể lây truyền là 1 chất tiêm “Vitamin K” được đưa bởi bạn trai cũ.  Chia tay không êm thắm. Bạn trai cũ nổi giận, chia tay với những cuộc viếng thăm hoặc cuộc gọi không mong muốn  Bạn trai cũ của cô là 1 nha sĩ, có 1 bệnh nhân HIV mà anh ấy đã lấy mẫu máu Bioinformatics Luận điểm của Louisiana vs Schmidt Bạn trai cũ chích cho cô ấy 1 mũi nghi ngờ “Vitamin K‟ Dựa vào chiều dài của thời gian từ khi tiêm và tỷ lệ phát triển nhanh của các đột biến di truyền của virus HIV/AIDS, căn cứ theo các nguồn dữ liệu về AIDS trong người phụ nữ trở thành 1 ngành nghiên cứu về cây phân tích phát sinh loài Bioinformatics Luận điểm của Louisiana vs Schmidt Câu hỏi: Có phải dòng HIV từ ngƣời phụ nữ có phải có mối liên quan với dòng HIV đƣợc lấy từ máu bệnh nhân của nha sĩ? Bioinformatics 20
  21. 4/9/2013 Giả thiết 2 giả thiết đƣợc đƣa ra -Người phụ nữ ngay thẳng -Người phụ nữ gian dối Bioinformatics Chứng minh giả thiết  Chiết DNA, phóng đại DNA bằng PCR và giải mã trình tự từ những nhóm gen riêng biệt như: –Người phụ nữ –Virus HIV của người nha sĩ –Từ bệnh nhân có mang HIV+ –Các dòng AIDS từ các phân bố và phân loại loài có liên hệ gần của Lafayette  Sắp xếp tất cả trình tự  Phân tích cây phát sinh loài Bioinformatics Chứng minh giả thiết dựa trên cây phát sinh loài Bioinformatics 21
  22. 4/9/2013 Các ứng dụng khác Bioinformatics Các tài liệu tham khảo thêm  Cây phát sinh loài không rõ nguồn gốc biểu hiện mối quan hệ giữa trình tự aa của F. rubripes IL-6 cho toàn bộ chiều dài phân tử với các nhóm IL-6 đã biết trong trình tự thành viên của họ IL 6.  Cây phát sinh loài được xây dựng dựa trên mối quan hệ láng giềng (neighbour- joining) Bioinformatics Sự tiến hóa tƣơng lai??? Bioinformatics 66 22
  23. 4/9/2013 Các kiến thức cần nhớ Định nghĩa cây phát sinh loài Ý nghĩa của cấy phát sinh loài Các dạng đột biến trong cây phát sinh Các phương pháp xây dựng cây phát sinh loài Các ứng dụng cây phát sinh loài Bioinformatics KẾT THÚC CHƢƠNG IV Bioinformatics 23