Bài giảng Tin sinh học - Chương 5.Giải mã trình tự toàn bộ bộ gen - ThS. Nguyễn Thành Luân

pdf 25 trang phuongnguyen 3680
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tin sinh học - Chương 5.Giải mã trình tự toàn bộ bộ gen - ThS. Nguyễn Thành Luân", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_tin_sinh_hoc_chuong_5_giai_ma_trinh_tu_toan_bo_bo.pdf

Nội dung text: Bài giảng Tin sinh học - Chương 5.Giải mã trình tự toàn bộ bộ gen - ThS. Nguyễn Thành Luân

  1. 10/19/2012 TRƢỜNG ĐẠI HỌC CNTP TPHCM KHOA CNSH & KTMT HỆ LIÊN THÔNG ĐẠI HỌC Chƣơng 5 Giải mã trình tự toàn bộ bộ gen ThS. Nguyễn Thành Luân Email: luannt@cntp.edu.vn Tại sao cần thiết phải giải mã toàn bộ bộ gen?  Sự minh chứng cho việc giải mã trình tự gene  Bản hướng dẫn cho ngành sinh học về các cơ thể sống  Khám phá mỗi gen mã hóa bởi bộ gen của 1 loài động vật –trong việc mất đoạn trình tự gen, chỉ “đoạn gen cần quan tâm” được giải mã  Phân biệt các dòng giống từ sự khác biệt về trình tự gen  Khám phá các kiểu di truyền gây ra bởi các đột biến khác nhau  Khám phá các đột biến gây ra các bệnh di truyền 1
  2. 10/19/2012 Phản ứng giải mã trình tự đƣợc phát minh bởi Fred Sanger  Sử dụng enzyme DNA polymerase để tổng hợp 1 sợi DNA được bổ sung cho 1 mảnh DNA mà bạn muốn giải mã trình tự  Các phản ứng chứa 1 „điểm đích‟ để tạm dừng quá trình tổng hợp –cung cấp 1 sản phẩm DNA với 1 kích cỡ riêng biệt (bp) 2
  3. 10/19/2012 Giải mã trình tự Sanger  Hoạt động bằng thực hiện các phản ứng nhẹ nhàng phá gãy 1 đoạn DNA chuẩn đã tái tạo, xúc tác bởi enzyme DNA polymerase. Phản ứng giải mã trình tự 3
  4. 10/19/2012 Các bƣớc cơ bản trong giải mã trình tự Thêm đoạn mồi: mảnh ngắn của DNA đƣợc kết hợp đến chỉ 1 nơi trên mẫu khuôn DNA Thêm enzyme cắt DNA polymerase: có nhiệm vụ tổng hợp 1 sợi DNA mới Thêm các nhóm bazơ nitric (4 nitrogenous bases): sẽ kết hợp chặt chẽ trong sợi mới Thêm 4 nhóm dideoxynucleotide (ddNTPs– còn đƣợc gọi là các điểm đích sẽ thỉnh thoảng đƣợc thêm vào trong sợi DNA đã đƣợc tổng hợp mới nhƣng sẽ kết thúc phản ứng đó 4
  5. 10/19/2012 Sản phẩm của các phản ứng giải mã trình tự  Phản ứng diễn ra trên 1000 lần từ sợi DNA khuôn  - Mỗi vị trí có thể có đều được đánh dấu rất nhiều lần  Chấp nhận 1 chuỗi hỗn hợp phản ứng vào 1 gel polyacrylamide SDS  Gel này sẽ phân chia các đoạn DNA phân mảnh thành các kích cỡ khác nhau. Đoạn DNA ngắn hơn sẽ di chuyển xuống dƣới nhanh hơn.  Gel còn có khả năng phân giải đoạn phân mảnh khác nhau bởi 1 base riêng lẻ. 5
  6. 10/19/2012  Với việc sử dụng các phần mềm khác nhau, sẽ cung cấp cho chúng ta1 hình ảnh gel nhƣ trên  Mỗivạch (band) tƣơng ứng cho 1 mảnh của đoạn DNA khác nhau về 1 đoạn chiều dài của nucleotide. Màu sắc trong vạch biểu thị cho việc ddNTPs đƣợc kết hợp trong đoạn DNA  Giải mã trình tự đơn giản chỉ là đọc lại kết quả gel Giải mã trình tự trên những khu vực gel để đọc kết quả giải mã 6
  7. 10/19/2012 Phản ứng giải mã trình tự tiên phát (primary)  Không sử dụng thuốc nhuộm (dyes) do chưa được phát minh  Các ký tự đích (terminator) được đánh dấu bằng các chất phóng xạ  Thực hiện 4 phản ứng riêng biệt, mỗi phản ứng khác nhau với 1 ký tự đích khác nhau Quá trình giải mã trình tự quá chậm cho Genomics  Trong việc xác định 1 phản ứng trình tự riêng lẻ, hầu hết tối đa khoảng 500 base/1 lần giải mã trình tự  Mỗi base phải được đọc trên film X-ray và ghi lại kết quả bằng cách thủ công (tay, thuê nhân công ) 7
  8. 10/19/2012 Quá trình giải mã trình tự quá chậm cho Genomics  Bacteriophage chỉ có 5000bp – Mất 4 năm để hoàn thành việc giải mã  Các loài đơn giản nhất (Vi khuẩn) có bộ genome khoảng 2,000,000 bp  –Mất khoảng1,600 năm cho việc giải mã 8
  9. 10/19/2012 Phƣơng pháp tạo phản ứng trong việc giải mã  Các mục tiêu trong việc giải mã trình tự các phân mảnh lớn của DNA PP Walking PP Shotgun Phản ứng Walking  Phản ứng giải mã trình tự đầu tiên cung cấp 500 bp trình tự thông tin. Việc giải mã 500 bp tiếp theo phụ thuộc vào trình tự thông tin DT của đoạn mã trước đó. Tuy nhiên, trình tự genome rất dài  Quy trình phản ứng chỉ đạt tối đa 1kbase/2 ngày. Việc giải mã trình tự toàn bộ bộ genome mất 6,000,000 ngày. 9
  10. 10/19/2012 Phƣơng pháp Shotgun  Lấy nhiều đoạn copy DNA ngẫu nhiên của bộ gen, giải mã trình tự 500bp từ mỗi đoạn DNA đó.  Sau đó sắp xếp tất cả trình tự thành 1 trình tự bộ gen hoàn chỉnh. Phải giải mã trình tự gen nhiều lần để chắc chắn không bị trùng lặp nhưng PP này có thể làm nhiều phản ứng trình tự đồng thời cùng 1 lúc. Walking vs Shotgun  Walking hiệu quả hơn –giải mã trình tự chỉ 1 làn duy nhất  Walking thường chậm hơn, mất đến 2-3 ngày để thiết kế và tổng hợp các mồi (primer) mới cho trình tự  Shotgun ít hiệu quả hơn vì là giải mã trình tự ngẫu nhiên, cần phải giải mã mỗi trình tự ít nhất 10 lần lặp lại  Nhanh hơn Walking –không cần tổng hợp và thiết kế mồi (primer) –sử dụng 1 loại giống nhau cho tất cả các phản ứng 10
  11. 10/19/2012 Các khó khăn gặp phải khi giải mã trình tự genome  Bất kỳ bộ genome nào cũng phải được phân mảnh để có thể giải mã trình tự  Hầu hết, phải đạt 500 base pair cho mỗi trình tự từ đoạn phân mảnh  Sau khi giải mã, các trình tự phải được đặt vào với nhau thành 1 bộ gen hoàn chỉnh  Mỗi đoạn phân mảnh 500 bp phải được so sánh với 1 đoạn trình tự phân mảnh 500 bp khác Vận hành phƣơng pháp Shotgun  Các phân mảnh được phân chia ngẫu nhiên, các trình tự của các phân mảnh phải được giải mã để đảm bảo độ bao phủ tất cả trình tự  Một số phân mảnh sẽ chứa nhiều thông tin trình tự đã hiện diện ở trình tự khác = đoạn lặp (overlaps)  Các đoạn lặp này rất cần thiết cho việc kết nối các phân đoạn DNA lại với nhau 11
  12. 10/19/2012 Vận hành phƣơng pháp Shotgun  Quy tắc chung –giải mã ít nhất 10 lần kích cỡ bộ gen để đảm bảo độ bao phủ hoàn toàn trình tự giải mã  VD: 1 bộ genome 5kbase=5000base, máy giải mã phải giải mã 5000*10/500 trình tự = 100 đoạn Để kết hợp lại, phải làm các phép so sánh 2 đoạn phân mảnh DNA (comparisons) = C(100,2) C(100,2) = 4,950 phép so sánh Các phép so sánh  Đối với bộ genome ngƣời, có quá nhiều phép so sánh cần phải thực hiện, sẽ phải mất rất nhiều năm để tính toán thời gian hoàn thành. 12
  13. 10/19/2012 CÁC HƢỚNG KHẮC PHỤC  Giải pháp 1: Mô hình huy động quỹ cộng đồng  Giải pháp 2: Mô hình hỗ trợ cá nhân Giải pháp 1: Mô hình huy động quỹ cộng đồng  Phân chia genome thành các “khúc” (chunks) lớn hơn theo thứ tự nhất định, sau đó giải mã trình tự mỗi khúc bằng PP shotgun  Những khúc đã được sắp xếp cầu thành 1 bản đồ vật chất của bộ genome.  Đặt những khúc vào thứ tự (bản đồ vật chất) sẽ tạo nên điểm cốt yếu của thời gian  Quay lại điểm này sau khi giải mã Ƣớc lƣợng chi phí: mất 1000 ngƣời làm việc trong vòng 30 năm = 3 tỷ US dollars 13
  14. 10/19/2012 Mô hình phân chia và kết hợp Mô hình cộng đồng cho việc giải mã trình tự Genome ngƣời  I: Cung cấp 1 bản đồ vật chất của genome  II: Trình diễn (perform) các phản ứng giải mã trình tự  III: Kết hợp các phân mảnh/miếng (piece) trình tự với nhau 14
  15. 10/19/2012 Bản đồ vật chất  Bộ genome người –3.3 gigabase (Gb) (3.3 x 109 bp)  Mỗi NST quá lớn để quan sát và phân tích trình tự  Khởi đầu genome phải được phân đoạn thành các miếng/mảnh nhỏ hơn, có thể quan sát và phân tích trình tự  Làm bất tử các phân mảnh –tạo nên các nguồn nguyên liệu vô tận  Tạo nên 1 bản đồ vật chất để kết hợp những mảnh nhỏ lại với nhau để xây dựng bản đồ gene. Sự phân đoạn  Quyết định trong việc phát sinh ra các đoạn DNA lặp (overlapping)  Nguyên liệu khởi đầu là hàng triệu bản sao của mỗi NST –Sự phân cắt bằng enzyme cắt hạn chế (RE disgestion) –Sự dịch chuyển cơ học (Mechanical shearing) –Sự chia cắt NST (Chromosomal separation) 15
  16. 10/19/2012 Enzyme cắt hạn chế (RE Digestion)  Phân cắt bằng enzyme cắt hạn chế (RE): mục tiêu là cung cấp các phân mảnh 10-150 kbase, các RE có chiều dài khác nhau: –Nhóm RE 4-base cắt 1 lần khoảng 256 bases/trình tự –Nhóm RE 6-base cắt 1 lần khoảng 4096 bases/trình tự –Nhóm RE 8-base cắt 1 lần khoảng 65 kbases/trình tự Tuy nhiên, trong thực tế, các phần cắt mảnh DNA chủ yếu chỉ dùng nhóm RE 4 base. 16
  17. 10/19/2012  Sự chia cắt vật chất ở NST thường sử dụng FACS (máy phân loại các tế bào hoạt động gắn huỳnh quang)  Vạch đích huỳnh quang gắn vào NST. Số lượng vạch đánh dấu đích cân xứng với kích cỡ của NST  Các giọt nhỏ giọt, mỗi loại chứa 1 NST di chuyển qua các đầu điện cực. Sự di chuyển điện cực phổ biến thành các giọt nhỏ nếu đủ tiêu chí về kích cỡ ở vạch đích (dye)  Một số giọt nhỏ có thể bị lệch và chia cắt từ 1 số NST khác. Bất tử các phân mảnh  Bằng việc xây dựng 1 ngân hàng genome – Đặt mỗi phân mảnh DNA vào trong 1 sợi DNA ở cơ thể VSV trong phòng thí nghiệm – Một phân mảnh/1 Vi khuẩn – Phân lập mỗi loại VSV – Có 1 quá trình chuẩn bị thuần cho mỗi phân mảnh – Có thể phát triển vi khuẩn trong mỗi môi trường nuôi cấy để cung cấp 1 số lượng lớn các phân mảnh đó 17
  18. 10/19/2012 Mỗi đoạn DNA có thể đƣợc phân lập bằng cách cấy đĩa mỗi loại vi khuẩn riêng lẻ. Thực tế, mỗi phân mảnh đƣợc mã hóa (số hóa) cho việc theo dõi thuận tiện hơn. 18
  19. 10/19/2012 Triển vọng và hạn chế của ứng dụng tin sinh học trong giải mã trình tự bộ gen  Hầu hết các trình tự sau khi đƣợc phân mảnh phải mất thời gian sắp xếp lại theo đúng thứ tự  Ví dụ: xác định đoạn lặp (overlap) số 3 với đoạn số 18, 18 với 1078 . Tìm kiếm các đoạn lặp  Đòi hỏi một số cách tính toán trình tự của mỗi đoạn phân mảnh  Sử dụng quá trình cắt hạn chế (Restriction digest)  Xử lý qua điện di các phân mảnh (gel agarose) 19
  20. 10/19/2012 Gel điện di agarose đƣợc sử dụng để chia cắt phân đoạn của DNA dựa vào kích cỡ (size). Các đoạn lặp sẽ có 1 số vạch chung trên các giếng khác nhau. Mô hình hỗ trợ cá nhân  Kế hoạch giải mã trình tự toàn bộ bộ genome bằng PP Shotgun  Bỏ qua giai đoạn lập bản đồ vật chất  Phân mảnh bộ genome, giải mã trình tự rất nhiều mảnh 500 bp sau đó cố gắng đặt chúng lại với nhau.  Sử dụng 1 phát minh mới –mô hình các cặp bạn bè (mate-pair) và mô hình khung giáo (scaffold) 20
  21. 10/19/2012 Mô hình “Mate-Pair” và “Scaffold”  Mã hóa 1 mảnh thông tin bổ sung bằng cách đọc các khoảng cách chính xác giữa các cặp trình tự  Genome được phân mảnh thành các đoạn lặp đã biết được chiều dài như –2 kbase –10 kbase –50 kbase –150 kbase  Giải mã trình tự cả 2 đầu của các đoạn phân mảnh DNA Mô hình Shotgun thông thƣờng  Ngẫu nhiên phân mảnh và giải mã đoạn DNA 500 bp, và xác định các đoạn lặp  Mỗi nhóm của phân đoạn lặp sẽ đƣợc gọi là 1 đoạn tiếp giáp (contig)= 1 phân mảnh liền kề của trình tự DNA 21
  22. 10/19/2012 Mô hình Shotgun qua Mate-Pair  Phân mảnh các sợi DNA thành các đoạn lặp giống hệt nhau về kích thước và trọng lượng (VD: 50 kbase)  Các đoạn phân mảnh giống hệt nhau về chiều dài và trọng lượng như anh em nên được gọi là „Mate-Pair‟ Mỗi đoạn phân mảnh tiếp giáp nhỏ sẽ đƣợc lắp ráp bởi máy vi tính theo phƣơng pháp Shotgun thông thƣờng, nhƣng bây giờ mỗi nhóm đoạn tiếp giáp riêng lẻ có thể có các phân đoạn “bạn bè” bởi vì cả 2 đầu của mỗi đoạn DNA 50 kb đƣợc giải mã trình tự. 22
  23. 10/19/2012 Mô hình giàn khung (Scafffold)  Scaffold thay thế cho việc lập bản đồ vật chất –do quy trình thực hiện nhanh hơn. Về lý thuyết, chúng ta có thể kết nối thành bộ gen hoàn chỉnh từ các trình tự giải mã sử dụng mô hình giàn khung  Trình tự bộ genome cuối cùng được kết nối hướng về việc chứa các đoạn khoảng trống (gaps) đầu tiên bởi các trình tự lặp. Mô hình kết hợp sẽ giúp cho việc bù đắp các đoạn gaps  Vì thế, mô hình hỗ trợ cá nhân sẽ sử dụng thông tin bản đồ vật chất được thiết kế trong mô hình gây quỹ cộng đồng để giúp cho việc bù đắp các đoạn gap.  Các đoạn tiếp giáp có thể gia nhập nhóm DNA bạn bè nên được gọi là mô hình nhóm bạn bè (Mate-pairs) hướng theo và đặt các nhóm tiếp giáp liên quan với các nhóm khác.  Khi ngày càng nhiều cặp bạn bè được so sánh, 1 giàn khung giáo (scaffold) từ từ được xây dựng. 23
  24. 10/19/2012 Mất bao lâu?  Dự đoán đầu tiên: 30 năm  Với các ứng dụng KHKT hiện nay với máy giải mã trình tự tự động (automated sequencer) và bỏ qua việc tìm hiểu bản đồ vật chất cho bộ genome người hoàn chỉnh –Một robot giải mã trình tự ở phòng TN có thể giải mã trình tự 4.96 x 106bases mỗi ngày –Bộ genome người 3.3 x 109bases –Cần sự đảm bảo độ bao phủ nên phải được 3.3 x 1010bases –Tốn mất 6,653 ngày cho 1 phòng thí nghiệm = 18 năm –Xây dựng 20 phòng thí nghiệm có quy mô như PTN trên –Giải mã toàn bộ bộ genome chỉ mất khoảng 330 ngày. Các hƣớng giải quyết mới trong việc giải mã bộ gen Một nhà máy giải mã trình tự tự động hóa 24
  25. 10/19/2012 Tài liệu tham khảo m0n0&feature=related KẾT THÚC CHƢƠNG V 25