Báo cáo Nghiên cứu các dấu hiệu hệ gien sử dụng trong bài toán gom cụm dữ liệu trình tự sinh học metagenomic (Phần 1)

pdf 22 trang phuongnguyen 2070
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Nghiên cứu các dấu hiệu hệ gien sử dụng trong bài toán gom cụm dữ liệu trình tự sinh học metagenomic (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbao_cao_nghien_cuu_cac_dau_hieu_he_gien_su_dung_trong_bai_to.pdf

Nội dung text: Báo cáo Nghiên cứu các dấu hiệu hệ gien sử dụng trong bài toán gom cụm dữ liệu trình tự sinh học metagenomic (Phần 1)

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU CÁC DẤU HIỆU HỆ GIEN SỬ DỤNG TRONG BÀI TOÁN GOM CỤM DỮ LIỆU TRÌNH TỰ SINH HỌC METS K AGENOMICC 0 0 3 9 5 9 MÃ SỐ: T2014-46 S KC 0 0 5 5 1 2 Tp. Hồ Chí Minh, 2014
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG NGHIÊN CỨU CÁC DẤU HIỆU HỆ GIEN SỬ DỤNG TRONG BÀI TOÁN GOM CỤM DỮ LIỆU TRÌNH TỰ SINH HỌC METAGENOMIC Mã số: T2014-46 Chủ nhiệm đề tài: GV. ThS. Lê Văn Vinh TP. HCM, 11/2014
  3. TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG NGHIÊN CỨU CÁC DẤU HIỆU HỆ GIEN SỬ DỤNG TRONG BÀI TOÁN GOM CỤM DỮ LIỆU TRÌNH TỰ SINH HỌC METAGENOMIC Mã số: T2014-46 Chủ nhiệm đề tài: GV. ThS. Lê Văn Vinh TP. HCM, 11/2014
  4. Mục lục Chương I. GIỚI THIỆU VỀ METAGENOMICS. . . . . . . . . . . . . . . . . . . . . . 5 I.1. Bài toán phân loại trình tự metagenomic . . . . . . . . . . . . . . . . . . . . . . . . 6 I.2. Quy trình xử lý dữ liệu metagenomic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 I.2.1. Thu thập mẫu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 I.2.2. Xác định trình tự . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 I.2.3. Phân tích dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 I.3. Mục tiêu của đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Chương II. ĐẶC TRƯNG SỬ DỤNG CHO BÀI TOÁN PHÂN LOẠI TRÌNH TỰ METAGENOMIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 II.1. Tính tương đồng giữa các trình tự. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 II.2. Dấu hiệu hệ gien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 II.2.1. Dấu hiệu GC-content. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 II.2.2. Dấu hiệu dựa trên tần số xuất hiện các oligonucleotide. . . . . . . . . . . . . . . 13 II.2.3. Dấu hiệu dựa trên mô hình chuỗi Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 13 II.2.4. Dấu hiệu Chaos Game Representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 II.2.5. Dấu hiệu oligonucleotide frequency derived error gradient . . . . . . . . . . . 17 II.3. Một số tính chất dựa trên quan sát của trình tự DNA . . . . . . . . . . . 19 1
  5. Chương III. THỰC NGHIỆM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 III.1.Khảo sát các dấu hiệu hệ gien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 III.1.1. Khả năng phân loại vi sinh vật của các dấu hiệu hệ gien . . . . . . . . . . . . . 21 III.1.2. Nhóm các dấu hiệu dựa trên mô hình Markov . . . . . . . . . . . . . . . . . . . . . . 21 III.1.3. Frequencies signature và Symmetrized signature . . . . . . . . . . . . . . . . . . . 22 III.1.4. Mức độ tương đồng giữa các nhóm dấu hiệu hệ gien . . . . . . . . . . . . . . . . 24 III.2.Kết hợp dấu hiệu hệ gien GC-content và FOM . . . . . . . . . . . . . . . . . . 24 Chương V. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2
  6. Danh sách hình vẽ I.1 Quy trình xử lý của một dự án trong lĩnh vực metagenomics . . . . . . .8 II.1 Tỉ lệ lẻ các cặp nucleotide của 20 trình tự ngẫu nhiên độ dài 50 kbp từ hệ gien của hai loài: Neisseriameningitidis và aquifexaeolicus. [1] . . 15 II.2 Hình ảnh 3 chiều và 2 chiều của tần số 7 nucleotides của 4 loài. Độ dài trình tự là 100 kb [2] . . . . . . . . . . . . . . . . . . . . . . . . . 17 II.3 Mức độ sai sót của giá trị tần số các oligonucleotide trong các loài U.urealyticum, C.kroppenstedtil, B.pumilus,và Xautoptropicus. [1] . . . 18 III.1 Dấu hiệu ZOM, FOM, SOM. Hình trên: Các cặp hệ gien có khoảng cách di truyền mức Genus, Hình dưới: Các cặp hệ gien có khoảng các di truyền mức Order . . . . . . . . . . . . . . . . . . . . . . . . . 22 III.2 Dấu hiệu Frequencies signature và Symmetrized signature cho trường hợp tetranucleotide. Hình trên: Các cặp hệ gien có khoảng cách di truyền mức Genus, Hình dưới: Các cặp hệ gien có khoảng các di truyền mức Order . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 III.3 Dấu hiệu Symmetrized signature, GC-content và reduced ZOM cho trường hợp tetranucleotide. Hình trên: Các cặp hệ gien có khoảng cách di truyền mức Genus, Hình dưới: Các cặp hệ gien có khoảng các di truyền mức Order . . . . . . . . . . . . . . . . . . . . . . . . . 24 3
  7. Danh sách bảng III.1 Khoảng cách Euclide trung bình giữa các cặp hệ gien cho từng dấu hiệu hệ gien trên hai nhóm Genus level và Order level . . . . . . . . . . 21 4
  8. Chương I GIỚI THIỆU VỀ METAGENOMICS Vi sinh vật (microbes) là những sinh vật sống rất nhỏ mà mắt thường không nhìn thấy được như: vi khuẩn (bacteria), vi rút (virus) hay vi khuẩn cổ (archaea). Chúng xuất hiện ở mọi nơi và chiếm đa số trong sự đa dạng sinh học của sự sống [3]. Việc nghiên cứu vi sinh vật có ý nghĩa quan trọng trong nhiều lĩnh vực, bao gồm: y học, nông nghiệp, công nghệ sinh học, nghiên cứu năng lượng thay thế, môi trường [4]. Một số nghiên cứu đầu tiên về vi sinh vật là vào khoảng những năm 1970, khi hệ gien của một số vi sinh vật được xác định trình tự ([5], [6]). Trong phương pháp nghiên cứu vi sinh vật truyền thống (gọi là microbial genomics), nhà sinh học sau khi lấy mẫu thực nghiệm từ môi trường thực tế sẽ thực hiện nuôi cấy và phân tách theo từng loài vi sinh vật trước khi mang đi xác định trình tự. Sau đó, trình tự sinh học của từng loài vi sinh vật được đưa vào giai đoạn phân tích dữ liệu. Tuy nhiên, trở ngại của phương pháp này là một số lượng rất lớn các vi sinh vật (hơn 99%) không thể nuôi cấy và phân tách trong phòng thí nghiệm [3]. Vì vậy, chỉ một tỉ lệ nhỏ các vi sinh vật có thể được phát hiện và nghiên cứu. 5
  9. Một hướng tiếp cận khác trong nghiên cứu vi sinh vật ra đời và thay thế cho phương pháp nghiên cứu truyền thống, gọi là metagenomics. Theo hướng này, mẫu thực nghiệm sau khi được thu thập từ môi trường, không cần trải qua giai đoạn nuôi cấy và phân tách trong phòng thí nghiệm, mà được đưa trực tiếp vào quá trình xác định trình tự sinh học. Những vấn đề trong lĩnh vực metagenomics bắt đầu được tập trung nghiên cứu từ năm 2007 với sự ra đời của dự án nghiên cứu vi sinh vật trong cơ thể con người [7]. Tiếp theo đó, hàng trăm dự án nghiên cứu vi sinh vật khác cho các môi trường khác nhau (như môi trường đất, nước biển) ra đời trên thế giới [8]. Đồng thời, nhiều bài toán cần giải quyết được đặt ra cho những người làm trong lĩnh vực tin sinh học nhằm hỗ trợ cho quá trình phân tích dữ liệu trình tự metagenomic. I.1. Bài toán phân loại trình tự metagenomic Mẫu thực nghiệm sau khi được thu thập từ môi trường thực tế, được đưa trực tiếp vào giai đoạn xác định trình tự. Do đó, dữ liệu trình tự metagenmic thường không chứa trình tự của từng loài vi sinh vật riêng biệt, mà bao gồm trình tự của rất nhiều loài khác nhau (có khi hơn 10.000 loài trong một mẫu [4]. Vì vậy, đối với nhà sinh học, một trong những vấn đề cần giải quyết là thực hiện phân loại trình tự metagenomic. Bài toán này được phát biểu như sau (theo Thomas và cộng sự [9]): "Phân loại trình tự metagenomic là quá trình sắp xếp trình tự DNA vào các nhóm bao gồm các trình tự thuộc cùng hệ gien của một cá thể hoặc hệ gien của các vi sinh vật có quan hệ gần nhau". Kết quả của bài toán này là cơ sở để nhà sinh học có thể xác định những nhóm vi sinh vật nào tồn tại trong mẫu thực nghiệm, giúp họ thực hiện nghiên cứu trên trình tự của từng nhóm, và tìm ra những nhóm vi sinh vật mới. Ngoài ra, nó là mắt xích quan trọng trong chuỗi các công việc phân tích dữ liệu metagenomic. Điều này được thể hiện trong quy trình xử lý dữ liệu metagenomic. 6
  10. I.2. Quy trình xử lý dữ liệu metagenomic Bài toán phân loại trình tự metagenomic (taxonomic binning) là một trong những vấn đề cần giải quyết trong giai đoạn phân tích dữ liệu của một dự án trong lĩnh vực metagenomics. Quy trình xử lý thông thường của một dự án được Thomas và cộng sự trình bày trong [9]. Trong đó, một số bước xử lý chính như sau (Hình I.1) I.2.1. Thu thập mẫu thực nghiệm Đầu tiên là giai đoạn thu thập mẫu thực nghiệm từ môi trường chứa vi sinh vật và thực hiện một số bước xử lý ban đầu như: cắt ngắn mẫu thực nghiệm, trích lọc mẫu DNA. DNA (Deoxyribonucleic acid) là phân tử có cấu trúc ba chiều, bao gồm hai chuỗi đơn xoắn ốc, cuộn xung quanh một trục chung, tạo thành một chuỗi xoắn kép. Chuỗi DNA được hình thành bởi các loại phân tử nhỏ hơn, gọi là nucleotide. Có bốn loại nucleotide được ký hiệu là: A, C, G và T (tương ứng với Adenine, Cytosine, Guanine và Thymine) [10]. 7
  11. Hình I.1: Quy trình xử lý của một dự án trong lĩnh vực metagenomics I.2.2. Xác định trình tự Tiếp theo, mẫu DNA được đưa vào quá trình xác định trình tự. Xác định trình tự là quá trình xác định dãy các nucleotide trong trình tự đó. Phương pháp Sanger [11], hay còn gọi là phương pháp dideoxy sequencing hay chain termination, là công nghệ được sử dụng từ những năm 1970 đến nay. Phương pháp này cho phép xác định trình tự có độ dài trong khoảng từ 500 - 1000 bp. Nhược điểm của phương pháp này là chi phí cao và hiệu suất xử lý thấp, không đáp ứng được yêu cầu của những dự án lớn. Một nhóm các công nghệ xác định trình tự mới ra đời, thay thế cho phương pháp Sanger, như: 454 pyrosequencing, Illumina Genome Analyzer, AB SOLiD 8
  12. [12]. Chúng được gọi chung là công nghệ xác định trình tự thế hệ tiếp theo (Next- generation sequencing [13]). Ưu điểm của các phương pháp này là hiệu suất cao hơn so với phương pháp Sanger. Chúng cho phép xác định một khối lượng lớn trình tự trong một đơn vị thời gian. Tuy nhiên, hạn chế của chúng là độ dài của các trình tự được xác định có kích thước ngắn. Chẳng hạn, trình tự được xác định bởi Illumina có độ dài trung bình khoảng 75 - 100 bp [12]. I.2.3. Phân tích dữ liệu Ở giai đoạn này, dữ liệu trình tự DNA được phân tích bởi nhà sinh học dựa trên sự hỗ trợ của máy tính. Nhiều bài toán khác nhau cần giải quyết đã được đặt ra như: ráp nối trình tự (assembly), phân loại trình tự (taxnomic binning), chú thích trên trình tự (annotation), v.v Trong đó, dữ liệu đầu ra của bài toán này có thể là dữ liệu đầu vào của bài toán khác và ngược lại. Chẳng hạn, kết quả của bài toán phân loại trình tự có thể được sử dụng cho bài toán chú thích trên trình tự (annotation) nhằm xác định vị trí gien hay vị trí mang mã di truyền trên trình tự. Bài toán phân loại và ráp nối trình tự có thể được sử dụng hỗ trợ cho nhau trong việc phân tích và xử lý dữ liệu metagenomic. Bài toán phân loại có thể được sử dụng như là bước tiền xử lý cho bài toán ráp nối trình tự nói chung áp dụng cho dữ liệu metagenomic [3] (Bao hàm cả bài toán genome assembly, và bài toán metagenome assembly). Ngược lại, bài toán phân loại còn có thể được áp dụng sau khi trình tự sinh học đã được ráp nối. Khi đó, việc phân loại cho trình tự dài hơn giúp mang lại độ chính xác cao hơn. Tuy nhiên, bài toán ráp nối trình tự metagenomic (metagenome assembly) là một vấn đề khó và nhiều thách thức lớn. Hiện tại, cũng chỉ có một vài giải pháp được đề xuất cho vấn đề này [9]. 9
  13. I.3. Mục tiêu của đề tài Đề tài này thực hiện khảo sát, đánh giá chất lượng của các dấu hiệu hệ gien thường dùng trong bài toán phân loại trình tự metagenomic. Từ đó, một sự kết hợp hiệu quả của hai dấu hiệu hệ gien được đề xuất nhằm làm tăng độ chính xác cho vấn đề phân loại trình tự metagenomic. 10
  14. Chương II ĐẶC TRƯNG SỬ DỤNG CHO BÀI TOÁN PHÂN LOẠI TRÌNH TỰ METAGENOMIC Sự giống nhau giữa các cá thể sinh vật trong cùng loài, cũng như sự khác nhau giữa các cá thể khác loài dựa trên trình tự DNA của chúng là một trong những vấn đề được quan tâm lớn của cộng đồng khoa học. Nhiều công trình nghiên cứu trước đây đã đề xuất các phương pháp cũng như đặc trưng để nhận biết một cá thể cùng loài hay khác loài. Phần này trình bày những đặc trưng có thể được sử dụng cho vấn đề phân loại trình tự metagenomic hiện nay. II.1. Tính tương đồng giữa các trình tự Phương pháp dựa trên sự tương đồng trong trình tự DNA để phân loại sinh vật đã được sử dụng từ những năm 1950, khi cấu trúc của DNA được khám phá lần đầu tiên bởi James Watson và Francis Crick. Mức độ tương đồng giữa hai trình tự được 11
  15. tính dựa trên việc so sánh sự giống nhau tương ứng giữa các nucleotide trên hai trình tự. Hai cá thể sinh vật chứa trình tự có mức độ tương đồng cao thể hiện chúng có quan hệ giống loài gần nhau và có cùng tổ tiên. Ngược lại, mức độ tương đồng thấp thể hiện chúng có quan hệ giống loài xa nhau [14]. Mặc dù vẫn là chủ đề đang được tranh luận và nghiên cứu, tiêu chí xác định hai cá thể vi sinh vật cùng loài dựa trên DNA được sử dụng hiện nay là: mức độ tương đồng giữa các gien của hai cá thể giống nhau ≥ 95% (gọi là độ đo ANI - Average nucleotide identity) ([14], [15]). II.2. Dấu hiệu hệ gien Dấu hiệu hệ gien (gọi tắt là dấu hiệu) là những đặc tính theo từng loài sinh vật có thể biết được dựa trên trình tự sinh học. Dấu hiệu hệ gien của trình tự sinh học cùng loài giống nhau nhiều hơn so với trình tự sinh học của hai loài khác nhau. Hai loài gần nhau có dấu hiệu hệ gien của trình tự sinh học giống nhau nhiều hơn so với hai loài xa nhau [16]. Vì tính chất đó mà dấu hiệu hệ gien có thể được sử dụng cho vấn đề phân loại trình tự. II.2.1. Dấu hiệu GC-content Dấu hiệu này thể hiện tỉ lệ các base guanine + cytosine (G+C) trong một trình tự DNA. Chẳng hạn, tỉ lệ này tính theo công thức sau [17]: n + n GC-content = G C × 100% (II.1) nA + nC + nG + nT Trong đó nA,nT ,nG và nC lần lượt là số lượng các nucleotides adenine (A), thymine (T), cytosine (C) và guanine (G). Nhiều nghiên cứu đã chỉ ra rằng GC- content trong trình tự sinh học của mỗi loài vi sinh vật là khác nhau. Tỉ lệ này nằm trong khoảng 25% − 72% ([18], [19]). 12
  16. II.2.2. Dấu hiệu dựa trên tần số xuất hiện các oligonucleotide Dấu hiệu này thể hiện tần số xuất hiện của những đoạn nucleotide ngắn có kích thước thường là từ 2 - 4 nucleotides trong trình tự DNA. Được gọi là tần số xuất hiện của cặp nucleotide (dinucleotide frequencies), bộ ba nucleotide (trinucleotide frequencies), hay bộ bốn nucleotide (tetranucleotide frequencies). Có nhiều dấu hiệu khác nhau được xây dựng dựa trên giá trị tần số này. Một số dấu hiệu sử dụng trong phân tích dữ liệu metagenomic được Gori và cộng sự trình bày trong [20]. Trong đó, hai dấu hiệu sau thường được sử dụng trong các phương pháp phân loại trình tự metagenomic hiện nay. a) Symmetrized signature: Mỗi trình tự (hay hệ gien) được đại diện một vector l tần số f = f1, f2, , f4l . Trong đó, fi,i = {1, ,4 } là tần số xuất hiện của l-mer i trong trình tự (l là độ dài của một l-mer), được tính như sau: [21, 22]: 4l fi = hi/ ∑ h j (II.2) j=1 Đối với symmetrized signature này, tần số fi được tính trên cả hai chuỗi đơn bổ sung cho nhau. Khoảng cách giữa các vector tần số đại diện cho các trình tự phản ảnh khoảng cách di truyền giữa các loài. b) Frequencies signature: Dấu hiệu này được tính tương tự như symmetrized l signature, nhưng từng tần số fi,i = {1, ,4 } chỉ được tính trên một chuỗi đơn của trình tự DNA. Dấu hiệu này được sử dụng hiệu quả trong một số giải pháp phân loại trình tự metagenomic hiện nay như [23, 24]. II.2.3. Dấu hiệu dựa trên mô hình chuỗi Markov Nhóm các dấu hiệu này cũng dựa trên tần số xuất hiện l-mers, nhưng dựa trên giả định trình tự DNA là một quá trình ngẫu nhiên (random process). Trong đó, xác suất xuất hiện của một base trong trình tự DNA phụ thuộc vào k base trước đó. Việc áp dụng mô hình chuỗi Markov được cho rằng có thể xây dựng dấu hiệu hệ gien có 13
  17. những tính chất theo loài rõ ràng hơn (more specific) hơn đặc trưng tần số xuất hiện các oligonucleotide ([25]). Các mô hình chuỗi Markov khác nhau đã được nghiên cứu áp dụng trong các bài toán phân loại sinh vật [26, 27]. Trong trường hợp sử dụng mô hình chuỗi Markov bậc k (kth order Markov chain model), tham số của mô hình có thể được ước lượng như sau: p(xi|xi−1xi−2 x1) = p(xi|xi−1xi−2 xi−k) k Với xi là các base (A, C, G, T). Mô hình chuỗi Markov bậc k cho mỗi base có 4 trường hợp. Tổng cộng có 4k+1 cho tất cả các base. Tập các tham số của phân bố xác suất của các base này được xem là dấu hiệu của trình tự DNA. Ba mô được khảo sát bởi nhiều nghiên cứu hiện nay như sau: a) Mô hình chuỗi Markov bậc 0 (Zero-Order Markov model - ZOM): Trong trường hợp này, tần số xuất hiện (frequency) của một oligonucleotide được xác định bởi tần số xuất hiện của mỗi base. Mỗi nucleotide độc lập với các base láng giềng của nó. Chẳng hạn, dấu hiệu hệ gien của trình tự rút ra từ việc tính dấu hiệu ZOM cho đoạn trình tự độ dài 4 như sau [16, 28]: f (XYZW) ρ ( f ) = (II.3) XYZW f (X) f (Y) f (Z) f (W) Với X,Y,Z,W là các base: A, C, G hoặc T. Dấu hiệu hệ gien dạng này (ứng dụng trong trường hợp dinoucleotide) được đề xuất bởi Karlin và cộng sự [29], còn được gọi là tỉ lệ lẻ của các cặp nucleotide (Odd-ratios of dinucleotide) như sau: Gọi fA(.) là tần số xuất hiện của nucleotide X,Y hay cặp nucleotide XY trong trình tự A. Trong đó X và Y là các nucleotide như: adenine (A), guanine (G), cytosine (C), thymine (T). Dấu hiệu của trình tự A được tìm ra dựa trên việc tính các tỉ lệ: ρ = fA(XY)/ fA(X) fA(Y). Để xác định sự khác nhau hay giống nhau giữa hai 14
  18. trình tự dựa trên đặc trưng ZOM, người ta sử dụng các độ đo khoảng cách. Chẳng hạn, Karlin và cộng sự [29] đề xuất khoảng cách gọi là dinucleotide relative abundance distance: ∗ 1 δ (A,B) = ∑| fA(XY) − fB(XY)| 16 XY Trong đó, A và B là hai trình tự sinh học cần xác định khoảng cách với nhau. Nhiều nghiên cứu cho thấy hai trình tự cùng loài có khoảng cách δ ∗ nhỏ hơn khoảng cách này giữa hai trình tự khác loài ([16], [29]). Có thể thấy điều này trong kết quả thử nghiệm của Ozkan [1] (Hình II.1). Karlin cũng đã thử nghiệm cho các oligonucleotide khác như: tri-, tetra-nucleotide đối với nhiều hệ gien khác nhau. Hình II.1: Tỉ lệ lẻ các cặp nucleotide của 20 trình tự ngẫu nhiên độ dài 50 kbp từ hệ gien của hai loài: Neisseriameningitidis và aquifexaeolicus. [1] b) Mô hình chuỗi Markov bậc 1 (First-Order Markov model - FOM): Dấu hiệu này quan tâm đến mối quan hệ giữa một base với một base liền trước nó. Từ 15
  19. ý tưởng này, khi tính tần số xuất hiện của một l-mer, người ta quan tâm đến tần số xuất hiện của các cặp nucleotide (di-nucleotide) và các đơn nucleotide (mono-nucleotide). Chẳng hạn, tần số của một 4-mer được tính như sau [28]: f (XYZW) f (Y) f (Z) ξ ( f ) = (II.4) XYZW f (XY) f (YZ) f (ZW) c) Mô hình chuỗi Markov bậc 2 (Second-Order Markov model - SOM): Trong trường hợp này, người ta quan tâm đến mối quan hệ giữa một base với hai bases liền trước nó. Khi tính tần số xuất hiện của một l-mer, người ta quan tâm đến tần số xuất hiện của các bộ ba nucleotide (tri-nucleotide) và các cặp nucleotide (di-nucleotide). Chẳng hạn, tần số của một 4-mer được tính như sau [28]: f (XYZW) f (YZ) η ( f ) = (II.5) XYZW f (XYZ) f (YZW) Ngoài ra, một số nghiên cứu quan tâm đến mô hình chuỗi Markov bậc thay đổi (Variable-order Markov chain model) và ứng dụng trong bài toán phân loại trình tự metagenomic ([25], [26]). II.2.4. Dấu hiệu Chaos Game Representation Năm 1990, Jeffrey đề xuất một phương pháp gọi là Chaos Game Representation (CGR) [30] để trực quan hóa trình tự sinh học của hệ gien. Theo cách này, một nhóm trình tự hay toàn bộ trình tự của một hệ gien có thể được biểu diễn bởi một hình ảnh. Tiến hành tính khoảng cách giữa các hình ảnh có thể cho chúng ta biết mối quan hệ giữa các loài. Deschavanne và cộng sự [2] sử dụng CGR như một dấu hiện dấu hiệu để phân loại các nhóm sinh vật (Hình II.2). Wang và cộng sự [31] kết luận rằng dấu hiệu CGR tương đương với dấu hiệu tần số oligonucleotide (oligonucleotide frequenies). Tuy nhiên, chưa có nghiên cứu nào sử dụng dấu hiệu này cho phân loại trình tự sinh học. 16
  20. Hình II.2: Hình ảnh 3 chiều và 2 chiều của tần số 7 nucleotides của 4 loài. Độ dài trình tự là 100 kb [2] II.2.5. Dấu hiệu oligonucleotide frequency derived error gradi- ent Dấu hiệu oligonucleotide frequency derived error gradient (OFDEG) được đề xuất bởi Isaam và cộng sự [32]. Nó được xây dựng dựa trên suy luận như sau: Tồn tại một độ sai sót (error) của giá trị tần số xuất hiện các oligonucleotide (oligonu- cleotide frequency - OF) trong phạm vi một trình tự ngắn so với giá trị tần số xuất hiện các oligonucleotide trong phạm vi toàn bộ hệ gien. Nói theo một cách khác, có sự khác biệt về giá trị tần số xuất hiện các olignucleotide giữa trình tự dài và trình tự con của nó. Khi độ dài trình tự con tăng dần đến độ dài của trình tự cha thì độ sai sót càng giảm dần về 0. 17
  21. Những thử nghiệm của Isaam [32] và Ozkan [1] cho thấy mức độ sai sót (error gradient) này tuân theo một mô hình hồi quy tuyến tính (linear regression model), và mỗi loài có độ dốc của đường hồi quy (slope or gradient of the regression line) khác nhau (Hình II.3). Đây được gọi là dấu hiệu OFDEG. Mặc dù chưa chứng minh được bản chất sinh học của dấu hiệu này, nhưng thử nghiệm cho thấy có thể sử dụng nó trong bài toán gom cụm trình tự sinh học metagenomic. Hình II.3: Mức độ sai sót của giá trị tần số các oligonucleotide trong các loài U.urealyticum, C.kroppenstedtil, B.pumilus,và Xautoptropicus. [1] Ngoài ra, một số dấu hiệu hệ gien khác đã được nghiên cứu trước đây như: Syn- onymous codon usage, amino acid content, proxygenes, hay các dấu hiệu có được từ việc phân tích sự tương quan cấu trúc giữa các trình tự DNA (Correlation structure of DNA sequences). Hiện tại, chưa có nghiên cứu nào khẳng định dấu hiệu hệ gien nào là tốt nhất. Mức độ hiệu quả của việc sử dụng các dấu hiệu hệ gien vào bài toán phân loại trình tự metagenomic vẫn là vấn đề cần được nghiên cứu. 18
  22. S K L 0 0 2 1 5 4