Bai Giang Tin Sinh Hoc

TRƢỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ SINH HỌC ....................................

Bài giảng TIN SINH HỌC ỨNG DỤNG (Applied bioinformatics)

NGUYỄN ĐỨC BÁCH

HÀ NỘI, 8/2013

1

PHẦN 1. GIỚI THIỆU C HUNG

5

CHƢƠNG 1. GIỚI THIỆU VỀ BIOINFORMATICS 1.1. Khái niệm Nền tảng sinh học và sự phát triển của bioinformatics 1.2. Vai trò của bioinformatics trong nghiên cứu sinh học 1.3. 1.4. Nhiệm vụ và các hướng nghiên cứu của Bioinformatic Xu hướng phát triển của bioinformatics 1.5. Tóm tắt chƣơng 1 Câu hỏi ôn tập chƣơng 1

5

5 5 7 12 16 18 18

CHƢƠNG 2 NỀN TẢNG SINH HỌC CỦA TIN SINH HỌC

19

2.1. Axit nucleic và protein

19 19 24 26 29 29 30 31

2.2. Cấu trúc của axit nucleic 2.3. Genome và nghiên cứu genome 2.4. Phát hiện gene và xác định chức năng gene trong genome 2.5. Hoạt động chức năng của gene và điều hòa hoạt động của gene 2.6. Proteome và lĩnh vực nghiên cứu protein (proteomics) 2.7. Tiến hóa và bản chất phân tử của quá trình tiến hóa ở các sinh vật 2.8. Phân tích mối quan hệ tiến hóa của các sinh vật Tóm tắt chƣơng 2 Câu hỏi ôn tập chƣơng 2

19

33 33

CHƢƠNG 3 TÌM KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN CỨU 3.1. Phương pháp tìm kiếm thông tin 3.2. Cách tìm tài liệu phục vụ nghiên cứu 3.3. Làm quen với Pubmed 3.4. Cách quản lý tài liệu nghiên cứu Tóm tắt chƣơng 3 Câu hỏi ôn tập chƣơng 3

35 35 36 37

PHẦN 2 CƠ SỞ DỮ LIỆU SINH HỌC ĐĂNG KÝ TRÌNH TỰ VÀO CƠ SỞ DỮ LIỆU

40 40 40

CHƢƠNG 4. CƠ SỞ DỮ LIỆU SINH HỌC 4.1. Cơ sở dữ liệu sơ cấp 4.1.1. CSDL trình tự nucleotide 4.1.2. CSDL trình tự protein 4.1.3. Cơ sở dữ liệu cấu trúc các phân tử 4.2. Cơ sở dữ liệu thứ cấp 4.3. Các cơ sở dữ liệu khác 4.3.1. Cơ sở dữ liệu kiểu gene và kiểu hình 4.3.2. CSDL kiểu gene (PhenomicDB) 4.3.3. PubChem 4.4. Ngân hàng gene

Tóm tắt chƣơng 4 Câu hỏi ôn tập chƣơng 4 CHƢƠNG 5 XÁC ĐỊNH TRÌNH TỰ VÀ ĐĂNG KÝ TRÌNH TỰ VÀO NGÂN HÀNG GENE 5.1. Xác định trình tự nucleotide 5.2. Xác định trình tự genome 5.3. Lắp ráp trình tự 5.4. Đăng ký trình tự 5.5. Các công cụ đăng ký trình tự 5.5.1. Các thông tin cần thiết phải chuẩn bị trước khi đăng ký trình tự 5.5.2. Ví dụ đăng ký trình tự bằng WebIn 5.5.3. Ví dụ đăng ký trình tự bằng Sequin

35 35

38 38

40

41 41 41 43 45 46 46 46 46 47 50 50 52 52

52 52 53 55 58 61 62 62

2

Tóm tắt chƣơng 5 Câu hỏi ôn tập chƣơng 5

65

PHẦN 3 CÁC CÔNG CỤ PHÂN TÍC H KHAI THÁC VÀ XỬ LÝ DỮ LIỆU TRÌNH TỰ SINH HỌC

66 66 66

CHƢƠNG 6. GENOME BROWSER 6.1. Khái niệm genome browser 6.2. Giới thiệu một số genome browser quan trọng

66

6.2.1. Ensembl 6.2.2. UCSC 6.2.3. NCBI Genomes and MapViewer

6.3. Đặc điểm và ứng dụng của các genome browser Tóm tắt chƣơng 6 Câu hỏi ôn tập chƣơng 6

CHƢƠNG 7 LÀM QUEN VỚI CÁC CÔNG CỤ PHÂN TÍCH CSDL SINH HỌC 7.1. Làm quen với các công cụ phân tích cơ bản 7.1.1. Tìm và copy trình tự 7.1.2. Nhóm công cụ tìm kiếm trình tự giống nhau 7.2. Tìm các vùng chức năng, vùng bảo thủ 7.2.1. Căn nhiều trình tự (multi sequence alignment) 7.2.2. Xây dựng bản đồ giới hạn (restriction map contruction) 7.2.3. Dự đoán cấu trúc bậc 2 và bậc 3 của phân tử protein 7.2.4. Phân tích trình tự axit nucleic 7.2.5. Thiết kế mồi cho PCR và mẫu dò lai axit nucleic 7.2.6. Xác định khung đọc mở 7.2.7. Tìm các bài báo khoa học 7.2.8. Lắp ráp trình tự 7.2.9. Phân tích quan hệ tiến hóa 7.2.10. Phân tích protein

7.2.11. Nghiên cứu biểu hiện gene 7.3. Các nhóm công cụ phân tích 7.3.1. Công cụ phân tích của NCBI 7.3.2. Nhóm công cụ của EMBL 7.3.3. Nhóm công cụ của ExPASy 7.3.4. Các nhóm công cụ khác Tóm tắt chƣơng 7 Câu hỏi ôn tập chƣơng 7

CHƢƠNG 8 LÀM QUEN VỚI PHÂN TÍCH DỮ LIỆU SINH HỌC 8.1. Tìm dữ liệu trong các ngân hàng CSDL 8.1.1. Dữ liệu trình tự 8.1.2. Dữ liệu cấu trúc 8.1.3. Các dữ liệu khác 8.2. Phân tích trình tự 8.2.1. So sánh trình tự 8.2.2. Phân tích khung đọc mở và vùng trình tự mã hóa 8.2.3. Tìm kiếm Promoter và các vùng điều hòa hoạt động gene 8.2.4. Tìm kiếm vùng chức năng của protein (functional motif searching) 8.2.5. Dự đoán và mô phỏng tương tác protein CHƢƠNG 9 CĂN TRÌNH TỰ VÀ NGUYÊN LÝ CỦA CĂN TRÌNH TỰ 9.1. Giới thiệu về căn trình tự 9.2. Nguyên lý của căn trình tự 9.3. Căn nhiều trình tự và nguyên lý căn nhiều trình tự

65

66 66 66 68 70 71 72 72 74 74

74 74 75 79 79 81 83 84 85 86 87 87 88 90 90 91 91 92 95 97 97 98 99 99

99 99 99 102 102 102 106 106 109 110 113 113

113 114 118

3

9.4. Các công cụ tìm kiếm trình tự tương đồng

119

CHƢƠNG 10. PHÂN TÍCH MỐI QUAN HỆ TIẾN HÓA 10.1. Khái niệm 10.2. Dữ liệu dùng để xây dựng cây tiến hóa 10.2.1. Phương pháp dựa vào khoảng cách 10.2.2. Phương pháp phân tích ký tự 10.3. Lựa chọn mô hình tiến hóa 10.4. Đánh giá cây phân tiến hóa

125

125 127 129 131 133 133

4

PHẦN 1. GIỚI THIỆU CHUNG CHƢƠNG 1. GIỚI THIỆU VỀ 1.1.

BIOINFORMATICS

Khái niệm

Tin sinh học là ngành khoa học ứng dụng toán học và khoa học máy tính vào lĩnh vực sinh học đặc biệt là sinh học phân tử và y học. Thuật ngữ tin sinh học lần đầu tiên được Paulien Hogeweg giới thiệu năm 1979 dùng để mô tả nghiên cứu về các quá trình trong hệ thống sinh học. Vào cuối những năm 1980, thuật ngữ này được đưa vào lĩnh vực di truyền học và nghiên cứu genome. Tin sinh học liên quan đến việc xác định trình tự, quản lý, phân tích và khai thác các CSDL sinh học. Tin sinh học hiện liên quan đến xây dựng và phát triển các cơ sở dữ liệu, các thuật toán, thống kê và các kỹ thuật máy tính để giải quyết các vấn đề liên quan đến lý thuyết và thực nghiệm trong việc quản lý và phân tích các dữ liệu sinh học. Tin sinh học cũng bao gồ m m ô phỏng và dự đoán tương tác giữa các phân tử và các quá trình sinh học.

Hình 1: Tin sinh học và mối liên hệ giữa các lĩnh vực 1.2.

Nền tảng sinh học và sự phát triển của bioinformatics

Việc phát hiện DNA là vật chất mang thông tin di truyền và xác định mô hình cấu trúc của DNA đã mở ra thời kì phát triển của sinh học phân tử . DNA mã hóa cho mRNA và các loại RNA khác. Protein được dịch mã từ phân tử mRNA sẽ thực hiện nhiều chức năng sinh học trong tế bào kể cả điều hòa hoạt động của gene cũng như các quá trình sinh học. Mặc dù việc xác định trình tự genome của các sinh vật hiện nay đã trở nên đơn giản nhưng để làm sáng tỏ thông tin di truyền chứa trong genome và sự hoạt động chức năng cũng như mối tương tác giữa các gene vẫn còn là một thách thức lớn. Chẳng hạn ở người, mỗi tế bào chứa 23 cặp NST và kích thước genome khoảng 3,2.109 cặp nucleotide trong đó chứa khoảng 23.000 gene (1). Đến nay về cơ bản các quá trình phiên mã và dịch mã đã được biết nhưng để xác định được chính xác số lượng gene, và trò và sự tương tác của các gene này vẫn còn là câu hỏi khó.

1

International Human Genome Sequencing Consortium (2004). "Finishing the euchromatic sequence of the human genome.". Nature 431 (7011): 931 – 45. Bibcode

5

Với sự phát triển nhanh chóng của các kỹ thuật và công nghệ mới, dữ liệu sinh học mà chủ yếu là trình tự nucleotide, amino acid, được tạo ra hàng ngày càng nhiều. Việc thu thập, lưu trữ, cho phép truy cập , tìm kiếm, phân tích và so sánh mối liên quan giữa các dữ liệu trong các cơ sở dữ liệu khổng lồ là nhiệm vụ của tin sinh học. Thực tế đòi hỏi các nhà tin sinh học, khoa học máy tính cần phải phát triển c ác thuật toán mới để nâng cao độ chính xác và giảm thời gian cho các nhà nghiên cứu sinh học. Tin sinh học là một lĩnh vực nghiên cứu đa ngành, ở mức độ nhất định, nó được đặt trên nền tảng của sinh học phân tử (nguồn cung cấp CSDL cần phân tích), khoa học máy tính (cung cấp các phần cứng cho việc phân tích và mạng lưới máy tính để so sánh, đối chiếu các kết quả phân tích), các thuật toán để phân tích dữ liệu. Ba yếu tố này có vai trò sống còn đối với tin sinh học. Bản thân sinh học phân tử cũng là một lĩnh vực tương đối mới được dựa trên nền tảng của nhiều môn khoa học cơ bản mà quan trọng nhất là di truyền học, hóa sinh học, tế bào học… Chính vì vậy việc ra đời, nghiên cứu tin sinh học cũng như ứng dụng tin sinh học cũng đòi hỏi kiến thức cơ bản liên ngành và hiểu biết về khoa học máy tính. Dưới đây là một vài điểm mốc lịch sử quan trọng cho sự phát triển của sinh học phân tử và tin sinh học. Năm Phát minh 1930 Tiselius đưa ra kỹ thuật điện di để phân tách protein trong dung dịch 1951 Pauling và Corey đề xuất cấu trúc xoắn alpha và phiến gấp nếp beta 1953 Watson và Crick đề xuất mô hình chuỗi xoắn kép DNA dựa trên dữ liệu thu được tử kết quả phân tích nhiễu xạ tia X của Franklin and Wilkins 1954 Nhóm nghiên cứu của Perutz đã phát triển phương pháp dùng nguyên tử nặng (heavy atom) để giải quyết khó khăn trong việc kết tinh protein. 1955 Trình tự của protein đầu tiên được phân tích là insulin ở bò bởi F. Sanger. 1970 Thuật toán của Needleman-Wunsch cho việc căn trình tự (alignment) được công bố. 1972 Phân tử DNA tái tổ hợp được tạo ra bởi Paul Berg và nhóm nghiên cứu của mình. 1973 Cơ sở dữ liệu Protein được công bố bởi Brookhaven 1974 Vint Cerf và Robert Kahn phát triển phương thức giao tiếp máy tính TCP làm nền tảng cho internet. 1975 Điện di 2 chiều được phát triển bởi P. H. O'Farrell Phương pháp Southern blot được mô tả và công bố bởi E. M. Southern 1977 Cở dữ liệu protein, PDB, chính thức ra đời Maxam và Walter Gilbert (Harvard) và Frederick Sanger (U.K. Medical Research Council) công bố phương pháp xác định trình tự DNA. 1980 Trình tự genome hoàn chỉnh của một sinh vật (FX174) được công bố. Genome chứa 5,386 cặp base mã hóa cho 9 protein. Phương pháp NMR đa chiều (multi -dimensional NMR) đã được sử dụng để xác định cấu trúc protein 1981 Thuật toán Smith-Waterman để căn trình tự đã được công bố 1982 Genetics Computer Group (GCG) đã tạo ra nhiều công cụ phân tích trong sinh học phân tử tại trung tâm Công nghệ sinh học Wisconsin thuộc trường đại học Wisconsin. 1985 Thuật toán FASTP được công bố Phản ứng PCR được mô tả bởi Kary Mullis và cộng sự 1986 Thuật ngữ “Genomics" xuất hiện lần đầu tiên để mô tả lĩnh vực khoa học liên quan đến việc lập bản đồ, xác định trình tự và phân tích các gene. Thuật ngữ được đưa ra bởi Thomas Roderick, sau này là tên của một tạp chí nổi tiếng: Genomes. CSDL SWISS-PROT được tạo ra bởi phòng sinh hóa y học (Department of Medical Biochemistry) của trường đại học Geneva và ngân hàng CSDL châu Âu EMBL ra đời 6

1987 1988

1990

1991 1997 1998 2000 2001 2004 2004 2008

(European Molecular Biology Laboratory). NST nhân tạo của nấm men (YAC) được giới thiệu Bản đồ vật lý của E.coli được công bố Ngôn ngữ lập trình Perl được phát triển bởi Larry Wall. NCBI (National Center for Biotechnology Information) được thành lập ở viện nghiên cứu ung thư quốc gia (National Cancer Institute). Dự án xác định genome người được khởi động (Commission on Life Sciences, National Research Council. Mapping and Sequencing the Human Genome, National Academy Press: Washington, D.C.), 1988. Thuật toán FASTA dùng để so sánh trình tự được công bố bởi Pearson và Lupman. Des Higgins và Paul Sharpe công bố phát triển chương trình CLUSTAL Chương trình BLAST ra đời (Altschul, et. al.) Molecular Applications Group được thành lập ở California bởi Michael Levitt và Chris Lee. Sản phẩm của công ty là Look and SegMod được dùng để thiết kế các mô hình phân tử và protein. InforMax được thành lập ở Bethesda, MD. Sản phẩm của công ty hướng tới là các phần mềm, chương trình phân tích trình tự, quản lý và phân tích CSDL, tìm kiếm, hiện thị dữ liệu bằn đồ họa, thiết kế dòng (clone construction), mapping và thiết kế mồi. Viện nghiên cứu ở Geneva (Research institute in Geneva/ CERN) công bố tạo ra phương thức make-up cho World Wide Web. Genome của E.coli (4.7 Mbp) được công bố Genom của Caenorhabditis elegans và nấm men bánh mì được công bố. Swiss Institute of Bioinformatics được thành lập dưới dạng hiệp hội nghiên cứu phi lợi nhận Genome của Pseudomonas aeruginosa (6.3 Mbp) được công bố Genome của Arabidopsis thaliana (100 Mb) được xác định trình tự Genome Drosophila melanogaster (180Mb) được xác định trình tự Genome người có kích thước 3,000 Mbp được công bố Bản nháp genome của chuột, Rattus norvegicus, đã được công bố Thế hệ xác định trình tự mới chính thức ra đời khởi đầu với kỹ thuật 454 sequencing Các dự án xác định trình tự genome 1000 loài http://www.1000genomes.org/

Vai trò của bioinformatics trong nghiên cứu sinh học Trong một vài thập kỉ gần đây , lĩnh vực genomic và công nghệ sinh học phân tử đã phát triển nhanh chóng tạo ra một khối lượng thông tin rất lớn làm cơ sở cho các phân tích so sánh và đối chiếu. Để phân tích cơ sở dữ liệu (CSDL) cần phải có thuật toán kết hợp với khoa học máy tính. Tin sinh học với sự kết hợp chặt chữ của CSDL, thuật toán và khoa học máy tính sẽ làm sáng tỏ bản chất của các quá trình sinh học. Có thể tóm tắt vai trò của tin sinh học như sau: - Thu thập, tổ chức và quản lý các dữ liệu sinh học (database); - Phát triển các công cụ tìm kiếm dữ liệu ( search tools, data mining ) - Phân tích trình tự ( sequence analysis), mô tả genome ( genome annotation), so sánh genome ( genomic comparison); - Mô phỏng cấu trúc, mô phỏng tương tác phân tử ( molecular interaction modelling ), dự đoán cấu trúc protein ( prediction of protein structure); - Phân tích chức năng p rotein ( protein function analysis), tương tác protein và các con đường chuyển hóa ( protein interactions and metabolism pathways), mô hình hóa các hệ thống sinh học ( modeling biological systems), phân tích mô hình biểu hiện gene (analysis of gene expression profile), 1.3.

7

- Phân tích trình tự genome để phát hiện gene, các gene đột biến, ung thư, xác định được vai trò của các gene và hướng tới các liệu pháp điều trị ( genome analysis and treatment ); - Phân tính mối quan hiện tiến hóa, di truyền quần thể dựa trên các phần mềm và công cụ máy tính ; - Phân tích hình ảnh quy mô lớn (high-throughput image analysis), - Phát triển các thuật toán, phần mềm để giải quyết nhu cầu của các nhà khoa học trong lĩnh vực sinh học.

Phân tích trình tự (sequence analysis) Phân tích trình tự là quá trình gồm nhiều thao tác liên quan đến tìm kiếm các dữ liệu trình tự, so sánh các trình tự với nhau và kết hợp với các công cụ khác để tìm ra những thông tin cần thiết nằm trong chuỗi trình tự cần phân tích. Những thông tin thu được bao gồm sự tương đồng, các vùng hoạt động chức năng (domain), các vùng đặc trưng (motif), vị trí của các gene trong genome (gene finding), các yếu tố điều hòa hoạt động gene (promoter, intron, exon, vùng cấu trúc điều hòa phiên mã). Năm 1977, genome đầu tiên được xác định trình tự là của phage Φ-X174. Đến nay genome của hàng nghìn sinh vật đã được xác định trình tự và lưu giữ trong các ngân hàng gene. Nhiều công cụ tin sinh học quan trọng và các chương trình hỗ trợ phân tích, so sánh trình tự sinh học đã được phát triển và ứng dụng phổ biến . Mô tả genome (genome annotation) Trong nghiên cứu genome, quá trình đánh dấu các trình tự DNA và gắn các thông tin sinh học vào những trình tự DNA được gọi là mô tả (annotation). Hệ thống phần mềm cho phép mô tả genome đầu tiên được Dr. Owen White xây dựng vào năm 1995. Đối tượng đầu tiên là vi khuẩn Haemophilus influenzae. Ông đã xây dựng hệ thống này với mục tiêu ban đầu là để tìm ra các gene, các tRNA trong genome... sau đó gắn những chức năng sinh học đã biết vào các yếu tố này. Đến nay có nhiều hệ thống mô tả genome đã được phát triển. Về căn bản các hệ thống mô tả này giống nhau nhưng có sự khác nhau về thuật toán và chương trình máy tính. So sánh genome

Trọng tâm của so sánh genome là xác định sự giống nhau hoặc mối liên hệ giữa các gene (orthology analysis) hoặc các đặc điểm chung trong genome của các sinh vật. So sánh genome được hiển thị dưới dạng bản đồ tương tác giữa các genome cho phép phát hiện được các sự kiện hoặc mức độ biến đổi genome trong quá trình tiến hóa dẫn đến sự khác nhau hoặc biến đổi giữa các genome, giữa các vùng gene hoặc giữa các gene. Các sự kiện tiến hóa phức tạp xảy ra ở nhiều mức độ khác nhau dẫn đến tiến hóa genome. Ở mức độ thấp nhất (mức độ phân tử ), các đột biến điểm làm thay đổi genome ở những nucleotide đơn lẻ. Sự biến đổi này có thể gây ra hậu quả nghiêm trọng, trung tính hoặc không ảnh hưởng gì. Ở mức độ cao hơn, các đột biến lặp đoạn, đảo đoạn, mất đoạn và thay đổi vị trí các trình tự DNA trong NST (gene nhảy, transposable elements) làm thay đổi tổ chức vật lý của genome. Theo thời gian, cuối cùng toàn bộ genome tham gia vào quá trình lai, lưỡng bội hóa và tương tác cộng sinh nội bào dẫn đến sự phân loài. Tính phức tạp của tiến hóa genome dẫn đến nhưng sự khó khăn trong việc phát triển thuật toán cũng nhưng mô hình toán học để mô phỏng 8

chính xác. Chính vì vậy các thuật toán trong tin sinh học chỉ mang tính hợp lý nhất (heuristic) chứ không phải là chính xác ( precise). Các thuật toán và mô hình đang dùng phổ biến hiện nay bao gồm: heuristics, approximation algorithms, parsimony models, Markov Chain Monte Carloalgorithms, Bayesian analysis, probabilistic models.

Xây dựng và mô phỏng cấu trúc Dự đoán cấu trúc phân tử protein là một trong những ứng dụng quan trọng của tin sinh học. Trình tự amino acid của một phân tử protein có thể được xác định trực tiếp hoặc suy diễn từ trình tự nucleotide của gene mã hóa tương ứng. Để mô phỏng cấu trúc người ta cần những thông tin cụ thể về protein, tốt nhất là cấu trúc kết tinh của phân tử protein. Trong những trường hợp khó kết tinh hoặc chỉ có trình tự amino acid người ta có thể so sánh trình tự amino acid của một protein hoặc polypeptide với những protein khác đã biết trong CSDL sử dụng các thuật toán để tìm ra sự tương đồng, từ đó đưa ra cấu trúc mô phỏng tương đối của các protein chưa biết. Thông thường các trình tự có mức độ giống nhau >40% có thể áp dụng để dự đoán cấu trúc. Mặc dù có sự tương quan chặt chẽ giữa mức độ giống nhau về trình tự và cấu trúc nhưng trong nhiều trường hợp mặc dù cấu trúc giống nhau nhưng trình tự amino acid có thể lại khác nhau. Vì thế việc xác định hoặc mô phỏng cấu trúc cũng không thể dựa đơn thuần vào thuật toán hay chương trình máy tính. Trong nhiều trường hợp, việc mô phỏng chỉ sử dụng để sàng lọc và tham khả o. Sự tương đồng giữa haemoglobin của người và của các cây họ đậu (leghemoglobin) cũng là một trong những ví dụ về mối tương quan giữa trình tự và cấu trúc. Cả hai protein đều được dùng để vận chuyển oxy. Mặc dù chúng có trình tự amino acid rất khác nhau nhưng cấu trúc của chúng lại giống nhau một cách đặc biệt . Điều này cũng phản ánh mối quan hệ giữa cấu trúc và hoạt động chức năng. Mô phỏng tương tác phân tử Mô phỏng tương tác phân tử là xây dựng các mô hình mô tả sự tương tác khi hai hay nhiều phân tử tiếp xúc với nhau. Thông tin về sự tương tác bao gồm vị trí, nhóm tương tác và cơ chế hình thành những tương tác. Tương tác phân tử liên quan đến những thay đổi về nhiệt động học, thay đổi trạng thái phân tử (thay đổi điện tích, chuyển dịch các nhóm liên kết, thay đổi cấu hình và trạng thái hình học không gian). Các tương tác phân tử điển hình như tương tác protein-protein/peptide, enzyme-cơ chất, ligand-chất tương tác. Thuật ngữ thường sử dụng hiện nay là docking và thuật toán tương ứng của nó là docking algorithms. Các kỹ thuật được dùng để hỗ trợ bao gồm: CD (circular dichroism), phân tích nhiễu xạ tia X ( X-ray crystallography), phân tích cộng hưởng từ hạt nhân protein ( protein nuclear magnetic resonance spectroscopy protein NMR). Một trong những câu hỏi quan trọng là liệu chỉ cần phân tích cấu trúc phân tử (3D) để dự đoán sự tương tác phân tử hay cần phải làm thực nghiệm cụ thể cho tương protein -protein ( protein – protein interaction experiments) hoặc protein – protein docking . Dự đoán cấu trúc protein (prediction of protein structure) Dự đoán cấu trúc protein dựa vào những thông tin như trình tự amino acid, kết quả khối phổ (MS), kết tinh và phân tích nhiễu xạ tia X, các đặc điểm sinh học tương 9

đồng (sự giống nhau trên cơ sở cùng thực hiện chức năng sinh học hoặc các enzyme xúc tác một kiểu phản ứng hoặc nhóm cơ chất…). Các thuật toán đều dựa trên cơ sở tính toán các liên kết hóa học, khả năng hình thành các liên kết, tương tác giữa các phân tử, phân tích nhiệt động học, năng lượng tự do, năng lượng liên kết để xây dựng lên các mô hình cấu trúc không gian. Tuy nhiên, hiện nay việc phân tích mối liên hệ và so sánh giữa các cấu trúc và chức năng đã biết vẫn được coi là nền tảng để dự đoán cấu trúc các protein. Chính vì vậy, nhữ ng protein mới với cấu trúc chưa được xác định thường được dự đoán dựa vào việc so sánh trình tự kết hợp với các đặc điểm vật lý và hóa học. Phân tích biểu hiện gene (analysis of gene expression) Các CSDL về mRNA, cDNA, EST hỗ trợ phát hiện sự biểu hiện hoặc mức độ biểu hiện của các gene. Các CSDL về protein microarray và khối phổ (MS) có vai trò rất quan trọng trong việc phân tích hoặc phát hiện sự có mặt của một protein nào đó ở một mẫu sinh học. Bằng cách so sánh và đối chiếu cá c CSDL này cho phép rút ngắn thời gian nghiên cứu. Tuy nhiên, quá trình này đòi thường trở lên phức tạp khi xử lý khối lượng mẫu lớn (high through put analysis) và số liệu nhiêu do các sai số gặp phải trong thực nghiệm. Từ phân tích trình tự genome đến việc điều trị (f rom genome to therapy) Một trong những nguyên nhân chính dẫn đến ung thư là sự tích lũy các đột biến. Phân tích nhiều trình tự có thể xác định được các đột biến tiềm ẩn trong các gene có liên quan đến ung thư. Tin sinh học xây dựng các hệ thống phân tích tự động để quản lý, lưu giữ các thông tin từ đó hỗ trợ các thao tác tìm kiếm, so sánh và đối chiếu giữa các gene, genome để phát hiện sự đa hình (chẳng hạn các cơ sở dữ liệu dbVar, dbSNP, CancerChromosome). Kết quả những phân tích hỗ trợ cho việc điều trị và chẩn đoán bệnh dễ dàng hơn. Một ví dụ điển hình là sự phát triển các loại thuốc khác nhau để đáp ứng với mỗi cá thể. Các kỹ thuật mới đang được áp dụng như so sánh trình tự các nucleotide để phát hiện sự khác biệt ở mức độ nucleotide đơn để tìm ra các đột biến điểm (single nucleotide polymorphism arrays) ở nhiều vị trí, vùng trình tự khác nhau trong genome . Thuật toán đang dùng hiện nay là Hidden Markov model, change-point analysis methods. Nghiên cứu tiến hóa (Computational evolution ary biol ogy) Nghiên cứu tiến hóa bao gồm xác định nguồn gốc tiến hóa của các loài cũng như sự biến đổi và phát sinh loài mới theo thời gian. Công nghệ thông tin và tin sinh học hỗ trợ các nhà nghiên cứu sinh học ở nhiều khía cạnh, bao gồm: - Phát hiện được sự tiến hóa dựa vào so sánh, phát hiện sự thay đổi trình tự DNA chứ không dựa nhiều vào sự biến đổi hình thái . - So sánh toàn bộ genome cho phép nghiên cứu các sự kiện phức tạp xảy ra trong quá trình tiến hóa chẳng hạn như lặp đoạn, trao đổi vật chất di truyền hoặc lấy một phần vật chất di truyền của một loài (chẳng hạn như chuyển gene ngang, bao gồm biến nạp, chuyển nạp, tải nạp, cộng sinh, tái tổ hợp genome, chuyển gene) - Xây dựng các mô hình máy tính để dự đoán diễn tiến và hệ quả của các quần thể theo thời gian. 10

- Theo dõi và chia sẻ thông tin của một số lượng lớn các loài và cá thể. - Xây dựng bức tranh tổng thể về cây phát sinh chủng loại.

Phân tích hình ảnh Công nghệ máy tính hiện nay cùng với các thí nghiệm phân tích tự động quy mô lớn tạo ra một số lượng hình ảnh với dung lượng rất lớn. Thêm vào đó, những loại hình ảnh chứa đựng nhiều thông tin như: ảnh phân tích các mẫu, mô bệnh, ảnh chụp trong y học, lâm sàng cần phải được phân tích cẩn thận ở nhiều mức độ . Việc lưu trữ các hình ảnh này có ý nghĩa khi cần đối chiếu và so sánh để chắt lọc thông tin phục vụ cho chẩn đoán và điều trị. Dưới đây là một số ví dụ về những ứng dụng tin sinh học trong xử lý và phân tích hình ảnh: - Phân tích định lượng các đặc điểm bên trong hình ảnh như bào quan, kích thước, hình dạng, vị trí phân bố của các phân tử hoặc kết quả chụp cắt lớp của các mô, cơ quan. - Xác định các mô hình, hình mẫu real -time của dòng khí vận chuyển trong phổi động vật, sự vận chuyển của các chất qua màng tế bào, mô (drug delivery). - Dự đoán kích thước của các hạt, vón cục xảy ra trong quá trình phẫu thuật (real time imaginery) và quá trình hồi phục sau bị thương ở các động mạch. - Phân tích các hình ảnh hồng ngoại để xác định hoạt động trao đổi chất - Phân tích các hình ảnh huỳnh quang chẳng hạn với các kỹ thuật xác định trình tự thế hệ mới, các kỹ thuật đánh dấu huỳnh quang và phân tích real -time. Phân tích chức năng protein Các CSDL MS, trình tự, cấu trúc, tương tác protein -protein, protein docking là nền tảng để phân tích chức năng protein. Việc so sánh trình tự, căn trình tự hỗ trợ rất đắc lực để phát hiện các motif, domain, (mô hình) pattern để phát hiện và phân tích chức năng các protein. Các họ protein hoặc các protein cùng thực hiện chức năng cũng được phát hiện dựa trên những cơ sở so sánh này. T ương tác protein và các con đường chuyển hóa

Nghiên cứu tương tác giữa các protein, enzyme trong các quá trình sinh học có ý nghĩa ứng dụng rất lớn . Chẳng hạn tìm cơ chất cho enzyme, xác định protein kháng nguyên, kháng thể... Nghiên cứu xây dựng mô hình tương tác giữa các protein giúp xác định vai trò của các yếu tô tham gia cũng như cơ chế điều hòa sự biểu hiện của các gene tham gia trong các mạng lưới. Sự rối loạn hoặc thay đổi các mối quan hệ tương tác sẽ dẫn đến những bệnh tật. Việc điều trị các bệnh dựa trên cơ sở hiểu biết mối liên hệ nhiều yếu tố sẽ có hiệu quả rất lớn. Đây cũng là hướng được các nhà sinh học, tin sinh học đang tập trung nghiên cứu hiện nay. Mô hình hóa các hệ thống sinh học (Modeling biological systems) Thực chất là sự mô phỏng bằng máy tính các quá trình sinh học diễn ra trong hệ thống sống (tế bào, mô hoặc toàn bộ cơ thể). Để thực hiện được điều này cần kết hợp giữa sinh học hệ thống (system biology) và toán sinh học (mathematical biology). Ví dụ như các hệ thống tế bào, các bào quan, các chất trao đổi và các enzymes tham gia hình thành các con đường trao đổi chất, các con đường dẫn truyền tín hiệu, điều hòa hoạt động gene. Tất cả những quá trình này cần được phân tích và hiện thị trong phức hợp của các thành phân bên trong tế bào hoặc các bào quan trong tế bào. Ngoài ra với 11

tin sinh học và sinh học máy tính có thể mô phỏng sự sống nhân tạo liên quan đến quá trình tiến hóa của sinh vật.

Phát triển các phần mềm và công cụ phân tích (Software and tools) Thuật toán và các thách thức trong khoa học máy tính Các phần mềm hoặc chương trình máy tính được phát triển dựa vào nhiều thuật toán. Mức độ chính xác và tốc độ xử lý phụ thuộc vào thuật toán và phần cứng máy tính. Phát triển thuật toán mới sẽ tối ưu hóa , r út ngắn thời gian phân tích, giảm thiểu sử dụng tài nguyên máy tính và nâng cao độ tin cậy của các phân tích, mô phỏng. Các công cụ tìm kiếm trình tự giống và tương đồng: Trình tự tương đồng (homology): giữa các trình tự DNA hoặc các tính trạng phân tích có cùng nguồn gốc, quan hệ tiến hóa từ một tổ tiên chung. Mức độ giống nhau (similarity) giữa hai (các) trình tự có thể được xác định liệu sự tương đồng là thực sự hay là ngẫu nhiên. Các công cụ thuộc nhóm này nhằm xác định sự giống nhau giữa một trình tự mới đưa vào (novel query sequence) với cấu trúc và chức năng chưa biết với toàn bộ CSDL đã được biết.Nhóm này bao gồm các công cụ chính: FASTA, BLAST và các biến thể của chúng ( xem các chương sau). Phân tích chức năng protein: Phân tích chức năng: Xác định chức năng và lập bản đồ của các thành phần chức năng bao gồm phần mã hóa và không mã hóa của gene trong genome. Để thực hiện cần sự hỗ trợ của các chương trình và công cụ máy tính trong việc so sánh trình tự protein truy vấn với các CSDL protein thứ cấp chứa thông tin về các motif, domain. K ết quả tìm kiếm sẽ cho ra danh sách các protein giống nhau từ đó phép dự đoán chức năng của protein chưa biết. - Phân tích cấu trúc Cho phép so sánh các cấu trúc chưa biết với các CSDL cấu trúc đã biết. Chức năng của một protein có thể xác định chính xác hơn khi so sánh cấu trúc của nó hơn là chỉ trình tự amino acid. Vì cấu trúc tương tự nhau thường gắn liền với sự tương ứng về chức năng hoạt động. Việc xác định cấu trúc protein dạng 2D/3D có ý nghĩa vô cùng quan trọng để nghiên cứu chức năng của nó. Công việc n ày đi kèm với việc tinh sạch, kết tinh protein và kết hợp với các phương pháp phân tích tinh thể. - Phân tích trình tự Các công cụ thuộc nhóm này cho phép thực hiện các phân tích sâu hơn về trình tự chưa biết bao gồm: phân tích tiến hóa, xác định đột biến, các vùng ưa nước , CpG islands và xu hướng sử dụng các thành phần base trong các mã di truyền (compositional biases). Những kết quả phân tích này sẽ hỗ trợ cho các nghiên cứu làm sáng tỏ chức năng của trình tự chưa biết. 1.4.

Nhiệm vụ và các hƣớng nghiên cứu của Bioinformatic

Vào giai đoạn đầu của cuộc cách mạng genomics, tin sinh học tập trung vào việc tập hợp và lưu giữ các thông tin, cơ sở dữ liệu sinh học để hình thành các ngân hàng cơ sở dữ liệu (chủ yếu là trình tự amino acid, nucleotide). Quá trình này liên quan 12

đến việc thiết kế mạng lưới CSDL liên kết và phát triển các giao diện web nhờ đó các nhà nghiên cứu vừa có thể truy cập vào các cơ sở dữ liệu vừa có thể đăng ký thêm các trình tự, dữ liệu mới hoặc các dữ liệu đã được chỉnh sửa, bổ sung. Xuất phát từ nhu cầu của các nhà khoa học về việc tìm kiếm và phân tích dữ liệu (data mining) đã dẫn đến việc phát triển các công cụ tìm kiếm kết hợp với việc so sánh các dữ liệu. Việc sử dụng các chương trình FASTA, BLAST, căn trình tự ( sequence alignment ); lắp ráp các trình tự ( genome assembly);tìm kiếm gene trong genome ( gene finding ), phân tích các domain trong phân tử protein và xác định cấu trúc của chúng đã trở thành những thao tác thông thường hàng ngày của các nhà nghiên cứu. Những ứng dụng ở mức cao hơn và phức tạp hơn như xác định được vị trí và vai trò của gene trên các nhiễm sắc thể ( position cloning ); so sánh cấu trúc ba chiều của các protein,dự đoán cấu trúc protein và các tương tác protein -protein; nhận dạng mô hình ( pattern recognition); dự đoán mô hình biểu hiện gene ( gene expression profile prediction)đang trở nên phổ biến ở những phòng nghiên cứu mạnh. Từ kết quả của các nghiên cứu về xác định vai trò các gene và tương tác gene , nhà khoa học có thể so sánh các hoạt động của những tế bào bình thường và những tế bào bị bệnh. Để làm được điều nàycần thiết phải có sự kết hợp và đối chiếu giữa các CSDL sinh học để tạo thành một bức tranh tổng thể và diễn đạt được các mối liên hệ của các hoạt động qua đó sẽ nghiên cứu được các con đường chuyển hóa (metabolomics). Đây cũng là một trong những thách thức rất lớn của các nhà tin sinh học.

Hình 2. Mối liên hệ giữa transcriptomics, proteomics và các con đƣờng chuyển hóa (metabolomics) ( Goodacre (2005) J Ex p Bot 56: 245 )

Hướng phát triển cao hơn nữa là xây dựng được các mô hình và sự tương tác giữa các mô hình chuyển hóa trên cơ sở này sẽ làm sáng tỏ được các mô hình biểu hiện gene, sự tương tác giữa các gene và nhóm các gene. Những kết quả này sẽ góp phần trong việc điều khiển sự hoạt động của gene và phát triển các liệu pháp điều trị hiệu quả.

13

Hình 3. Mạng lƣới các gene liên quan đến các bệnh ở ngƣời (The human disease network. PNAS. vol. 104, no. 21, 8685 – 8690) Nghiên cứu để phát triển thuật toán, phần mềm và các công cụ phân tích mới ( software and tools) chẳng hạn: hỗ trợ trong việc xác định sự có mặt và vị trí của các gene trong một trình tự DNA hay trên NST, dự đoán cấu trúc protein và chức năng của chúng hoặc phân tích, sắp xếp các nhóm trình tự protein thành một họ gồm các trình tự có liên quan. Các công cụ chính của Bioinformatics (Bioinformatics tools) BLAST

BLAST là chữ viết tắt của Basic Local Alignment Search Tool. Đây là nhóm công cụ cho phép so sánh các trình tự DNA và protein với các trình tự khác có trong CSDL. Hiện nay có một số biến thể của BLAST như: PSI-BLAST, PHI-BLAST, DELTA-BLAST. Ngoài ra còn có một số công cụ BLAST đặc biệt áp dụng cho các genome người, vi sinh vật, ký sinh trùng sốt rét và các genome khác. Các công cụ hỗ trợ để phát hiện các trình tự có lẫn với trình tự của vector (đặc biệt khi đăng ký vào ngân hàng gene), các trình tự globulin miễn dịch, và các trình tự bảo thủ...

14

FASTA

Là một công cụ tìm kiếm CSDL được sử dụng để so sánh trình tự nucleotide hoặc amino acid với một CSDL trình tự. Chương trình này dựa vào thuật toán tìm kiếm trình tự nhanh bởi Lipman và Pearson. Đây cũng là thuật toán đầu tiên được dùng để tìm kiếm các trình tự giống nhau trong CSDL. EMBOSS

EMBOSS được viết tắt từ (European Molecular Biology Open Software Suite), là một tổ hợp các phần mềm phân tích nguồn mở miễn phí ứng dụng trong lĩnh vực sinh học phân tử. Có khoảng hơn 100 chương trình ứng dụng để so sánh trình tự, tìm trình tự trong CSDL, tìm kiếm các mô hình (pattern), tìm kiếm domain, motif trong phân tử protein bằng cách so sánh trình tư amino acid, so sánh trình tự nucleotide để phát hiện các pattern, phân tích tần suất sử dụng bộ mã (codon bias analysis)… Một danh sách các ứng dụng có thể tìm ở địa chỉ: http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Apps/ Clustalw

ClustalW là chương trình dùng để so sánh các trình tự DNA và protein. Mục đích là để tìm ra các vùng trình tự giống nhau và khác nhau. Trên cơ sở đó hỗ trợ cho nhiều ứng dụng khác như: phân tích domain, motif, pattern, xây dựng mối quan hệ tiến hóa. RasMol

Đây là công cụ nghiên cứu rất hiệu quả để hiện thị cấu trúc DNA, prote in và các phân tử nhỏ. Protein Explorer là một dạng biến thể dễ sử dụng của RasMol. Chương trình ứng dụng cho ch uyên n gành bioinf ormatics - JAVA: Do bản chất Java là chương trình độc lập vì vậy nó là một thành phần quan trọng của bioinformatics (BioJava) - Perl: Sử dụng để xử lý các dữ liệu sinh học ( BioPerl) - BioXML: Là một phần của dự án BioPerl, là nguồn để tập hợp các tài liệu dạng XML và DTD Xây dựng các CSDL tài liệu, tạp chí phục vụ nghiên cứu - Bài báo, tạp chí ( pubmed); - Hệ thống phân loại, khóa phân loại (taxon); - Sách (book); - Bài báo, tạp chí, tài liệu liên quan đến các phản ứng sinh hóa (pubchembioassay); - Các tài liệu liên quan đến các hợp chất hóa học ( Pubchem compounds); - Các tài liệu về các chất hóa học (pubchem substances) ; - Các cơ sở dữ liệu: genomics, proteomics, metabolomics, microarray gene expression và phylogenetics. Thông tin chứa đựng bên trong các CSDL sinh học bao gồm: tên gene, trình tự gene, vị trí của gene trên NST hoặc genome (locus tag), cấu trúc và chức năng của các gene, hậu quả của các đột biến gene đó, các gene liên quan (họ gene) và cấu trúc của chúng (nếu là protein, RNA.. .) 15

Dữ liệu bao gồm: Các trình tự gene, các mô tả về đặc điểm của gene (gene mã hóa cho mRNA, tRNA, rRNA…), thuật ngữ phân loại (nguồn gốc của gene, sinh vật chứa gene đó), các trích dẫn (bài báo liên quan đến gene, protein…) và các bảng số liệu (nếu có). Kiểu định dạng CSDL Các dạng định dạng của dữ liệu sinh học gồm nhiều loại: chữ, dữ liệu trình tự, cấu trúc protein và các liên kết (link) . - Dạng chữ: PubMed và OMIM. - Dạng trình tự: GenBank (DNA) và UniProt (protein). - Dạng cấu trúc: PDB, SCOP, và CATH. Những vấn đề liên quan đến CSDL protein Việc phát triển CSDL cấu trúc protein thường rất khó khăn và chậm hơn so với trình tự DNA vì cấu trúc 3 chiều của protein rất khó xác định. Để xác định cấu trúc 3 chiều của một phân tử protein người ta phải tách riêng hay tinh sạch protein đó với lượng đủ lớn, tiếp đó tìm các điều kiện phù hợp để cho protein kết tinh sau đó sử dụng các kỹ thuật xác định cấu trúc, chẳng hạn như dung tia X (X -ray crystallography), cộng hưởng từ hạt nhân (NMR spectroscopy ), CD (Circular Dichroism), kính hiển vi điện tử... Các dữ liệu cấu trúc được đăng ký và có thể truy cập thông qua các CSDL thành viên của wwPDB (PDBe, PDBj v à RCSB PDB, SCOP) và CATH. Các CSDL đặc thù loài Một số CSDL đặc thù loài đã được công bố, chủ yếu dùng cho nghiên cứu. Chẳng hạn: Colibase (CSDL cho E.coli). Các CSDL khác như Flybase cho Drosophila và WormBase cho các bọn giun tròn ( Caenorhabditis elegans và Caenorhabditis briggsae). Ngoài ra còn có các CSDL khác cho lúa ( Oryza sativa), Arabidopsis… Xu hƣớng phát triển của bioinformatics Xu hướng của bioinformatics tập trung vào các hướng sau: - Phát triển các thuật toán và máy tính ( Algorithms and computational challenges) - Phân tích chức năng protein ( Protein function) - Tương tác protein và các con đường chuyển hóa( Protein interactions and pathways) - Áp dụng trong lâm sàng và nghiên cứu tìm thuốc mới, dự đoán rủi ro, nguy cơ. 1.5.

Các xu hướng hiện nay của Bioinformatics

-

Thuật toán: 27% Machine learning: 21% Thống kê: 18% Sinh học: 10% CSDL: 10% Các hướng khác: 14%

16

Các chủ đề nghiên cứu hiện nay: - Phương pháp: 26% - Phân tích trình tự (motif, domain), so sánh trình tự : 25% - Mô phỏng cấu trúc protein: 19% - Mô hình cấu trúc và điều hòa hoạt động gene: 12% - Phân tích trình tự liên quan đến tiến hóa: 12% - Mô phỏng và xây dựng mạng lưới trao đổi chất (metabolome): 6%

ỹ năng và yếu tố con người để phát triển bioinformatics: K

- Hiểu biết sâu rộng cả hai lĩnh vực: sinh học và tin học - Nắm được những vấn đề cần quan tâm ở cả 2 lĩnh vực - Hội tụ được khoa học máy tính và phần mềm: đặt vấn đề và phát triển thuật toán Ở mức độ nhất định có thể nói tin sinh học là lĩnh vực thú vị, hấp dẫn, mới, thách thức, có thể truy cập được, lĩnh vực có thể mở rộng nghiên cứu, có sự ảnh hưởng nhiều, cơ hội cho người làm máy tính.

Những chủ đề cần khám phá: - Các kỹ thuật CSDL cho dữ liệu Bioinformatics - Di truyền phân tử (nền tảng chủ yếu thuộc về lĩnh vực sinh học) - So sánh trình tự, mô hình mẫu ( patterns), profiles - Phát hiện các pattern - Gene expression arrays - Xây dựng cấu trúc protein (nền tảng chủ yếu thuộc về lĩnh vực sinh học) - Xây dựng hình học không gian (lập thể) của protein (kỹ thuật máy tính và các công cụ) - Dự đoán cấu trúc protein - Xây dựng mạng lưới hóa sinh học, metabolome (nền tảng chủ yếu thuộc về lĩnh vực sinh học) - Xây dựng các con đường trao đổi chất, các con đường điều hòa và tín hiệu điều hòa gene: CSDL, kỹ thuật máy tính và các công cụ

17

Tóm tắt chƣơng 1 Tin sinh học là một lĩnh vực khoa học mới có sự kết hợp chặt chẽ của sinh học mà chủ yếu là di truyền học, sinh học phân tử với các công cụ thống kê, toán học và khoa học máy tính. Chương 1 giới thiệu khái niệm, vai trò của tin sinh học cũng như các công cụ phục vụ cho những vấn đề nghiên cứu của sinh học phân tử hiện đại chẳng hạn như tìm kiếm các trình tự sinh học tương đồng hoặc giống nhau trong các ngân hàng cơ sở dữ liệu, mô phỏng và dự đoán sự tương tác giữa các phân tử, phát hiện các mô hình biểu hiện gene và các mối liên hệ giữa các gene…Các nội dung chính của tin sinh học cũng như xu hướng phát triển của lĩnh vực này cũng được đề cập qua đó giúp sinh viên có một cái nhìn bao quát về một lĩnh vực khoa học mang tính ứng dụng, hỗ trợ cho các nhà nghiên cứu trong các lĩnh vực di truyền phân tử, sinh học phân tử, y học… Câu hỏi ôn tập chƣơng 1

1. Trình bày khái niệm tin sinh học. 2. Hãy nêu tóm tắt vai trò của tin sinh học trong nghiên cứu sinh học. 3. Trình tự sinh học là gì? Hãy nêu một vài ví dụ về việc phân tích trình tự sinh học. 4. Thế nào so sánh trình tự? Mục đích của việc so sánh trình tự để làm gì? 5. Tại sao phải nghiên cứu cấu trúc các đại phân tử ? tin sinh học hỗ trợ như thế nào trong việc dự đoán cấu trúc phân tử. 6. Những hiểu biết về vai trò của các gene, mối liên hệ giữa các gene có vai trò như thế nào trong y học hiện đại? 7. Thế nào là mối quan hệ tiến hóa giữa các sinh vật? Tin sinh học sẽ hỗ trợ gì trong nghiên cứu tiến hóa. 8. Hãy nêu nhiệm vụ và các hướng nghiên cứu của tin sinh học hiện nay. 9. Hãy nêu những chủ đề đang được các nhà tin sinh học tập trung nghiên cứu. 10. Để trở thành những nhà nghiên cứu trong lĩnh vực tin sinh học chúng ta cần phải có những yếu tố gì?

18

CHƢƠNG 2 NỀN TẢNG SINH HỌC CỦA TIN SINH HỌC 2.1. Axit nucleic và protein

Axit nucleic và protein là hai đại phân tử sinh học đóng vai trò quan trọng trong thế giới sống. Axit deoxyribonuleotide nucleic (DNA) mang thông tin di truyền và axit ribonucleic (RNA) liên quan đến quá trình sinh tổng hợp protein và tham gia vào điều hòa hoạt động sống của tế bào. Đơn vị cấu tạo nên axit nucleic là các nucleotide và protein là các amino acid. 2.2. Cấu trúc của axit nucleic DNA và RNA được cấu tạo bởi các đơn phân là nucleotide và ribonucleotide. Trong phân tử DNA, mỗi nucleotide được cấu tạo bởi gốc axit phosphoric, một phân tử đường pentose và một base. Các nucleotide nối với nhau bởi liên kết phosphodiester giữa nhóm 5‟PO4 của phân tử đường pentose của một nucleotide và nhóm 3‟OH của phân tử đường pentose một nucleotide tiếp theo. Vì vậy phân tử axit nucleic bao giờ cũng tồn tại đầu 5‟PO4 và 3‟OH. Theo quy ước đối với một axit nucleic bao giờ cũng viết theo hướng 5„ đến 3„ theo chiều từ trái sang phải.

Hình 4. Cấu trúc DNA

Axit nucleic được cấu tạo bởi 5 loại base khác nhau: cyto sine (C), uracil (U), thymine (T), adenine (A) và guanine (G). Tuy nhiên, U chỉ có mặt trong phân tử RNA và C chỉ có mặt trong DNA. Phân tử DNA và RNA không chỉ khác nhau về thành phần base mà còn khác nhau về phân tử đường. RNA có đường ribose trong khi đ ó DNA chứa đường 2-deoxyribose. Phân tử DNA gồm 2 chuỗi polynucleotide xoắn với 19

nhau theo hướng đối song. Phân tử DNA có thể tồn tại dưới dạng sợi đơn (ssDNA) và dạng sợi kép (dsDNA). Trong phân tử DNA, hai sợi được gắn với nhau qua liên kết hydro giữa các base. Hai liên kết hydro giữa A và T và ba liên kết hydro giữa C và G. Hai sợi DNA bổ sung với nhau do đó nếu biết trình tự của một sợi sẽ suy ra trình tự của sợi còn lại. Lƣu trữ thông tin di truyền

Trình tự các base mang thông tin mã hóa cho các protein. Phân tử protein được cấu tạo bởi 20 amino acid và mỗi amino acid được mã hóa bởi 1 bộ ba gồm 3 nucleotide tương ứng trên phân tử DNA. Mỗi bộ ba như vậy được gọi là bộ mã (codon). Mỗi sinh vật có xu hướng sử dụng các bộ mã khác nhau. Chẳng hạn ở pr okaryote một số loài dùng bộ mã khác với các sinh vật eukaryote. Mã di truyền của genome ti thể cũng có một số khác biệt so với mã di truyền của genome trong nhân.

Hình 4. Mã di truyền

Mối quan hệ giữa DNA, RNA và protein được mô tả trong luận thuyết trung tâm (Crick 1970)

20

Hình 5. Luận thuyết trung tâm

Toàn bộ thông tin di truyền chứa trong nhân hoặc kiểu nhân của một sinh vật được gọi là genome. Ngoại trừ các retrovirus genome là RNA, thông tin di truyền được chứa đựng trong các trình tự nucleotide của phân tử DNA. Ngoại trừ quá trình phiên mã ngược từ RNA sang DNA ở một số virus RNA, dòng thông tin được chuyển một chiều từ genome đến transcriptome và đến proteome thông qua quá trì nh phiên mã và dịch mã. Toàn bộ các bản phiên mã RNA (mRNA, tRNA, rRNA và các RNA không mã hóa khác) của một sinh vật được gọi là transcriptome. Toàn bộ protein có thể được dịch mã từ các mRNA được gọi là proteome. Như vậy trình tự amino acid trong phân tử protein được quyết định bởi trình tự DNA và dòng thông tin được chuyển từ DNA đến protein thông qua mRNA. Genome của eukaryote và prokaryote có nhiều điểm khác biệt . Ở prokaryote thông tin di truyền được mã hóa trên một đoạn DNA liên tục, trong khi đó ở eukaryote, các trình tự mã hóa (exon) được ngăn cách bởi các trình tự không mã hóa gọi là intron. Ngoài ra, ở eukaryote, sự phiên mã từ DNA thành mRNA trưởng thành cũng phức tạp hơn nhiều chẳng hạn các intron được loại bỏ trong quá trình phân cắt mRNA. Cũng chính vì quá trình này từ một gene ban đầu có thể hình thành nên nhiều mRNA và tạo ra nhiều protein tương ứng. Điều này giải thích tại sao genome ở sinh vật bậc cao chứa một số lượng gene nhất định, chẳng hạn ở người có khoảng 25.000 gene, tuy nhiên số lượng protein thực tế được tạo ra lớn hơn nhiều, khoảng 1 triệu protein.

21

Hình 6.

Cấu trúc vùng gene của prokaryote và eukaryote

Cấu trúc phân tử protein Cấu trúc sơ cấp Các phân tử protein là các đại phân tử sinh học được cấu thành từ khoảng 20 loại amino acid. Trong điều kiện nhất định phân tử protein sẽ cuộn gấp lại hình thành cấu trúc 3 chiều mang đầy đủ các đặc điểm và chức năng sinh học. Các gốc amino acid trong chuỗi polypeptide sẽ quyết định những đặc điểm hóa học như tính kị nước, phân cực, acid, base của phân tử protein. Cấu trúc sơ cấp của phân tử protein hay còn gọi là cấu trúc bậc 1 là trật tự sắp xếp của amino acid trong chuỗi polypeptide. Cấu trúc bậc 1 sẽ quyết định các cấu trúc không gian của phân tử protein. Trong phân tử protein, amino acid nối với nhau tạo thành chuỗi polypeptide. Các amino acid được nối với nhau thông qua liên kết amide của nhóm α carboxyl với nhóm α amino của amino acid tiếp theo. Chính vì vậy chuỗi polypeptide có 2 đầu N và C tận cùng. Theo quy ước về chiều, đầu N ở bên tay trái và đầu C ở bên phải.

22

Hình 7.

Các amino acid trong phân tử protein

Cấu trúc bậc 2 Thuật ngữ cấu trúc bậc 2 để chỉ những vùng không gian cục bộ trên chuỗi polypeptide. Cấu trúc bậc hai liên quan đến sự có mặt của các xoắn alpha (α -helix) và phiến gấp nếp beta (β-strand) và các cấu trúc vòng xoắn (loop). Cơ sở của việc hình thành các cấu trúc này là do các đặc điểm hình học của các gốc trong các amino acid. Vào những năm 1930 và 1940, Linus Pauling và Robert Corey đã mô tả các liên kết peptide là dạng cấu trúc phẳng, cứng (không xoay). Như vậy, một chuỗi polypeptide có thể được xem như là một chuỗi các trình tự nối với nhau và nằm trên một mặt phẳng. Xoắn alpha, phiến beta và các vòng xoắn tham gia hình thành nên cấu trúc bậc 2. Cấu trúc xoắn alpha và phiến beta được giữ ổn định nhờ liên kết hydro. Phiến beta có thể có 2 dạng song song và đối song (hình 8).

23

Hình 8. Cấu trúc bậc 2 của một phân tử protein

Xoắn alpha và phiến beta. Cầu disulfide làm ổn định cấu trúc bậc 3 và các vùng liê n quan đến hoạt tính xúc tác ( màu vàng).

Cấu trúc bậc 3 và bậc 4 Cấu trúc bậc 3 được hình thành từ việc sắp xếp và gấp nếp tiếp theo từ các thành phần cấu trúc bậc 2. Những polypeptide có chiều dài lớn hơn 200 amino acid thường tự gấp nếp với nhau thành một số đơn vị cấu trúc gọi là domain. Cấu trúc bậc 4 là dạng cấu tr úc tiếp theo của cấu trúc bậc 3 . Các protein có cấu trúc bậc 4 thường được hình thành từ nhiều chuỗi polypeptide (subunit). Trong cấu trúc bậc 4 sự tương tác giữa các amino acid bao gồm liên kết hydro giữa các chuỗi peptide, cầu disulfide giữa các gốc cystein, các liên kết ion giữa các nhóm tích điện của các gốc (chuỗi bên) và tương tác kị nước. 2.3. Genome và nghiên cứu genome Genome

Genome chứa đựng toàn bộ thông tin di truyền của một sinh vật. Các thông tin di truyền được mã hóa trong DNA hoặc RNA. Lấy genome người làm một ví dụ, nếu coi genome là một cuốn sách thì cuốn sách này được chia thành 23 chương (tương ứng với 23 cặp NST). Mỗi chương chứa 48 đến 250 triệu chữ tiên tục (A,C,G,T). Toàn bộ cuốn sách có hơn 3,2 tỉ chữ và được đặt trong nhân của tế bào. Dự án xác định trình tự genome đầu tiên hoàn tất năm 1977 bởi Fred Sanger. Ông và cộng sự đã xác định trình tự phage Φ -X174, chứa 5386 base. Genome của vi khuẩn đầu tiên được xác định trình tự là Haemophilus influenzae vào năm 1995. Sau đó genome euk aryote đầu tiên được xác định trình tự là của nấm men Saccharomyces cerevisiae. Hiện nay, sự phát triển nhanh chóng của công nghệ (Ilumina solexa, 454 pyrosequencing, ion torrent, solid sequencing...) số lượng genome của các loài được xác định trình tự đã tăng lên một cách nhanh chóng .

Nghiên cứu genome (genomic research) Nghiên cứu genome không đơn thuần chỉ là việc tổng kết các genome đã được xác định trình tự hay các chỉ ra số lượng gene có trong một genome và tính trạng tương ứng. Nghiên cứu genome còn bao gồm cả việc so sánh kích thước genome, số lượng NST (karyotype), trật tự các gene, tần suất sử dụng codon, thành phần GC, và tiến hóa genome. Ngoài ra nghiên cứu genome cũng bao gồm cả việc so sánh nhiều 24

genome để phát hiện ra các vùng bảo thủ, các sự kiện biến đổi diễn ra trong genome . Các kết quả nghiên cứu genome thường được biểu diễn dưới dạng đồ họa thông qua các trình duyệt genome hay genome browser. Genome học ( genomics) là một môn học gắn liền với di truyền học. Genomics liên quan đến việc nghiên cứu genome của các sinh vật bao gồm xác định trình tự DNA của toàn bộ genome và lập bản đồ di truyền có mức phân giải cao (khoảng cách giữa các marker rất gần nhau ). Genomics còn nghiên cứu các hiện tượng xảy ra bên trong genome chẳng hạn như: hiện tượng ưu thế lai ( heterosis), tác động lấn át của các gene (epistasis), ảnh hưởng của một gene lên nhiều gene ( pleiotropy) và tương tác giữa các locus và các allele bên trong genome. Khác với nghiên cứu vai trò và chức năng của những gene đơn lẻ , genomics nghiên cứu mối quan hệ tổng thể của các thành phần trong genome. Lặp genome ( genome duplication) đóng vai trò chủ yếu trong việc hình thành loài mới. Lặp geneome có thể dao động từ phạm vi nhỏ (lặp lại các đoạn ngắn/ short tandem repeat) hoặc lặp lại cả gene hoặc cả cụm gene, lặp cả NST và thậm chí toàn bộ genome. Những sự kiện này là nền tảng để tạo ra đặc tính di truyền mới, làm cơ sở của tiến hóa. Trao đổi gene ngang (horizontal gene transfer ) có vai trò quan trọng trong việc giải thích sự giống nhau giữa các phần nhỏ trong các genome của hai sinh vật vốn không cùng nguồn gốc tiến hóa . Việc trao đổi gene này cũng tương đối phổ biến giữa các vi sinh vật chẳng hạn hiện tượng kháng kháng sinh ở các vi sinh vật là một ví dụ điển hình. V ật chất di truyền được chuyển từ genome ti thể và lục lạp vào NST ở các tế bào eukaryote cũng là một ví dụ cho hiện tượng này.

Genome người ( hu man genome) Năm 2001, bản nháp đầu tiên của genome người được công bố. Vào năm 2007, dự án xác định trình tự genome người hoàn tất với tỉ lệ lỗi rất nhỏ (khoảng 1/20.000 base). Có thể truy cập các phiên bản lắp ráp trình tự genome người bằng cách dùng UCSC Genome Browser, Ensembl. Nghiên cứu genome của virus ( bacterophage) Bacteriophages đóng vai trò quan trọng trong nghiên cứu di truyền vi khuẩn và sinh học phân tử. Về mặt lịch sử, chúng được sử dụng để xác định cấu trúc gene và nghiên cứu cơ chế cũng như mô hình điều hòa hoạt động gene. Do genome có kích thước nhỏ và không chứa intron nên bacteriophase được lựa chọn để xác định trình tự đầu tiên. Tuy nhiên, nghiên cứu về bacteriophage không mở ra sự cách mạng về genome (cuộc cách mạng về genome bắt đầu từ việc xác định trình tự các vi khuẩn). Trình tự genome của các bacteriophage thường được xác định thông bằng việc đọc trình tự trực tiếp. Phân tích genome vi khuẩn cho thấy một phần đáng kể DNA vi khuẩn chứa các trình tự tiền phage (prophage) và dạng giống như prophage (prophage like). Như vậy, việc khai thác thông tin trong CSDL của bacteriophage góp phần giải thích được vai trò của prophage trong việc hình thành dạng genome của vi khuẩn. Nghiên cứu genome vi khuẩn lam ( Cyanobacteria genomi cs) Hiện tại có 24 vi khuẩn lam được xác dịnh trình tự. 15 trong số chúng được phân lập từ biển. Có 6 chủng thuộc chi Prochlorococcus, 7 chủng thuộc chi nước mặn Synechococcus, Trichodesmium erythraeum IMS101 và Crocosphaera watsonii WH8501. Một số nghiên cứu đã cho thấy các trình tự này có thể được sử dụng rất hữu 25

ích trong việc suy diễn các đặc tính sinh lý và sinh thái của vi khuẩn lam ở biển. Tuy nhiên, có rất nhiều dự án xác định trình tự genome đang được thực hiện trong số đó có các dạng phân lập thuộc chi Prochlorococcus và Synechococcus (ở biển), Acaryochloris và Prochloron, một dạng khuẩn lam dạng sợi có khả năng cố định nitrogen Nodularia spumigena, Lyngbya aestuarii và Lyngbya majuscul cũng như tác động của bacteriophage lên vi khuẩn lam ở biển. Như vậy, việc nghiên cứu genome đóng vai trò quan trọng trong việc giải thích nguồn gốc tiến hóa của các sinh vật và các quá trình sinh học chẳng hạn như quang hợp. Mối quan hệ giữa C - value và số lượng gene: Giá trị C (C-value) là hàm lượng DNA của một sinh vật. Giá trị này có sự biến động rất lớn ở các loài. Không có mối liên hệ rõ ràng nào giữa C -value và số lượng gene của sinh vật. Ở các genome phức tạp, tỉ lệ các trình tự DNA không mã hóa ( noncoding DNA) không mang thông tin di truyền để mã hóa RNA càng lớn. Ở người, DNA không mã hóa chiếm tới gần 75% genome. Nghịch lý giá trị C ( C-value paradox) để chỉ mối quan hệ không tỉ lệ giữa kích thước genome và số lượng gene . 2.4. Phát hiện gene và xác định chức năng gene trong genome

Hình 10. Tổ chức

genome ngƣời

26

Sau khi các dự án xác định trình tự genome kết thúc, kết quả thu được là các chuỗi trình tự được sắp xếp trong các nhiễm sắc thể. Vấn đề tiếp theo là phải “giải mã“ thông tin chứa đựng trong các chuỗi trình tự đó. Việc giải mã thông tin thực chất là để trả lời những câu hỏi như: (i) genome của sinh vật chứa bao nhiêu gene, (ii) các gene đó phân bố ở đâu trên các nhiễm sắc thể, (iii) chức năng của các gene đó là gì, (iv) cơ chế điều hòa động của các gene đó như thế nào và mối liên hệ giữa các gene trong việc hình thành kiểu hình hoặc bệnh tật... Để trả lời những câu hỏi này đòi hỏi rất nhiều thời gian, công sức và trong một số trường hợp chưa thể tìm ra đáp án cho những câu hỏi đó. Có nhiều hướng tiếp cận để giải mã“ genome, trong đó các công cụ tin sinh học có vai trò rất lớn. Chẳng hạn để xác định số lượng gene người ta phải dựa vào các đặc điểm của gene bao gồm: trình tự mã hóa (coding sequence) hay các khung đọc mở (open reading frame), trình tự promoter, các trình tự nối giữa exon và i ntron cũng như các trình tự điều khiển hoạt động của gene (các vùng 5„ UTR, 3‟UTR) ... So sánh genome, so sánh trình tự DNA là những thao tác quan trọng đầu tiên để phát hiện cũng như dự đoán chức năng của gene. Lập bản đồ vật lý dựa trên cơ sở trật tự các gene và thông tin đã biết của các gene cũng là bước đầu tiên trong nghiên cứu genome. Thông tin này sẽ được hiển thị dưới dạng đồ họa ở các genome browser. Xác định chức năng của gene được coi là một trong những thách thức với các nhà nghiên cứu genome. Mặc dù thông tin về trình tự, cấu trúc và chức năng sinh học của các gene, các trình tự sinh học được công bố ngày càng nhiều nhưng việc dự đoán chức năng của các gene thường rất phức tạp. Có nhiều hướng tiếp cận cho bài toán này trong đó có thể tiếp cận từ genome hoặc từ sản phẩm gene (protein) hoặc kiểu hình. Giả sử người ta muốn biết tính trạng chiều cao cây, khả năng kháng sâu bệnh, màu sắ c hoa hay hàm lượng protein trong sữa do gene nào mã hóa. Nếu tính trạng cần nghiên cứu là đơn gene thì sẽ tương đối đơn giản. Tuy nhiên nếu tính trạng đó do nhiều gene quy định (tính trạng số lượng) thì công việc này sẽ trở lên vô cùng phức tạp. Vấn đề là làm thế nào để chỉ rõ được gene hoặc các gene nào phân bố ở đâu trong genome (trên NST) trực tiếp mã hóa hoặc tham gia vào quá trình hình thành nên tính trạng đó. Ngoài ra, mô hình hoạt động hoặc cơ chế, điều kiện biểu hiện của các gene đó như thế nào? Trên thực tế cho dù sử phương pháp nào hay hướng tiếp cận nào thì cuối cùng vẫn phải xác nhận lại có đúng gene đó tham gia vào việc hình thành tính trạng đó không. Việc kiểm chứng này thực sự là một câu hỏi vô cùng nan giải đặc biệt ở những tính trạng di truyền số lượng ở các đối tượng sinh vật bậc cao bởi vì các kỹ thuật knock out, knock down, ức chế sự biểu hiện gene bằng RNAi không phải lúc nào cũng có thể áp dụng và áp dụng thành công. Một hướng tiếp cận khác để xác định chức năng của gene như kỹ thuật microarray nhằm phát hiện sự xuất hiện hoặc thay đổi mức độ biểu hiện của các mRNA trong những điều kiện nhất định cũng góp phần vào việc nhận diện và nghiên cứu chức năng gene. Những nghiên cứu so sánh genome, so sánh trình tự, so sánh cấu trúc (data mining and analysis) cũng là một xu hướng và là thao tác đầu tiên khi các CSDL chứa thông tin về các trình tự sinh học ngày càng nhiều. Tuy nhiên mức độ chính xác và tin cậy của các thông tin đưa ra phụ thuộc rất nhiều vào các thuật toán và mức độ phong phú của thông tin trong các cơ sở dữ liệu. Số lƣợng gene của các sinh vật Ở ng ười, lúc ban đầu genome người dự đoán chứa khoảng 50.000 đến 100.000 gene. Gần đây số lượng gene được biết khoảng hơn 20.000. Chuột và ruồi cũng có số 27

lượng gene tương tự. Giun tròn có khoảng 1 3.000 và lúa có khoảng 46.000. Ở người, trình tự gene mã hóa pr otein chiếm khoảng 1– 2% genome. Cấu trúc gene

Hình 11. Sơ đồ cấu trúc một gene ở prokaryote

Ở prokaryote, về mặt quy ước đầu 5‟ của gene được đặt ở bên trái, đầu 3‟ ở bên phải. Cấu trúc một gene điển hình được minh họa dưới đây.

Hình 12. Sơ đồ cấu trúc vùng trình tự promoter

của prokaryote

Hình 13. Cấu trúc gene của eukaryote (trên) và vùng promoter (dƣới)

28

2.5. Hoạt động chức năng của gene

và điều hòa hoạt động của gene

Hoạt động chức năng của gene là một quá trình phức tạp, có sự tham gia của rất nhiều thành phần của tế bào. Ở prokaryote, hoạt động chức năng và điều hòa hoạt động của gene tương đối đơn giản. Tuy nhiên ở eukaryote điều hòa hoạt động của gene vô cùng phức tạp liên quan đến nhiều quá trình từ cấu trúc nhiễm sắc thể liên quan đến các cơ chế epigenetics (methyl hóa, acetyl hóa, phosphoril hóa), khởi đầu phiên mã, phiên mã, cải biến sau phiên mã, dịch mã, cải biến sau dịch mã và vận chuyển hướng đích. Nghiên cứu hoạt động của một gene đã phức tạp thì điều hòa hoạt động của một con đường chuyển hóa (metabolomic pathway) còn phức tạp hơn nhiều do có sự tham gia của rất nhiều gene và tương tác của nhiều protein, enzyme khác trong tế bào. Chính vì vậy nghiên cứu hoạt động chức năng của gene cần có sự so sánh và đối chiếu với nhiều cơ sở dữ liệu và nhiều genome khác nhau.

Hình 14. Các quá trình điều hòa hoạt động gene ở eukaryote 2.6. Proteome và lĩnh vực nghiên cứu protein (proteomics)

Proteome được coi là toàn bộ protein được biểu hiện bởi một genome, tế bào, mô hoặc các sinh vật ở một thời điểm hoặc điều kiện nhất định. Xét về mức độ đang dạng, proteome lớn hơn nhiều so với genome, đặc biệt ở sinh vật nhân chuẩn. Nói cách khác số lượng protein lớn hơn nhiều so với số lượng các gene có trong genome . Nguyên nhân là do các hiện tượng phân cắt, sửa chữa tiền mRNA (pre -mRNA) của các gene và quá trình cải biến sau dịch mã chẳng hạn như phosphoryl hóa, glycosyl hóa. Nếu so với dữ liệu về genome chủ yếu là trình tự DNA, RNA thì dữ liệu về proteome phức tạp hơn bởi vì ngoài trình tự amino acid còn có các dữ liệu cấu trúc, chức năng và sự tương tác giữa các protein. Lĩnh vực nghiên cứu proteome liên quan đến nhiều kỹ thuật phức tạp như tách chiết, tinh sạch protein, phân tích protein bằng điện di 2 chiều, các kỹ thuật phân tích 29

khối phổ, so sánh sự đồng dạng giữa các mảnh peptide, so sánh trình tự amino acid... Proteomics bao gồm nội dung quan trọng là nghiên cứu cấu trúc và nghiên cứu chức năng. Những thông tin về trình tự amino acid, cấu trúc và chức năng giúp các nhà nghiên cứu giải thích được bản chất của các quá trình sinh học, cơ chế của các quá trình rối loạn, bệnh tật và nhận dạng và dự đoán chức năng của những protein mới. 2.7. Tiến hóa và bản chất phân tử của quá trình tiến hóa ở các

sinh vật

Đột biến và tích lũy đột biến Mặc dù cơ chế và nguyên nhân của tiến hóa đến nay vẫn còn nhiều tranh cãi, tuy nhiên trên quan điểm hiện đại, đột biến được coi là vật liệu ban đầu của tiến hóa bởi vì đây là con đường dẫn đến việc hình thành allele mới hoặc các vùng có chức năng điều hòa bị thay đổi hoặc tạo mới. Đột biến có thể gây ra hậu quả nghiêm trọng nhưng cũng có đột biế n trung tính hoặc không ảnh hưởng đến kiểu hình (đột biến trong các vùng DNA không mã hóa/ non-coding DNA). Hầu hết các đột biến trong gene cấu trúc đều tác động đến sản phẩm protein hoặc dẫn đến sự đa dạng về sản phẩm protein do quá trình phân cắt, ghép nối exon của mRNA. Những thay đổi cấu trúc và chức năng của các phân tử biểu hiện thành các dạng biến dị của cá thể trong quần thể . Trải qua các sự kiện tiến hóa cuối cùng có thể dẫn đến phân loài và hình thành loài mới. Ở đây, câu hỏi đặt ra là tại sao những thay đổi nhỏ trong các gene do đột biến, đặc biệt là đột biến điểm, lại dẫn đến sự phân biệt loài này với loài khác. Để trả lời câu hỏi này cần phải xem xét ở cả hai khía cạnh không gian và thời gian. Không gian ở đây là những chọn lọc ngẫu nhiên đặt lên những cá thể bị đột biến. Thời gian là hệ quả của một quá trình chọn lọc tự nhiên lâu dài. Không gian và thời gian có mối quan hệ chặt chẽ với nhau nếu áp lực chọn lọc quá mạnh thì trong một thời gian ngắn có thể hình thành loài mới hoặc dẫn đến tuyệt chủng. Sự lặp gene và genome (gene/genome duplication) Nếu một gene được lặp lại hay có nhiều bản copy thì đột biến xảy ra ở một bản copy có thể không ảnh hưởng gì đến hoạt động sống của tế bào . Lặp gene trong một cơ thể lưỡng bội sẽ tạo ra thêm một cặp gene vì thế một cặp vẫn hoạt động chức năng bình thường, cặp còn lại có thể bị biến đổi hoặc tồn tại ở các dạng tổ hợp khác nhau. Vậy lợi ích của quá trình lặp gene này là gì? Theo thời gian, một bản copy có thể tạo ra chức năng mới, làm nền tảng cho việc thích nghi trong quá trình tiến hóa. Ngay cả khi hai bản copy của gene đó tồn tại theo kiểu paralogous, tức là có trình tự và chức năng tương tự nhau thì sự tồn tại của các bản copy đó là một dạng dư thừa (gene redundancy). Điều này giải thích tại sao trong một số trường hợp chuột hoặc nấm men bị knock out một gene nhưng không thấy ảnh hưởng hoặc ảnh hưởng không quá nặng nề lên kiểu hình. Như vậy, chức năng của các gene bị knock out có thể bị trung hòa bởi một dạng paralog tương ứng của nó. Sau khi gene được lặp, trải qua các sự kiện tiến hóa một bản copy của gene có thể bị biến đổi hoặc mất đi. Những biến đổi xảy ra ở nhiều gene và nhiều vị trí trong genome dẫn đến những rào cản ( post-zygotic isolating mechanism) trong quá trình giao phối và sinh sản giữa chúng. Những rào cản này có thể dần dần gây ra sự phân loài. Các đột biến trong vùng điều hòa 30

Mặc dù về mặt số lượng gene có thể nói là như nhau ở tất cả các tế bào, tuy nhiên k hông phải tất cả các gene đều được biểu hiện như nhau ở mọi tế bào. Sự khác biệt này phụ thuộc vào loại tế bào, sự tương tác của các tín hiệu ngoại bào , các yếu tố phiên mã... Có nhiều bằng chứng cho rằng đột biến trong vùng điều khiển đóng vai trò quan trọng trong tiến hóa. Chẳng hạn: Người có một gene (LCT) mã hóa cho lactase, enzyme này đóng vai trò phân giải lactose. Hầu hết mọi người trên thế giới gene này và đều hoạt hóa ở trẻ nhỏ nhưng sẽ không hoạt động ở người lớn. Tuy nhiên, những người Bắc Âu và 3 bộ tộc châu Phi gene này vẫn hoạt động vì trong khẩu phần ăn của họ vẫn dùng sữa. Nguyên nhân là do có một đột biến trong vùng điều khiển gene lactose cho phép nó vẫn được biểu hiện . Một ví dụ khác là gene Prx1. Gene này mã hóa cho một yếu tố phiên mã quyết định cho sự hình thành chân trước ở động vật có vú. Khi chuột có vùng enhancer của gene Prx1 bị thay thế bởi vùng enhancer tương ứng của dơi (chân trước sẽ là đôi cánh), khi đó các chân trước dài hơn 6% so với bình thường. Như vậy, một sự thay đổi về hình thái không được điều khiển bởi sự thay đổi protein Prx1 nhưng lại do sự thay đổi về mức độ biểu hiện của gene này. 2.8. Phân tích m ối quan hệ tiến hóa của các sinh vật

Tiến hóa là một quá trình dẫn sự thay đổi về vốn gen của một quần thể theo thời gian. Mặc dù bản chất của tiến hóa diễn ra ở mức độ quần thể, tuy nhiên việc xác định và phân tích mối quan hệ tiến hóa có thể ở nhiều mức độ khác nhau như quần thể, loài, nhóm cá thể, tế bào, các bào quan và ở mức độ phân tử. Trong lĩnh vực tin sinh học ứng dụng việc phân tích mối quan hệ tiến hóa chủ yếu dựa vào phân tích ở mức độ phân tử hay tiến hóa phân tử. Chẳng hạn gần đây người ta dựa vào việc phân tích các trình tự DNA mã hóa cho ribosome, cytochrome c, Rubisco ribolose (RuBisCo), gene ti thể... để phân loại sinh vật và xếp chúng vào các đơn vị phân loại (taxon) . Tất nhiên việc phân tích ở mức độ phân tử là chưa đủ cần phải kết hợp với kết quả của các nghiên cứu khác. Analogous

Hiểu một cách đơn giản analogous là những đặc điểm giống nhau được quan sát thấy ở hai hay nhiều loài mà bản thân chúng không có sự liên hệ về mặt tổ tiên. Các đặc điểm sinh học giống nhau như vậy thường là kết quả của quá trình tiến hóa hội tụ. Tiến hóa hội tụ là kiểu tiến hóa mà ở đó sự thay đổi một số đặc điểm trong quá trình tiến hóa chỉ mang tính thích nghi với điều kiện nhất định. Ví dụ đôi cánh của chim và dơi có cấu trúc dạng tương tự nhau và phù hợp cho việc bay lượn nhưng về bản chất là khác nhau. Homologous

Các tính trạng tương đồng (homology) có cùng một nguồn gốc tiến hóa chung. Một tính trạng tương đồng có thể là: - Homoplasious : quá trình tiến hóa xảy ra riêng rẽ, nhưng có cùng tổ tiên chung : có cùng tổ tiên chung, nhưng trong quá trình tiến hóa dẫn đến - Plesiomorphic sự mất đi một số tính trạng ở các thế hệ con cháu. - (syn)apomorphic : có cùng tổ tiên chung và có mặt ở tất cả con cháu của chúng 31

Ortholog

Các trình tự tương đồng được coi là orthologous khi chúng được tách riêng bởi một sự kiện phân loài. Tuy nhiên chúng vẫn có cùng một tổ tiên chung gần nhất. Khi một loài phân li hay tách thành 2 loại riêng biệt, các bản copy phân ly từ một gene đơn được gọi là orthologous. Các gene orthologous là các gene của các loài khác nhau nhưng có sự giống nhau bởi vì chúng có nguồn gốc là hậu duệ trực tiếp của một gene đơn lẻ. Chẳng hạn protein điều hòa Flu có mặt ở cả Arabidopsis (thực vật đa bào bậc cao) và Chlamydomonas (tạo lục đơn bào). Ở Chlamydomonas, protein này phức tạp hơn ở chỗ nó xuyên màng 2 lần thay vì một lần ở Arabidopsis . Khi chuyển gene này từ tảo lục sang genome thực vật bằng kỹ thuật di truyền thì hoạt động của gene này cũng tương tự như ở tế bào ban đầu của chúng. Kết quả này chứng tỏ 2 gene này là orthologous vì cùng di truyền từ 1 tổ tiên chung. Để xác định 2 gene giống nhau có phải là orthologous hay không thì chỉ cần phân tích nguồn gốc tiến hóa của gene đó. Nếu các gene nằm trong một nhánh thì chúng sẽ là ortholog và là con cháu của một tổ tiên chung. Các gene orthologs thường có chức năng sinh học giống nhau. Paralogous

Các trình tự tương đồng ( homologous) được gọi là paralogous khi chúng được phân tách bởi một sự kiện lặp gene. Nếu một gene của một sinh vật bị lặp và chiếm 2 vị trí khác nhau trong cùng một genome, khi đó 2 bản copy đó được gọi là paralogous (para nghĩa là song song) và có thể cùng thực hiện chức năng giống nhau. Paralog thường có cùng chức năng hoặc chức năng tương tự nhau, nhưng không phải luôn luôn như vậy. Nguyên nhân của hiện tượng này là do thiếu áp lực lựa chọn, tức là áp lực lựa chọn chỉ đặt lên 1 bản copy của gene bị lặp, bản copy kia được tự do đột biến, thay đổi và hình thành chức năng mới. Các trình tự paralogous cung cấp nhiều thông tin hữu ích bên trong các genome. Các gene mã hóa cho myoglobin và haemoglobin được xem như là dạng paralogs cổ xưa nhất. Đến nay người ta đã biết 4 nhóm haemoglobin (A, A2, B, F) là paralog của nhau. Trong khi mỗi protein đều thực hiện chức năng giống nhau là vận chuyển oxy thì một dạng biến đổi nhỏ ở haemoglobin F dẫn đến có ái lực rất cao với oxy so với các haemoglobin ở người trưởng thành. Chức năng hoạt động của các gene paralog cũng không nhất thiết phải giữ vững. Các gene paralogous thường thuộc về cùng một loài, nhưng không phải lúc nào cũng như vậy. Chẳng hạn gene haemoglobin của người và myoglobin của khỉ đầu chó là paralog . Đây cũng chính là một vấn đề hay gặp phải trong tin sinh học. K hi các genome của các loài khác nhau được xác định trình tự và so sánh với nhau người ta rất dễ dàng có thể kết luận chúng là tương đồng ( homologous) tuy nhiên chúng vẫn có thể là paralog và chức năng của chúng đã biến đổi. Ohnology

Các gene được gọi ohnologous khi chúng có nguồn gốc từ một quá trình lặp lại toàn bộ genome. Thuật ngữ này được Ken Wolfe sử dụng để vinh danh Susumu Ohno. Ohnolog là một trong những hiện tượng lý thú trong phân tích tiến hóa bởi vì chúng được biến đổi trong cùng một độ dài thời gian bắt đầu từ nguồn gốc tổ tiên chung của chúng (do lặp lại toàn bộ genome). Xenology

32

Các dạng homolog hình thành do sự trao đổi gene ngang ( horizontal gene transfer ) giữa 2 sinh vật được gọi là xenologs. Phần lớn các xenolog giống nhau về chức năng. Gametology

Gametology mô tả mối quan hệ giữa các gene tương đồng ( homologous gene) ở các NST không tương đồng (chẳng hạn NST X và NST Y ở người) . Gametolog là kết quả của sự quyết định giới tính về mặt di truyền và là các rào cản cho sự tái tổ hợp giữa các NST giới tính. Tóm tắt chƣơng 2 1. Tin sinh học ra đời dựa trên nền tảng quan trọng của sinh học, đặc biệt là sinh học phân tử. Sinh học phân tử nghiên cứu cấu trúc, chức năng của các phân tử và các hoạt động sống của tế bào, mô, cơ quan và cơ thể ở mức độ phân tử. Trong tin sinh học, nghiên cứu phân tử tập trung vào việc xác định trình tự các axit nucleic (DNA, RNA) và trình tự amino acid (protein), đồng thời nghiên cứu cấu trúc, chức năng và sự tương tác giữa các phân tử này. 2. Thông tin di truyền được lưu trữ trong phân tử DNA, RNA được biểu hiện thông qua các quá trình phiên mã, dịch mã và cải biến (sau phiên mã và dịch mã). Đây cũng là nội dung của luận thuyết trung tâm trong sinh học phân tử. 3. Với sự phát triển nhanh chóng của các kỹ thuật, việc xác định trình tự gene và genome đã trở thành một công việc thường ngày ở các phòng thí nghiệm. Sau khi xác định trình tự genome, việc mô tả và gắn các thông tin sinh học vào các trình tự DNA là một nhiệm vụ của cả các nhà nghiên cứu sinh học và tin sinh học. Các kết quả nghiên cứu sinh học về thành phần, cấu trúc gene của sinh vật prokaryote và eukaryote làm cơ sở cho việc xây dựng các thuật toán và mô hình mô phỏng máy tính. 4. Những nghiên cứu về mối liên hệ giữa trình tự và cấu trúc phân tử axit nucleic, protein và mối liên hệ giữa cấu trúc và chức năng sinh học sẽ làm nền tảng để mô phỏng và dự đoán và so sánh các cấu trúc, dự đoán chức năng dựa vào việc so sánh trình tự. 5. Đột biến và những thay đổi trình tự, cấu trúc gene, genome trong quá trình tiến hóa đã tạo cơ sở để nghiên cứu các mối quan hệ loài, sự phát sinh loài và nghiên cứu chức năng của gene, genome giữa các loài sinh vật. Trên cơ sở phân tích và so sánh trình tự sinh học có thể xác định được các mối quan hệ di truyền, nguồn gốc tiến hóa và xu hướng tiến hóa ở các mức độ từng gene, họ gene, họ protein và ở mức độ loài.

Câu hỏi ôn tập chƣơng 2 1. 2. 3. 4. 5. 6.

Trình bày thành phần cấu tạo và cấu trúc của axit nucleic Thế nào là mã di truyền, đặc điểm của mã di truyền Trình bày nội dung của luận thuyết trung tâm Trình bày mối liên hệ giữa cấu trúc và chức năng của các protein Genome là gì? Ý nghĩa của việc nghiên cứu genome? Hãy mô tả cấu trúc gene của sinh vật prokaryote và eukaryote 33

7. Điều hòa hoạt động gene là gì? 8. Tại sao phải nghiên cứu mối quan hệ tiến hóa của các sinh vật

34

CHƢƠNG 3 TÌM KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN CỨU 3.1. Phƣơng pháp

tìm kiếm thông tin Sự phát triển nhanh chóng của mạng Internet và số lượng trang Web đã tạo ra một lượng thông tin khổng lồ và tăng lên từng ngày. Để tìm được thông tin cần thiết trong kho dữ liệu khổng lồ này cần phải sử dụng các công cụ tìm kiếm kết hợp với phương pháp phù hợp. Chương 3 sẽ giới thiệu một số công cụ và phương pháp tìm thông tin chung trên Internet phục vụ học tập và nghiên cứu. Khi cần tìm kiếm các trang web chứa những từ đặc thù hoặc cụm từ các công cụ tìm kiếm chẳng hạn như Google sẽ cho ra kết quả nhanh và rất hiệu quả. Tuy nhiên, kết quả tìm kiếm đôi khi đưa ra rất nhiều thông tin không liên quan trực tiếp đến chủ đề hoặc phạm vi tìm kiếm dẫn đến mất nhiều thời gian chọn lọc. Khi tìm kiếm có định hướng trong một lĩnh vực cụ thể hoặc một chủ đề cụ thể có thể sử dụng các nhóm thư mục (subject directories) chẳng hạn Word Wide Web Vitual Library (http://vlib.org/) để thu hẹp phạm vi lĩnh vực của người tìm kiếm. Tuy nhiên một thực tế là lượng thông tin mà các công cụ tìm kiếm cung cấp chỉ khoảng 1/3 số lượng thông tin thực tế có. Nguyên nhân là do các công cụ này không thể truy cập được nguồn thông tin đó. Việc không truy cập được chủ yếu liên quan đến an ninh mạng và các hàng rào chặn. Các công cụ tìm kiếm không được phép vượt qua các rào chặn này. Có hai kiểu tìm kiếm thông tin, tìm kiếm sử dụng các công cụ tìm kiếm chung (chẳng hạn như Google) và tìm kiếm các dữ liệu đặc thù theo mục đích nghiên cứu hoặc lĩnh vực nghiên cứu. Cho dù sử dụng công cụ tìm kiếm nào thì việc tìm kiếm thông tin cũng cần có các quá trình bao gồm: (i) xác định công cụ tìm tin hoặc các trang web hỗ trợ tìm tin, (ii) xác định nội dung thông tin cần tìm, (iii) xây dựng từ khóa đại diện cho nội dung tìm kiếm (nên sử dụng từ khóa dưới dạng cụm từ thay vì những từ đơn, đối với tiếng Anh không nên dùng mạo từ, nên dùng danh từ) , (iv) sử dụng các toán tử logic để kết hợp chẳng hạn như các hàm boolean như: and, or, not, hoặc +, -, dấu ngoặc kép “”, dấu *, để lọc và thu hẹp kết quả nghiên cứu . 3.2. Cách tìm tài liệu phục vụ nghiên cứu

Hiện nay Google được xem như một công cụ tìm kiếm nhanh và hữu hiệu nhất được đa số mọi người sử dụng. Xét về phương diện tìm kiếm thông tin chung hoặc kể cả tìm kiếm theo thư mục chủ đề (directory) thì Google vẫn là công cụ chiếm ưu thế. Trong một số trường hợp Google có thể thâm nhập vào một số trang web có bảo mật để hiển thị thông tin tìm kiếm, tuy nhiên việc truy xuất vào các nguồn thông tin này sẽ bị chặn lại vì lí do an ninh mạng. Mặc dù vậy, có thể nói để tìm thông tin một cách bao quát Google được xem như là công cụ tìm kiếm đầu tiên được lựa chọn. Việc tìm kiếm được bắt đầu bằng cách xác định thông tin cần tìm kiếm, tiếp sau đó là xây dựng từ khóa. Đối với các nhà nghiên cứu sinh học, đặc biệt trong lĩnh vực sinh học phân tử, thông tin chủ yếu được lấy từ các tài liệu nước ngoài vì vậy việc thành thạo tiếng Anh là điều gần như bắt buộc. Việc xây dựng từ khóa dựa vào cách kết hợp các từ, chủ yếu là danh từ để hình thành các cụm từ khóa. Thông thường các kết quả trả về của Google thường rất lớn vì vậy người sử dụng phải lọc kết bằng cách sử dụng các phương pháp như tăng độ dài từ khóa, nhóm từ khóa thành các cụm từ và kết hợp với các toán tử logic (hàm boolean) hoặc sử dụng các chức năng tìm kiếm nâng cao. Tuy nhiên, việc sử dụng Google chỉ giải quyết được bài toán tìm thông tin 35

chung và khái quát vì để tìm được thông tin đặc thù cho mục đích nghiên cứu đòi hỏi quá trình tìm kiếm lại trong kết quả vừa tìm được dẫn đến mất rất nhiều thời gian và công sức. Trong lĩnh vực sinh học, một phần lớn tài liệu phục vụ nghiên cứu và học tập là các bài báo khoa học được đăng trên các tạp chí chuyên ngành. Việc sử dụng thông tin từ các bài báo đảm bảo được tính chính xác và đặc thù của thông tin. Pubmed là một trong những cơ sở dữ liệu MEDLINE của NCBI cho phép người sử dụng có thể tìm kiếm rất nhiều kết quả nghiên cứu liên quan đến lĩnh vực sinh, y học dưới dạng các bài báo khoa học toàn văn (full text) hoặc tóm tắt (abstract). Gần đây, nhiều tạp chí khác nhau đã đăng ký vào trong danh mục của Pubmed vì vậy phạm vi tìm kiếm các kết quả công bố dưới dạng bài báo khoa học của Pubmed không chỉ dừng lại ở phạm vi y sinh học mà còn liên quan đến nhiều lĩnh vực khác như hóa học, vật lý, công nghệ vật liệu, công nghệ thông tin... Các bài báo dạng toàn văn có thể download miễn phí có thể tìm trong CSDL PMC của NCBI. Các dữ liệu tìm kiếm trong Pubmed được thể hiện dưới dạng các bài báo và thông tin liên quan. Hình xxx giới thiệu một kết quả tìm kiếm điển hình của Pubmed. Về mặt định dạng, thông tin tìm kiếm bằng Pubmed sẽ được cung cấp bao gồm tiêu đề bài báo, tác giả hoặc nhóm tác giả thực hiện, tên tạp chí được đăng, số xuất bản và số trạng của bài báo. Ngoài ra, Pubmed cung cấp đường kết nối (link) tới nguồn của bài báo cho phép người đọc có thể truy cập miễn phí hoặc được sự cho phép của trang cung cấp chứa bài báo đó.

Hình 15. Tìm kiếm tài liệu nghiên

cứu từ CSDL Pubmed

3.3. Làm quen với Pubmed

PubMed là một nguồn mở được phát triển và duy trì bởi NCBI, thuộc NIH. PubMed chứa hơn 20 triệu trích dẫn cho các vấn đề liên quan đến sinh y học từ MEDLINE, các tạp chí khoa học sự sống và các sách online. PubMed là một CSDL lớn tập hợp các bài báo, tóm tắt, các trích dẫn và các đường link liên kết với các CSDL khác. Ban đầu CSDL MEDLINE chứa các tạp chí, tóm tắt liên quan đến khoa học sự sống và các chủ đề y sinh học. United States National Library of Medicine (NLM) ở 36

NIH duy trì CSDL này như một phần của hệ thống quản lý và lưu trữ thông tin. PubMed được đưa ra bắt đầu từ tháng giêng năm 1996. Tính từ năm 1966 đến nay PubMed chứa hơn 22,7 triệu bài báo và thậm chí có những bài từ năm 1809. Hàng năm có khoảng 0,5 triệu bài báo mới được bổ sung. Trong số các dữ liệu trong Pubmed có khoảng 13,1 triệu được viết dưới dạng tóm tắt và 14,2 triệu dưới dạng đường liên kết với các bài b áo toàn văn (full text) và trong số này có 3,8 triệu bài báo cho phép người dùng tải về miễn phí. PubMed cũng trang bị các toán tử logic trong quá trình thực hiện tìm kiếm, tuy nhiên quá trình này là tự động. Từ khóa đưa vào sẽ được dịch ra thành các dạng biến thể của từng từ và các từ thường được sử dụng liên quan với các từ khóa đó kết hợp với các toán tử logic.

Hình 16. Kết quả tìm kiếm CSDL Pubmed

3.4. Cách quản lý tài liệu nghiên cứu

Việc tìm được tài liệu phù hợp với mục đích nghiên cứu là một quá trình đỏi hỏi mất nhiều thời gian và công sức. Tuy nhiên, ngay cả khi đã tìm được những bài báo liên quan đến chủ đề nghiên cứu thì việc quản lý thông tin này một cách hiệu quả cho việc đọc, tra cứu và trích dẫn cũng đòi hỏi nhà nghiên cứu sắp xếp và tổ chức nguồn thông tin này một các hiệu quả. Có nhiều cách quản lý các thông tin và dữ liệu bài báo, trong đó Endnote là một công cụ khá hiệu quả cho phép nhà nghiên cứu truy cập và trích dẫn nguồn tài liệu theo nhiều mục đích khác nhau. Một trong những ưu điểm là Endnote nhận định dạng kết quả tìm kiếm của một số công cụ, điển hình nhất là định dạng MEDLINE của NCBI. Ngoài ra Pubmed cho phép tìm kiếm khả năng tìm kiếm thông tin và trích dẫn trong các bài báo khoa học, luận văn và luận án một cách tự động dựa trên cơ sở dữ liệu được tạo ra. Dưới đây là một hình ảnh minh họa của chương trình Endnote. Cách sử dụng Endnote được giới thiệu cụ thể trong các bài thực hành trên lớp đi kèm với bài giảng này. 37

Hình 17: Quản lý CSDL bài báo khoa học bằng chƣơng trình Endnote

Tóm tắt chƣơng 3 1. Internet chứa đựng một khô thông tin khổng lồ, để khai thác được nguồn thông tin này cần phải sử dụng các công cụ tìm kiếm. 2. Việc tìm kiếm thông tin bao gồm việc xác định nguồn thông tin, xây dựng từ khóa và biểu thức tìm tin và cuối cùng là lựa chọn công cụ tìm kiếm. 3. Việc đánh giá độ tin cậy của thông tin phải dựa vào một số tiêu chí như mục đích của người đăng tải thông tin, thời gian đăng tải, các đường dẫn… 4. Cơ sở dữ liệu Pubmed là một trong những CSLD quan trọng của NCBI. Ở đây các nhà nghiên cứu có thể tìm kiếm và tải về rất nhiều công trình, bài báo nghiên cứu được đăng trên nhiều tạp chí có uy tín. 5. Việc quản lý tài liệu bằng các công cụ tin học giúp cho nhà nghiên cứu tổ chức, sắp xếp được các tài liệu tham khảo một cách khoa học. Việc trích dẫn các tài liệu cho các bài báo, luận văn, luận án bằng Endnote giúp nhà nghiên cứu tiết kiệm được thời gian và công sức. Câu hỏi ôn tập chƣơng 3

1. Hãy nêu các bước chính trong quá trình tìm kiếm thông tin sử dụng công cụ tìm kiếm? Dựa trên những cơ sở nào để đánh giá độ tin cậy của thông tin tìm kiếm được. Hãy nêu một ví dụ cụ thể các bước tìm kiếm một nội dung nghiên cứu (chẳng hạn nghiên cứu chuyển gene kháng thuốc trừ cỏ vào thuốc lá) bằng công cụ Google? 2. Tìm một số hình ảnh vi khuẩn E.coli, vi khuẩn gây bệnh bạc lá Xanthomonas oryzae pv oryzae, nguyên lý kỹ thuật PCR.

38

3. Sử dụng các công cụ tìm kiếm, hãy tìm các tài liệu về kỹ thuật PCR và ứng dụng của kỹ thuật này. Yêu cầu: Xác định từ khóa, số kết quả tìm được. Trong số các kết quả tìm được hãy chọn ra một tài liệu đáng tin cậy nhất? 4. Sử dụng kiến thức đã học hãy tìm kiế m địa chỉ và truy cập vào các trang chủ của Ngân hàng gen thế giới NCBI, EMBL, EBI, DDJB, PubMed và trang chủ của Viện nghiên cứu lúa quốc tế (IRRI). 5. Truy cập vào trang PubMed, tìm kiếm các tài liệu liên quan đến virus HIV hoặc bệnh viêm gan. Tìm kiếm khoảng trên 10 bài báo (full text) trong CSLD Pubmed sau đó dùng chương trình Endnote để lưu giữ và quản lý các bài báo này dạng một thư viện. 6. Trên cơ sở thư viện vừa xây dựng hãy tìm kiếm các bài báo theo các trường (tên tác giả, tên bài báo, năm công bố, từ khóa). Từ kết quả xây dựng thư viện, hãy áp dụng chương trình Endnote để trích dẫn tự động các bài báo, công trình nghiên cứu cho luận văn tốt nghiệp.

39

PHẦN 2 CƠ SỞ DỮ LIỆU SINH HỌC ĐĂNG KÝ TRÌNH TỰ VÀO CƠ SỞ DỮ LIỆU CHƢƠNG 4. CƠ SỞ DỮ LIỆU SINH HỌC Cơ sở dữ liệu Nền tảng quan trọng nhất trong tin sinh học ứng dụng là CSDL. Phần lớn dữ liệu trong các CSDL sinh học là những trình tự sinh học đi kèm với những thông tin mô tả chi tiết. Chẳng hạn dữ liệu từ các dự án xác định trình tự genome được tạo ra hàng ngày trên quy mô toàn thế giới. Để sử dụng được các cơ sở dữ liệu này cần phải có một hệ thống tổ chức và sắp xếp chúng một cách hợp lý để có thể lưu trữ, phân nhóm, cho phép truy cập, tìm kiếm và so sánh. Ngoài ra, do đặc thù của CSDL si nh học, ngoài dữ liệu trình tự thông thường còn có các CSDL cấu trúc, chức năng. Do tính phức tạp và mối liên hệ giữa các CSDL nên rất khó có thể sắp xếp và phân loại CSDL một cách tách biệt. Theo nguồn gốc của dữ liệu có thể phân chia thành CSDL sơ cấp và CSDL thứ cấp. CSDL sơ cấp chứa các trình tự nucleotide hoặc amino acid trình cấu trúc được xác định từ thực nghiệm cùng với những thông tin mô tả liên quan đến chức năng, các bài báo công bố liên quan, liên kết chéo với các cơ sở dữ liệu khác. CSDL thứ cấp là CSDL chứa các dữ liệu được chắt lọc, sắp xếp theo những tiêu chí nhất định từ dữ liệu của CSDL sơ cấp. Nếu dựa vào đặc điểm dữ liệu có thể phân chia thành CSDL trình tự, CSDL cấu trúc và các CSDL khác (hình 18). CSDL có vai trò vô cùng quan trọng làm cơ sở cho các mục đích tìm kiếm, phân tích và so sánh đối chiếu dữ liệu. Kết hợp với các công cụ phân tích và các liên kết chéo giữa các cơ sở dữ liệu, các nhà nghiên cứu có thể xác định, dự đoán và phân tích để tìm ra thông tin chứa trong các trình tự cũng như xác định tính chất và chức năng của các trình tự sinh học mới.

Hình 18. Phân loại CSDL sinh học

40

4.1. Cơ sở dữ liệu sơ cấp

4.1.1. CSDL trình tự nucleotide GenBank

CSDL GenBank được xem là CSDL được biết và sử dụng nhiều nhất thuộc NCBI (Center for Biotechnology Information của Mỹ. Genbank là CSDL cho phép truy cập miễn phí chứa hơn 189.000.000 trình tự với tổng số hơn 299.000.000.000 base của hơn 380.000 sinh vật (tính đến tháng 12 năm 2010). GenBank cũng kết hợp với 2 ngân hàng lớn của châu Âu (European Molecular Biology Laboratory (EMBL) đặt tại European Bioinformatics Institute (EBI) và DNA Data Bank of Japan (DDBJ) của Nhật để hình thành trung tâm hợp tác trình tự nucleotide quốc tế (INSDC). Các trình tự được gửi vào NCBI phải có chiều dài từ 50 base trở lên được mô tả chi tiết bao gồm số truy cập (accession number/AN). Số truy cập này sẽ được giữ không đổi ngay cả khi trình tự được update. Trong một số trường hợp các phiên bản (đánh số) đặt sau số truy cập và được ngăn cách bởi dấu chấm . Trình tự được đưa vào Genbank thông qua việc đăng ký trình tự được thực hiện thông qua giao diện web (Bankit) hoặc qua email (Sequin). Việc đăng ký trình tự sẽ được mô tả chi tiết ở chương sau. Mỗi trình tự lưu trữ trong Genbank được gọi là một mục (entry) được bắt đầu với từ khóa LOCUS theo sau là tên locus (locus name). Tương tự với AN, tên locus là duy nhất tuy nhiên, khác với số truy cập, tên locus có thể thay đổi sau khi được cân nhắc hoặc sửa đổi. Tên locus bao gồm 8 ký tự bao gồm chữ đầu tiên chỉ tên chi và loài, sau đó là 6 con số của số truy cập. EMBL và DDBJ

Hai đối tác châu Âu và Nhật Bản của GenBank là EMBL/EBI và DDBJ, đây cũng là hai kho CSDL trình tự sơ cấp. Ba CSDL GenBank/EMBL/DDBJ liên kết với nhau để hình thành INSDC. CSDL của mỗi đối tác đều được trao đổi với nhau hàng ngày, vì vậy có thể thực hiện các thao tác tìm kiếm trình tự ở bất kì ngân hàng nào. Mặc dù định dạng cho mỗi entry của NCBI và DDBJ so với EMBL có sự khác biệ t nhưng thông tin chứa đựng cho mỗi entry là như nhau.

4.1.2. CSDL trình tự protein SWISSPROT

Một trong những CSDL lớn nhất chứa các trình tự protein được mô tả chi tiết nhất đó là CSDL SWISSPROT được đặt tại Viện nghiên cứu tin sinh học Thụy Sĩ (Institute of Bioinformatics/SIB). CSDL này có hệ thống server gọi là Expasy (Expert Protein Analysis System). CSDL SWISSPROT được chứa các trình tự được chọn lọc thủ công, mỗi bản ghi (record) trong CSDL đều được thẩm định bởi các chuyên gia và nếu cần thiết có thể được đối chiếu với các công trình công bố. Chính vì điều này mà CSDL này có chất lượng rất cao và được coi là tiêu chuẩn vàng cho phân tích, tìm hiểu thông tin về protein. Hơn nữa SWISSPROT là một phần trong CSDL UniProt hay còn gọi là UniProt. Do số lượng các trình tự và thông tin mới được tạo ra liên tục nên các chuyên gia của SIB không thể có đủ thời gian để bắt kịp vì thế một CSDL mới được hình thành bên cạnh SWISSPROT là TrEMBL database. TrEMBL là chữ viết tắt của Translated EMBL vì thế nó chứa tất cả các trình tự protein được dịch mã từ trình tự 41

DNA. Tất cả các thông tin mô tả đều được thực hiện tự động nhờ máy tính chứ không phải các chuyên gia vì thế độ tin cậy cậ y của TrEMBL kém hơn. Cả hai CSDL này đều có thể truy cập được thông qua giao diện chính SWISSPROT. Các trình tự truy vấn đơn giản có thể được nhập vào trong khung. Các công cụ tìm kiếm và công cụ phân tích các CSDL này đều được hỗ trợ ở SIB. CSDL Protein ở NCBI Một CSDL trình tự rất quan trọng khác cũng được duy trì ở NCBI là CSDL protein. CSDL này không chỉ đơn thuần là các dữ liệu trình tự mà là một tập hợp các entry từ nhiều CSDL trình tự protein khác. Chẳng hạn các CSDL UniProt, PIR, và PDB. UniProt

Thông tin về các protein trong UniProt vẫn tiếp tục tăng lên nhanh chóng. Bên cạnh thông tin về các trình tự, các mô hình biểu hiện, các kết quả dự đoán cấu trúc bậc 2 và chức năng sinh học cũng được lưu giữ và mô tả. Tất cả các dữ liệu này được lưu giữ trong các CSDL, một trong số chúng là những CSDL đặc thù ( CSDL chuyên sâu về một lĩnh vực). Để tập hợp được tất cả các thông tin liên quan đến một protein quan tâm có thể mất rất nhiều thời gian. Chính vì vậy EBI, SIB và Georgetown University đã xây dựng một trung tâm cho lưu giữ thông tin về các protein gọi là Universal Protein Resource hay viết tắt là UniProt. UniProt được thành lập vào năm 2007 trên cơ sở kết hợp của các CSDL protein như: Swissprot, TrEMBL và PIR. UniProt bao gồm 3 phần: (i) UniProt Knowledgebase (UniProtKB), (ii) cơ sở dữ liệu các cụm protein đã được sắp xếp hay UniProt Reference Clusters Database (UniRef) và (iii) UniProt Archive (UniPArc) là một tập hợp của các trình tự protein đi kèm với lịch sử của nó. Trong số 3 CSDL này của UniProt, UniProtKB là CSDL tốt nhất được kết hợp của Swissprot và TrEMBL. Để tìm kiếm protein trong CSDL UniProtKB có thể sử dụng các từ khóa dài hoặc tổ hợp các từ khóa. UniRef là một CSDL trình tự duy nhất tức là mỗi trình tự chỉ có mặt duy nhất 1 lần. CSDL UniRef rất phù hợp cho mục đích tìm kiếm trình tự tương đồng. CSDL này tồn tại dưới 3 dạng UniRef100, UniRef90 và UniRef50. Mỗi CSDL này cho phép tìm kiếm các trình tự giống 100%, lớn hơn 90% và lớn hơn 50%. PIR

Protein information resource (PIR) cung cấp cho các nhà khoa học CSDL tin cậy về các trình tự protein cũng như thông tin về chức năng của chúng một cách chính xác và tin cậy. PIR hỗ trợ đắc lực cho các nghiên cứu về genome, proteom và sinh học hệ thống (system biology). Được thành lập từ năm 1984 bởi hiệp hội nghiên cứu y sinh học quốc tế (NBRF) nhằm hỗ trợ các nhà nghiên cứu xác định và mô tả định danh các thông tin trình tự protein. Bao gồm so sánh trình tự protein, xác định các trình tự có mối quan hệ và tiến hóa dựa trên cơ sở căn trình tự.

42

Hình 19. Cơ sở dữ liệu PIR

Trải qua hơn 4 thập chỉ, bắt đầu với Atlas of Protein Sequence and Structure, PIR đã cung cấp các CSDL protein và công cô ng cụ để phân tích cho ch o phép các nhà khoa học sử dụng và truy cập miễn phí bao gồm cả CSDL Protein Sequence Database (PSD). 4.1.3. Cơ sở dữ liệu cấu trúc các phân tử PDB

Protein data bank (PDB) là CSDL chứa các dữ liệu cấu trúc ba chiều của các đại phân tử sinh học, chẳng hạn như protein và axit nucleic. Dữ liệu thường là kết quả nghiên cứu thực nghiệm sử dụng các kỹ thuật kết tinh và phân tích tinh thể bằng tia X hoặc phân tích phổ NMR. Dữ liệu được thu thập từ kết quả nghiên cứu của tất cả các nhà khoa học, nhóm nghiên cứu trên toàn thế giới. PDB được coi là nguồn cung cấp CSDL cấu trúc sinh học lớn nhất có liên kết với các CSDL lớn khác như GenBank, EMBL, SwissProt… Bắt đầu từ năm 1976 với chỉ có 3 cấu trúc phân tử protein được xác định, tính đến giữa tháng 5/2013, CSDL PDB chứa tổng số 90611 dữ liệu cấu trúc các phân tử.

43

Phƣơng nghiệm

pháp

thực Proteins Nucleic acid

Phức

hợp Các Tổng số protein/DNA phân tử khác

Tán xạ tia X NMR Kính hiển vi điện tử Lai Khác Tổng

74593 8700 374 46 147 83860

1457 1029 45 3 4 2538

3864 192 126 2 6 4190

2 7 0 1 13 23

79916 9928 545 52 170 90611

Hình 20. Cơ sở dữ liệu cấu trúc protein PDB

Để hiển thị các file của PDB có thể sử dụng các chương trình máy tính nguồn mở. Một số chương trình được tích hợp sẵn trên trang Web như Pymol, UCSF Chimera, Rasmol, Swiss-PDB Viewer. Các phần mềm này thường đòi hỏi hỗ trợ Javascript phiên bản mới nhất. Ngoài việc lưu giữ các dữ liệu cấu trúc của các phân tử, PDB cung cấp các công cụ cho phép nhà nghiên cứu so sánh trình tự các protein, mô phỏng cấu trúc và so sánh cấu trúc của các protein . SCOP

SCOP (Structure classification of Protein) phân loại các protein đã biết cấu trúc theo một hệ thống thứ bậc Các protein thực hiện chức năng sinh học tương tự nhau và có mối quan hệ tiến hóa gần gũi thì chúng sẽ có cấu trúc tương tự nhau, ít nhất là ở những vùng trung tâm hoạt động. Do đó có thể dự đoán được chức năng của một protein chưa biết bằng cách so sánh cấu trúc của nó với cấu trúc các protein đã biết. CSDL SCOP cho phép dự đoán chức năng protein và được phân thành ba dạng là các 44

họ protein, siêu họ protein và các cấu trúc gấp nếp. Các họ protein bao gồm các protein có mối quan hệ tiến hóa rõ ràng và gần gũi với nhau được giới hạn bởi một mức độ giống nhau về trình tự ít nhất >30% trên toàn bộ chiều dài trình tự của các protein. Nếu không đáp ứng được những tiêu chí này các protein sẽ được xếp vào trong một họ nếu như chúng vẫn có sự tương đồng về cấu trúc và chức năng. Tuy nhiên, các protein có trình tự giống nhau ở mức độ thấp nhưng chúng có mối quan hệ với nhau dựa vào các đặc điểm cấu trúc và chức năng thì sẽ được xếp thành các siêu họ. Các protein có cùng kiểu hoặc dạng cấu trúc bậc ha i trong cùng một kiểu gấp nếp và cuộn lại sẽ được xếp vào cùng một nhóm. CATH (Class Architecture Topology and Homologous Superfamily)

Cơ sở dữ liệu CATH phân nhóm cấu trúc các protein theo kiểu thứ bậc thành 4 cấp. Class (C), Archi tecture (A), Topology (T), and Homologous Superfamily (H). Sự xếp và kê phân loại các protein thành nhóm các lớp (Class) chủ yếu được tiến hành tự động, một phần các cấu trúc bậc 2 được xem xét và tính toàn mà không cần quan tâm đến sự sắp xếp và kết nối của các cấu trúc bậc 2. Có 4 lớp protein được phân biệt: (i) protein được cấu tạo chủ yếu bởi các cấu trúc xoắn (chủ yếu là xoắn alpha), (ii) phiến beta, (iii) cả xoắn và phiến (a lpha- beta) và (iv) các protein có rất ít cấu trúc bậc 2. Nhóm Archiecture (A) mô tả sự sắp xếp của các thành phần cấu trúc bậc 2 một cách lần lượt và chính xác theo cách thủ công. Trong nhóm Topology mô tả dạng protein và sự tương tác kết nối của các thành phần cấu trúc bậc 2. Sự phân nhóm Topology dựa vào thuật toán sử dụng dựa trên cơ sở thực nghiệm xuất phát từ các thông số để phân nhóm các domain. Nhóm siêu họ protein tương đồng (H) bao gồm các domain tương đồng, chẳng hạn các domain có cùng nguồn gốc chung. Mức độ giống nhau của các trình tự được xác định bằng cách so sánh trình tự sau đó bởi so sánh cấu trúc tùy thuộc vào việc phân loại theo nhóm Topology. Ngoài 4 nhóm ở trên, một nhóm thứ 5 gọi là họ trình tự (Super families). Trong nhóm này các doma in được phân nhóm dựa vào mức độ giống nhau cao của trình tự (ít nhất 35% giống nhau trên hơn 60% chiều dài của domain lớn) vì vậy các protein này thường có chức năng tương tự nhau. 4.2. Cơ sở dữ liệu thứ cấp PROSITE

Làm một CSDL thứ cấp chứa các protein được phân nhóm dựa vào việc sử dụng motif bảo thủ (những vùng trình tự ngắn có kích thước từ 10 đến 20 amino acid có tính chất bảo thủ cao trong các phân tử protein có mối liên hệ gần gũi). Đây là cơ sở rất quan trọng để nghiên cứu chức năng protei n. Việc tìm kiếm các protein có các dạng motif giống nhau cho phép phát hiện được chức năng của chúng. Điều này rất hữu ích trong việc nghiên cứu một protein chưa biết. Việc phát hiện các motif có trong protein chưa biết này có thể gợi ý về chức năng và một số đặc điểm sinh học của nó. Việc phát hiện các motif dựa vào nguyên lý căn trình tự (xem chương 8). PRINTS

Các trình tự trong CSDL PRINTS được phân biệt dựa vào nguyên lý fingerpriting. Các Fingerprints bao gồm một vài motif trình tự. CSDL PRINTS lợi 45

dụng đặc điểm các protein chứa các vùng chức năng giống nhau sẽ có một vài vùng motif trình tự giống nhau. Bằng cách so sánh một số vùng trình tự Fingerprint sẽ xác định được mối liên hệ của một protein với một họ protein đã biết thậm chí ngay cả khi một số motif bị mất hoặc không có. CSDL PRINTS được liên kết chéo với các mục ( entries) của các CSDL liên quan nhờ đó cho phép người sử dụng có thể truy cập tới nhiều nguồn thông tin liên quan đến họ protein. Cũng tương tự như Prosite, CSDL Prints chứa thông tin về mỗi họ protein và, nếu có thể, chức năng sinh học của mỗi motif trong các fingerprint. Pfam

CSDL Pfam phân loại các protein dựa vào dạng. Mỗi dạng được xác định bằng khả năng xuất hiện của một amino acid nhất định, một vị trí chèn thêm hoặc mất đi một amino acid ở mỗi vị trí trong một trình tự protein. Các protein trong Pfam được phân nhóm dựa vào việc căn trình tự. Kết quả của việc căn trình tự sẽ cho phép phân biệt kết hợp giữa chức năng, cấu trúc và mối quan hệ tiến hóa. 4.3. Các cơ sở dữ liệu khác

4.3.1. Cơ sở dữ liệu kiểu gene và kiểu hình

Mối quan hệ giữa kiểu gene và kiểu hình được nghiên cứu thông qua sự thay đổi kiểu hình của các gene bị đột biến. Có một số CSDL kiểu gene/kiểu hình đã được tạo ra để lưu giữ các mối quan hệ giữa các gene và các đặc điểm sinh học của sinh vật. Trong số đó có thể kể đến CSDL OMIM (Online Mendelian Inheritance in Man) của NCBI. Một dạng CSDL nữa là dbGaP (Genotype and Phenotype database) của NCBI. Dữ liệu trong CSDL này được sử dụng để phân tích mức ý nghĩa thống kê của các mối quan hệ giữa kiểu gene và kiểu hình. Ngoài ra CSDL OMIA (Online Mendelian Inheritance in Animals) ở NCBI cũng chứa các mối quan hệ giữa kiểu gene và kiểu hình ở nhiều loài động vật, ngoại trừ chuột và người. Với chuột, CSDL tương ứng là MGD (Mouse genome database). Mối quan hệ giữa genotype của hai mô hình sinh vật quan trọng là ruồi dấm ( D. melanogaster ) và giun tròn (C. elegan), được lưu giữ ở FlyBase và Wormbase. Cả hai CSDL chứa thông tin cho mối quan hệ giữa genotype và phenotype.

4.3.2. CSDL kiểu gene (PhenomicDB)

CSDL kiểu gene là một CSDL lưu giữ thông tin về kiểu gene và kiểu hình của nhiều loài từ người cho đến những sinh vật được nghiên cứu nhiều như chuột, cá, ruồi dấm, giun tròn, nấm men và Arabidopsis thaliana. CSDL này kết hợp dữ liệu từ nhiều CSDL khác. Một điểm đặc biệt của CSDL PhenomicDB là có sự so sánh chéo giữa các sinh vật với nhau dựa trên mối quan hệ giữa kiểu gene và kiểu hình. Việc s o sánh được thực hiện bằng cách kết hợp các dữ liệu phân tích các gene tương đồng theo kiểu orthology (phân li từ một tổ tiên ch ung). 4.3.3. PubChem

Là một CSDL ở NCBI lưu giữ các phân tử nhỏ và thông tin liên quan đến các hoạt tính sinh học của chúng. PubChem bao gồm 3 thành phần: PubChem compound, Pubchem substance và Pubchem Bio Assay. Trong đó PubChem compound chứa hơn 11 triệu phân tử (2007) cùng với cấu trúc 2 chiều tương ứng. 46

PubChem substance cho phép tìm kiếm các chất được tạo ra bởi nhiều nhà sản xuất, các hợp chất chưa biết thành phần và các hợp chất tự nhiên chưa biết cấu trúc 2 chiều. PubChem BioAssay cung cấp dữ liệu về các phản ứng sinh học. CSDL này cho phép tìm kiếm bằng từ khóa truy vấn (query). CSDL PubChem rất hữu ích do có sự liên kết giữa các dữ liệu bên trong CSDL và các CSDL bên ngoài như PubMed. Chẳng hạn khi biết một chất ức chế hoạt động của một enzyme thì có thể tìm được nhiều chất có khả năng ức chế tương tự. Hơn nữa các phân tử hóa học nhỏ có thể được xác định có cấu trúc khác nhau lại có thể có cùng hoạt tính sinh học trong các phản ứng sinh học. Đây là cơ sở để áp dụng trong việc phát hiện và phát triển các cấu trúc thuốc điều trị mới.

Các CSDL đặc thù Ngoài các CSDL kể trên, hiện nay có tới hàng nghìn CSDL lưu giữ các thông tin về trình tự sinh học, cấu trúc phân tử, bản đồ gene, mối liên hệ giữa kiểu gene và kiểu hình. Với sự phát triển nhanh chóng của kỹ thuật xác định trình tự genome thế hệ mới hàng chục nghìn genome của các sinh vật đã được xác định trình tự. Các CS DL genome đi kèm với những thông tin mô tả có ý nghĩa rất lớn trong việc khai thác thông tin về genome, so sánh genome cũng như nghiên cứu chức năng của các gene, các protein thông qua việc so sánh không chỉ ở mức độ phân tử mà ở cả toàn bộ genome. Đối với một số đối tượng sinh vật được nghiên cứu kỹ lưỡng, thông tin chi tiết về từng gene hoặc cơ chế điều hòa hoạt động của các gene đều được mô tả. Một ví dụ điển hình là CSDL Arabidopsis thaliana, CSDL về lúa và một số đối tượng cây trồng quan trọng. Sự phát triển nhanh chóng về số lượng genome và kết quả của việc so sánh genome đã hình thành nên các CSDL về sự đa hình các nucleotide đơn (SNP). Các cơ sở dữ liệu SNP có ý nghĩa quan trọng trong việc phân tích sự đa hình của các sinh vật và mối liên hệ giữa SNP với các tính trạng và kể cả bệnh tật. Nghiên cứu về SNP cũng góp phần nghiên cứu sự phản ứng khác nhau ở mức độ cá thể với các ảnh hưởng của môi trường hoặc thuốc điều trị. Đối với vật nuôi, khai thác các CSDL SNP cũng cung cấp các chỉ thị phân tử ứng dụng trong chọn tạo giống. Nghiên cứu về gene và hoạt động chức năng của gene đã hình thành nên những CSDL EST (expression sequence tag). Những CSDL này có vai trò quan trọng trong việc nghiên cứu mô hình hoạt động của gene. Tương ứng với CSDL EST, CSDL ST S (sequence tag site) chứa những trình tự DNA duy nhất trong genome và vị trí của chúng đã được xác định trên NST. CDSL này có nhiều ý nghĩa bao gồm việc lập bản đồ gene, phát triển các marker phân tử, hỗ trợ lắp ráp trình tự… 4.4. Ngân hàng gene Khái niệm

Ngân hàng gene, GenBank, chứa CSDL trình tự sinh học và các trình tự này được mô tả một cách chi tiết bao gồm: thông tin về sinh vật chứa trình tự đó, đặc điểm của trình tự (gene mã hóa cho protein hay RNA), kích thước gene, sản phẩm gene, chức năng của gene và sản phẩm gene). GenBank được cấu thành từ 3 nguồn: National Center for Biotechnology Information (NCBI), European Molecular Biology Laboratory (EMBL) Data Library từ European Bioinformatics Institute (EBI) và DNA Data Bank of Japan (DDBJ). Cả 3 CSDL này hình thành trung tâm hợp tác trình tự Là một trong ba CSDL trình tự DNA lớn (NCBI, nucleotide quốc tế (INSDC). 47

EMBL, DDBJ) nhưng NCBI của Mỹ. Hiện nay ngân hàng gene chứa hơn 189.000.000 trình tự với tổng số hơn 299.000.000.000 base của hơn 380.000 sinh vật (tính đến tháng 12 năm 2010)

Hình 21. Sơ đồ mô tả mối quan hệ của 3 ngân hàng gene Các ngân hàng gene

a) NCBI

GenBank® là CSDL trình tự của NIH, có khoảng 126,551,501,141 bases trong 135,440,924 bản ghi trình tự (sequence records)và 191,401,393,188 bases trong 62,715,288 sequence records ở nhánh WGS (whole genome shortgun) vào tháng 4 năm 2011.

Truy cập vào GenBank Có một số cách sau: - Tìm trình tự trong GenBank (trình tự được xác định và mô tả) bằng Entrez Nucleotide. Các trình tự chia thành 3 nhóm: CoreNucleotide ( bộ sự tập chính của GenBank), dbEST (Expressed Sequence Tags), và dbGSS (Genome Survey Sequences). - Tìm và căn trình tự trong GenBank bằng một trình tự truy vấn (query) sử dụng công cụ BLAST (Basic Local Alignment Search Tool). BLAST sẽ tìm trong các CSDL CoreNucleotide, dbEST, và dbGSS một cách độc lập. - Tìm các liên kết và tải các trình tự bằng các tiện ích của NCBI (NCBI e-utilities). ử dụng dữ liệu của Genbank S

CSDL của GenBank được thiết kế nhằm cung cấp và khuyến khích nhà nghiên cứu truy cập để tìm hiểu các thông tin trình tự DNA. Chính vì vậy, NCBI không có bất kì giới hạn nào đối với người truy cập. Tuy nhiên, một số trình tự đăng ký được đi kèm với bản quyền khi sử dụng cần phải tuân theo một số ràng buộc và quy định. Phát triển những tính năng mới NCBI liên tục phát triển các công cụ mới làm tăng khả năng truy cập và đăng ký trình tự vào GenBank. Đăng ký tài khoản ở NCBI sẽ liên tục nhận được các thông tin mới qua email.

48

b) EMBL

Phòng thí nghiệm sinh học phân tử châu Âu là một trung tâm nghiên cứu hàng đầu thế giới tập trung vào khoa học sự sống. EMBL bao gồm hơn 20 thành viên quốc gia châu Âu: Áo, Bỉ, Croatia, Đan Mạch, Pháp, Đức, Hy Lạp, Iceland, Ireland, Israel, Ý, Luxembourg, Hà Lan, Norway, Tây Ban Nha, Bồ Đào Nha, Thụy Điển, Thụy Sĩ và Anh. Gần đây có thêm thành viên mới là Úc. CSDL EMBL còn được gọi là ( EMBL-Bank) chứa các nguồn trình tự nucleotide sơ cấp của châu Âu ( primary nucleotide sequence resource). Nguồn trình tự DNA, RNA chủ yếu là do các đăng ký của các nhà nghiên cứu, các dự án xác định trình tự và các ứng dụng bản quyền.Các dữ liệu trình tự được trao đổi với 2 ngân hàng còn lại hàng ngày. c) DDBJ

Ngân hàng gene Nhật Bản (DNA Data Bank of Japan, DDBJ) thành lập năm 1986 là một ngân hàng trình tự DNA thuộc National Institute of Genetics (NIG) ở Shizuoka. Được tài trợ bởi Japanese Ministry of Education, Culture, Sports, Science and Technology (MEXT). Nó cũng là 1 trong 3 thành viên của International Nucleotide Sequence Database Collaboration (INSDC). Hàng ngay DDBJ trao đổi dữ liệu với EMBL ở EBI và GenBank ở NCBI. Như vậy 3 ngân hàng này có số lượng trình tự như nhau ở bất kỳ thời điểm nào. Một số ngân hàng gene đặc thù Ri ce genome database

Kích thước của geno me lúa khoảng 430 Mb và là nhỏ nhất trong số các cây ngũ cốc đã được xác định trình tự. Kích thước này bằng khoảng 1/7 so với genome người và gấp 3.5 lần genome Arabidopsis. Tiếp ngay sau dự án genome người, dự án genome lúa được tiến hành. Vào năm 1997, NST số 1 được hoàn tất. Đến tháng 4 năm 2000 và tháng 2 năm 2001 dự án hoàn tất nhưng chưa công bố. Hiện nay, genome lúa có thể truy cập theo địa chỉ: http://rice.genomics.org.cn/rice/link/ar.jsp hoặc CSDL genome của NCBI. Ngân h àng gene Ar abi dopsis

Phiên bản hiện tại của ngân hàng gene Arabidopsis chứa thông tin về các gene với những biến thể do quá trình phân cắt (splicing). Điều đó có nghĩa là cùng một gene có thể được biểu hiện khác nhau phụ thuộc vào số biến thể do quá trình phân cắt. Địa chỉ truy cập của ngân hàng gene này: http://www.atgc.org/Arabidopsis_Genome/ CSDL genome thực vật 3 nguồn chính đóng góp tạo ra ngân hàng genome thực vật: WGS (whole genome sequencing ), GSS ( genome survey sequencing ) và ESTs (expressed sequence tags). Các loài được tập trung gồm: Arabidopsis, lúa, ngô và Medicago truncatula. Trình tự bao gồm các bản nháp của các dự án xác định trình tự, sau đó là EST v à các cDNA. Trang web cho phép truy cập vào genome thực vật: http://www.plantgdb.org/ Các nguồn genome khác NCBI cung cấp genome của hơn 3,200 sinh vật trong đó bao gồm các trình tự đã hoàn tất và đang tiếp tục . Địa chỉ truy cập: http://www.ncbi.nlm.nih.gov/About/tools/restable_org.html 49

Vai trò của các ngân hàng gene - Lưu trữ dữ liệu trình tự: c ác trình tự sau khi nhận được sẽ được kiểm tra, phân nhóm và sắp xếp vào các CSDL tương ứng. Kết quả tạo ra nguồn tài nguyên dùng chung cho tất cả mọi người. - Ngân hàng gene cho phép truy cập, copy, tải về ( download) các dữ liệu trình tự , khai thác (data mining) và phân tích (data analysis). - Tạo cơ sở công bố trình tự : Các nhà khoa học đăng ký trình tự sinh học của mình vào ngân hàng cũng là cách để công bố kết quả nghiên cứu và làm cơ sở để trích dẫn trong các bài báo mà họ sẽ công bố.

Tóm tắt chƣơng 4 1. Cơ sở dữ liệu là nơi lưu trữ các dữ liệu từ nhiều nguồn và được phân loại theo những tiêu chí nhất định nhằm giúp cho người sử dụng có thể truy cập, tìm kiếm, đối chiếu và so sánh dễ dàng. CSDL sinh học có vai trò vô cùng quan trọng vì chúng là nền tảng cho việc tìm kiếm, khai thác và phân tích và dự đoán. 2. CSDL sinh học rất đa dạng và phức tạp được lưu trữ trong các trung tâm dữ liệu. Các dữ liệu trình tự (nucleotide, amino acid) được lưu trữ ở các ngân hàng gene, điển hình là Genebank (Mỹ), EMBL (Châu Âu) và DDBJ (Nhật Bản). Ngoài CSDL trình tự còn có rất nhiều các loại CSDL khác như: CSLD cấu trúc của các đại phân tử; ngân hàng gene của các loài sinh vật; CSDL chứa các tạp chí, bài báo; CSDL về các chất hóa học, hình ảnh, protocol… 3. Hiện nay, các CSDL là nguồn mở cho phép các nhà nghiên cứu tìm kiếm, khai thác miễn phí và đồng thời đăng ký các dữ liệu từ các kết quả nghiên cứu của mình để đóng góp xây dựng CSDL. Các CSDL thường được đi kèm bởi các công cụ và các phần mềm hỗ trợ cho người sử dụng, chẳng hạn như các công cụ tìm kiếm, các công cụ hiển thị đồ họa, các phần mềm so sánh, đối chiếu các trình tự sinh học…

Câu hỏi ôn tập chƣơng 4 1. Thế nào là CSDL sinh học? CSDL sinh học bao gồm những loại dữ liệu gì? 2. Nêu vai trò của các ngân hàng gene (Genebank, EMBL, DDBJ) và mối liên hệ giữa chúng. 3. Thế nào là CSDL sơ cấp, CSDL thứ cấp. Nêu sự khác biệt giữa hai loại CSDL này. 4. Làm thế nào để đăng ký trình tự sinh học vào các ngân hàng gene? Hãy nêu một vài công cụ điển hình. 5. Thế nào là ngân hàng CSDL genome đặc thù? Hãy kể tên một vài ngân hàng CSDL genome và nêu nghĩa của các ng ân hàng gene này? 6. Hãy cho biết vai trò và ý nghĩa của CSDL Pubmed. 7. Hãy liệt kê các CSLD chính của NCBI và nêu tóm tắt ý nghĩa của các CSDL này. 8. Tìm hiểu về Ensemlb. Cho biết vai trò của We llcome Trust Sanger Institute (WTSI) 50

9. Thế nào là CSDL cấu trúc các đại phân tử? Ý nghĩa của CSDL này?

51

CHƢƠNG 5 XÁC ĐỊNH TRÌNH TỰ VÀ ĐĂNG KÝ TRÌNH TỰ VÀO NGÂN HÀNG GENE 5.1. Xác định trình tự nucleotide

Xác định trình tự DNA là quá trình chỉ ra chính xác trật tự sắp xếp của các trình tự nucleotide của phân tử DNA đó. Hiểu biết về trình tự DNA đã trở thành một yêu cầu không thể thiếu trong nghiên cứu sinh học và các ứng dụng liên quan khác như chẩn đoán bệnh, phân tích đột biến, chẩn đoán sớm ung thư... Các kỹ thuật xác định trình tự ngày càng tiến bộ và hiện đại giúp cho việc xác định trình tự nhanh chóng từ trình tự DNA đơn lẻ đến trình tự của toàn bộ genome. Vào khoảng những năm 1970 việc xác định trình tự bắt đầu được tiến hành. Có hai phương pháp được sử dụng trong khoảng thời gian này là phương pháp phân giải hóa học của Maxam và Gilbert và phương pháp sử dụng phản ứng tổng hợp theo nguyên lý kết thúc chuỗi của Sanger. Trong giai đoạn này, mặc dù phương pháp của Sanger để xuất trước nhưng do những hạn chế về mặt kỹ thuật vào thời điểm đó nên phương pháp của Maxam và Gilbert chiếm ưu thế. Sau này do tiến bộ về mặt kỹ thuật phương pháp của Sanger được sử dụng phổ biến. Quá trình xác định trình tự sau đó đã được tự động hóa. Gần đây nhiều kỹ thuật xác định trình tự thế hệ mới ra đời chẳng hạn như 454 pyrosequencing, Illumina (Solexa) sequencing ... đã cho phép xác định nhanh chóng trình tự của toàn bộ genome trong một thời gian ngắn với chi phí tương đối thấp. Mặc dù các phương pháp xác định trình tự mới được nhắc đến nhiều nhưng vẫn còn nhiều hạn chế so với phương pháp trước đây. Đối với những trình tự DNA đơn lẻ, việc xác định trình tự vẫn được làm thủ công thông qua việc nhân dòng hoặc xác định trình tự trực tiếp. Trong phạm vi bài giảng này chi tiết của các kỹ thuật xác định trình tự sẽ không được đề cập. 5.2. Xác định trình tự genome

Khái niệm Xác định trình tự genome là quá trình xác định toàn bộ trình tự DNA có trong genome của sinh vật, kể cả ty thể và lục lạp (đối với thực vật). Về mặt lý thuyết bất kỳ một mẫu nào từ tế bào biểu mô, tủy xương, chân tóc, hạt, lá cây... đều chứa đầy đủ thông tin di truyền là phân tử DNA. Đối với các sinh vật lưỡng bội có các nhiễm sắc thể tồn tại thành cặp tương đồng, trình tự DNA sẽ được sắp xếp theo từng chiếc nhiễm sắc thể trong bộ đơn bội. Việc xác định trình tự toàn bộ genome cũng trải qua lịch sử phát triển riêng. Bắt đầu vào năm 1977, genome hoàn chỉnh đầu tiên được xác định trình tự là bacteriophage φX174 có kích thước 5,386. Tiếp đó vào năm 1995, vi khuẩn đầu tiên Haemophilus influenzae đã được xác định trình tự có kích thước 1,8 Mbp. Vào năm 2000, genome thực vật đầu tiên được xác định trình tự là Arabidopsis thaliana có kích thước 157 Mb. Vào đầu năm 2003, genome người đã được xác định hoàn chỉnh có kích thước 3,2 Gbp. Vào năm 2008, dự án xác định trình tự 1000 genome đã được khởi động. Cho đến nay, hàng hàng chục nghìn genome của các loài đã được xác định trình tự. Với sự phát triển nhanh chóng của các kỹ thuật xác định trình tự thế hệ mới việc xác định trình tự genome đã có thể hướng vào đối tượng từng cá thể với thời gian và chi phí thấp. 52

Nguyên lý xác định trình tự genome Một cách đơn giản, xác định trình tự toàn bộ genome là việc chỉ ra trật tự sắp xếp của tất cả các nucleotide từ đầu đến cuối của tất cả nhiễm sắc thể trong bộ đơn bội của một loài. Do nhiễm sắc thể có kích thước rất lớn nên cho đến nay chưa có kỹ thuật nào cho phép xác định toàn bộ trình tự của nhiễm sắc thể chỉ trong một lần. Để xác định được trình tự toàn bộ chiều dài người ta phải cắt genome (NST) một cách ngẫu nhiên thành những đoạn có kích thước phù hợp với kỹ thuật sử dụng. Sau đó trình tự của từng đoạn ngắn được xác định và cuối cùng các đoạn ngắn được nối lại với nhau để thành một NST hoàn chỉnh. Kỹ thuật shotgun là kỹ thuật đã được dùng để xác định trình tự genome người trong khoảng 10 năm, ban đầu genome được cắt thành những mảnh tương đối lớn có kích thước khoảng hàng trăm kilobase pair (kbp). Sau đó các đoạn DNA có kích thước lớn này được đưa vào những vector/plasmid có khả năng mang đoạn DNA lớn như YAC, BAC, Cosmid... Các plasmid này sau đó được biến nạp và giữ trong tế bào vi khuẩn. Mỗi dòng tế bào vi khuẩn (colony) mang một trong số các đoạn DNA có kích thước lớn đó. Từ dòng tế bào này, trình tự DNA chứa trong plasmid lại được cắt nhỏ thành những đoạn có kích thước phù hợp tương ứng với kỹ thuật xác định trình tự, mỗi đoạn nhỏ này lại được đưa vào các plasmid và đưa vào tế bào vi khuẩn tạo thành các dòng khác nhau, mỗi dòng tế bào mang 1 đoạn DNA nhỏ đó. Các đoạn này sau đó được xác định trình tự riêng rẽ (read) và cuối cùng được khớp nối lại với nhau để tái tạo lại toàn bộ chiều dài NST. Quá trình tái tạo này được gọi là lắp ráp trình tự. Gần đây, kỹ thuật xác định trình tự thế hệ mới dựa trên nguyên lý cắt nhỏ genome sinh vật thành những đoạn ngắn, sau đó lựa chọn các đoạn có kích thước trong khoảng từ 50 đến 500 bp (tùy thuộc vào kỹ thuật và dòng máy xác định trình tự). Các đoạn ngắn này được xác định trình tự sau đó được nối lại với nhau để tái tạo toàn bộ genome ban đầu. Tuy nhiên để đảm bảo độ chính xác và hiệu quả cần thiết có các genome của cùng loài đã được xác định trình tự để làm dữ liệu tham chiếu (reference). Trong trường hợp chưa có các trình tự genome thuộc cùng một loài thì có thể sử dụng các genome k hác có mức độ gần gũi về mặt tiến hóa. 5.3. Lắp ráp trình tự

Về nguyên lý, việc xác định trình tự các đoạn DNA ngắn tương đối đơn giản. Tuy nhiên, lắp ráp trình tự lại là một quá trình rất phức tạp . Sau khi đọc trình tự người ta thu được rất nhiều đoạn trình tự ngắn có kích thước khác nhau tùy thuộc vào phương pháp sử dụng. Các đoạn này tiếng Anh được gọi là “read”. Về mặt nguyên lý, các đoạn trình tự ngắn này được sắp xếp, gióng với nhau để phát hiện các vùng trình tự giống chồng lên nhau (overlap) để tạo thành những đoạn dài hơn được gọi là các contig (hình 22). Nguyên lý cơ bản của quá trình lắp ráp gồm 3 bước . - Căn (alignment) các đoạn trình tự ngắn đã được đọc trình tự (read) để phát hiện ra các vùng chồng lên nhau - Sắp các mảnh vào những vị trí kề cận nhau với một hướng đúng của mỗi mảnh. - Sắp xếp nhiều mảnh lớn thu được từ bước trên để suy diễn ra trình tự gốc

53

1 2 1

2

3

4

3

4

5

3

4

5

4

1 2

3

4

Độ che phủ (coverage)

6 9

5

6

7

8

5

6

7

8

7

8 9

10

11

7

8 9

10

11

12

9

10

11

12 13 14

9 10

11

12 13 14

5

6

7

8

Các đoạn trình tự ngắn (reads)

Một contig (contigous) Hình 22. Nguyên lý của việc lắp ráp trình tự

Trong quá trình lắp ráp, nhiều đoạn read“ nối lại với nhau thành các contig. Các contig nối lại với nhau tạo thành các scaffold. Trong mỗi scaffold có thể tồn tại những phần/vùng mà trình tự chưa biết nhưng về cơ bản người ta biết chiều dài của nó và các phần này được chặn bởi 2 đoạn "reads" đã biết trình tự. Tất nhiên, giữa các scaffold khác nhau còn có thể có những khoảng trống. Các khoảng trống này sau đó sẽ được xác định trình tự tiếp dựa vào việc phân tích các đầu cuối của các trình tự scaffold đã biết (hình 23). Các scaffold lại được lắp ráp với nhau dựa trên nguyên lý tương tự để tạo thành bản trình tự genom hoàn chỉnh. Khi trình tự genome được xác định hoàn chỉnh có nghĩa là tất cả các scaffold đều được nối với nhau đúng hướng, không còn những khoảng trống hoặc những vùng trình tự chưa biết. Ngoài các bản genome hoàn chỉnh trong CSDL hiện nay còn nhiều bản trình tự genome đang vẫn trong giai đoạn nối các scaffold hoặc scaffold/BAC.

54

Hình 23. Kết nối các contig tạo thành các scaffold

Theo phương pháp xác định trình tự tự động thế hệ trước, các đoạn “read” thường có chiều dài từ 800 bp đến 1000 bp. Hiện nay, với các phương pháp xác định trình tự thế hệ mới, chẳng hạn như Alumina (Solexa), chiều dài của mỗi đoạn “read” khoảng từ 50 đến 500 bp hoặc dài hơn tùy theo thế hệ máy. Vấn đề phát sinh là làm thế nào để các trình tự ngắn được sắp xếp theo đúng vị trí của chúng trong sợi DNA ban đầu. Việc lắp ráp các đoạn trình tự ngắn gặp nhiều khó khăn so với các đoạn dài đặc biệt đối với các genome của sinh vật nhân chuẩn. Nguyên nhân là do trong genome của các sinh vật này chứa nhiều trình tự lặp lại nằm rải rác trong genome, các gene mã hóa cho rRNA hoặc các trình tự lặp lại trong vùng dị nhiễm sắc. Những vị trí này có thể dẫn đến những chỗ trống khó có thể vá“ được và trong một số trường hợp có lẽ khó đảm bảo xác định được hoàn chỉnh với mức độ chính xác và tin cậy. CAP3 là phần mềm hỗ trợ lắp ráp dùng phổ biến ở quy mô genome nhỏ (thực hành) , các công cụ khác tham khảo (wikipedia: http://en.wikipedia.org/wiki/Sequence_assembly). 5.4. Đăng ký trình tự

Tại sao cần đăng ký trình tự ? Đăng ký trình tự vào CSDL cũng là một cách công bố kết quả nghiên cứu. Khi các nhà khoa học đăng ký trình tự vào GenBank, họ sẽ có cơ hội giữ số liệu của mình trong một khoảng thời gian theo yêu cầu. Điều này tạo ra bằng chứng dữ liệu của họ đã được giữ trong GenBank trước khi công bố công trình nghiên cứu. Việc trích dẫn số truy cập cho trình tự đã công bố là một trong những yêu cầu trong việc đăng báo. Khi bài báo đăng công trình nghiên cứu chứa trích dẫn của trình tự hoặc số truy cập của nó được công bố, trình tự sẽ được mở và mọi người có thể truy cập. Đăng ký trình tự cũng góp phần xây dựng CSDL chung, đóng góp vào các dự án xác định trình tự genome của các sinh vật và mô tả genome (một phần của việc giải mã genome). Đăng ký trình tự trực tiếp ( Direct submissions) Trình tự đăng ký vào GenBank điển hình bao gồm 1 sợi DNA hoặc RNA đơn đi kèm với những mô tả chi tiết. Mô tả ở đây bao gồm cung cấp những thông tin sinh học được cung cấp kèm theo trình tự, các thông tin này phải tuân theo tiêu chuẩn của INSDC (International Nucleotide Sequence Database Collaboration). Có thể đăng ký trình tự một cách riêng rẽ hoặc nhiều trình tự một lúc. Kiểu đăng nhiều trình tự cùng một lúc được gọi là “ batch submissions”. 55

Đăng ký với số lƣợng trình tự lớn HTGS Đăng ký với số lượng trình tự lớn HTGS (High -Throughput Genomic Sequence) thường được thực hiện bởi các trung tâm xác định trình tự genome có các hệ thống tự động. Hiện nay có khoảng 30 trung tâm genome đang đăng ký các trình tự của nhiều loài như: người, chuột, lúa, ký sinh trùng sốt rét… Các dữ liệu HTGS được đăng ký theo 4 pha: 0, 1, 2, và 3. Ở pha 0, các trình tự là từ một đến một số lần đọc (read) của một clone riêng rẽ (one -to-few reads of a single clone) và thường không được gắn thành các contig. Đây là những trình tự có chất lượng thấp thường được dùng để kiểm tra liệu các trung tâm khác đã xác định trình tự một phần clone. Pha 1, các mục ( entries) được lắp ráp thành các contig và được phân tách bởi các vùng trống ( sequence gaps), trong đó trật tự tương đối và hướng của các contig này chưa được biết (xem hình). Pha 2, các mục ( entries) là những trình tự chưa hoàn tất có thể hoặc không chứa các chỗ trống. Nếu chúng là các chỗ trống thì các contig thì các contig đã đúng về trật tự và hướng. Pha 3, các trình tự thuộc nhóm có chất lượng tốt đã xác định hoàn chỉnh và không có chỗ trống.

Hình 24. Sơ đồ thể hiện hƣớng và các chỗ trống có thể thấy trong các pha của HTGS

Pha 0, 1, 2 là các bản ghi trong nhánh HTG của GenBank, trong đó các mục của pha 3 đi vào nhánh phân loại của các sinh vật, chẳng hạn, PRI (linh trưởng, primate) cho người. Một mục (entry) giữ số truy cập của nó khi nó trải qua từ một pha này sang pha khác nhưng nhận một số truy cập mới. Số phiên bản (version number) và một số gi mới (new gi number) mỗi lần là có một sự thay đổi trình tự. Đăng ký dữ liệu vào HTG ( Submitting Data to the HTG Division) Để đăng ký một khối các trình tự vào HTG, người đăng ký cần có 1 tài khoản FTP. Để có tài khoản cần viết thư đến địa chỉ [email protected]. Có 2 công cụ cho phép đăng ký: Sequin hoặc fa2htgs. Cả 2 công cụ này đỏi hỏi trình tự phải định dạng FASTA. Con đường xử lý trình tự HTG . Người đăng ký tạo ra file đăng ký trình tự tạo ra bằng Sequin, fa2htgs có thể gửi thông qua tài khoản FTP. Quá trình xử lý lúc đăng ký có thể kéo dài tới nhiều giờ hoặc cả ngày. 3 lỗi thường gặp khi đăng ký - Lỗi định dạng: không định dạng đúng theo kiểu của Seq -submit format - Các thông số: genome center tag, tên trình tự (sequence name), số truy cập (accession number), thông tin cung cấp chưa chính xác. - Dữ liệu: dữ liệu bị lỗi

56

Khi quá trình xử lý đăng ký HTG không thành công, GenBank sẽ gửi email tới trung tâm trình tự, thông báo các lỗi. Điều này giúp cho các nhân viên của trung tâm đăng ký genome sửa chữa các vấn đề trong CSDL của họ. Đối với các đăng ký thành công, 2 file được tạo ra, một file chứa nội dung trình tự đăng ký vào GenBank ở dạng flat file (không có trình tự) và một file thô ng báo tình trạng. File này chứa các thông tin: trung tâm genome (genome center), tên trình tự (sequence name), số truy cập (accession number ), phase (pha đọc trình tự), ngày tạo ra trình tự và các thông tin update cho đăng ký. Đăng ký thất bại sẽ nhận được một file lỗi với mô tả lỗi đi kèm. Nhân viên trong GenBank cũng gửi email giải thích các lỗi với chi tiết hơn. Quy trình kiểm tra Khi đăng ký trình tự thành công, trình tự được đưa vào trong GenBank, chúng phải trải qua một quá trình kiểm tra. Nếu những nhân viên trong GenBank tìm thấy lỗi hoặc chưa đầy đủ thong tin họ sẽ viết thư đến người đăng ký, yêu cầu họ sửa chữa lại các lỗi và đăng ký một bản update. Đăng ký từ kết quả xác định trình tự toàn bộ genome (Whole Genome Shotgun Sequences/ WGS)

Các trung tâm genome sử dụng nhiều hướng tiếp cận để xác định trình tự toàn bộ genome của một số sinh vật. Ngoài hướng tiếp cận xác định genome truyền thống bằng các clone những mảnh trình tự sau đó lắp ráp như kể trên, những trung tâm này thường sử dụng hướng tiếp cận WGS để đăng ký vào HTGS. Các trình tự đọc được từ phương pháp shotgun (read) sẽ được lắp ráp thành các contig, những mảnh contig này bây giờ cũng được chấp nhận đăng ký vào GenBank (dưới dạng vùi hoặc “inclusion”). Các bản lắp ráp của các contig từ WGS có thể được update khi các pha của dự án xác định hoàn tất hoặc có các bản lắp ráp mới. Các trình tự WGS cũng được mô tả (annotation) tương tự như với các trình tự đơn đăng ký trong GenBank. Mỗi dự án xác định trình tự được giao cho một con số nhất định (ID), gồm 4 ký tự. Số truy cập cho một trình tự WGS chứa ID của dự án, tiếp theo là 2 con số thể hiện phiên bản (version number), và 6 con số ký hiệu cho tên của contig (contig ID). Chẳng hạn, một dự án xác định trình tự genome có thể có một số truy cập cho một trình tự WGS như thế này: AAAX00000000. Phiên bản lắp ráp đầu tiên sẽ là AAAX01000000. Sáu kí tự tiếp theo sẽ xác định từng contig riêng rẽ. Việc đăng ký trình tự WGS có thể được tạo ra bằng cách sử dụng tbl12asn, một chương trình tiện ích được đi kèm với phần mềm Sequin. Thông tin chi tiết cho quá trình đăng ký có thể truy cập theo trang web của “ Whole Genome Shotgun Submissions”.

Đăng ký các trình tự EST, STS và GSS theo lƣợng lớn (Bulk Submission : EST, STS, and GSS)

Các trình tự biểu hiện được đánh dấu (Expressed Sequence Tags/ EST), các trình tự có vị trí được đánh dấu (Sequence Tagged Sites/ STSs), và các trình tự từ khảo sát genome (Genome Survey Sequences/ GSSs) thường được đăng ký vào ngân hang gene theo dạng một loạt “batch” và thường là một phần của các dự án xác định trình tự lớn hoặc của một genome cụ thể. Những bản ghi của các trình tự (entr ies) sẽ được 57

đăng ký liên tục (streamlined submission process) và cùng trải qua quá trình xử lý trước khi được đưa vào trong GenBank. Các trình tự EST thường có kích thước tương đối ngắn ( <1 kb), những trình tự cDNA đơn (single-pass cDNA sequences) từ một mô nhất định trong một giai đoạn phát triển nhất định. Đặc điểm chung của các EST là có rất ít thông tin mô tả về chúng. STSs là những trình tự ngắn có mặt duy nhất trong genome và vị trí của chúng đã được biết (trên NST). Các trình tự STS có thể nhân lên được bằng PCR, chính vì vậy các trình tự này thường được sử dụng để đánh dấu (mapping). GSSs là những trình tự gắn có nguồn gốc từ DNA genome và thôn tin mô tả những trình tự này rất hạn chế. Các trình tự GSSs bao gồm GSSs đơn ( single-pass GSSs), BAC ends, exon-trapped genomic sequences, và các trình tự Alu PCR. Các trình tự EST, STS, và GSS được sắp xếp trong những CSDL riêng trong GenBank chứ không phân loại theo sinh vật. Trong GenBank chúng được ký hiệu là các CSDL dbEST, dbSTS, và dbGSS. Đăng ký dữ liệu vào CSDL dbEST, dbSTS, hoặc dbGSS Thông thường người đăng ký tạo ra các file được định dạng nhất định, các file này chứa trình tự cần đăng ký. Sau đó file được gửi qua email tới địa chỉ: [email protected]. Nếu file quá lớn cho email có thể dung phương thức chuyển file FTP thong qua tài khoản FTP. Sau các bước sang lọc và kiểm tra ở GenBank, các trình tự được đưa vào những CSDL tương ứng, một số truy cập (accession number) sẽ được đưa cho người đăng ký. Đọc thêm: http://www.ncbi.nlm.nih.gov/books/NBK21105/ 5.5. Các công cụ đăng ký trình tự

Có nhiều cách để đăng ký trình tự chẳng hạn sử dụng giao diện web có thể dùng công cụ BankIt của NCBI, Webin của EMBL hoặc sử dụng công cụ của DDBJ (Nucleotide Sequence Submission). Có thể đăng ký theo dạng offline bằng công cụ Sequin của NCBI. Trong phạm vi bài giảng này một số công cụ hỗ trợ đăng ký trình tự sẽ được giới thiệu. 5.5.1. Sử dụng World wide web (WWW) Công cụ BankIt

Dạng đăng ký bằng giao diện web, thuận tiện và dễ dàng áp dụng cho việc đăng ký số lượng trình tự nhỏ. Thông tin đi kèm cho các trình tự thường không đòi hỏi quá nhiều. Các thông tin đăng ký cần phải được điền đầy đủ. Các trình tự vector (lẫn với trình tự của vector sử dụng để tách dòng và đọc trình tự) sẽ phải loại bỏ bằng cách dung công cụ BLAST cho CSDL VecScreen. Dạng đăng ký hoàn tất sẽ được lưu lại dưới dạng ASN.1 và được xác nhận bằng email cho thấy quá trình đăng ký được hoàn tất.

58

Hình 25. Công cụ đăng ký trình tự BankIt

Hình 26. Công cụ đăng ký trình tự DDBJ Đối với ngân hàng gene châu Âu EMBL, ngân hàng này cung cấp công cụ Webin theo địa chỉ: http://www.ebi.ac.uk/ena/about/submit_and_update

59

Hình 27. Công cụ đăng ký trình tự tại EMBL Ngân hàng gene NCBI cung cấp công cụ Sequin. Địa chỉ http://www.ncbi.nlm.nih.gov/Sequin/index.html

60

5.5.1. Các thông tin cần thiết phải chuẩn bị trƣớc khi đăng ký trình tự

Thông tin về cá nhân Những thông tin về cá nhân bao gồm tên, địa chỉ email, địa chỉ cơ quan, số điện thoại. Bản chất của trình tự Trình tự đó có nguồn gốc từ genomic hay mRNA? Những người sử dụng các CSDL muốn biết bản vật lý của đoạn DNA được bắt nguồn từ đâu. Chẳng hạn, mặc dù trình tự cDNA được thực hiện từ DNA (không phải RNA), dạng phân tử này có mặt trong tế bào là mRNA. Điều tương tự đối với các trình tự genom của các gen rRNA trong đó phân tử được đọc trình tự hầu hết là DNA genome. Trình tự được đăng ký nên là một dạng phân tử duy nhất, nó không thể là dạng hỗn hợp của DNA genom e và dạng mRNA vì trong cơ thể sống không tồn tại trình tự trộn lẫn này . Độ chính xác của trình tự Trình tự đăng ký cần có độ chính xác cao, đối với trình tự DNA cần được đọc cả 2 chiều. Ngoài ra, đối với các đoạn DNA được gắn vào vector nhân dòng cần phải xác định có chứa trình tự của các vector này sau khi đọc trình tự hay không. Có nhiều công cụ hỗ trợ cho việc xác định việc này, chẳng hạn công cụ của NCBI. Nguồn sinh vật Trình tự DNA phải được xác định rõ nguồn gốc từ sinh vật nào. NCBI hỗ trợ công cụ để tra cứu vị trí hệ thống học của các sinh vật (taxon). Trích dẫn Khi đăng ký trình tự những thông tin liên quan về trình tự càng chi tiết thì càng tốt kể cả bao gồm các bài báo đã được đăng hoặc dự định đăng. Các trình tự mã hóa (coding sequence CDS) Trong trường hợp đăng ký trình tự gene mã hóa, việc xác định vùng trình tự mã hóa là bắt buộc. Đến nay trình tự amino acid hầu như được dịch mã từ trình tự nucleotide. Việc dịch mã từ trình tự nucleotide sang trình tự axit amin không có vấn đề gì khó khăn tuy nhiên cần lưu ý về mã di truyền có sự khác nhau ở một số sinh vật. Hiện nay, cơ sở dữ liệu protein (chẳng hạn SWISS -PROT và PIR) phần lớn được xây dựng dựa vào trình tự protein dịch mã từ trình tự DNA (có trình tự DNA đi kèm). Do đó, việc cung cấp thêm trình tự protein là không thể thiế u trong quá trình đăng ký trình tự. Khi đăng ký trình tự có nguồn gốc mRNA, việc chỉ rõ ORF cũng rất quan trọng. Có nhiều công cụ hỗ trợ cho việc này, chẳng hạn ORF Finder của NCBI. Các vùng exon, intron của một đoạn ADN khi đăng ký trình tự cũng cần được chỉ rõ. Ngoài ra các thông tin khác liên quan cũng cần phải cung cấp bao gồm chiều dài trình tự, dạng phân tử. Cuối cùng phần quan trọng copy trình tự hoặc đưa đường dẫn đến file chứa trình tự Các bước đăng ký tiếp theo được thực hiện tuần tự theo hướng dẫn của WebIn, trình tự đăng ký nếu được chấp nhận bởi EMBL người đăng ký sẽ nhận được những thông tin cần thiết và mã số truy cập dưới dạng thư điện tử theo địa chỉ hộp thư đăng ký. Một điều cần lưu ý là do việc đăng ký trực tiếp bằng WebIn phụ thuộc vào khả năng kết nối và tốc độ truy cập Internet. Thông tin cung cấp để đăng ký bằng WebIn 61

đòi hỏi phức tạp và chính xác do đó để đảm bảo quá trình đăng ký thành công cần phải chuẩn bị các thông tin liên quan đến trình tự đăng ký thật đầy đủ. 5.5.2. Ví dụ đăng ký trình tự bằng WebIn

Webin của EMBL cung cấp 3 tùy chọn chọn cho người đăng ký : (i) đăng ký dữ liệu trình tự đơn lẻ, tức là trình tự của những đoạn DNA hoặc gene dưới dạng đoạn được đọc riêng rẽ (read data), (ii) đăng ký dưới dạng các đoạn trình tự đã được lắp ráp và mô tả (assembled sequence and/or annotation), (iii) đăng ký các bản trình tự genome lắp ráp (genome asseblies) (hình 28). Quá trình đăng ký trình tự khá đơn giản, bước đầu tiên cần đăng ký với EMBL để mở một tài khoản. Việc mở tài khoản được thực hiện thông qua liên hệ với EMBL theo địa chỉ [email protected] . Sau khi có tài khoản các bước đăng ký được thực hiện tuần tự theo hướng dẫn.

Hình 28. Trang đăng ký trình tự SRA Webin

5.5.3. Ví dụ đăng ký trình tự bằng Sequin

a/ Giới thiệu Sequin là một phần mềm độc lập được NCBI phát triển để đăng ký và update trình tự vào các CSDL GenBank, EMBL, DDBJ. Sequin có khả năng thực hiện với nhiều trình tự dài hoặc một bộ các trình tự. Cho phép sửa chữa, update và cung cấp những mô tả cần thiết trong quá trình đăng ký trình tự, ngoài ra Sequin còn chứa một số các chức năng khác đi kèm. Chi tiết về Sequin có thể truy cập theo địa chỉ: http://www.ncbi.nlm.nih.gov/Sequin/ hoặc qua email: [email protected] b/ Cấu trúc cơ bản của Sequin Sequin gồm một loạt các form với giao diện đơn giản, dễ sử dụng 62

-

Trang thông tin về tác giả đăng ký Tên sinh vật và trình tự đăng ký Thông tin về tên chủng, tên gene và protein Xem lại toàn bộ các thông tin chuẩn bị đăng ký Sửa chữa và mô tả trình tự

c/ Trước khi bắt đầu: Chuẩn bị dữ liệu trình nucleotide và trình tự axit amin. Sequin thường nhận trình tự dưới dạng FASTA, ngoài ra có thể là PHYLIP, NEXUS, MACAW hoặc FASTA+GAP. Xem chi tiết định dạng file ở địa chỉ: http://www.ncbi.nlm.nih.gov/Sequin/faq.html#Orgnameforphyl ký tự được đánh số sử dụng bảng mã ASCII dưới dạng text (plain text). d/ Đăng ký trình tự Ở đây sử dụng ví dụ là trình tự genom của D.melanogaster mã hóa cho hai yếu tố khởi đầu 4E-I và 4E-II (Số truy cập trong GenBank là U54469). Sau khi đã hoàn tất việc chuẩn bị các file trình tự, bật chương trình Sequin. Form đầu tiên của Sequin xuất hiện như sau:

Trong trường hợp có những vấn đề chưa rõ có thể đọc các trợ giúp của Sequin đi kèm (Show Help) như hình dưới đây. Để bắt đầu C lick vào nútStart New Submission. Trang bắt đầu đăng ký được mở ra như sau: Form về tác giả đăng ký Trang này sẽ hỏi tác giả đăng ký cung cấp những thông tin mở bao gồm: vị trí làm việc, tên và các thông tin liên hệ

63

Form format trình tự Trình tự phải ở dạng FASTA đối với đăng ký một hay nhiều trình tự đơn giản (PHYLIP, NEXUS, MACAW, or FASTA+GAP). Trong trường hợp các trình tự đăng ký không liên quan gì đến nhau tốt nhất nên đăng ký từng trình tự một. Form về trình tự và tên sinh vật

Ở bước này, các trình tự về nucleotide và protein phải được ghi vào các file notepad, để khi nhập trình tự (Import nucleotide FASTA) hoặc (Import protein FASTA) ta chỉ cần đưa đường dẫn đền file đó và nhấp vào nút Next Page. Xem kết quả trước khi gửi đăng ký Sau khi hoàn tất các bước trên, Sequin sẽ cho chúng ta xem một giao diện chứa định dạng trình tự theo tiêu chuẩn của GenBank. Kết quả này được lưu lại dưới dạng một file để gửi cho ngân hàng gen qua email. Sau một khoảng thời gian xử lý dữ liệu đăng ký, ngân hàng gen sẽ cho chúng ta biết họ đã nhận được và chấp nhận hay không. Nếu được chấp nhận người đăng ký sẽ được cung cấp một địa chỉ truy cập dưới dạng số và chữ chẳng hạn như U54469. 64

Tóm tắt chƣơng 5 1. Với sự tiến bộ về kỹ thuật, hiện nay trình tự nucleotide của các sinh vật được xác định một cách rất nhanh chóng, toàn bộ genome của một sinh vật có thể được xác định trong vài ngày. Những kỹ thuật xác định trình tự hiện đại đang dung hiện nay được gọi là các kỹ thuật xác định trình tự thế hệ mới (để phân biệt với kỹ thuật của Maxam Gilber và phương pháp tự động của Sanger). Phương pháp xác định trình tự thế hệ mới bao gồm: Pyrosequencing, Alumina (Solexa) sequencing, Solid sequencing… 2. Việc lắp ráp các trình tự ngắn đọc được (read) được thực hiện dựa trên cơ sở căn trình tự. Hiện nay quá trình lắp ráp được hỗ trợ bởi các phần mềm và hệ thống máy tính mạnh. 3. Các trình tự nucleotide hoặc toàn bộ trình tự genome của các sinh vật được đăng ký vào ngân hàng gene thông qua các công cụ đăng ký. Công việc này vô cùng có ý nghĩa ngoài việc công bố công trình nghiên cứu của các nhà khoa học còn có ý nghĩa trong việc xây dựng kho CSDL trình tự genome của các sinh vật ở quy mô toàn thế giới.

Câu hỏi ôn tập chƣơng 5 1. Mô tả nguyên lý của phương pháp xác định trình tự của Maxam -Gilbert 2. Mô tả nguyên lý của phương pháp xác định trình tự tự động của Sanger. Hãy cho biết trình tự genome người được xác định theo nguyên lý và phương pháp nào? 3. Mô tả nguyên lý của phương pháp xác định trình tự: Pyrosequen cing, Alumina (Solexa) sequencing và Solid sequencing. 4. Bằng các công cụ tìm kiếm đã học tìm hiểu và nêu nguyên lý của các phương pháp xác định trình tự khác. 5. Giải thích nguyên lý của việc lắp ráp trình tự. Cho ví dụ một công cụ hỗ trợ lắp ráp trình tự. 6. Hãy nêu các công cụ hỗ trợ việc đăng ký trình tự vào ngân hàng gene 7. Ý nghĩa của việc đăng ký trình tự 8. Sử dụng công cụ Sequin đăng ký một trình tự (bất kỳ) vào ngân hàng gene.

65

PHẦN 3

CÁC CÔNG CỤ PHÂN TÍCH KHAI THÁC VÀ XỬ LÝ DỮ LIỆU TRÌNH TỰ SINH HỌC CHƢƠNG 6. GENOME BROWSER

6.1. Khái niệm genome browser

Genome browser là một trình duyệt giao diện đồ họa cho phép hiển thị thông tin từ một CSDL sinh học cho các dữ liệu liên quan đến genome. Genome browser cung cấp những thông tin cơ bản gồm: kích thước genome, số lượng NST, số lượng gene và thông tin cụ thể hơn bao gồm vị trí của các gene, các vùng mã hóa (CDS), vị trí của các trình tự STS, EST dưới dạng tọa độ vật lý trên NST. Ngoài ra, thông tin về chức năng của các gene, các trình tự DNA được mô tả chi tiết. Ngoài ra còn có những dạng dữ liệu so sánh hoặc đối chiếu các gene, vùng DNA giữa các loài có liên quan. Genome browser cho phép các nhà nghiên cứu quan sát và thực hiện các thao tác qu an sát tìm kiểm thông tin chứa trong các genome, chức năng của các gene hoặc dự đoán thông tin về các protein, sự biểu hiện, điều hòa và các dạng biến đổi trong genome. Genome browser khác với những CSDL ở chỗ các dữ liệu mô tả có nguồn gốc từ nhiều CSDL. Tuy nhiên chúng khác nhau từ các CSDL ban đầu ở cách mà chúng được hiển thị ở dạng đồ họa, vị trí tọa độ của genome trên một trục hoành và các vị trí mô tả được hiển thị bằng các khoảng trống được điền hoặc tô màu để cho biết sự có mặt của các gene và các thành phần khác như khoảng trống giữa các gene, intron , các vị trí đa hình (SNP)… Ngoài ra genome browser còn cung cấp thông tin thứ cấp chẳng hạn chỉ ra các vùng bảo thủ trong genome, các gene hay họ gene có liên quan với nhau, các protein tương đồng. Gần đây các CSDL về cấu trúc protein cũng được tích hợp vào trong các genome browser. Các công cụ phân tích cơ bản như tìm kiếm, so sánh trình tự, cấu trúc sinh học cũng được đưa vào các genome browser nhằm hỗ trợ các mục đích khác nhau của nhà nghiên cứu. Các genome browser đặc thù cho các loài cũng được xây dựng, chẳng hạn các genome browser cho người, chuột, lúa, ngô, đậu tương, arabidopsis... Có 3 genome browser được biết đến nhiều nhất là Ensembl Genomes, NCBI's Map Viewer, University of California Santa Cruz (UCSC) Genome Browser. Mỗi genome browser cung cấp một giao diện đồ họa và các đặc điểm hỗ trợ người sử dụng tìm thông tin của gene cũng như thông tin về các đặc điểm của các gene chẳng hạn như các exon, các vùng không mã hóa và các biến thể củ a chúng. Ngoài ra còn có nhiều genome browser khác đặc trưng cho một hoặc một số genome khác nhau chẳng hạn như lúa (Rice genome browser hỗ trợ bởi NSF), Arabidopsis thaliana (tại PlantGDB), ngô (MaizeGDB)… 6.2. Giới thiệu một số genome browser quan trọng

6.2.1. Ensembl

Ensembl là một dự án kết hợp giữa EMBL -EBI và Sanger Institute để phát triển hệ thống phần mềm để tạo ra và duy trì các mô tả của một genome eukaryote nhất định. Ensembl ban đầu được tài trợ bởi Wellcome Trust. Trang web cho phép truy cậ p miễn phí tất cả các dữ liệu và phần mềm từ dự án Ensembl. Dự án Ensemble cung cấp các CSDL genome của các động vật có xương sống và các loài eukaryotic và đưa thông tin của chúng online cho phép truy cập miễn phí. 66

Hiện nay trong Ensemble, genome người chứa khoảng 3 ,2 tỉ cặp base, mã hóa cho khoảng 20.000 đến 25.000 gene. Genome browser không chỉ cung cấp trình tự genome mà quan trọng nhất là cung cấp thông tin về vị trí và các mối quan hệ của các gene được mô tả và xác định cụ thể trên các NST. Giai đoạn đầu khi thông tin về các trình tự còn hạn chế, các nhà khoa học phải mô tả thủ công dựa, định vị các gene bằng cách sử dụng các dữ liệu thu được từ các thí nghiệm, các tạp chí khoa học và các CSDL. Vì mô tả thủ công nên các thông tin được kiểm soát chặt chẽ và được thẩm định bởi các chuyên gia nên độ chính xác của dữ liệu rất cao. Tuy nhiên, đây là một quá trình đòi hỏi rất nhiều thời gian và công sức. Khi dữ liệu đã tích lũy được ở một mức độ nhất định và do số lượng trình tự genome đọc được ngày càng nhiều nên việc mô tả thủ công sẽ không thể đáp ứng được. Chính vì vậy, việc phát triển các thuật toán hỗ trợ cho việc mô tả genome tự động đã được phát triển. Trong dự án Ensembl, dữ liệu trình tự được đưa vào một phần mềm “pipeline” viết bằng ngôn ngữ Perl cho phép tạo ra một bộ các vị trí của các gene được dự đoán và lưu lại trong một CSDL MySQL để phân tích và hiển thị sau đó. Ensembl cho phép những dữ liệu này được truy cập tự do và tải về máy trên toàn thế giới.

Hình 29. Ensembl genome browser

Trải qua một thời gian, dự án đã mở rộng cho nhiều loài sinh vật bao gồm (các động vật mô hình như chuột, ruồi dấm, cá ngựa) cũng như một phạm vi rất rộng các dữ liệu genome bao gồm những biến đổi di truyền, các đặc điểm điều hòa biểu hiện gene. Từ tháng 4 năm 2009, một dự án tiếp theo là Ensembl Genomes đã mở rộng phạm vi của Ensembl vào các đối tượng động vật không xương sống metazoan, thực vật, nấm, vi khuẩn, và protista, trong khi dự án ban đầu vẫn tập trung vào nhóm động vật có xương sống. 67

Hiện nay dữ liệu genome trong Ensembl được chia thành nhiều nhóm. Nhóm thường dùng bao gồm các genome của người, chuột và zebrafish. Nhóm linh trưởng bao gồm 10 giống. Ngoài ra còn các nhóm của lớp chim, bò sát, lưỡng cư, nấm và các sinh vật khác.

Hình 30. Genome ngƣời tại Ensembl

6.2.2. UCSC

Đại học California (University of California, Santa Cruz (UCSC) ) thành lập một trung tâm gọi là UCSC Genome Browser chứa các trình tự genome của rất nhiều sinh vật bao gồm cả động vật có và không có xương sống. Các trình tự này được sắp xếp và mô tả chi tiết. Browser là một công cụ hiển thị đồ họa hỗ trợ cho các thao tác tìm kiếm và truy cập CSDL một cách nhanh chóng ở rất nhiều mức độ. UCSC gần đây đã mở rộng số lượng genome trong CSDL, tổng số hiện nay lên tới hàng trăm loài.

68

Hình 31. UCSC Genome browser

UCSC Genome Browser sẽ thực hiện những công việc này bao gồm: căn các trình tự mRNA, đánh dấu các thành phần DNA lặp lại, dự đoán các gene trong genome, dữ liệu các gene được biểu hiện, dữ liệu các trình tự liên kết với các bệnh (thông qua mối liên hệ của các gene với các bệnh tật), lập bản đồ các gene chip đang được thương mại hóa (chẳng hạn của Illumina và Agilent). Thông thường, trình tự genome sẽ được hiển thị theo chiều ngang và ký hiệu đồ họa sẽ chỉ các vị trí của mRNA, các gene, EST… Một khối các màu khác nhau dọc theo trục hoành sẽ thể hiện vị trí của các đoạn trình tự được căn bởi nhiều dữ liệu từ các nguồn khác nhau. Người sử dụng có thể phóng to hoặc thu nhỏ để thuận tiện cho việc quan sát trên màn hình. Mức độ chi tiết mô tả (annotation) càng cao thì độ phân giải của trình tự hiển thị trên genome browser càng lớn. Để tìm một gene nhất định hoặc một vùng trong genome người sử dụng có thể đánh tên của gene (chẳng hạn BRCA1), một số truy cập cho một RNA, tên của một vùng DNA trên NST (chẳng hạn 20p13 là vệt băng nhuộm thứ 13 trong vùng cánh tay ngắn của NST số 20), hoặc vị trí của đoạn DNA trên NST (ví dụ: chr17: 38,450,000 38,531,000 cho một vùng xung quanh gene BRCA1). Các dữ liệu được hiện thị dưới dạng đồ họa cho phép người dùng có thể truy cập để xem thông tin chi tiết khi đưa chuột vào hoặc nhấp chuột. Ngoài ra UCSC Genes track còn cung cấp các liên kết tới những thông tin chi tiết về gene đang quan tâm ở các nguồn dữ liệu khác, chẳng hạn như từ Online Mendelian Inheritance in Man (OMIM) và SwissProt. UCSC được thiết kế để hiển thị các dữ liệu phức tạp mang tính định lượng vì thế đòi hỏi phải có tốc độ xử lý nhanh. Bằng cách thực hiện việc căn trình tự của khoảng 55 triệu phân tử RNAs của Genbank với mỗi bộ genome đã được xác định trình tự sẵn từ trước nên UCSC cho phép người dùng truy cập ngay vào các kết quả căn trình tự của bất kỳ một RNA với genome của một loài có mặt trong UCSC. Một điểm khác biệt duy nhất mà người dùng có thể phân biệt giữa UCSC với các Genome browser khác là khả năng hiện thị đang dạng và liên tục của nó. Trình tự ở bất kỳ kích thước nào đều có thể hiển thị được, từ một nucleotide cho đến toàn bộ NST (chẳng hạn NST số 1 của người có chiều dài 245 Mb) đều được mô tả. Các nhà nghiên cứu có thể hiển thị một gene, một exon hoặc toàn bộ NST, hàng nghìn gene 69

hoặc tổ hợp của nhiều yếu tố. Cách truyền thống là rê thả “drag and drop” cho phép người dùng có thể chọn bất kỳ vùng nào trong toàn bộ genome và phóng to vùng đó ra toàn màn hình. Các nhà nghiên cứu cũng có thể dùng Genome browser để hiện thị dữ liệu của chính mình nhờ công cụ Custom Tracks. Công cụ này cho phép người dùng upload một file chứa trình tự của chính mình và quan sát dữ liệu ở những mức độ khác nhau. Người dùng cũng có thể sử dụng dữ liệu của UCSC để tạo ra những bộ dữ liệu sử dụng Table Browser tool (chẳng hạn như SNPs thay đổi trình tự amino acid của một protein) và hiển thị các bộ dữ liệu trong Browser như dạng Custom Track. Không chỉ đơn thuần là một genome browser, UCSC còn lưu trữ một bộ các công cụ phân tích genome kể cả giao diện đầy đủ (full -featured GUI interface) cho phép nhà nghiên cứu khai thác thông tin trong dữ liệu browser (Table Browser), một công cụ căn trình tự nhanh (BLAT) cũng rất hiệu quả trong việc tìm các trình tự trong một kho rất lớn các trình tự. Công cụ liftOver căn toàn bộ genome cho phép chuyển đồi các trình tự từ một bản lắp ráp này sang bản lắp ráp khác hoặc giữa các loài với nhau. Ên Công cụ Genome Graphs cho phép người dùng quan sát tất cả các NST trong cùng một lúc và hiển thị kết quả của hiệp hội nghiên cứu genome (GWAS). Công cụ Gene Sorter hiển thị các gene được nhóm lại theo một số tiêu chí hoặc thông số không liên quan đến vị trí genome, chẳng hạn như các mô hình biểu hiện gene (expression pattern) ở các mô. 6.2.3. NCBI Genomes and MapViewer

NCBI Mapviewer sẽ trả lời cho người dùng những câu hỏi và yêu cầu sau đây - Kích thước genome, số lượng NST - Khoảng cách vật lý giữa hai gene - Xác định vị trí vật lý của một gene khi biết vị trí trên bản đồ di truyền. - Vị trí và trật tự sắp xếp của các gene trên một NST? - Xác định vị trí của một gene quan tâm trong genome của một sinh vật và chỉ rõ các markers chặn hai đầu của gene đó. - Hiển thị các gene tồn tại trong một vùng nhất định của NST và hiển thị các dữ liệu trình tự tương ứng cho vùng đó. - Hiển thị vùng của một NST giữa hai điểm bất kỳ. Hiển thị cả bản đồ di truyền và bản đồ trình tự của vùng đó đồng thời căn các trình tự với nhau dựa vào các marker có mặt trong cả hai bản đồ NCBI Mapviewer hiển thị ở 4 mức độ: - Hom Page: Hiển thị thông tin chung của một sinh vật, tóm tắt các nguồn thông tin chung của sinh vật đó. - Genome View: Hiện thị hoàn toàn genome dưới dạng bản đồ bộ NST cho phép người dùng có thể tìm các thông tin liên quan đến toàn bộ genome thông qua từ khóa hoặc tên các gene. Kết quả tìm kiếm sẽ được đánh dấu trên bản đồ NST. - Map View: Hiển thị một hoặc một vài bản đồ liên quan đến NST được lựa chọn, sắp xếp vào một Master Map và cho phép người sử dụng xem các vùng quan tâm ở những mức độ phân giải khác nhau. - Sequence View: Hiển thị dữ liệu trình tự ở một vùng NST nhất định và mô tả dưới dạng đồ họa các đặc điểm sinh học cho vùng đó. 70

Hình 31. Vị trí các gene cytochrome của ngƣời

Hình 32. Các mức độ hiển thị genome ngƣời tại NCBI Mapviewer 6.3. Đặc điểm và

ứng dụng của các genome browser

Đặc điểm Genome browser là một dạng CSDL tích hợp các thông tin về genome của một số loài được tổ chức dưới dạng đồ họa và các liên kết với nhiều CSDL khác. Hiểu một cách đơn giản Genome browser được xem như một bản đồ giải phẫu genome trong mỗi phần của genome được chỉ rõ vị trí trên bản đồ đi kèm với các thông tin sinh học liên quan đến chúng. Mức độ phân giải cao nhất của bản đồ là trình tự nucleotide trên từng NST. Việc hiển thị vị trí của gene hoặc đoạn DNA có thể ở nhiều mức độ khác nhau tùy theo yêu cầu của người sử dụng. Ngoài ra, cũng giống như các genome 71

browser khác, thông tin về các trình tự DNA hoặc vị trí các locus thường được gắn với các thông tin mô tả và các CSDL liệu như EST, UniGene... Ứng dụng của genome browser Genome browser cho phép người sử dụng quan sát thông tin về các gene của một loài trong phạm vi liên hệ với các gene khác trên NST. Genome browser cũng giúp nhà nghiên cứu so sánh vị trí của một hoặc nhiều locus trên NST giữa các loài. Genome browser giúp cho nhà nghiên cứu trả lời các câu hỏi như: những loài nào đã được xác định trình tự, tình trạng lắp rắp trình tự, số lượng NST của một loài, số lượng gene dự kiến, vị trí của gene nằm ở đầu trên NST cũng như các gene lân cận, các gene có mối liên hệ gần gũi với nhau (họ hàng), các marker phân tử liên quan đến gene đó, vị trí locus tương ứng của gene đó ở một số loài có mối quan hệ gần gũi (đã được xác định trình tự và mô tả) . Nhiều dạng dữ liệu khác nhau cũng có thể được hiển thị bởi Genome browser, chẳng hạn toàn bộ các dữ liệu SNP (dbSNP) ở NCBI đã được lập bản đồ (đánh dấu) trong genome của người, chuột và các sinh vật khác.

Tóm tắt chƣơng 6 1. Genome browser là một trình duyệt Web cho phép tìm kiếm và hiển thị thông tin về genome của các sinh vật dưới dạng giao điện đồ họa. Genome browser cung cấp những thông tin cơ bản bao gồm: kích thước genome, số lượng NST, bản đồ NST, số lượng gene, vị trí và khoảng cách tuyệt đối giữa các gene. Ngoài ra thông tin chi tiết về gene, chức năng của gene, thông tin của các locus... đều được mô tả chi tiết trên cơ sở liên kết với các CSDL. 2. Ba genome browser Ensembl, UCSC và NCBI MapViewer mô tả đầy đủ thông tin về genome của nhiều loài sinh vật. Hiện nay đã có thông tin về genome của hơn 1000 loài trong CSDL của các genom browser này. 3. Genome browser cung cấp rất nhiều thông tin hữu ích cho nhà nghiên cứu như xác định vị trí của gene trong genome, so sánh các locus gene của một số loài, tìm các gene có mối liên hệ gần gũi với nhau (họ hàng), các marker phân tử liên quan đến gene đó, vị trí locus tương ứng của gene đó ở một số loài có mối quan hệ gần gũi, chức năng của gene và sản phẩm protein cũng như họ các protein liên quan. Câu hỏi ôn tập chƣơng 6

1. Genome browser là gì? Hiện nay những Genome browser nào đang được dùng phổ biến? 2. UCSC Genome browser giúp gì cho nhà nghiên cứu ? Có bao nhiêu genome có thể tìm thấy ở UCSC Genome browser? 3. Làm thế nào để xác định được vị trí của một gene trong genome và hiện thị vị trí vật lý của gene đó (locus) trên NST? Cho ví dụ minh họa. 4. Thế nào là Gene sorter? Ứng dụng của Gene sorter? 5. Hãy nêu ứng dụng của công cụ Blat tr ong UCSC? 6. Hãy kể tên các công cụ của Ensembl? Cho ví dụ minh họa 7. Tìm hiểu các genome browser và cho biết cách download trình tự và các thông tin mô tả về trình tự. 72

8. Cho biết ứng dụng của công cụ In silico PCR trong UCSC? Cho ví dụ minh họa. 9. Tìm hiểu các genome browser và cho biết cách xác định các gene có cùng nguồn gốc tiến hóa với một gene cho trước? Lấy ví dụ minh họa. 10. Sử dụng các công cụ genome browser hãy so sánh vị trí locus của một gene tương ứng giữa hai genome của người và chuột. 11. Hãy nêu sự khác biệt giữa các genome browser và dự án xác định trình tự 1000 genome.

73

CHƢƠNG 7 LÀM QUEN VỚI CÁC CÔNG CỤ PHÂN TÍCH CSDL SINH HỌC 7.1. Làm quen với các công cụ phân tích cơ bản

Chương này sẽ giới thiệu về các công cụ thường dùng để phân tích các CSDL sinh học. Do mục đích nghiên cứu và phân tích CSDL sinh học rất khác nhau và tùy thuộc vào người sử dụng vì vậy việc phân nhóm các công cụ phân tích thực sự rất phức tạp. Các công cụ phân tích cơ bản được tích hợp trong các CSDL như GenBank, EMBL, DDBJ và nhiều CSDL khác. Ngoài ra các công cụ phân tích khác có thể được tích hợp trong các trang web riêng. Bảng 1 tổng kết các công cụ và nhóm công cụ cơ bản và tần suất sử dụng . Nhóm các yêu cầu phân tích Tìm kiếm trình tự giống nhau (similar sequence searching) Nucleic acid với nucleic acid Protein với protein Dịch mã ra trình tự amino acid Tìm các trình tự DNA không mã hóa Các trình tự khác Tìm các vùng chức năng, vùng bảo thủ (finding domain, motif) Tìm và copy trình tự Căn nhiều trình tự (multi sequence alignment) Xây dựng bản đồ giới hạn (restriction map contruction) Dự đoán cấu trúc bậc 2 và bậc 3 Phân tích trình tự DNA bao gồm dịch mã (DNA sequence analysis, translation) Thiết kế mồi cho PCR, lai DNA (PCR primer, hybridization) Xác định khung đọc mở ( ORF) Tìm các bài báo, tạp chí (literatural searching) Phân tích quan hệ tiến h óa (phylogenetic analysis) Phân tích protein (các đặc điểm, tính chất vật lý và hóa học) Lắp ráp trình tự (sequence assembly) Nghiên cứu biểu hiện gene (gene expression) Các công cụ hỗn hợp Tổng số

Tần suất sử dụng (%) 35 9 12 2 3 9 11 8,5 7 6 4,5 4,5 4 3,5 3 3 3 2,5 2,5 2,5 100

Trong chương này các công cụ phân tích sẽ được giới thiệu một cách đơn giản trên cơ sở các ứng dụng thường gặp. Do các công cụ thường được tích hợp trong các trang web và các CSDL nên việc update của các trang web cũng như các CSDL có thể các công cụ có thể thay đổi ít nhiều. 7.1.1. Tìm và copy trình tự

Tìm kiếm trình tự và download trình tự về máy tính để sử dụng cho các mục đích khác nhau là một trong những thao tác đầu tiên mà nhà nghiên cứu thường thực hiện. Như đã trình bày ở các phần trên, trình tự sinh học được lưu trữ trong các ngân 74

hàng CSDL, điển hình nhất là ngân hàng gene GenBank, ngân hàng CSDL Châu Âu EMBL, ngân hàng gene của Nhật Bản (DDBJ). Để tìm kiếm trình tự nhà nghiên cứu cần một công cụ gọi là browser sau đó đưa tên trình tự, tên gene, sản phẩm gene hoặc các thông tin liên quan đến trình tự sinh học. Trước đây do số lượng gene hoặc protein phát hiện và đăng ký vào trong các ngân hàng CSDL còn chưa nhiều thì việc đặt tên tương đối đơn giản và dễ quản lý. Tuy nhiên với tốc độ phát triển nhanh chóng của các kỹ thuật xác định trình tự, các phương pháp xác định chức năng của gene và protein đã tạo ra một số lượng lớn dữ liệu tên của các trình tự trong đó có những trình tự tương đồng, gene tương đồng... Việc quản lý các dữ liệu sẽ càng khó khăn hơn khi xây dựng các CSDL dựa vào các liên kết chéo (cross database). Chính vì vậy, một trong những vấn đề khó khăn hiện nay trong việc tìm kiếm trình tự là việc thống nhất tên gọi. Thuật ngữ ontology ra đời để chỉ một lĩnh vực nghiên cứu thống nhất tên gọi của các trình tự sinh học, gene hoặc protein. Hình 33 minh họa giao diện CSDL của NCBI. Tùy thuộc vào loại CSDL cần tìm kiếm người sử dụng sẽ lựa chọn CSDL tương ứng và điền tên, thông tin của trình tự, gene hoặc protein... vào ô tìm kiếm và chọn Search. Kết quả sẽ cho ra các thông tin tương ứng. Trong phần này để tìm kiếm trình tự DNA hoặc protein người sử dụng có thể lựa chọn CSDL nucleotide, gene, protein, EST, STS... Sau khi NCBI trả về kết quả tìm kiếm, người sử dụng có thể copy trình tự hoặc tải trình tự vào máy tính.

Hình 33. Giao diện của NCBI với các CSDL 7.1.2. Nhóm công cụ tìm kiếm trình tự giống nhau

Đây là nhóm công cụ được sử dụng nhiều nhất do giá trị ứng dụng thực tiễn của chúng. Về bản chất các công cụ này cho phép tìm các trình tự có trong các CSDL giống với trình tự cho trước. Trình tự cho trước ở đây là một hoặc một số trình tự mà nhà nghiên cứu đang quan tâm và muốn tìm hiểu thông tin liên quan đến chúng. Mỗi công cụ trong nhóm này có đặc điểm khác nhau tuy nhiên chúng đều có điểm chung là cung cấp một ô hoặc đường dẫn để người sử dụng copy và paste trình tự quan tâm (còn 75

gọi là trình tự truy vấn hoặc query) vào và lựa chọn CSDL chứa trình tự giống với trình tự quan tâm. Các công cụ điển hình thuộc nhóm này bao gồm BLAST và FASTA. Các công cụ này cho phép tìm kiếm nhanh chóng và trả về kết quả các trình tự có trong CSDL giống với trình tự truy vấn. Bản chất của quá trình tìm kiếm này là việc so sánh trình tự truy vấn với các trình tự trong CSDL. Nguyên lý của quá trình căn trình tự sẽ được trình bày ở chương sau. Việc tìm kiếm trình tự giống nhau có ý nghĩa trong cả nghiên cứu và ứng dụng thực tiễn. Trên cơ sở các phân tử DNA hay protein có trình tự giống nhau sẽ có cấu trúc và chức năng tương tự nhau. Chẳng hạn cấu trúc của phân tử protein được quyết định bởi trình tự sắp xếp của các amino acid và cấu trúc có liên quan chặt chẽ tới hoạt động chức năng của phân tử. Nếu hai hoặc nhiều protein có trình tự sắp xếp của các amino acid giống nhau hoặc tương tự nhau thì cấu trúc của chúng cũng sẽ giống hoặc tương tự nhau điều này dẫn đến khả năng chúng sẽ có cùng chức năng sinh học. Dựa trên cơ sở này việc tìm kiếm các trình tự giống nhau hoặc tương tự nhau sẽ cung cấp rất nhiều thông tin cho nhà nghiên cứu. Chẳng hạn nhà nghiên cứu có trình tự nucleotide của một gene nhưng chưa biết các thông tin liên quan đến trình tự này, bao gồm chức năng của gene, protein do gene đó mã hóa có đặc điểm, tính chất và cấu trúc như thế nào, gene đó có mặt ở những loài nào. Việc tìm kiếm các trình tự giống nhau còn trả lời cho những câu hỏi liên quan đến tiến hóa, phân tích các đột biến hoặc sự đa hình giữa các trình tự ở các loài hoặc cùng một loài... So sánh genome cũng dựa trên cơ sở so sánh các trình tự giống nhau hoặc tương đồng để góp phần làm sáng tỏ chức năng của gene, phát hiện các họ gene và xác định nguồn gốc hoặc quan hệ tiến hóa. Nhóm công cụ này còn hỗ trợ hiệu quả cho việc xác định mồi cho PCR, mẫu dò cho phản ứng lai axit nucleic hoặc tìm các trình tự đích cho công nghệ RNAi. BLAST (Basic local alignment search tool) và FASTA (FAST-All) là 2 nhóm công cụ tìm kiếm trình tự giống nhau được sử dụng phổ biến nhất hiện nay. Trong 2 nhóm công cụ này BLAST được ứng dụng nhiều nhất và có rất nhiều biến thể kể cả nhóm BLAST chuyên dụng (Specialized BLAST). Các trình tự truy vấn (que ry sequence) có thể là trình tự nucleotide hoặc amino acid. Công cụ BLAST và FASTA sẽ được giới thiệu trong các phần sau. Ngoài ra còn có nhiều công cụ khác hỗ trợ cho công việc này chẳng hạn như  Sequence Similarity Search/SSS “ của EMBL hoặc nhóm công cụ Proteomics của ExPASy. Dưới đây là một số hình ảnh về các công cụ tìm kiếm thuộc nhóm này.

76

Hình 34. Nhóm công cụ BLAST thông dụng

Hình 35. Nhóm công cụ BLAST đặc thù 77

Hình 35. Nhóm công cụ Sequence Similarity Search/SSS“ của EMBL

Hình 36. Nhóm công cụ Proteomics của ExPASy

78

7.2. Tìm các vùng chức năng, vùng bảo thủ

Axit nucleic và protein là những đại phân tử được cấu tạo bởi các đơn phân là các nucleotide và amino acid. Trình tự sắp xếp của các đơn phân này sẽ quyết định các đặc điểm, tính chất và chức năng của các đại phân tử này. Để thực hiện chức năng sinh học, không phải tất cả các nucleotide hay amino acid có trong phân tử axit nuleic và protein đều có vai trò như nhau mà chỉ có một số hoặc một vùng trình tự nhất định trong các phân tử này thực t hực hiện các chức năng năn g sinh học. Một M ột đặc điểm quan trọng nữa là những phân tử có cấu trúc và chức năng tương tự nhau sẽ có các vùng trình tự giống nhau hoàn toàn hoặc gần giống nhau. Chính vì vậy các phân tử cùng chia sẻ những vùng giống nhau như vậy có thể cùng thực hiện chức năng sinh học hoặc cùng xuất phát từ một nguồn gốc chung ban đầu. Trong phân tử protein, những vùng trình tự amino acid tham gia vào việc hình thành các cấu trúc (trung tâm hoạt động của enzyme) được gọi là các domain. Các vùng trình tự có tính đặc trưng của một họ các protein được gọi là các motif. Các protein có những vùng tương tự nhau hoặc có một dạng sắp xếp nhất định của các amino acid thì những vùng này được gọi là các pattern (hình mẫu, dạng). Việc tìm kiếm và xác định các domain, motif hoặc pattern có ý nghĩa rất quan trọng trong việc nghiên cứu cấu trúc, chức năng và quan hệ tiến hóa của các phân tử. Hiện nay, dựa vào việc so sánh trình tự người ta có thể nhận diện, xác định hoặc dự đoán được cấu trúc và chức năng của các đại phân tử. Các công cụ hỗ trợ thường được dùng để phân tích bao gồm CD-Search, Cn3D, CDART...trong mục Tools for 3-D structure Display and Similar searching “ và Conserved Domain Database/CDD trong mục Tools for Sequence analysis “ thuộc nhóm công cụ phân tích của NCBI (http://www.ncbi.nlm.nih.gov/About/tools/ http://www.ncbi.nlm.nih.gov/About/tools/)). Trung tâm EMBL cũng cung cấp nhóm công cụ có chức năng tương tự như  Protein Functional Analysis/PFA“. 7.2.1. Căn nhiều trình tự (multi

sequence alignment)

Căn nhiều trình tự là một trong những thao tác được ứng dụng rất phổ biến trong tin sinh học ứng dụng. Bản chất của việc căn trình tự là việc gióng trình tự của các nucleotide trong phân tử axit nucleic hoặc trình tự sắp xếp của các amino acid trong phân tử protein để tìm ra các trình tự hoặc vùng trình tự giống nhau. Như vậy việc tìm kiếm các trình tự giống nhau phải dựa trên cơ sở căn trình tự. Như đã giới thiệu ở trên, các trình tự giống nhau sẽ có cấu trúc giống nhau và vì vậy có thể thực hiện chức năng giống hoặc tương tự nhau. Hai trình tự giống hoàn toàn có thể được coi là cùng một gene khi các gene này được lấy từ các sinh vật có cùng nguồn gốc tiến hóa. Căn hai trình tự với nhau được gọi là căn cặp trình tự (pariwise a ligment). Khái niệm căn nhiều trình tự (multisequence aligment) được hiểu là việc căn từ 3 trình tự trở lên. Căn trình tự là một bước trong quá trình tìm kiếm các trình tự giống nhau và trình tự tương đồng. Chính vì vậy căn trình tự được coi là vấn đề cốt lõi của tin sinh học. Dựa vào kết quả căn trình tự người ta có thể tìm được mối quan hệ giữa các gene, họ gene hoặc các sự kiện biến đổi (các dạng đột biến) xảy ra với các trình tự DNA hoặc protein trong quá trình tiến hóa. Căn trình tự dựa vào một số thuật toán khác nhau vì vậy kết quả căn trình tự chỉ có giá trị khi kết hợp với việc đánh giá thống kê. Các trình tự càng ngắn thì khả năng có mức độ giống nhau càng cao và ngược lại. Căn 79

trình tự không đưa ra kết quả chính xác hoặc đúng mà chỉ có ý nghĩa hợp lý nhất (heuristic). Căn trình tự gồm 2 loại, căn trình tự cục bộ (local aligment) và căn trình tự toàn bộ (global aligment). ali gment). Căn trình tự toàn bộ là quá trình gióng các nucleotide hoặc amin acid trong phân tử axit nucleic hoặc protein từ đầu đến cuối để đánh giá mức độ giống nhau trên toàn bộ chiều dài trình tự. Khác với căn trình tự toàn bộ, căn trình tự cục bộ là quá trình gióng các nucleotide hoặc amin acid trong phân tử axit nucleic hoặc protein để phát hiện các vùng trình tự giống nhau mà thôi. Chính vì vậy ý nghĩa của hai kiểu căn trình tự này cũng khác nhau. Căn trình tự toàn bộ cho phép xác định được những biến đổi về trình tự trong các trình tự so sánh. Sự biến đổi ở đây bao gồm việc phát hiện các đột biến (mất, thêm, t hêm, thay thế, mất đoạn, đảo đoạn, lặp đoạn). Vì thế căn trình tự cục bộ thường áp dụng với các trình tự có mức độ giống nhau cao về cả kích thước và nội dung của trình tự. Các trình tự như vậy thường có mối quan hệ gần gũi về mặt tiến hóa (homology). Căn trình tự cục bộ sẽ cho phép phát hiện các vùng trình tự giống nhau, vì thế kiểu căn trình tự này sẽ hỗ trợ cho việc xác định các vùng chức năng (domain), vùng bảo thủ (conservative region), các motif và pattern (xem khái niệm motif và pattern ở phần trên) có trong các phân tử protein, RNA… Các công cụ hỗ trợ cho việc căn nhiều trình tự điển hình nhất là nhóm công cụ CLUSTAL của EMBL. Hiện nay công cụ CLUSTAL có nhiều phiên bản khác nhau như CLUSTALX, CLUSTALW, CLUSTAL OMEGA. Các trình tự cần được căn thông thường phải được đặt chung vào trong 1 file và định dạng FASTA.

Hình 37. Công cụ CLUSTALW2 của EMBL

80

Hình 38. Định dạng FASTA của 4 trình tự protein 7.2.2. Xây dựng bản đồ giới hạn (restriction map contruction)

Bản đồ giới hạn là một sơ đồ trong đó các vị trí nhận biết và cắt của các enzyme giới hạn sẽ được chỉ rõ trên một chuỗi trình tự DNA. Việc xác định các vị trí nhận biết của các enzyme giới hạn đối với một đoạn trình tự DNA có ý nghĩa quan trọng trong nghiên cứu sinh học phân tử, kỹ thuật di truyền và các ứng dụng. Để cắt hoặc gắn một đoạn DNA vào trong một vector hoặc chèn vào một đoạn DNA khác cần phải biết chính xác vị trí. Có nhiều công cụ hỗ trợ cho việc lập bản đồ giới hạn, đơn giản và điển hình nhất là công cụ NEBcutter của NewEngland Biolab (http://tools.neb.com/NEBcutter2/ http://tools.neb.com/NEBcutter2/)), RestrictionMapper (http://www.restrictionmapper.org/) hoặc RESTRICTION ENDONUCLEASE DIGESTION (http://www.molbiol-tools.ca/Restriction_endonuclease.htm http://www.molbiol-tools.ca/Restriction_endonuclease.htm)).

81

Hình 39. Công cụ NEBcutter của NewEngland Biolab

Hình 40. Công cụ RestrictionMapper

82

Để xây dựng bàn đồ giới hạn nhà nghiên cứu đưa trình tự DNA vào khung và lựa chọn các enzyme cắt giới hạn hoặc áp dụng cho tất cả các enzyme cắt giới hạn có trong CSDL. Đoạn DNA đưa vào có thể ở dạng mạch thẳng hoặc dạng vòng tùy theo mục đích của nhà nghiên cứu. Kết quả phân p hân tích sẽ cho ra dạng sau:

Hình 41. Kết quả bản phân tích bản đồ cắt giới hạn bằng công cụ NEB cutter 7.2.3. Dự đoán cấu trúc bậc 2 và bậc 3 của phân tử protein

Cấu trúc của phân tử protein được quyết định bởi trình tự sắp xếp của các amino acid trong chuỗi polypeptide (cấu trúc bậc 1). Việc dự đoán cấu trúc bậc 2 và bậc 3 của phân ph ân tử protein prot ein có ý nghĩa quan trọng tr ọng trong nghiên ng hiên cứu chức ch ức năng (function analysis) và sự tương tác giữa các phân tử (molecular interaction hoặc protein docking). Việc hình thành các cấu trúc bậc 2 dựa trên cơ sở sự tương tác giữa các gốc của các amino acid trong các vùng nhất định của phân tử. Cấu trúc bậc 2 chủ yếu tồn tại dưới dạng xoắn alpha (helix), phiến beta (beta sheet), xoắn (coil)... Cấu trúc bậc 3 là dạng cuộn xoắn, gấp nếp tiếp theo th eo của các cấu trúc bậc 2 trước đó. Cấu trúc bậc 3 cũng là dạng cấu trúc thể hiện hoạt tính hoặc chức năng của các phân tử protein. Trong thực nghiệm để xác định cấu trúc người ta phải kết tinh các phân tử sau đó phân tích cấu trúc dựa vào các phương pháp như phân tích tinh thể bằng tia X (X -ray crystallography), NMR (nuclear magnetic resonance), CD (Circular dichroism)... Cơ sở của quá trình cuộn xoắn là sự tương tác giữa các phân tử. Các phân tử có xu hướng tạo thành các cấu trúc sao cho năng lượng tự do thấp nhất hay dạng cấu trúc bền vững nhất. Dựa vào phân tích các thông số nhiệt động học bao gồm năng lượng tự do, entropy và enthalpy. Việc tính toán này dựa trên cơ sở các thông tin về đặc điểm của các amino acid, các gốc và khả năng tương tác giữa các phân tử. Hiện nay có 2 phương pháp được sử dung phổ biến để dự đoán cấu trúc protein, (i) protein threading hoặc fold recognition và (ii) Homology modeling hoặc comparative modeling. Phương pháp protein threading sử dụng để xây dựng mô hình của các protein có cùng một kiểu gấp nếp (folding) với các protein đã biết kiểu gấp 83

nếp và cấp trúc tuy nhiên các protein cần xây dựng mô hình này không có cùng nguồn gốc tiến hóa với các protein đã biết. Ngược lại phương pháp Homology modeling lại dựa trên cơ sở so sánh trình tự để phát hiện ra các protein tương đồng (có mối quan hệ gần gũi về mặt tiến hóa) từ đó dự đoán cấu trúc và kết hợp với việc so sánh cấu trúc. Tuy nhiên cần phải lưu ý là trong nhóm các protein có cùng nguồn gốc tiến hóa thì cấu trúc protein có xu hướng bảo thủ hơn so với trình tự protein. Chính vì vậy chẳng hạn khi kết quả so sánh trình tự của 2 protein chỉ cho kết quả giống nhau rất thấp thì không thể dự đoán cấu trúc. Thông thường mức độ giống nhau ít nhất 40% về mặt trình tự thì mới có thể dự đoán hoặc so sánh cấu trúc. Việc phát triển các thuật toán đặt ra cho việc dự đoán hình thành cấu trúc hiện nay vẫn đang là một thách thức lớn cho các nhà tin sinh học. Cho dù các thuật toán được phát triển như thế nào thì chúng vẫn cần phải được kiểm chứng bằng các nghiên cứu thực nghiệm.

Hình 42. So sánh cấu trúc của các phân tử protein 7.2.4. Phân tích trình tự axit nucleic

Phân tích trình tự DNA nhằm xác định các thông tin chứa đựng bên trong trình tự đó. Những thông tin có thể rất đa dạng tùy thuộc vào trình tự DNA và mục đích phân tích của nhà nghiên cứu. Đơn giản nhất là xác định chiều dài (có bao nhiêu nucleotide) hoặc thành phần các nucleotide có trong phân tử đó. Nhà nghiên cứu cũng có thể muốn xác định vùng mã hóa (coding sequence) trong phân tử DNA hoặc các khung đọc mở (ORF). Ngoài ra, các thao tác khác như dịch mã đoạn DNA ra 6 khung 84

đọc khác nhau, xác định bản đồ cắt giới hạn, tìm kiếm các trình tự giống với trình tự DNA cho trước hoặc xác định trình tự primer hoặc thiết kế các mẫu dò (probe) cho các kỹ thuật lai DNA, RNA... Để thực hiện những thao tác này đòi hỏi các phần mềm phân tích. Có vô vàn các công cụ phân tích hỗ trợ cho các công việc trên bao gồm cả công cụ phân tích online hoặc các phần mềm cài đặt vào máy tính. Đối với những trình tự DNA lớn, chẳng hạn như một nhiễm sắc thể thì việc phân tích trình tự sẽ trở lên vô cùng phức tạp. Những yêu cầu phân tích có thể là xác định số lượng gene có trong phân tử DNA đó, các gene mã hóa cho mRNA, tRNA, rRNA và các loại RNA khác, các trình tự intron, exon, các trình tự kh ông mã hóa, thông tin về các gene, trình tự promoter, vùng trình tự kết thúc phiên mã ... Những thao tác này cũng tương tự như việc mô tả genome. Đối với trình tự RNA, yêu cầu về phân tích cấu trúc (tRNA, rRNA), khả năng hình thành các cấu trúc bậc 2 của RNA, nghiên cứu về các miRNA, siRNA trong quá trình điều hòa biểu hiện gene sau phiên mã. Cho đến nay số lượng phần mềm và các công cụ online hỗ trợ phân tích trình tự DNA có thể lên tới hàng nghìn công cụ khác nhau và số lượng công cụ này tăng lên hàng ngày. Phần lớn các công cụ tin sinh học cơ bản cho các mục đích nghiên cứu đều được cung cấp miễn phí. Một số phần mêm phân tích chuyên dụng hoặc tích hợp nhiều công cụ phân tích người sử dụng phải mua. Các công cụ phân tích và phần mềm thường đi kèm với các CSDL lớn như bộ công cụ của NCBI, EMBL, ExPASy, PDB hoặc Biology Work Bench (SDSC/San diego supercomputer center). Một số phần mêm phân tích phải trả phí nhưng có khả năng ứng dụng cho nhiều mục đích nghiên cứu điển hình như DNAStar -Lasergene, Vector NTI® của Invitrogen, PREMIER Biosoft... 7.2.5. Thiết kế mồi cho PCR và

mẫu dò lai axit nucleic

Đến nay PCR đã trở thành kỹ thuật không thể thiếu trong nghiên cứu sinh học phân tử và kỹ thuật di truyền. Những ứng dụng từ kỹ thuật này nhiều tới mức không thể kể hết. Để thực hiện được PCR cần có phải có cặp mồi (primer). Có nhiều phần mềm hỗ trợ lựa chọn cặp mồi cho phản ứng PCR. Đơn giản nhất nhà nghiên cứu có thể sử dụng chương trình Primer -BLAST của NCBI, Primer3 WWW primer tool hoặc phần mềm trả phí của PREMIER Biosoft như Beacon Designer™ , SYBR® Green PCR primers, DNAStar-Lagergene...

85

Hình 43. Giao diện của chƣơng trình Primer -BLAST Đối với primer cho PCR một số thông số quan trọng cần chú ý bao gồm chiều dài, nhiệt độ nóng chảy, nhiệt độ gắn mồi, thành phần GC, GC clamp (các base G,C ở đầu 3‟), cấu trúc bậc 2 (hairpin, self dimer, cross dimer)… Các phần mềm sử dụng các công thức và thuật toán các nhau nên thông số đưa ra có thể sai lệch nhưng không đáng kể. Đối với PCR, ngoài việc tham khảo các thông số gợi ý của nhà sản xuất tổng hợp mồi nhà nghiên cứu cần phải tối ưu trong điều kiện thí nghiệm riêng của mình. Đối với mẫu dò về bản chất là một đoạn DNA hoặc RNA có chiều dài dao động trong khoảng từ 100 đến 1000 bp dùng để phát hiện sự có mặt của các trình tự ncuelotide (trình tự DNA đích) ành các sợi DNA đơn sau đó lai với trình tự DNA (Southern blotting) hoặc RNA (Northern blotting) đã được cố định trên màng hoặc ở trong mô (in situ). Hiện nay các công ty cung cấp đồng thời mẫu dò và các phần mềm phân tích tương ứng, chẳng hạn như Scorpion® probes, Molecular Beacon probes, TaqMan® probes, LNA® (Locked Nucleic Acid) probes, Cycling Probe Technology (CPT). 7.2.6. Xác định khung đọc

mở

Việc xác định khung đọc mở có ý nghĩa trong việc phát hiện hoặc dự đoán gene. Khung đọc mở (open reading frame/ORF) được định nghĩa là một đoạn trình tự được bắt đầu bởi mã khởi đầu AUG sau đó là các bộ ba mã hóa liên tục và kết thúc bởi một trong 3 bộ mã kết thúc (UAA, UAG và UGA). Số lượng các nucleotide có tron g một khung đọc mở luôn là bội số của 3. Lưu ý đối với mỗi trình tự DNA cho trước luôn có 6 khung đọc, trong đó 3 khung theo chiều dương (+) và 3 khung theo chiều âm (-). Trên mỗi khung đọc có thể không có, có 1 hoặc nhiều ORF. 86

Có nhiều công cụ hỗ trợ cho việc tìm kiếm khung đọc mở cho một trình tự DNA. Công cụ online phổ biến nhất là ORF finder cung cấp bởi NCBI.

Hình 44. Xác định khung đọc mở bằng công cụ ORF Finder 7.2.7. Tìm các bài báo khoa học

Việc tìm kiếm các bài báo khoa học là công việc không thể thiếu của nhà nghiên cứu. Các bài báo, công trình nghiên cứu đăng trên các tạp chí cũng được sắp xếp vào trong các CSDL cho phép nhà nghiên cứu có thể tìm, tải miễn phí hoặc trả phí. Có nhiều CSDL lưu trữ các tạp chí khoa học thuộc nhiều lĩnh vực khác nhau. PubMed là một trong những CSDL lưu trữ các tạp chí liên quan đến khoa học sự sống, sinh y học và một số ngành liên quan được đặt trong ngân hàng CSDL NCBI của Mỹ. Cho đến nay số lượng bản ghi các bài báo ở Pubmed đã lên tới hàng chục triệu (xem phần CSDL PubMed). Trong CSDL của NCBI, Pubmed tập hợp các thông tin về các bài báo đăng trên các tạp chí liên quan đến y sinh học, sinh học và các tạp chí liên quan. Đến thời điểm hiện nay, số lượng tạp chí mà Pubmed có liên kết lên tới hàng nghìn tạp chí. Thông thường các trường Đại học lớn, viện hoặc trung tâm nghiên cứu thường mua các tài khoản hoặc cổng cho phép truy cập và tải về các bài báo khoa học . Ở Việt Nam người sử dụng cũng có thể mua tài khoản để truy cập vào các tạp chí online như ScienDirect, Springerlink... để tải về các bài báo khoa học. Trong ngân hàng CSDL NCBI, PMC là cơ sở dữ liệu trong NCBI chứa các bài báo cho phép tải về miễn phí. 7.2.8. Lắp ráp trình tự

Ngày nay việc xác định trình tự đã trở nên đơn giản và chi phí cho việc xác định trình tự toàn bộ genome ngày càng giảm. Tuy nhiên bài toán khó khăn ở đây là việc lắp ráp các trình tự DNA đơn lẻ để tạo thành một genome hoàn chỉnh. Nguyên lý của việc lắp ráp trình tự rất đơn giản dựa vào cơ sở của sự chồng lấp lên nhau của các đoạn DNA có các phần trình tự giống nhau. Về nguyên tắc khi cắt genome (các NST) một 87

cách ngẫu nhiên sẽ tạo ra số lượng mảnh cắt ở những vị trí ngẫu nhiên. Sau khi xác định trình tự các đoạn ngắn, các đoạn này sẽ phải được nối lại với nhau bằng cách xếp chồng lên nhau (overlaping) để tìm các vùng trình tự giống nhau.

Hình 45. Nguyên lý lắp ráp trình tự 7.2.9. Phân tích quan hệ tiến hóa

Tiến hóa là nền tảng của sinh học hiện đại, nó kết hợp tất cả các lĩnh vực của sinh học dưới một phạm trù lý thuyết chung. Tiến hóa không phải là một khái niệm khó nhưng rất ít người chủ yếu là các nhà sinh học có được sự hiểu biết thỏa đáng đối với nó. Một sự hiểu lầm thường thấy cho rằng các loài có thể được sắp đặt trên một thang tiến hóa từ vi khuẩn qua động vật bậc thấp, bậc cao và cuối cùng là con người. Tiến hóa là sự thay đổi về vốn gen của một quần thể theo thời gian. Tiến hóa bao gồm hai mức độ đại tiến hóa hay tiến hóa lớn (macroevolution) và vi tiến hóa hay tiến hóa nhỏ (microevolution). Tiến hóa lớn dẫn đến sự thay đổi lớn ở mức độ quần thể dẫn đến sự hình thành loài mới. Tiến hóa lớn xảy ra ở mức độ cao hơn loài. Tiến hóa nhỏ là những biến đổi về tần số allele ở mức độ cá thể hoặc quần thể của một loài. Trong tin sinh học các nghiên cứu mối quan hệ tiến hóa được dựa chủ yếu vào việc 88

phân tích, so sánh trình tự sinh học và cả genome. Những nghiên cứu so sánh các trình tự DNA mã hóa ribosome, cytochrome c, gene ty thể, gene mã hóa ribulose-1,5 bisphosphate carboxylase oxygenase (RuBisCO) đang được sử dụng phổ biến hiện nay trong nhận diện, phân loại sinh vật và sắp xếp vào các đơn vị phân loại (taxon). Khi so sánh trình tự hoặc cấu trúc các đại phân tử người ta thấy rằng các phân tử DNA, RNA hoặc protein có trình tự giống nhau thì cấu trúc của chúng sẽ tương tự nhau hoặc giống nhau và cùng thực hiện chức năng như nhau. Trong quá trình tiến hóa những biến đổi trong trình tự sinh học có thể xảy ra ngẫu nhiên do chính bản thân sinh vật hoặc ảnh hưởng của các yếu tố gây đột biến. Sự biến đổi về trình tự diễn ra ngẫu nhiên ở khắp genome của mỗi cá thể. K hi có sự tác động của các điều kiện ngoại cảnh, những biến đổi này liên quan trực tiếp đến khả năng thích nghi, tồn tại của sinh vật . Quá trình này dẫn đến sự thay đổi tần số allele trong quần thể, làm nền tảng cho sự hình thành loài mới. Mặc dù sự kiện phân loài có thể xảy ra nhưng theo quan điểm của tiến hóa, các loài mới được phát sinh từ các loài tổ tiên gần gũi với chúng nhất. Chính vì vậy bằng cách so sánh trình tự genome hoặc một số gene đặc thù có thể hỗ trợ cho việc xác định mối quan hệ tiến hóa cũng như vị trí của sinh vật trong hệ thống phân loại. Căn nhiều trình tự là công cụ hỗ trợ chủ yếu để đánh giá sự biến đổi trong trình tự DNA, protein. Các phần mềm phân tích tiến hóa đều dựa trên cơ sở căn trình tự. Một số phần mềm điển hình được sử dụng phổ biến bao gồm Mega5, ClustalX kết hợp với công cụ Treeview, Phylip (University of Washington http://evolution.genetics.washington.edu/phylip/software.html). Việc xây dựng cây phân loại được dựa vào 2 nhóm, nhóm thứ nhất dựa vào xác định khoảng cách (distance based methods) và nhóm thứ 2 dựa vào các ký tự giống nhau của trình tự (character based methods). Đối với nhóm thứ nhất các phương pháp UPGMA, Neighbor Joining Method (NJ), Weighted Neighbor-Joining (Weighbor), FitchMargoliash (FM) and Minimum Evolution (ME) Methods. Đối với nhóm thứ 2 các phương pháp được sử dụng gồm: Maximum parsimony (MP), Maximum Likelihood (ML).

89

7.2.10. Phân tích protein

Cũng tương tự như phân tích trình tự DNA, phân tích protein cũng bao gồm rất nhiều thao tác với mục đích khác nhau. Phân tử protein cũng có trình tự, trình tự amino acid. Ngoài ra, do protein có cấu trúc liên quan đến hoạt động chức năng nên phân tích protein sẽ phức tạp hơn rất nhiều. Phân tích protein bao gồm việc xác định khối lượng phân tử (kích thước tính theo đơn vị Dalton), các đặc điểm vật lý, tính chất hóa học, thành phần và tỉ lệ các amino acid. Căn trình tự cũng áp dụng đối với protein, thay vì chỉ có 4 nucleotide trong phân tử DNA, protein có tới ít nhất 20 amino acid khác nhau vì vậy thuật toán sử dụng trong việc phân tích chuỗi cũng khác nhau . Xác định cấu trúc là một trong những nhiệm vụ khó khăn khi nghiên cứu protein. Để kết tinh một protein trong điều kiện thực nghiệm thường rất phức tạp và tốn nhiều thời gian. Việc phát triển và ứng dụng các phần mềm so sánh các mô hình gấp nếp hoặc so sánh trình tự được sử dụng phổ biến để xác định cấu trúc của phân tử protein. Khác với DNA, protein hoạt động trong sự tương tác với các phân tử protein và các loại phân tử khác. Việc nghiên cứu mô hình tương tác có ý nghĩa trong việc xác định enzyme cơ chất, nghiên cứu chất ức chế hoạt động của enzym, nghiên cứu cấu trúc của trung tâm hoạt động, nghiên cứu tương tác giữa kháng nguyên kháng thể. Tương tự, protein docking là khái niệm để chỉ sự tương tác giữa các protein. Việc mô phỏng quá trình tương tác protein với các phân tử khác có ý nghĩa lớn trong việc giải thích cơ chế bệnh, phát triển các thuốc mới. 7.2.11.

Nghiên cứu biểu hiện gene

SAGE (Serial analysis of gene expression) là một kỹ thuật rất hiệu quả được sử dụng để phân tích biểu hiện gene. Kỹ thuật sử dụng bởi các nhà sinh học phân tử để nghiên cứu một tập hợp các mRNA trong một mẫu quan tâm ở dạng các thẻ nhỏ tương ứng với các mảnh đại diện cho các bản phiên mã này. Kỹ thuật SAGE được phát triển bởi Victor Velculescu ở Trung tâm nghiên cứu ung thư đại học Johns Hopkins và công bố năm 1995. Hiện nay các cơ sở dữ liệu về trình tự gene, mRNA được lưu giữ trong CSDL SAGE. Để tăng độ chính xác, hiện nay nhiều kỹ thuật đã được cải thiện để tạo ra các thẻ gene dài hơn. Những dữ liệu này rất hữu ích trong việc phát hiện và xác định gene. Các CSDL quan trọng khác liên quan đến nghiên cứu biểu hiện gene chẳng hạn như CSDL EST của NCBI, ArrayExpress của EBI/EMBL, Stanford Microarray Database tại trường Đại học Stanford. Gần đây khái niệm exom được mô tả bao gồm tập hợp của các exon có trong các phân tử mRNA. Khác với khái niệm transcriptome là tập hợp các bản phiên mã (CSDL EST là một phần của transcriptome), exom chỉ là các đoạn gene trong mRNA sau khi được loại bỏ các intron. Những CSDL này có vai trò quan trọng để khai thác các dữ liệu biểu hiện gene hoặc phát triển các mẫu dò t rong các kỹ thuật lai Northern blot và các ứng dụng microarray.

90

7.3. Các nhóm công cụ phân tích

7.3.1. Công cụ phân tích của NCBI

Các CSDL và công cụ trong NCBI có thể truy cập theo địa chỉ: http://www.ncbi.nlm.nih.gov/About/tools/. Các công cụ thường được đi kèm với CSDL gồm các nhóm sau: - Literature Databases: Cung cấp CSDL và công cụ tìm kiếm, truy cập và tra cứu thông tin về sách (Book), tạp chí (Journals), các thuật ngữ (MeSH), OMIM, OMIA, Pubmed, PMC (Pubmed Central). - Entrez Database: Hệ thống cho phép tìm kiếm thông qua các liên kết với nhiều CSDL với nhau - Nucleotide Database: Chủ yếu cung cấp các CSDL trình tự cơ bản và công cụ cần thiết nhất cho gần như tất cả các nghiên cứu bao gồm: Ge nBank, EST, GSS, HomoloGene, HTG, SNPs, RefSeq, STS, UniSTS, UniGene. - Genome-Specific Resources: NCBI cung cấp công cụ truy cập vào genome của hơn 3,2000 sinh vật (kể cả hoàn tất và đang trong quá trình lắp ráp và mô tả). - Tools for Data mining: Cung cấp rất nhiều công cụ cho phép tìm kiếm thông tin (Entrez), phân tích trình tự sinh học bằng nhóm công cụ BLAST (xem chương sau), phân tích hệ thống phân loại (Taxonomy), đăng ký trình tự (Sequin, BankIt). - Tools for Sequence analysis: Cung cấp kho công cụ để phân tích trình tự bao gồm: nhóm BLAST, phân tích vùng/cấu trúc bảo thủ (Conserved Domain Database/CDD), xác định các trình tự STS có trong một trình tự DNA (e -PCR), tìm khung đọc mở (ORF finder), phân tích và nhận dạng các mảnh peptid trong CSDL khối phổ (Open Mass Spectrometry Search Algorithm), sàng lọc trình tự vector có trong trình tự DNA cần phân tích hoặc đăng ký trình tự (VecScreen). - Tools for 3-D structure Display and Similar searching: Cung cấp công cụ cho phép phân tích và so sánh cấu trúc ba chiều của các đại phân tử sinh học mà chủ yếu là protein và nucleic acid. Các công cụ cho phép xác định các vùng bảo thủ (CD-Search), hiển thị và so sánh cấp trúc ba chiều (Cn3D), hiển thị các vùng chức năng (domain) của các phân tử protein có những vùng cấu trúc giống nhau (CDART), tìm kiếm và so sánh cấu trúc ba chiều của protein dựa vào việc so sánh từng vị trí các gốc hoặc nhóm amino acid (VAST Search)... - Maps: Cung cấp các công cụ hiển thị và phân tích bản đồ di truyền và bản đồ vật lý. Công cụ NCBI Mapviewer (mô tả hàng trăm genome của động vật có xương sống, không xương sống, nguyên sinh động vật, thực vật và nấm), Human Map (bản đồ di truyền và vật lý của người), Model Maker (cho phép xây dựng các trình tự mRNA từ trình tự genome, xác định các exon bằng cách căn trình tự mRNA và các EST đồng thời kiểm tra các khung đọc mở, vùng trình tự mã hóa CDS), OMIM Gene Map (cung cấp vị trí các gene trên bản đồ di truyền dựa trên các kết quả đã được công bố từ các bài báo khoa học và các phương pháp lập bản đồ, OMIM Morbid Map (cung cấp danh sách các bệnh di truyền liên quan đến các gene và vị trí của các gene đó trên bản đồ di truyền). - Collaborative Cancer Research: Cung cấp các công cụ và CSDL để phân tích các gene ung thư, hoạt động và điều hòa hoạt động của các gene ung thư. - FTP Download: Cung cấp công cụ cho phép download các dữ liệu trình tự, genome, bản đồ, dữ liệu hệ thống phân loại (taxon) và các công cụ hỗ trợ, phần mềm phân tích khác. 91

- Resource Statistics: Cung cấp các dữ liệu phân tích thống kê liên quan đến các CSDL như số lượng trình tự trong GenBank, tình trạng lắp ráp các genome, các dữ liệu thường được tìm kiếm và phân tích...

Hình 33. Các công cụ của NCBI 7.3.2. Nhóm công cụ của EMBL

Các CSDL và công cụ trong NCBI có thể truy cập theo địa chỉ: http://www.ebi.ac.uk/Tools/webservices/. Công cụ thường được đi kèm với CSDL gồm các nhóm: - Phân tích chức năng protein (Protein Functional Analysis/PFA), - Tìm các trình tự giống nhau (Sequence Similarity Search/SSS), - Căn nhiều trình tự (multiple sequence Alignment/MSA), - Phân tích tiến hóa (Phylogeny), - Căn cặp trình tự (Pairwise Sequence Alignment/PSA), - Đổi định dạng trình tự (Sequence Format Conversion), - Tính toán các đặc điểm của phân tử protein, DNA dựa vào trình tự (Sequence Statistics), - Dịch mã (Sequence translation) - Phân tích cấu trúc (Structural analysis) Phân tích chức năng protein (Protein Functional Analysis/ PFA)

Nhóm công cụ cho phép so sánh trình tự protein, xác định các dạng (motif), các vùng chức năng (domain), các mô hình (pattern) và các đặc điểm giống nhau giữa các protein. Ngoài ra các công cụ cũng cho phép dự đoán cấu trúc lập thể của các protein xuyên màng, các peptide tín hiệu dựa vào trình tự amino acid của chúng.

92

Tìm các trình tự giống nhau (Sequence Similarity Search/ SSS)

Các nhóm công cụ cho phép nhà nghiên cứu căn các trình tự (căn cặp hoặc nhiều trình tự) DNA, RNA và protein.

Multiple Sequence Alignment (MSA)

93

Phân tích tiến hóa ( Phylogeny)

Căn cặp trình tự (Pairwise Sequence Alignment/PSA)

Đổi định dạng trình tự ( Sequence Format Conversion)

Thống kê trình tự ( Sequence Statistics)

94

Dịch mã trình tự (Sequence Translation)

Phân tích cấu trúc (Structural Analysis)

Hình 34. Các dịch vụ của EMBL -EBI

7.3.3. Nhóm công cụ của ExPASy

ExPASy cung cấp các CSDL và công cụ phần mềm để phân tích trong các lĩnh vực proteomics, genomics, genomics, phylogeny, system biology, di truyền quần thể, transcriptomics, biophysics. Địa chỉ truy cập: http://www.expasy.org/

95

Hình 35. Giao diện chính của ExPasy

Các nhóm công cụ của ExP ASy bao gồm:

1. Proteomics: Trong nhóm này gồm các công cụ: phân tích trình tự amino acid và nhận dạng protein; phân tích các dữ liệu điện di 2 chiều và khối phổ; xác định chức năng và các đặc điểm của protein; phân tích họ protein, các mô hình; cải biến sau dịch mã; phân tích cấu trúc protein, nghiên cứu tương tác protein; căn trình tự và tìm các trình tự giống nhau. 2. Genomics: căn trình tự, tìm kiếm trình tự giống nhau, trình tự tương đồng, xác định các đặc điểm và mô tả trình tự. 3. Strutural bioinformatics: phân tích trình tự amino acid, mô phỏng và dự đoán cấu trúc phân tử. 4. Systems biology: xác định và mô tả các con đường chuyển hóa, mạng lưới trao đổi chất, điều hòa biểu hiện gene kể cả ở mức độ genome. 5. Phylogeny/evolution: phân tích các mối quan hệ tiến hóa (orthology), giữa các ge nome, các họ gene, các họ gene mã hóa miRNA, các họ protein, phân tích codon - bias (tần suất sử dụng codon). 6. Population genetics: cung cấp các phần mềm phân tích di truyền quần thể, xác định các điều kiện lựa chọn tự nhiên, mô phỏng các dữ liệu genome liên quan đến tiến hóa. 7. Transcriptomics: cung cấp các công cụ so sánh mô hình biểu hiện gene (gene expression patterns), các vị trí điều hòa hoạt động gene, các protein gắn RNA, DNA, dự đoán đích bám của các miRNA, phát hiện vùng mã hóa và thông tin về exome. 8. Biophysics: xây dựng, nghiên cứu, so sánh và hiển thị mô hình các protein có cấu trúc tương đồng. 9. Imaging: cung cấp các phần mềm mô phỏng, xây dựng và hiển thị cấu trúc các phân tử và tương tác giữa các phân tử. 10. IT infrastructure: Cung cấp các công cụ hỗ trợ cho tin sinh học. 11. Drug design: Hỗ trợ cho phân tích các thông số động học, mô phỏng tương tác giữa các phân tử và các công cụ để phát triển thuốc.

96

7.3.4. Các nhóm công cụ khác

Ngoài các công cụ phân tích ở trên còn có nhiều công cụ phân tích khác được tích hợp ở nhiều trang web. Một trong những ví dụ là nhóm công cụ của B iology WorkBench. Người sử dụng chỉ cần đăng ký một tài khoản miễn phí sau đó có thể sử dụng các công cụ tích hợp trong trang web này.

Hình 37. Các công cụ nhận dạng và xác định các đặc điểm protein

Tóm tắt chƣơng 7 1. Để phân tích các trình tự sinh học, cấu trúc phân tử cần phải sử dụng các công cụ hoặc phần mềm hỗ trợ. Các công cụ phân tích bao gồm: (i) tìm kiếm trình tự giống nhau, (ii) xác định các vùng chức năng, vùng bảo thủ, (iii) căn trình tự, (iv) xác định bản đồ giới hạn, (vi) phân tích các đặc điểm vật lý, tính chất hóa học của protein, dự đoán cấu trúc bậc 2, bậc 3, tương tác protein (vii) phân tích mối quan hệ tiến hóa, (viii) so sánh genome, tìm kiếm gene trong genome... 2. Căn trình tự là một bước trong quá trình tìm kiếm các trình tự giống nhau và trình tự tương đồng. Căn trình tự được coi là vấn đề cốt lõi của tin sinh học. Dựa vào kết quả căn trình tự người ta có thể xác định được thông tin của một đoạn DNA, pr otein, tìm được mối quan hệ giữa các gene, họ gene hoặc các vùng chức năng. BLAST là công cụ hỗ trợ tìm kiếm và phân tích các trình tự tương đồng theo kiểu cục bộ rất nhanh và hiệu quả. Có nhiều biến thể khác nhau của Blast cho các mục đích khác nhau. 3. CSDL ExPASy và các công cụ phân tích hỗ trợ cho nghiên cứu proteomics bao gồm phân tích các đặc điểm vật lý, hóa học, dự đoán cấu trúc, tương tác protein... Các công cụ phân tích khác bao gồm xác định khung đọc mở, bản đồ cắt giới hạn, phân tích mối quan hệ tiến hóa... hỗ trợ cho các nhà nghiên cứu. 97

Câu hỏi ôn tập chƣơng 7 1. Công cụ phân tích CSDL sinh học là gì? Có bao nhiêu nhóm công cụ phân tích? Cho ví dụ một vài công cụ của mỗi nhóm và ứng dụng cụ thể của chúng. 2. Để tìm và copy một trình tự gene người ta sử dụng ngân hàng CSDL và công cụ gì? Thế nào là định dạng FASTA của trình tự sinh học? 3. Thế nào là trình tự giống nhau và trình tự tương đồng? Nhóm công cụ nào cho phép tìm kiếm các trình tự đó và nêu ứng dụng của việc tìm kiếm này? 4. Hãy mô tả nhóm công cụ BLAST? Và ứng dụng của BLAST? 5. Nhóm BLAST chuyên dụng (specialized BLAST) gồm những công cụ gì? Cho ví dụ minh họa. 6. Hãy mô tả các nhóm công cụ của EMBL, trong mỗi nhóm chọn một công cụ điển hình và cho ví dụ minh họa ứng dụng của công cụ đó. 7. ExPASy là gì? Hãy cho biết các nhóm công cụ và ứng dụng của chúng? 8. Thế nào là căn trình tự, hãy cho biết công cụ nào cho phép căn nhiều trình tự và ứng dụng của việc căn nhiều trình tự. 9. Bản đồ cắt giới hạn của một đoạn DNA là gì? Công cụ gì cho phép xây dựng bản đồ giới hạn? Ứng dụng của việc xây dựng bản đồ giới hạn. 10. Tại sao cần phải dự đoán cấu trúc của phân tử protein? Để dự đoán cấu trúc của phân tử protein người ta sử dụng hướng tiếp cận gì? Cho biết công cụ nào hỗ trợ cho việc dự đoán cấu trúc bậc 2 của phân tử pto ein. 11. Công cụ nào hỗ trợ thiết kế mồi (primer) hoặc mẫu dò (probe) trong các kỹ thuật lai axit nucleic. Hãy chọn một công cụ và phân tích ứng dụng của công cụ đó trong việc thiết kế mồi và mẫu dò. 12. Khung đọc mở là gì? Tại sao cần phải xác định khung đọc mở? Hãy cho biết công cụ nào hỗ trợ cho việc phân tích này?

98

CHƢƠNG 8

LÀM QUEN VỚI PHÂN TÍCH DỮ LIỆU SINH HỌC 8.1. Tìm dữ liệu trong các ngân hàng CSDL

Tìm các dữ liệu trong ngân hàng CSDL là thao tác mà tất cả các nhà nghiên cứu đều phải thực hiện. Dữ liệu sinh học rất đa dạng (xem phần CSDL), đơn giản nhất là tìm các bài báo khoa học (xem chương 3), tiếp đến là trình tự gene, trình tự amino acid, trình tự NST, thông tin về hệ thống phân loại học (taxon), genome, cấu trúc 2 chiều và 3 chiều của các phân tử sinh học... 8.1.1. Dữ liệu trình tự

Trình tự sinh học bao gồm trình tự acid nucleic (DNA, RNA) và trình tự amino acid (protein). Dữ liệu về genome của các sinh vật, các gene, EST, STS, các trình tự đang lắp ráp... được lưu trữ trong các ngân hàng CSDL từ kết quả của các nghiên cứu (phòng thí nghiệm, dự án xác định trình tự...). Mỗi trình tự khi đưa vào ngân hàng CSDL đều được đặt tên và có một mã truy cập. Như vậy để tìm được trình tự sinh học cần biết tên (hoặc thông tin về trình tự) hoặc mã số truy cập (accesion number). Trước đây, việc đặt tên cho một gene hay một protein thường không thống nhất và chủ yếu là do người đăng ký trình tự đặt. Việc quản lý mã số truy cập là do những người quản lý CSDL đặt. Sau này khi dữ liệu sinh học được tạo ra ngày càng nhiều đòi hỏi cần phải mô tả hoặc gắn thông tin vào các trình tự (chẳng hạn quá trình mô tả genome/genome annotation) thì việc thống nhất sử dụng thuật ngữ trở nên quan trọng. Để thuận lợi cho việc tìm kiếm cũng như quản lý trình tự, việc thống nhất tên gọi cho một gene hay một protein luôn là vấn đề được đặt ra. Việc đặt tên và thống nhất đặt tên trình tự trong tin sinh học được gọi là ontology“. Việc tìm kiếm các trình tự sinh học phần lớn dựa vào tên và các thông tin liên quan đến trình tự. Thông tin sẽ được sử dụng làm từ khóa để tìm trong các CSDL tương ứng. 8.1.2. Dữ liệu cấu trúc

Bao gồm các dạng dữ liệu cấu trúc ba chiều của các đại phân tử mà chủ yếu là protein và RNA. Các thao tác tìm kiếm và phân tích dữ liệu cấu trúc liên quan đến việc dự đoán, so sánh các mô hình gấp nếp, gấp nếp cục bộ, sự hình thành các cấu trúc motif hoặc domain. Ngoài ra thông tin về sự tương tác phân tử, mối tương quan giữa cấu trúc và chức năng từ kết quả thực nghiệm và từ mô hình cấu trúc mô phỏng bằng máy tính. ExPaSy cung cấp nhóm phân tích cấu trúc (structural bioinformatics) gồm CSDL và các công cụ phân tích. CSDL bao gồm SWISS -MODEL Repository, Protein Model Portal... Các công cụ xây dựng mô hình cấu trúc tương đồng (structure homology-modeling), tương tác giữa các protein (protein ligand docking server), dự đoán vùng cấu trúc trong phân tử protein (prediction of coiled regions in proteins), hiển thị cấu trúc 3-D của protein (Swiss PDBviewer), thông tin về cấu trúc protein (Protein Model Portal). CSDL cấu trúc protein và cấu trúc của các đại phân tử sinh học gồm DNA, RNA và kể cả polysaccharide được lưu trữ trong PDB database (http://www.rcsb.org/pdb/home/home.do). CSDL cấu trúc cũng được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/Structure/index.shtml). 99

Hình 38. CSDL và công cụ phân tích cấu trúc protein của ExPASy

Hình 39. CSDL cấu trúc các đại phân tử sinh học PDB

100

Hình 49. CSDL cấu trúc các đại phân tử sinh học ở NCBI

Các dữ liệu cấu trúc có thể tìm dựa vào tên của các đại phân tử. Các dữ liệu về trình tự, cấu trúc và chức năng được liên kết chéo với các CSDL tương ứng. Các thông tin về kết quả phân tử NMR hoặc X -ray. Chẳng hạn tìm kiếm cấu trúc của phân tử proteinase K tại NCBI cho ra kết quả như hình 50.

Hình 50. Kết quả tìm kiếm CSDL cấu trúc protein ở NCBI 101

8.1.3. Các dữ liệu khác

Ngoài dữ liệu liên quan đến trình tự và cấu trúc, các dạng dữ liệu khác thường được khai thác trong tin sinh học bao gồm sách, bài báo khoa học, dữ liệu hệ thống phân loại (taxon), kiểu gene và kiểu hình (dbGaP), dữ liệu bệnh di truyền, các hợp chất hóa học... đều có thể khai thác từ các ngân hàng CSDL lớn chủ yếu của NCBI. Việc tìm kiếm dựa vào tên của các dữ liệu hoặc từ khóa tìm kiếm. Cũng tương tự như việc tìm kiếm các dữ liệu trình tự và cấu trúc, thông tin về các dữ liệu khác cũng được liên kết với các CSDL tương ứng. 8.2. Phân tích trình tự 8.2.1. So sánh trình tự

So sánh trình tự đóng vai trò quan trọng nhất trong phân tích tin sinh học. Đây là bước đầu tiên trong quá trình phân tích cấu trúc và chức năng của những trình tự mới. Khi số lượng trình tự sinh học mới được tìm ra ngày càng nhiều việc so sánh trình tự lại càng trở nên quan trọng để tìm ra chứng năng và mối liên hệ về mặt tiến hóa giữa các trình tự này với các trình tự đã biết trong các cơ sở dữ liệu, đặc biệt khi phân tích trình tự protein. Nền tảng của việc so sánh trình tự là quá trình căn trình tự . Đây là quá trình mà nhờ đó các trình tự được so sánh bằng cách tìm ra các vùng ký tự giống nhau trên cơ sở so sánh từng ký tự giữa các trình tự phân tích. Căn cặp trình tự là quá trình dóng 2 trình tự và là nền tảng của tìm kiếm các trình tự giống nhau (similarity) và căn nhiều trình tự là cơ sở để phát hiện ra các vùng chức năng (domain) hoặc các vùng đặc biệt (motif/pattern) hoặc phân tích đột biến và quan hệ tiến hóa. Khái niệm

So sánh là quá trình tìm ra những đặc điểm giống và khác nhau giữa 2 hoặc nhiều trình tự. Điểm giống nhau là những đoạn trình tự có trật tự sắp xếp của các nucleotide hoặc amino acid giống nhau. Trong tin sinh học, để so sánh trình tự người ta phải sắp xếp các trình tự với nhau theo những cách nhất định để tìm ra những điểm giống nhau. Việc sắp xếp các trình tự hay còn được gọi là dóng hoặc căn trình tự (sequence alignmen). Mục đích chung của căn cặp trình tự là tìm ra các trật tự bắt cặp giống nhau của các ký tự (nucleotide hoặc amino acid) giữa hai trình tự. Để đạt được điều này, một trình tự cần phải thay đổi nhất định để tìm ra vùng bắt cặp giống nhau lớn nhất. Sự thay đổi này là việc đưa các vị trí trống vào trong chuỗi để tạo ra khả năng bắt cặp lớn nhất cho các ký tự trong chuỗi.

Cơ sở tiến hóa của việc so sánh trình tự Quá trình tiến hóa bắt đầu xảy ra ở mức độ phân tử, DNA và protein. Những biến đổi về mặt trình tự nucleotide trong DNA xảy ra một cách ngẫu nhiên dẫn đến những biến đổi về trình tự amino acid trong phân tử protein và dẫn đến những biến đổi về mặt kiểu hình. Lựa chọn tự nhiên là một quá trình luôn luôn xảy ra và hệ quả của nó là những kiểu gene phù hợp nhất (fitness) sẽ thích nghi và được nhân lên qua nhiều thế hệ sau đó. Các kiểu gene không phù hợp sẽ bị loại bỏ dần dần trong quá trình tiến hóa. Việc tích lũy các đột biến và phân l i qua thời gian vẫn có thể lưu lại những phần trình tự nhất định làm dấu hiệu cho phép nhận ra và xác định tổ tiên chung. Trong quá trình tiến hóa có một số vùng trình tự được coi đóng vai trò quyết định trong cấu trúc và chức năng của các phân tử được giữ lại trong quá trình chọn lọc tự nhiên. Trong khi 102

các trình tự khác, có thể ít tham gia vào các hoạt động chức năng có tần số đột biến cao hơn. Mặc dù về mặt lý thuyết đột biến có thể xảy ra một cách ngẫu nhiên ở mọi vị trí trong trình tự tuy nhiên vẫn tồn tại những vùng trình tự dễ bị biến đổi hơn so với những vùng khác. Hơn nữa trong quá trình chọn lọc tự nhiên những kiểu gene bị đột biến nghiêm trọng đến khả năng sống còn của cá thể mang đột biến sẽ bị loại bỏ. Vì vậy những kiểu gene tồn tại cho đến nay thường là những kiểu gene có sự thích ứng cao với nhiều điều kiện biến đổi. Ví dụ các gốc amino acid tham gia vào hình thành trung tâm hoạt động của một họ enzyme có xu hướng bảo tồn bởi vì chúng chịu trách nhiệm cho chức năng xúc tác. Như vậy so sánh trình tự thông qua quá trình căn trình tự có thể xác định được các vùng trình tự bảo thủ và những vùng biến đổi. Các trình tự có mức độ giống nhau cao cho thấy chúng có thể có mối quan hệ tiến hóa gần gũi, ngược lại các trình tự ít giống nhau chứng tỏ chúng ít có mối liên hệ. Những vị trí biến đổi của các trình tự phản ánh sự biến đổi về các nucleotide hoặc amino acid trong quá trình tiến hóa, chẳng hạn đột biến thay thế cặp nucleotide, mất hoặc thêm một hay nhiều nucleotide. Khi phân tích một nhóm trình tự giống nhau có thể xác định được mối quan hệ tiến hóa, tức là các trình tự này có thể thuộc cùng một họ hoặc cùng có một tổ tiên chung. Nếu một trong các trình tự so sánh trong nhóm đã biết cấu trúc hoặc chức năng thì có thể những trình tự còn lại cũng có những đặc điểm tương tự ở mức độ nhất định. Đây chính là cơ sở để dự đoán cấu trúc và chức năng của trình tự chưa biết dựa vào những thông tin đã có trong CSDL dựa vào so sánh trình tự. Chính vì vậy, căn trình tự được dùng để dựa đoán cấu trúc và chức năng của các trình tự mới chưa biết. Ngoài ra, khi so sánh trình tự người ta có thể phát hiện được vai trò của các amino acid trong việc hình thành nên chức năng của phân tử protein. Chẳng hạn việc thay thế hoặc mất đi một hoặc một số amino acid trong những vùng nhất định trong phân tử protein dẫn đến những biến đổi về mặt cấu trúc và chức năng. Những phát hiện này góp phần trọng trong nghiên cứu và cải biến phân tử theo những định hướng nhất định. Ví dụ khi so sánh trình tự amino acid của một số enzyme thủy phân tinh bột, người ta phát hiện có sự thay thế một amino acid ở một vị trí nhất định trong phân tử dẫn đến enzyme này tăng tính bền nhiệt. Dựa vào kết quả này các nhà nghiên cứu có thể tạo ra các gene đột biến mới định hướng nâng cao tính bền nhiệt của enzyme ứng dụng trong công nghiệp. Một số thuật ngữ liên quan đến so sánh trình tự Homology, similarity và identity

Trình tự tương đồng (sequence homology) và trình tự giống nhau (similarity). Một khái niệm quan trọng trong phân tích trình tự là trình tự tương đồng“. Khi hai trình tự cùng có nguồn gốc từ một tổ tiên chung thì chúng được xem là có mối quan hệ tiến hóa. Khái niệm liên quan nhưng khác hẳn đó là trình tự giống nhau khi phần trăm của các ký tự bên trong trình tự giống nhau về các đặc điểm vật lý và sinh hóa như kích thước, điện tích và tính kị nước. Cần phải phân biệt hai thuật ngữ này bởi vì chúng thường được dùng lẫn lộn và gây ra sự hiểu lầm. Trình tự tương đồng là những trình tự có cùng nguồn gốc tổ tiên hoặc được suy luận có cùng nguồn gốc chung dựa trên cơ sở phân tích mức độ giống nhau của các trình tự. Trình tự giống nhau hay mức giống nhau của trình tự có thể định lượng, tức là có thể nói hai trình tự có mức giống nhau 40% hoặc cùng có trình tự giống nhau chiếm 40%. Tuy nhiên, không thể nói là hai trình tự đó tương đồng 40% mà chỉ có thể kết luận hai trình tự đó 103

tương đồng hoặc không tương đồng. Điều này cũng tương tự như cách nói rằng 2 người nào đó giống nhau tới 60% nhưng không thể nói 2 người đó có họ hàng 60%. Xét một cách tổng thể, nếu hai trình tự giống nhau đủ lớn thì có thể suy luận chúng có mối quan hệ tiến hóa hoặc có cùng tổ tiên chung. Câu hỏi đặt ra ở đây là thế nào là đủ lớn? Việc giải quyết những vấn đề phát sinh trong nghiên cứu liên quan đến hai khái niệm này không phải lúc nào cũng rõ ràng. Câu trả lời phụ thuộc vào loại trình tự nghiên cứu và chiều dài trình tự. Trình tự nucleotide bao gồm 4 loại ký tự A, T, G và C vì vậy ngay cả khi hai trình tự không có mối liên hệ gì thì ở một vị trí nhất định luôn có ít nhất 25% cơ hội giống nhau hoàn toàn. Đối với trình tự protein, do có 20 amino acid khác nhau nên hai trình tự không liên quan có cơ hội giống nhau 5% ở mỗi vị trí. Chính vì vậy khi căn trình tự, nếu đưa một chỗ trống vào (-) thì cơ hội giống nhau sẽ tăng lên 10 -20%. Như vậy chiều dài trình tự là một yếu tố quan trọng. Các trình tự càng ngắn thì cơ hội để chúng giống nhau càng cao, trình tự càng dài thì khả năng bắt cặp giống nhau càng thấp. Chẳng hạn như để tìm một từ hoặc cụm từ xuất hiện trong 1 cuốn sách sẽ dễ dàng hơn việc tìm kiếm cả một câu dài. Điều này cho thấy khi phân tích các trình tự ngắn đòi hỏi ngưỡng đặt ra (cutoff) phải càng cao. Chẳng hạn để xác định mối quan hệ tương đồng của hai protein, nếu hai trình tự được căn trên toàn bộ chiều dài 100 amino acid, một mức độ giống nhau 30% hoặc cao hơn có thể coi là đủ tin cậy để kết luận chúng có mối quan hệ tiến hóa gần gũi hay hai trình tự này là tương đồng. Tuy nhiên cũng cần phải nhấn mạnh rằng, giá trị phần trăm giống nhau chỉ cung cấp cơ sở nhất định để xác định mối quan hệ tương đồng chứ không phải là quy tắc tuyệt đối để xác định mối quan hệ này, đặc biệt là những trình tự nằm trong vùng mập mờ (twighlight). Trong những trường hợp nhất định cần có những phân tích thống kê đánh giá mức độ tin cậy của quá trình căn trình tự. Dưới đây là biểu đồ mô tả khả năng mối liên hệ giữa trình tự tương đồng và trình tự giống nhau.

Hình 51. Mối quan hệ giữa mức độ giống nhau và chiều dài trình tự

tạo ra khi căn trình tự protein. Hai protein có thể được coi là tương đồng khi phần trăm trình tự giống nhau nằm trong vùng an toàn (safe zone). Khi mức độ giống nhau dưới vùng an toàn, nhưng mức độ giống nhau trên 20% có thể được xếp vào vùng mập mờ (twilight zone), khi đó việc kết luận hai trình tự là tương đồng sẽ thiếu chắc chắn. Vùng dưới 20% là vùng „tối“ (midnight), trong vùng này không thể kết luận hai trình tự là tương đồng. Có ba vùng

104

Sequence similarity và sequence indentity

Một thuật ngữ nữa liên quan đến việc so sánh trình tự là sequence similarity“ và sequence identity“. Về cơ bản hai thuật ngữ này cùng nghĩa đối với trình tự nucleotide. Tuy nhiên, đối với trình tự protein, hai khái niệm này lại rất khác nhau. Khi căn trình tự protein, sequence identity“ được hiểu liên quan đến phần trăm của việc bắt cặp giống nhau của các gốc amino acid giống nhau giữa hai trình tự được căn. Sequence similarity“ được hiểu là phần trăm các gốc amino acid sau khi căn trình tự có các đặc điểm vật lý, sinh hóa tương tự hoặc giống nhau và có thể thay thế cho nhau. Có hai cách để tính toán đối với sequence similarity“ và sequece identity“. Một cách liên quan đến việc sử dụng toàn bộ chiều dài trình tự của cả 2 trình tự, cách thứ hai sử dụng cách chuẩn hóa (normalize) theo kích thước của trình tự ngắn hơn. Phương pháp 1 sử dụng công thức: S=[(L s×2)/(L a+L b)] ×100

Trong đó S là phần trăm trình tự giống nhau, Ls là số amino acid có đặc điểm tương tự hoặc giống nhau và La và Lb là tổng chiều dài của cả hai trình tự. Trình tự giống nhau (I%) được tính theo công thức tương tự I =[ (L i ×2)/(L a+L b)]×100

Trong đó Li là số gốc amino acid giống nhau hoàn toàn. Phương pháp thứ hai là để tính tỉ lệ phần trăm của số amino acid giống nhau hoàn toàn/ số amino acid tương tự trên toàn bộ chiều dài của trình tự ngắn hơn theo công thức: I(S)% = Li(s)/La%

Trong đó La là chiều dài của trình tự ngắn hơn. Ý nghĩa của việc so sánh trình tự Tìm ra những vùng trình tự giống hoặc tương tự trong phân tử DNA, RNA hoặc protein có ý nghĩa ứng dụng rất lớn . Xét trên quan điểm sinh học và tiến hóa, những phân tử DNA, RNA hoặc protein có trình tự giống nhau hoặc tương tự nhau sẽ có thể có cấu trúc và chức năng sinh học giống hoặc tương tự nhau, có quan hệ gần gũi nhau về mặt tiến hóa hoặc có khả năng xuất phát từ một nguồn gốc chung. Thật khó có thể kể hết những dụng của so sánh trình tự. Trong phạm vi bài giảng này ý nghĩa của việc căn trình tự bao gồm: - Tìm ra những trình tự có mức độ giống hoặc tương tự với một trình tự cho trước (query sequence) - Phát hiện được các cấu trúc giống nhau trong các trình tự so sánh: motif, domain, pattern - Tìm các vùng chức năng trong trình tự chưa biết - Xác định mối quan hệ tiến hóa giữa các trình tự - Phân tích vai trò và ảnh hưởng của các amino acid, nucleotide trong các trường hợp đột biến. - Phát hiện các SNP - Hỗ trợ lắp ráp trình tự

105

8.2.2. Phân tích khung đọc mở và vùng trình tự mã hóa

Đối với một trình tự DNA với chiều dài đủ lớn luôn có 6 khung đọc. T rên mỗi khung đọc có thể tồn tại một, nhiều hoặc không có khung đọc mở (ORF). Khung đọc mở là một đoạn trình tự DNA có chiều dài là bội số của 3 bắt đầu bởi 1 mã khởi đầu (ATG trên phân tử DNA hoặc AUG đối với phân tử RNA) sau đó là các mã bộ ba liên tục và kết thúc bởi 1 trong các bộ mã kết thúc. Lưu ý mã bộ ba có thể khác nhau đối với các nhóm sinh vật. Thông thường người ta sử dụng bộ mã chuẩn (standard code) với mã khởi đầu là AUG và 1 trong 3 bộ mã kết thúc AUA, AUG v à UGA. Vùng trình tự mã hóa (coding sequence) về bản chất là một ORF, tuy nhiên vùng trình tự mã hóa thường được hiểu là vùng trình tự mã hóa cho một protein. Chính vì vậy không phải ORF nào cũng có thể là vùng trình tự mã hóa. Việc xác định ORF và vùng trình tự mã hóa có ý nghĩa trong việc phát hiện sự có mặt của gene trong một đoạn DNA hoặc RNA và dự đoán trình tự amino acid do gene mã hóa. Có nhiều công cụ cho phép phân tích ORF, NCBI cung cấp công cụ ORF finder rất hiệu quả và thân thiện cho người sử dụng (hình 44). 8.2.3. Tìm kiếm Promoter và các vùng điều hòa hoạt động gene

Xác định promoter là một trong những tiêu chí quan trọng trong mô tả genome (genome annotation). Ở sinh vật Prokaryote, chẳng hạn như vi khuẩn, việc xác định promoter tương đối đơn giản. Vùng promoter của các sinh vật này thường có 3 đặc điểm: (i) điểm bắt đầu hay còn gọi là vị trí (+1), (ii) hộp TATA nằm ở khoảng vị trí 10 ngược dòng từ điểm bắt đầu, (iii) trình tự TTGACA nằm xung quanh ở vị trí -35. Ở sinh vật eukaryote việc xác định promoter phức tạp hơn nhiều do sự đa dạng về các trình tự cũng như khoảng cách từ điểm bắt đầu (+1) . Các Promoter được nhận ra bởi RNA polymerase II thường chứa các yếu tố TATA (TATAAA) nằm ở vị trí -30 đến -40 (trung bình -35). Do promoter không thể tự thực hiện quá trình phiên mã một cách hiệu quả mà nó cần những vùng trình tự gần xung quanh nó (promoter -proximal elements). Các trình tự này thường tìm thấy ở vùng -100 đến -200 bp so với vị trí khởi đầu. Các hộp CCAAT là một trong những trình tự hoạt động theo kiểu cis -acting và một vùng giàu GC nằm trước hộp CCAAT.

Hình 55. Công cụ tìm promoter và các TF Ngoài các trình tự cis, trong genome còn có nhiều vùng DNA cho phép các protein có vai trò điều hòa hoạt động phiên mã nhận ra và gắn vào. Phần lớn chúng là các yếu tố phiên mã (transcription factor/TF). Những protein này hoạt động theo kiểu trans-acting. Các hộp CCAAT và GC thường được nhận ra bởi các protein gắn DNA. Vùng trình tự gọi là enhancer cũng được một số protein nhận ra và bám vào trong quá trình phiên mã, những trình tự này gọi là UAS (upstream activating sequence). Chẳng hạn protein GCN4 sẽ nhận ra các trình tự UAS chứa trình tự ATGACTCAT. Dựa trên việc phát hiện các trình tự này người ta có thể xác định được vị trí các promoter ở Eukaryote. Cơ sở dữ liệu Promoter cũng được phát triển bởi SIB (Swiss Institute of 106

Bioinformatics) với CSDL khoảng hơn 200.000 trình tự promoter khác nhau có nguồn gốc từ ruồi dấm, chuột và người (http://epd.vital-it.ch/).

Hình 56. Công cụ tìm promoter và các TF

Song song với việc xây dựng CSDL trình tự promoter, nhiều chương trình và phần mềm máy tính hỗ trợ phát hiện trình tự promoter được phát triển bởi nhiều nhóm nghiên cứu khác nhau. Chẳng hạn NCBI cung cấp công cụ Finding the Promoter (http://www.ncbi.nlm.nih.gov/Class/NAWBIS/Modules/DNA/dna21b.html), NIH cung cấp công cụ WWW Promoter scan (http://www-bimas.cit.nih.gov/molbio/proscan/).

107

Để nghiên cứu điều hòa biểu hiện gene, hiểu biết chính xác và đầy đủ thông tin về các yếu tố điều hòa phiên mã là cần thiết. CSDL các yếu tố điều hòa phiên mã (Transcriptional Regulatory Element Database (TRED)) đã được xây dựng để đáp ứng với yêu cầu ngày càng tăng về các yếu tố điều hòa phiên mã (kể cả cis và trans) .

108

Hình 58. Công cụ tìm promoter và các TF

8.2.4. Tìm kiếm vùng chức năng của protein (functional motif searching)

Để nghiên cứu chức năng protein cần phải xác định các vùng trình tự amino acid tham gia vào việc hình thành các trung tâm xúc tác, vị trí nhận biết hoặc tương tác protein hoặc protein với cơ chất hoặc với DNA. Với sự phong phú về trình tự amino acid việc so sánh trình tự của các protein có chức năng tương tự nhau cho phép xác định được các vùng chức năng của chúng. Khi CSDL về các vùng chức năng được biết ngày càng nhiều chỉ cần tìm hoặc quét vùng trình tự nhất định có mặt trong một trình tự protein có thể dự đoán được chức năng của chúng. Các công cụ cho phép phân tích các vùng chức năng của protein bao gồm: InterProScan (http://www.ebi.ac.uk/Tools/pfa/iprscan/) Motif search (http://www.genome.jp/tools/motif/) Conserved domain của NCBI (http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml)

109

Hình 59. Công cụ phát hiện các vùng domain và motif

8.2.5. Dự đoán và mô phỏng tƣơng tác protein

Tương tác protein –protein là quá trình hình thành mối tiếp xúc giữa một số vùng của hai hoặc nhiều protein do kết quả của các lực tĩnh điện hoặc các sự kiện hóa sinh. Nghiên cứu tương tác protein là một lĩnh vực kết hợp giữa tin sinh học và nghiên cứu cấu trúc để xác định và phân nhóm tương tác phân tử giữa các cặp hoặc các nhóm protein. Hiểu biết tương tác protein có ý nghĩa quan trọng trong nghiên cứu các con đường dẫn truyền tín hiệu trong tế bào, mô phỏng cấu trúc các phức hợp protein và hiểu được các quá trình sinh hóa. Nghiên cứu cấu trúc và tương tác protein sẽ phát hiện được các vùng motif, dự đoán chức năng, nghiên cứu lịch sử tiến hóa và các trình tự bảo thủ, xác định được các gốc amino acid đóng vai trò quan trọng trong chuỗi trình 110

tự. Ngoài ra nghiên cứu tương tác protein còn góp phần làm sáng tỏ quá trình cải biến sau dịch mã, sự phosphoril hóa, acyl hóa, glycosyl hóa và ubiquitin hóa và xác định được vị trí vận chuyển và định vị của protein trong tế bào. Đột biến trong chuỗi trình tự amino acid có thể dẫn đến sự thay đổi trong cấu trúc và khả năng tương tác với các phân tử khác. Chẳng hạn nghiên cứu tương tác protein có thể xác định những thay đổi về trình tự amino acid sẽ dẫn đến thay đổi đặc tính xúc tác, khả năng gắn cơ chất, vị trí dị lập thể... từ đó có thể cải biến enzyme hoặc điều khiển phản ứng xúc tác theo mong muốn. Trong nghiên cứu miễn dịch, sự tương tác protein là cơ sở để đánh giá khả năng phản ứng của kháng thể với kháng nguyên, dự đoán khả năng phản ứng đặc hiệu hoặc phản ứng chéo... Về mặt thực nghiệm, các tương tác vật lý giữa các cặp protein có thể được xác định bằng nhiều kỹ thuật khác nhau. Chẳng hạn như: P rotein-fragment complementation assays (PCA), affinity purification/mass spectrometry, protein microarrays, fluorescence resonance energy transfer (FRET)... Trong tin sinh học, để dự đoán khả năng tương tác giữa protein với protein đòi hỏi những CSDL xây dựng từ kết quả thực nghiệm. Chẳng hạn từ những kết quả nghiên cứu cho thấy các protein có cấu trúc giống nhau được quyết định bởi một số vùng amino acid nhất định đều có khả năng tương tác với các protein có cấu trúc tương ứng. So sánh trình tự nucleotide hoặc amino acid sẽ phát hiện được các vùng trình tự bảo thủ, các motif, domain hoặc các amino acid đóng vai trò chính để hình thành nên các mối tương tác. Dựa trên cơ sở này có thể dự đoán được cấu trúc của phân tử protein quan tâm và khả năng tương tác của chúng với các phân tử khác. Cho đến nay có nhiều phương pháp được ứng dụng trong tin sinh học để dự đoán tương tác protein bao gồm nghiên cứu quan hệ tiến hóa: Xác định các họ protein có mô hình cấu trúc tương tự nhau ở nhiều loài sinh vật khác nhau. Phương pháp này dựa trên cơ sở đồng tiến hóa giữa các protein và các cấu trúc ortholog giữa những loài gần gũi nhau. Trong một con đường chuyển hóa hoặc một phần của con đường chuyển hóa có sự tham gia và tương tác của các protein thì ở các loài khác nhau nhưng cùng sử dụng con đường chuyển hóa giống nhau thì sự tương tác giữa các protein cũng sẽ giống hoặc tương tự nhau. Các dữ liệu về phân tích tiến hóa của các protein có thể được sử dụng để suy đoán khả năng tương tác của chúng. Khi so sánh genome của nhiều loài nếu có sự xuất hiện đồng thời hoặc biến mất của 2 protein thì chứng tỏ chúng phải có mối liên hệ với nhau. Những vùng trình tự hoặc cấu trúc bảo thủ được phát hiện dựa vào phân tích tiến hóa cũng cho phép dự đoán khả năng tương tác giữa các phân tử protein. Dựa vào cây tiến hóa, các cấu tử (ligand) và thụ thể (receptor) có xu hướng đồng tiến hóa theo mô hình tương tự nhau chứ không phải một cách ngẫu nhiên. Phương pháp này sử dụng cây tiến hóa của các cặp protein để quyết định liệu sự tương tác có xảy ra hay không. Để làm điều này công cụ BLAST và căn nhiều trình tự (chẳng hạn như Clustal) thường được sử dụn g. Ngoài ra dự đoán và so sánh cấu trúc protein với các protein đã biết dựa trên cơ sở so sánh trình tự tương đồng để dự đoán sự tương tác giữa các trình tự protein truy vấn. Phương pháp này không chỉ xác định được sự tương tác protein mà còn gợi ý mô hình của sự tương tác về mặt cấu trúc. Tuy nhiên, mức độ chính xác của hướng tiếp cận này phụ thuộc rất nhiều vào dữ liệu về các protein và sự tương tác giữa chúng. Cho đến nay dữ liệu về tương tác của các phức hợp protein thu được từ thực nghiệm còn rất hạn chế vì vậy các mô hình dự đoán tương tác protein chỉ được tham khảo để sàng lọc ban đầu. 111

Tóm tắt chƣơng 8 Dữ liệu sinh học bao gồm dữ liệu trình tự, dữ liệu cấu trúc và các loại dữ liệu khác như bài báo, sách, dữ liệu kiểu gene kiểu hình, các hợp chất hóa học, các con đường chuyển hóa... Các dữ liệu này được lưu trữ trong các ngân hàng gene, NCBI, PDB, ExPaSy... Phân tích trình tự bao gồm các thao tác so sánh thông qua việc căn trình tự. Đánh giá mức độ giống nhau và tương đồng giữa các trình tự có ý nghĩa quan trọng trong phân tích cấu trúc, chức năng và quan hệ tiến hóa. Việc so sánh trình tự cho phép phát hiện đột biến, SNP, các vùng bảo thủ... Phân tích trình tự protein, dự đoán cấu trúc bậc 2, bậc 3 được hỗ trợ bởi các công cụ của ExPaSy, ngân hàng CSDL protein (PDB). So sánh cấu trúc sẽ hỗ trợ dự đoán chức năng và tương tác giữa các phân tử. Phân tích khung đọc mở hỗ trợ xác định các vùng mã hóa, xác định các gene. Tìm kiếm các vùng chức năng của protein (motif, pattern, domain) được hỗ trợ bởi rất nhiều công cụ như Conserved Domain and Protein Classification của NCBI, Motif Scan. Xác định trình tự promoter và các trình tự liên quan đến quá trình điều hòa biểu hiện gene là cơ sở để xác định gene trong genome. Câu hỏi ôn tập chƣơng 8 1. Làm thế nào để tìm được trình tự nucleotide của một gene hoặc trình tự amino acid của một phân tử protein quan tâm trong ngân hàng CSDL. 2. Số truy cập (accesion number) của một gene hay protein là gì? Làm thế nào để có số truy cập này? 3. Ontology là gì? Tại sao ontology lại quan trọng? 4. Những CSDL nào chứa các dữ liệu cấu trúc protein? Cho ví dụ minh họa. 5. So sánh trình tự là gì? Tại sao lại cần phải so sánh trình tự 6. Hãy nêu cơ sở tiến hóa của so sánh trình tự, cho ví dụ minh họa. 7. Phân biệt các khái niệm h omology, similarity và identity 8. Khung đọc mở là gì? Dựa vào cơ sở gì để xác định khung đọc mở? Ý nghĩa của việc phân tích khung đọc mở. 9. Promoter là gì? Làm thế nào để xác định được trình tự promoter điều khiển hoạt động của một gene trong cơ thể euka yote. 10. Trình tự mã hóa (coding sequence/CDS) là gì? Có mối liên hệ gì giữa khung đọc mở và CDS? 11. Dựa trên cơ sở gì để xác định trình tự điều hòa phiên mã (TF)? Ý nghĩa của việc xác định TF? 12. Thế nào là vùng chức năng trong phân tử protein? Cơ sở gì cho phép xác định vùng chức năng của phân tử protein. 13. Phân tích chỉ ra mối quan hệ chăt giữa cấu trúc và chức năng của protein 14. Tương tác phân tử là gì? Dựa trên cơ sở gì để dự đoán hay mô phỏng tương tác phân tử.

112

CHƢƠNG 9

CĂN TRÌNH TỰ VÀ NGUYÊN LÝ CỦA CĂN TRÌNH TỰ 9.1. Giới thiệu về căn trình tự

Mục tiêu của căn cặp trình tự là để tìm ra khả năng bắt cặp giống nhau lớn nhất của các nucleotide hoặc amino acid của hai trình tự. Giả sử có 2 trình tự cần so sánh là GAATTCAG và GGATCGA. Sẽ có rất nhiều khả năng xảy ra. Trường hợp (A) có 5 nucleotide giống hệt nhau (match), 1 nucleotide bắt nhầm (mismatch) và 2 khoảng trống (gap). Trường hợp (B) cũng tương tự có 5 nucleotide giống nhau, 1 vị trí bắt nhầm và 2 khoảng trống. Trường hợp (C) có 5 nucleotide giống nhau, 1 vị trí bắt cặp nhầm và 1 khoảng trống trên mỗi trình tự. Trường hợp (D) cũng tương tự, tuy nhiên vị trí của khoảng trống là khác nhau. Vậy trong các trường hợp đó thì trường hợp nào phản ánh đúng kết quả căn trình tự? Sẽ không có câu trả lời nào là đúng hay sai mà chỉ có thể đưa ra kết quả phù hợp nhất theo một tiêu chí nào đó.

Có 2 phương pháp căn trình tự, căn trình tự toàn bộ và căn trình tự cục bộ. Đối với căn trình tự toàn bộ, hai trình tự được giả thuyết giống nhau, việc so sánh được thực hiện trên toàn bộ trình tự. Quá trình căn trình tự được thực hiện được từ đầu đến cuối cả hai trình tự để tìm ra khả năng cho kết quả so sánh toàn bộ các trình tự đạt mức giống nhau cao nhất. Phương pháp này được áp dụng đối với những trình tự có mối quan hệ gần gũi và chiều dài gần tương tự nhau. Đối với những trình tự có mối quan hệ xa hoặc có chiều dài không bằng nhau thì phương pháp này có thể không thể tạo ra kết quả tối ưu. Căn trình tự cục bộ không đặt ra giả thuyết hai trình tự giốn g nhau trên toàn bộ chiều dài. Căn trình tự cục bộ chỉ tìm những vùng có mức độ giống nhau cao nhất giữa hai trình tự và căn những vùng này mà không cần quan tâm đến việc căn những vùng trình tự còn lại. Hướng tiếp cận này có thể được áp dụng để căn các trình tự có có mối quan hệ không gần gũi, có độ dài khác nhau với mục đích là tìm các vùng bảo thủ, các vùng chức năng (domain) hoặc dạng trình tự (pattern) trong trình tự DNA hoặc trình tự protein.

113

Hình 52. Căn trình tự toàn bộ (global) và căn trình tự cục bộ (local)

Thuật toán căn trình tự đối với cả căn trình tự toàn bộ và cục bộ là tương tự nhau và chỉ khác nhau ở chiến lược tối ưu hóa sử dụng trong khi căn các ký tự giống nhau. Cả hai dạng thuật toán được dựa vào một trong 3 phương pháp, ma trận điểm (dot matrix), chương trình động (dynamic programing) và từ hay ký tự (word). 9.2. Nguyên lý của căn trình tự a) Ma trận điểm

Phương pháp cơ bản nhất trong căn trình tự là sử dụng ma trận điểm, còn gọi là dot plot method“. Đây là cách so sánh 2 trình tự theo dạng đồ họa dựa vào ma trận 2 chiều. Trong phương pháp này, hai trình tự so sánh sẽ được viết theo chiều dọc và chiều ngang của ma trận. Việc so sánh được thực hiện bằng cách quét từng ký tự (nucleotide hoặc amino acid) trên trong một trình tự để tìm ra các ký tự nào giống với ký tự đó trong trình tự kia. Nếu một ký tự bắt cặp giống nhau được phát hiện, một điểm chấm tương ứng sẽ được đánh dấu vào đồ thị. Nếu ký tự không giống sẽ để trống. Khi hai trình tự có những vùng giống nhau, nhiều điểm chấm nối lại với nhau để tạo thành các đường nối tiếp thể hiện vùng trình tự được căn. Nếu có nhiều chỗ ngắt quang ở giữa một đường nối, điều đó có nghĩa là những đột biến mất hoặc thêm đoạn. Các đường nối song song nằm trong ma trận điểm sẽ biểu hiện các vùng trình tự lặp lại (hình 53). Các đường nối giữa các điểm theo đường chéo chỉ ra kết quả căn trình tự. Các đường chéo ở trên hoặc ở dưới thể hiện các vùng trình tự lặp lại trong trình tự này hoặc trình tự kia.

114

Hình 53. Ví dụ so sánh hai trình tự sử

dụng phƣơng pháp ma trận điểm

Vấn đề phát sinh khi so sánh các trình tự có kích thước lớn theo phương pháp ma trận điểm là sẽ tạo ra nhiều nhiễu. Trong hầu hết các ma trận điểm, các điểm được chấm toàn bộ đồ thị sẽ làm nhiễu hoặc gây khó khăn cho việc xác định đường chéo căn trình tự thực. Đối với trình tự DNA, vấn đề nảy sinh là do có 4 ký tự trong trình tự và mỗi ký tự có ¼ khả năng bắt cặp với trình tự kia. Để giảm nhiễu, thay vì sử dụng 1 ký tự đơn để quét phát hiện sự giống nhau, một kỹ thuật lọc được áp dụng, sử dụng một khuôn/khung cửa sổ“ để cố định chiều dài của một đoạn các ký tự (một vùng ký tự ngắn). Khi áp dụng cách lọc nhiễu, khuôn/khung“ sẽ trượt dọc theo hai trình tự để so sánh tất cả các đoạn ký tự“. Các điểm chỉ được đặt khi một vùng trình tự trùng với kích thước của khung cửa sổ“ từ một trình tự này bắt cặp hoàn toàn với vùng trình tự tương ứng của trình tự kia. Phương pháp này tỏ ra khá hiệu quả trong việc làm giảm nhiễu. Khung/cửa sổ“ còn được gọi là một tuple“, kích thước của khung cửa sổ“ có thể được điều chỉnh để đảm bảo cho một vùng trình tự ngắn“ hoặc một pattern“ bắt cặp có thể được đánh dấu 1 điểm trên đồ thị. Tuy nhiên nếu lựa chọn kích thước khung cửa sổ“ quá dài thì độ nhạy của việc căn trình tự sẽ giảm. Có nhiều biến thể của việc sử dụng phương pháp ma trận điểm. Chẳng hạn, một trình tự có thể được căn với chính bản thân nó để xác định các vùng trình tự lặp lại. Theo cách này, có một đường chéo chính thể hiện sự bắt cặp hoàn hảo của mỗi ký tự. Nếu trong trình tự có những vùng lặp lại, những đường kẻ chéo song song ngắn sẽ được quan sát cả ở trên và ở dưới đường chéo chính. Đối với những trình tự DNA có khả năng tự bắt cặp bổ sung (lặp lại đảo ngược), những trình tự này có khả năng hình thành cấu trúc kẹp tóc cũng có thể phát hiện dễ dàng bằng phương pháp ma trận điểm. Trong trường hợp này, trình tự DNA được so sánh với trình tự đảo ngược bổ sung của nó. Các đường chéo song song sẽ thể hiện các trình tự lặp lại đảo ngược. Đối với việc so sánh trình tự protein, một sơ đồ khối lượng (a weight scheme) được sử dụng để giải thích cho sự giống nhau về các đặc điểm vật lý và sinh hóa của các gốc amino acid . Phương pháp ma trận điểm đưa ra kết luận trực tiếp và mang tính trực quan về mối quan hệ giữa hai trình tự . Nó giúp nhà nghiên cứu dễ dàng xác định các vùng trình tự có mức độ giống nhau lớn nhất. Một lợi thế quan trọng nữa của phương pháp này là xác định được các vùng trình tự lặp lại dựa vào các đường chéo song song có cùng kích thước theo chiều dọc và chiều ngang của ma trận. Phương pháp này rất hữu ích 115

khi xác định các vùng trình tự lặp lại trên NST và so sánh trật tự các gene bảo thủ giữa hai genome có mối quan hệ gần gũi. Ngoài ra nó cũng hỗ trợ xác định các cấu trúc bậc hai thông qua khả năng tự bắt cặp bổ sung của một trình tự. Hạn chế của phương pháp ma trận điểm ở chỗ khi thực hiện căn trình tự dài với nhiều vị trí mất đoạn hoặc thêm đoạn thông qua việc nối các đường chéo gần nhau thì nó phụ thuộc vào tính chủ quan của người sử dụng. Một hạn chế nữa là cách quan sát và phân tích các điểm chấm trong ma trận. Việc đánh giá chất lượng của ma trận để tìm ra đường chéo thực (kết quả căn trình tự) đôi khi rất khó, đặc biệt đối với các trình tự dài. Phương pháp này cũng hạn chế là chỉ áp dụng được khi căn hai trình tự. Khi căn nhiều trình tự phương pháp này trở nên rất phức tạp và không thể thực hiện. Một số chương trình cho phép so sánh nhiều trình tự theo phương pháp ma trận điểm như: Dotmatcher (bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html) và Dottup (bioweb.pasteur.fr/seqanal/interfaces/dottup.html). Đây là 2 chương trình của EMBOSS cho phép dùng online. - Dothelix (www.genebee.msu.su/services/dhm/advanced.html) là chương trình ma trận điểm cho cả trình tự DNA và protein. - MatrixPlot (www.cbs.dtu.dk/services/MatrixPlot/) là chương trình ma trận điểm khá phức tạp áp dụng khi căn trình tự amino acid.

Phƣơng pháp chƣơng trình động Chương trình động là phương pháp căn trình tự tối ưu bằng cách gióng hai trình tự để tìm ra tất cả khả năng bắt cặp giữa các ký tự của hai trình tự. Phương pháp này về cơ bản giống với phương pháp ma trận điểm ở chỗ nó cũng tạo ra một ma trận hai chiều. Tuy nhiên, nó tìm những kết quả căn trình tự có tính chất định lượng bằng cách chuyển đổi ma trận điểm thành ma trận điểm số để tính toán các kết quả bắt cặp giống nhau (match) và bắt cặp không giống (mismatch) giữa hai trình tự. Cách sắp xếp mà ở đó khả năng bắt cặp cho điểm số cao nhất đồng nghĩa với việc đưa ra kết quả căn trình tự tốt nhất có thể. Chương trình động hoạt động bằng cách thiết kế một ma trận 2 chiều trong đó các trục của nó là hai trình tự được so sánh. Các ký tự bắt cặp phụ thuộc vào ma trận điểm số nhất định. Các điểm số được tính toán một hàng trong một lần. Nó bắt đầu bằng hàng đầu tiên của một trình tự để quét toàn bộ chiều dài trình tự khác, sau đó lại quét tiếp hàng thứ hai. Các điểm số bắt cặp qua mỗi lần quét được tính toán. Việc q uét hàng thứ hai sẽ phải xem xét trên cơ sở các điểm số đã thu được ở vòng 1. Điểm số tốt nhất được đưa vào góc cuối bên phải của một ma trận trung gian. Quá trình này được lặp đi lặp lại cho tới khi các giá trị của tất cả các ô được điền kín. Như vậy, điểm số được tích lũy theo đường chéo xuất phát từ góc trái phía trên cùng tới góc phải cuối cùng. Khi các điểm số đã được tích lũy trong ma trận, bước tiếp theo là tìm ra con đường thể hiện kết quả căn tối ưu. Bằng cách kiểm tra ngược toàn bộ ma trận theo trình tự ngược lại từ góc cuối cùng bên phải sang điểm đầu tiên bắt đầu của ma trận, góc trên cùng bên trái. Co n đường bắt cặp tốt nhất là con đường cho điểm số cao nhất . Nếu hai hoặc nhiều con đường đều cho điểm số như nhau thì một trong những con đường đó sẽ được lựa chọn ngẫu nhiên làm kết quả căn trình tự tối ưu. Con đường cũng có thể di chuyển theo chiều ngang hoặc chiều dọc ở một điểm nhất định, tương ứng với việc đưa chỗ trống (gap) vào một trong hai trình tự phân tích. b)

116

Gap penalties

Việc tối ưu hóa căn trình tự thường liên quan đến việc đưa các khoảng trống tương ứng với các dạng đột biến mất hoặc thêm. Vì quá trình tiến hóa trong tự nhiên (mất, thêm) tương đối hiếm so với các dạng đột biến thay thế (substitution) nên việc đưa các chỗ trống vào trình tự cần phải cân nhắc rất kỹ, xét về mặt thuật toán việc này không dễ dàng gì, bởi vì nó phải phản ánh được các sự kiện đột biến mất và thêm các nucleotide trong quá trình tiến hóa. Việc gắn các giá trị phạt (penalties) có thể ít nhiều mang tính tù y ý bởi vì không có giả thuyết tiến hóa nào đưa ra giá“ cho một đột biến mất hoặc thêm. Nếu giá trị penalty“ quá thấp, các khoảng trống sẽ có nhiều trong kết quả căn trình tự, vì thế ngay cả các trình tự có ít mối liên hệ cũng có thể đưa tới khả năng bắt cặp giống nhau cao và điểm số cũng có thể tương tự nhau. Nếu giá trị penalty“ đặt quá cao, các chỗ trống được đưa vào sẽ bị hạn chế và việc căn trình tự lại khó có thể thực hiện . Nhiều nghiên cứu mang tính thực nghiệm đối với các protein dạng cầu (globula r protein) đã sử dụng các giá trị penalties“ khác nhau để thử nghiệm để phát triển phương pháp phù hợp nhất để căn trình tự. Những giá trị penalties“ thường được đặt mặc định ở hầu hết chương trình căn trình tự. Một yếu tố khác cũng quan trọng là vị trí của chỗ trống trong một dãy các chỗ trống liên tục trong trường hợp đột biến mất đoạn. Vị trí trống đầu tiên được đưa vào sẽ gọi là opening gap /introducing gap“ và các vị trí trống tiếp theo sau đó được gọi là extending gap“, vị trí trống cuối cùng được gọi là closing gap“ . Rõ ràng, đưa một vị trí trống tiếp theo sau opening gap“ sẽ dễ dàng hơn so với việc chỉ ra vị trí đầu tiên để đưa chỗ trống vào. Chính vì vậy, vị trí trống đầu tiên nên bị phạt nhiều hơn so với các vị trí trống tiếp theo. Chẳng hạn, người ta có thể dùng dạng sơ đồ -12/-1 trong đó vị trí trống đầu tiên sẽ bị phạt 12 điểm còn các chỗ trống tiếp theo bị phạt 1 điểm. Tổng số điểm phạt (W) sẽ được tính theo công thức: W=γ+δ×(k−1) trong đó k: chiều dài của gap, γ: introducing gap“ và δ : extending gap“. Ngoài cách tính điểm phạt này người ta còn có thể áp dụng một vài cách khác, chẳng hạn như constant gap penalty“ tức là mọi vị trí trống đều nhận một giá trị phạt như nhau bất kể nó nằm ở đâu. Ngoài ra, giá trị điểm phạt cũng có thể thay đổi tùy thuộc vào mục đích của người sử dụng. c) Word methods

Còn gọi là phương pháp k -tuple, là phương pháp sử dụng khả năng tốt nhất chứ không đảm bảo là tìm được một kết quả căn trình tự tối ưu nhưng nó có hiệu quả cao hơn so với chương trình động. Phương pháp này đặc biệu hữu ích với các trình tự dài hoặc số lượng trình tự lớn. Phương pháp này được biết đến nhiều nhất do ứng dụng của nó trong các công cụ tìm kiếm CSDL thuộc nhóm FASTA và BLAST. Word methods sử dụng một loạt các “word” chứa các trình tự ngắn, không chồng lên nhau trong trình tự truy vấn (query) để bắt cặp với các trình tự trong CSDL. Các vị trí tương đối của “word” trong 2 trình tự được so sánh và loại trừ để thu được một kết quả và chỉ ra một vùng của trình tự được căn nếu như các từ khác nhau tạo ra cùng một kết quả. Chỉ những vùng được xác định này sẽ tiếp tục được thực hiện tiếp với các thông số căn trình tự ở mức độ cao hơn. Nhưng trình tự khác sẽ bị loại bỏ ngay. Chính vì thế rút ngắn được thời gian phân tích. Trong phương pháp FASTA, người dùng có thể đặt một giá trị k như là chiều dài từ “word length” riêng, việc điều chỉnh giá trị k rất có ý nghĩa khi tìm các trình tự 117

ngắn. Khi giá trị k nhỏ, tốc độ tìm kiếm sẽ chậm nhưng độ nhạy sẽ tăng lên, do đó nó cho phép tìm được những trình tự ngắn có mối liên quan. Nhóm BLAST cũng cung cấp các thông số cho phép tối ưu tìm kiếm với các dạng query khác nhau, chẳng hạn như tìm kiếm các trình tự có mối liên hệ tương đối xa . 9.3. Căn nhiều trình tự và nguyên lý căn nhiều trình tự a) Căn nhiều trình tự

Căn nhiều trình tự (multiple sequence alignment) là một dạng mở rộng của so sánh cặp trình tự. Phương pháp này căn ít nhất từ 3 trình tự trở lên. Căn nhiều trình tự thường dùng để phát hiện các vùng bảo thủ trong một nhóm các trình tự nghi ngờ là có mối liên hệ tiến hóa. Những vùng bảo thủ đó có thể là những motif liên quan đến vị trí xúc tác của enzyme, vị trí gắn cơ chất, điều hòa.. . Căn nhiều trình tự trợ giúp cho việc xây dựng các mối liên hệ tiến hóa ( phylogenetic tree). Các thuật toán sử dụng t rong căn nhiều trình tự bao gồm: Dynamic programming, Progr essive methods, I terative methods và M otif fi nding .

Hình 54.Căn nhiều trình tự b) Nguyên lý căn nhiều trình tự Dynamic programming

Về lý thuyết chương trình động có thể áp dụng cho một số lượng không hạn chế các trình tự. Tuy nhiên, do hạn chế về thời gian xử lý, khả năng của máy tính và chi phí cho bộ nhớ nó thường ít được sử dụng khi có nhiều hơn 3 hoặc 4 trình tự. Phương pháp này đòi hỏi xây dựng một dạng ma trận n chiều, trong đó n là số lượng trình tự trong một bộ query. Đầu tiên nó thực hiện so sánh cặp giữa các trình tự và sau đó các khoảng trông “alignment space” được điền đầy bằng các cân nhắc các khả năng bắt cặp và chỗ trống ở những vị trí trung gian. Mặc dù kỹ thuật này đòi hỏi chi phí máy tính, nhưng nó đảm bảo một giải pháp toàn bộ trong những trường hợp chỉ có ít trình tự được phân tích và đòi hỏi độ chính xác cao. Một phương pháp khác giảm đòi hỏi về chi phí cho máy tính dựa vào tổng của các cặp “ sum of pairs" được cung cấp bởi MSA software package. Progressive methods

Phương pháp này dựa trên cơ sở phân tích thứ bậc, tuần tự hoặc dạng cây. Đầu tiên nó căn các trình tự giống nhau nhất sau đó bổ sung dần dần các trình tự có mức độ giống nhau giảm dần hoặc gộp thành kết quả căn trình tự khi toàn bộ trình tự query được kết hợp lại với nhau. 118

Cây ban đầu mô tả các trình tự có mối liên hệ dựa vào việc so sánh cặp (pairwise) sử dụng thuật toán hợp lý nhất ( heuristic) tương tự như FASTA. Các kết quả căn tiếp tục (p rogressive alignment results) phụ thuộc vào việc lựa chọn các trình tự có mối liên hệ nhất ( "most related" sequences)và sau đó có thể mở rộng với các cặp trình tự có độ chính xác kém hơn. Hầu hết các phương pháp căn trình tự thuộc nhóm này weight“ các trình tự trong một bộ trình tự query dựa vào mối liên hệ của chúng, điều này giảm khả năng đưa ra một sự lựa chọn kém chính xác đối với các trình tự ban đầu và như vậy sẽ tăng được độ tin cậy của kết quả căn trình tự. Các chương trình thuộc nhóm Clustal sử dụng phương pháp này để so sánh nhiều trình tự, xây dựng cây phân loại (phylogenetic tree) và dự đoan cấu trúc protein. Một chương trình chạy chậm nhưng chính xác sử dụng phương pháp “progressive method” được biết đến là T-Coffee. Iterative methods

Phương pháp này ra đời nhằm bổ sung cho điểm yếu của “ progressive methods”, đó là sự phụ thuộc rất nhiều về độ chính xác của kết quả căn cặp trình tự ban đầu (initial pairwise alignment). Phương pháp này tối ưu một phương trình hướng đối tượng (objective function) dựa vào việc lựa chọn phương pháp tính điểm cho kết quả căn trình tự dựa trên cơ sở của “global alignment” sau đó sắp xếp lại các bộ trình tự thành viên (các trình tự có trong một bộ query). Các bộ trình tự được sắp xếp lại này bản thân chúng sau đó được sắp xếp để tạo ra các kết quả căn trình tự tiếp theo. Kết quả cuối cùng sẽ chọn ra những nhóm trình tự được căn tốt nhất. Motif finding

Là một dạng căn trình tự dựa trên cơ sở so sánh toàn bộ nhiều trình tự (glob al multiple sequence) để tìm ra các thông tin của các motif và các vùng bảo thủ. Đầu tiên thuật toán thực hiện căn nhiều trình tự toàn bộ, sau đó vùng trình tự bảo thủ cao được tách riêng và được dùng để thiết kế những bộ ma trận. Các bộ ma trận sau đó được sử dụng để tìm các trình tự khác để kiểm tra tần suất của các motif. Trong các trường hợp bộ dữ liệu ban đầu chứa ít trình tự, hoặc chỉ có những trình tự có mối liên quan rất gần với nhau, việc đếm giả (pseudocounts) sẽ được bổ sung để chuẩn hóa sự phân bố các ký tự có mặt trong motif. 9.4. Các công cụ tìm kiếm trình tự tƣơng đồng

Blast và Fasta là 2 phần mềm được sử dụng để so sánh trình tự sinh học DNA, amino acid, protein. Công cụ FAST ra đời từ những năm 1980 để đáp ứng nhu cầu so sánh và tìm kiếm các gene giống nhau. Blast viết tắt của Basic Local Alignment Search Tool) được sử dụng để so sánh hai trình tự. FAST là một phần mềm được biết dưới dạng Fast A (A là chữ viết tắt của All). Fast A áp dụng cho trình tự DNA và Fast B đối với protein. Cả Blast và Fasta đều là các công cụ cho phép so sánh trình tự rất nhanh bất kì dữ liệu genome nào. a) Công cụ FASTA

Chương trình Fasta được viết năm 1985 ban đầu dùng để so sánh trình tự protein nhưng sau đó nó được cải biến để tìm kiếm cả trình tự DNA. Chương trình ban đầu FASTP được thiết kế để tìm kiếm các trình tự protein tương đồng. Hiện nay gói công cụ FASTA chứa tất cả các chương trình cho protein: protein, DNA:DNA, 119

protein:translated DNA (tất cả các khung), DNA:protein và tìm kiếm các peptide. Ngoài ra FASTA package cũng cung cấp chương trình SSEARCH, một phụ trợ của thuật toán Smith-Waterman algorithm. So với công cụ Blast, Fasta ít được sử dụng hơn. b) Các công cụ BLAST

BLAST cơ bản (Basic BLAST) Nucleotide blast: Tìm các trình tự trong CSDL nucleotide giống với trình tự truy vấn là trình tự nucleotide (nucleotide query). Có 3 thuật toán tương ứng với các mục đích khác nhau: blastn, megablast và discontiguous megablast. Protein blast: Tìm các trình tự trong CSDL protein giống với trình tự truy vấ n là protein (protein query). Có 3 thuật toán tương ứng với mỗi mục đích khác nhau: blastp, psi-blast, phi-blast. Blastx: So sánh trình tự DNA truy vấn với CSDL protein bằng cách dịch mã trình tự truy vấn theo cả 6 khung đọc rồi so sánh mỗi khung đọc với C SDL protein.

Tblastn: So sánh trình tự protein truy vấn với

CSDL DNA theo cả 6 khung của CSDL này. Nói cách khác CSDL DNA được dịch mã thành trình tự amino acid theo cả 6 khung rồi so sánh với trình tự protein truy vấn. Tblastx: So sánh trình tự protein được mã hóa bởi trình tự DNA truy vấn với các trình tự protein được mã hóa bởi CSDL trình tự nucleotide. Theo cách này, số khả năng sẽ là rất lớn vì trình tự truy vấn DNA đưa vào sẽ tạo ra 6 trình tự protein. CSDL nucleotide sẽ dịch mã theo 6 khung đọc. Vậy tổng cộng sẽ có 36 khả năng, chính vì vậy phương pháp này đòi hỏi thời gian và tài nguyên máy tính. Các biến thể của BLAST 



BLAST 2: còn gọi là Advanced BLAST. Nó cho phép sắp xếp trình tự có khoảng trống (gapped alignments). PSI-BLAST(Position Specific Iterated): Tìm kiếm CSDL để phát hiện các trình tự có mối quan hệ tiến hóa xa. Về nguyên lý ban đầu PSI -BLAST thực hiện tìm kiếm thông thường như BLAST, sau đó chọn ra các trình tự có điểm số cao nhất. Một số vị trí nhất định trong các trình tự này được lựa chọn để tạo ra một ma trận điểm đặc hiệu vị trí (position-specific scoring matrix). Ma trận điểm này tạo ra một hồ sơ về những vị trí quan trọng của các trình tự amino acid bảo thủ trong một motif. Trên cơ sở hồ sơ đã được tạo ra PSI-BLAST tiếp tục thực 120









hiện tìm kiếm các protein có motif tương tự, chính vì vậy nó thường được dùng để phát hiện các protein có mối quan hệ xa hơn về cấu trúc hoặc chức năng mà không thể tìm được bằng BLAST thông thường. WU-BLAST: Washington University BLAST (WU BLAST) version 2.0 là một phần mềm hiệu quả để xác định, tìm kiếm gene và protein bằng cách sử dụng công cụ tìm kiếm nhanh, nhạy và đặc hiệu với CSDL protein và DNA. WU BLAST 2.0 xây dựng từ WU BLAST 1.4 (giống NCBI BLAST version 1.4). WU BLAST 2.0 bắt nguồn từ gapped BLAST với các công cụ thống kê và vì thế nó được biết là chương trình tìm kiếm tiêu chuẩn cao về độ nhạy, tốc độ, mức độ chính xác và tin cậy hơn, có tính cạnh tranh với tất cả các chương trình tương ứng. PHI BLAST(Pattern-Hit Initiated BLAST): tìm kiếm các trình tự protein bằng cách dùng kết hợp phương pháp “matching pattern” và “local alignment” để giảm xác suất dương tính giả. RPS BLAST: Reverse Position Specific BLAST (RPS-BLAST) là một cách tìm các vùng domain bảo thủ trong các phân tử protein nhạy hơn nhiều so với BLAST. Nó so sánh một trình tự protein với một CSDL của các ma trận điểm đặc hiệu vị trí (PSSMs). Gapped BLAST: Tìm chỉ trình tự được căn chứa nhiều vị trí trống. Chương trình này có tốc độ nhanh gấp 3 lần so với BLAST thông thường (ungapped BLAST).

c) Cách lựa chọn chƣơng trình BLAST

Chọn chƣơng trình BLAST cho trình tự truy vấn là nucleotide Chiều dài

Từ 20 bp trở lên

CSDL

Nucleotide

28 bp hoặc dài hơn cho megablast

Mục đích

Chương trình

Nhận dạng trình tự truy vấn

discontiguous megablast, blastn

megablast, hoặc

Tìm các trình tự giống với trình discontiguous megablast hoặc tự truy vấn blastn Tìm các trình tự giống với các Trace megablast, hoặcTrace trình tự “Trace archive” discontiguous megablast

Tìm các trình tự proteins giống với trình tự query được dịch mã Translated BLAST (tblastx) trong một CSDL dịch mã. Peptide

Tìm các protein giống với trì nh Translated BLAST (blastx) tự truy vấn trong CSDL protein

Tìm các vị trí bám của mồi Tìm các vị trí bắt cặp ngắn và Từ 7 đến 20 bp Nucleotide hoặc các motif ngắn liên tục bắt cặp gần như toàn bộ. Megablast:

121

Công cụ cho phép xác định một trình tự chưa biết liệu có trong CSDL không? Cùng với 3 công cụ có tính năng tương tự: MEGABLAST, discontiguous -megablast, và blastn, MEGABLAST đặc biệt thiết kế cho các trình tự dài và tìm kiếm các trình tự có mức độ giống rất cao. Ngoài ra, các thông số bổ sung bao gồm giá trị cut -off (ngưỡng thông qua giá trị kì vọng), chương trình cho phép điều chỉnh phần trăm giống nhau của các trình tự tìm kiếm được so với trình tự truy vấn . Ngoài ra Megablast cho phép tìm kiếm sử dụng nhiều trình tự truy vấn cùng một lúc. Discontiguous megablast:

Tìm các trình tự có mức độ khác nhau bằng các cắt trình tự query thành c ác trình tự ngắn gọi là từ (word). Chương trình sẽ tìm ra các kết quả bắt cặp chính xác với các từ (query word) gọi là “word hit”, sau đó mở rộng phạm vi các từ theo nhiều bước để tạo ra kết quả căn trình tự cuối cùng có chứa cả các chỗ trống (gap). Nếu như chiều dài từ ban đầu (initial word size) hay còn gọi là “word size” càng lớn thì kết quả tìm kiếm sẽ bị thu hẹp và chỉ cho ra kết quả là những trình tự có mức độ giống nhau rất cao và ngược lại. Chương trình Megablast sử dụng “word size” là 11, trong khi đó blastn thường sử dụng giá trị thấp hơn, giá trị thấp nhất là 7. Blastn: được tối ưu để tìm kiếm cho tốc độ hơn là độ

nhạy. Kết quả tìm kiếm sẽ cho ra các trình tự có mức độ giống nhau từ cao và giảm dần xuống thấp so với trình tự truy vấn.

122

Chọn chƣơng trình BLAST cho các truy vấn là trình tự protein Chiều dài

CSDL

Mục đích

Chƣơng trình

Xác định các trình tự giống với trình tự truy Standard Protein vấn hoặc tìm các trình tự protein giống với BLAST (blastp) trình tự truy vấn Tìm các thành viên của một họ các protein PSI-BLAST hoặc xây dựng một ma trận điểm Từ 15 Peptide amino acid trở lên

Tìm các protein giống với trình tự truy vấn PHI-BLAST xung quanh một mô hình (pattern) nhất định.

Tìm các domains có mặt trong trình tự truy CD-search vấn BLAST)

(RPS-

Tìm các domain bảo thủ trong trình tự truy Conserved Domain vấn và xác định các protein khác giống với Architecture các cấu trúc domain. Retrieval Tool (CDART) Nucleotide

Từ 5-15 Peptide amino acid

Tìm các protein giống với một CSDL Translated BLAST nucleotide được dịch mã (tblastn) Tìm các vị trí bắt cặp ngắn gần như hoàn toàn

Tìm các motif

d) BLAST với query là những đoạn trình tự ngắn

Đây là công cụ rất hữu ích trong việc xác định các primer trong kỹ thuật PCR hoặc tìm các trình tự ngắn giống với vùng trình tự nhất định trong genome. Công cụ này được áp dụng trong việc xác định các trình tự đ ích cho kỹ thuật RNAi. Các trình tự ngắn (ngắn hơn 20 bases) thường sẽ không tìm được bất kỳ một kết quả nào với các chương trình BLAST với các thông số cài đặt thông thường. Nguyên nhân là do ngưỡng tin cậy (significant threshold) chịu sự kiểm soát bởi giá trị kì vọng (expect value) được đặt quá nghiêm ngặt. Vì vậy, để thực hiện được quá trình tìm kiếm người ta phải điều chỉnh cả “word size” và giá trị kì vọng của BLAST thông thường để tìm ra các thông số tối ưu cho các trình tự ngắn. Dưới đây là bảng tóm tắt các thông số. Chọn các thông số đối với blasn để tìm các trình tự dựa vào query ngắn . Tuy nhiên NCBI cũng cung cấp công cụ tự động điều chỉnh các thông số cho các tìm kiếm thông thường. Chƣơng trình

Word size

Blastn chuẩn 11 Tìm cho các trình tự bắt cặp 7 không hoàn toàn chính xác

DUST Setting

ON Off

Filter Expect Value

10 1000

Bởi vì BLAST sẽ thực hiện cả quá trình căn trình tự theo kiểu cục bộ và nó tự động tìm kiếm cả 2 sợi vì thế không cần thiết phải đảo ngược bổ sung mồi reverse (reverse primer) trước khi nối hoặc tìm kiếm. Tương tự áp dụng với tìm kiếm các mảnh peptide 123

ngắn, người ta điều chỉnh cả kích thước chữ “word size” và giá trị kì vọ ng. Ngoài ra nên sử dụng PAM30 thay vì BLOSUM62. Thông số đặt cho chương trình blastp cơ bản và tìm các đoạn trình tự bắt cặp ngắn và gần chính xác (Search for short and nearly exact matches) SEG Filter

Expect Value

Score Matrix

Protein Blast cơ bản (Standard 3 Protein Blast)

On

10

BLOSUM62

Search for short and nearly 2 exact matches

Off

20000

PAM30

Chƣơng trình

Word Size

Sự khác nhau giữa BLAST và FASTA BLAST nhanh hơn nhiều so với FASTA và cũng chính xác hơn FASTA. Đối với các trình tự có mức độ giống nhau cao, BLAST cực kỳ chính xác và đối với những trình tự có mức độ giống nhau thấp thì FAST chiếm ưu thế. Khi sử dụng BLAST người dùng có nhiều tùy chọn để thay đổi các thông số, tuy nhiên FAST thường không cung cấp các tùy chọn này. Do có nhiều ưu điểm nên hiện nay người dùng sử dụng BLAST.

124

CHƢƠNG 10. PHÂN TÍCH MỐI QUAN HỆ TIẾN HÓA Cây tiến hóa là dạng sơ đồ mô tả mối quan hệ tiến hóa giữa các thực thể sinh vật . Mối quan hệ tiến hóa này được phân tích dựa trên cơ sở là các loài đều có chung tổ tiên ban đầu. Mỗi thực thể trong cây tiến hóa được gọi là một đơn vị taxon (OTU/operational taxonomic unit). Đơn vị taxon có thể là một loài, một gene hoặc một genome. Mối quan hệ tiến hóa giữa các loài được xây dựng dựa trên cơ sở phân tích sự giống và khác nhau giữa chúng. Tùy thuộc vào dạng dữ liệu và phương pháp phân tích , việc xây dựng mối quan hệ tiến hóa sẽ khác nhau. Các dữ liệu bao gồm dữ liệu hình thái, đặc điểm phân bố, sinh lý hóa sinh hay trình tự nucleotide, trình tự amino acid hoặc phân tích cấu trúc tương đồng (homology) của các phân tử DNA, RNA và protein. Để xây dựng được cây tiến hóa nhà nghiên cứu cần phải trả lời những câu hỏi sau: 1. Dữ liệu nào được dùng để xây dựng cây tiến hóa ? 2. Với dữ liệu đang có thì nên lựa chọn phương pháp phân tích nào? 3. Mô hình tiến hóa nào nên được sử dụng? 4. Làm thế nào để kiểm tra hay xác định được mức độ chính xác của cây tiến hóa vừa được tạo ra. 10.1. Khái niệm

Hãy xem một ví dụ đơn giản . giả sử vào một thời điểm nhất định trong quá trình tiến hóa từ một tế bào ban đầu phân chia thành 2 tế bào, các tế bào này lại tiếp tục phân chia 500 lần liên tục tạo ra một quần thể tế bào với số lượng rất lớn. Trong quá trình phân chia mỗi tế bào trải qua những biến đổi ngẫu nhiên khác nhau. Giả thiết lấy ngẫu nhiên 10 tế bào trong quần thể và so sánh chúng với nhau. Nếu hai tế bào (1 và 2) cùng chia sẻ tổ tiên chung gần nhất (nhóm A) sẽ có mức độ giống nhau cao hơn so với hai tế bào có nguồn gốc tổ tiên xa nhau (nhóm B).

Tất nhiên quá trình tiến hóa không đơn thuần chỉ diễn ra theo mô hình đơn giản như vậy. Các sự kiện tiến hóa xảy ra khác nhau không chỉ ở mức độ mà còn ở tốc độ. Chính vì vậy khi phân tích mối quan hệ tiến hóa nếu áp dụng cùng một mô hình tiến hóa sẽ không phản ánh được chính xác các sự kiện tiến hóa đã xảy ra với từng đối tượng phân tích. 125

Xây dựng cây tiến hóa phản á nh đúng lịch sử tiến hóa của các taxon rất khó khăn bởi vì các sự kiện tiến hóa xảy ra một cách ngẫu nhiên mà con người không chứng kiến. Ngoài ra các dữ liệu trình tự sinh học (DNA, RNA, protein ) mà chúng ta sử dụng để phân tích liệu có phản ánh được đầy đủ và chính xác mối quan hệ tiến hóa của các taxon hay không? Khi sử dụng trình tự sinh học để xây dựng cây tiến hóa, câu hỏi đầu tiên đặt ra là trình tự nào là phù hợp. V ề mặt nguyên lý có thể lấy bất kì trình tự nào , chẳng hạn trình tự một gene, một phần vùng mã hóa hay thậm chí cả các trình tự intron . Ngoài ra các vùng không mã hóa như vùng promoter các khoảng trống giữa các gene hoặc các thành phần khác cũng có thể sử dụng. Cần lưu ý là không có một trình tự nào phù hợp cho tất cả các mục đích . Chẳng hạn người ta hay sử dụng các gene mã hóa cho các tiểu đơn vị ribosome ss-rRNA (small subunit ribosomal RNA) để nghiên cứu tiến hóa ở vi sinh vật. Nguyên nhân là do trình tự phân tử này có tính bảo thủ cao giữa các loài và các vùng khác nhau của gene này có tốc độ tiến hóa khác nhau . Gene ss-rRNA còn được dùng để phân biệt vi khuẩn thực (bacteria) và vi khuẩn cổ (archae) hoặc để nhận dạng loài vi khuẩn chưa biết. Mặc dù được dùng phổ biến nhưng các gene mã hóa rRNA cũng có nhiều hạn chế. Chẳng hạn một số loài vi khuẩn ưa nhiệt, gene mã hóa cho rRNA thường có hàm lượng G+C cao hơn các gene khác vì thế khi phân tích cùng với các vi khuẩn khác sẽ rất khó đảm bảo xây dựng cây tiến hóa chính xác. Vì thế khi nghiên cứu các sinh vật có khả năng sinh trưởng ở các nhiệt độ khác nhau, người ta thường lựa chọn gene khác chứ không phải rRNA. Một hạn chế nữa của các rRNA là tốc độ tiến hóa của chúng thường chậm hơn so với tốc độ tiến hóa của một số gene mã hóa protein. Vì vậy để phân tích tiến hóa gần, chẳng hạn mối quan hệ giữa các loài bên trong các chi hoặc giữa các loài, thì gene mã hóa rRNA sẽ không phù hợp. Trong trường hợp này các gene mã hóa cho protein sẽ thích hợp hơn và nếu các vùng mã hóa protein không đủ mức độ biến đổi để phát hiện sự đa hình thì các intron, các gene giả hoặc các vùng trống giữa các gene có thể được sử dụng thay thế. Chính vì vậy, các nhà nghiên cứu cần phải lựa chọn loại trình tự phù hợp để phát hiện được sự khác nhau hoặc đa hình giữa các taxon. Tốc độ biến đổi trình tự cũng không phải chỉ là tiêu chí duy nhất để lựa chọn một gene hoặc một vùng DNA trong genome. Điều quan trọng là các trình tự được lựa chọn có liên quan chặt chẽ với mô hình tiến hóa đang nghiên cứu hay không? Lưu ý các gene có số lượng lặp lại lớn cần được xem xét cẩn thận bởi vì sự phát sinh loài mới có thể không đi kèm với các sự kiện lặp gene. Phân tích trình tự tương đồng là cơ sở quan trọng để xây dựng cây tiến hóa. Mối quan hệ tương đồng của các trình tự được xác định dựa vào việc so sánh mức độ giống nhau của trình tự. Tuy nhiên, nếu chỉ dựa vào mức độ giống nhau thì cũng chưa thể kết luận được nguồn gốc tương đồng của các trình tự bởi vì sự giống nhau có thể xảy ra ngẫu nhiên không liên quan đến nguồn gốc tiến hóa chung. Trình tự giống nhau có thể phản ánh mức độ tương đồng nhưng nó cũng có thể là kết quả của quá trình tiến hóa hội tụ (convergent) hoặc song song (parallel) hay còn gọi là analogy. Vậy làm thế nào để phân biệt được các trình tự giống nhau là homology hay analogy? Để giải quyết bài toán này cần phải đặt ra một ngưỡng giống nhau từ đó kết luận các trình tự phân tích là tương đồng khi chúng có mức độ giống nhau cao. Một cách khác có thể áp dụng là lấy mỗi trình tự trong số các trình tự giống nhau đang phân tích để tìm ra tổ tiên gần nhất hoặc các tổ tiên chung của chúng sau đó so sánh các tổ tiên chung này với nhau. 126

Ví dụ, khi nghiên cứu tiến hóa ở chim và dơi , người ta thấy cánh của dơi và chim tương tự nhau tuy nhiên dơi và chim không có cùng tổ tiên chung. Sự giống nhau này là kết quả của tiến hóa hội tụ. Mặc dù dơi và chim có cấu trúc cánh giống nhau nhưng đó là do chúng có chung cuộc sống bay lượn nên một số cơ quan cần thiết sẽ có cấu trúc giống nhau. Cần lưu ý rằng sự tương đồng (homology) là kết quả suy diễn dựa trên cơ sở so sánh mức độ giống nhau của trình tự. Tương đồng không có giá trị thứ nguyên trong khi đó mức độ giống nhau của trình tự có thể đo được, chẳng hạn là phần trăm giống nhau (%). Vì thế sẽ không đúng khi nói hai cá thể có họ hàng với nhau 40% mà chỉ có thể nói chúng giống nhau (về trình tự) 40%. Một đoạn DNA hoặc vùng genome được lựa chọn để phân tích mối quan hệ tiến hóa phải có tính chất đặc trưng cho loài và có tốc độ tiến hóa hay biến đổi đủ nhanh để phân biệt giữa các cá thể phân tích. Tốc độ tiến hóa cũng không nên quá nhanh dẫn đến các trình tự đó không phản ánh đúng được mối quan hệ của các loài có mối quan hệ xa. Đến nay, t rình tự DNA mã hóa cho các tiểu đơn vị ribosome được coi là vùng DNA genome phù hợp nhất để phân tích tiến hóa . Ngoài gene mã hóa cho 16S ribosome, một số vùng gene khác như 23S, ITS1, ITS2, cytochrome c oxidase subunit I (COI), Cyt b, Ribulose 1,5-bisphosphate (RuBP) carboxylase/oxygenase (RubisCO), polymerase β-subunit gene (rpoB) cũng được sử dụng... Trong nhiều trường hợp, việc kết hợp nhiều gene để phân tích là cần thiết. Một vấn đề khó khăn nữa khi phân tích mối quan hệ tiến hóa là lựa chọn phương pháp và mô hình tiến hóa nào cho phù hợp. Cho đến nay có nhiều thuật toán và tiêu chí khác nhau để xây dựng cây tiến hóa , tuy nhiên hai phương pháp được sử dụng phổ biến là dựa vào khoảng cách (distance based method) và dựa vào phân tích ký tự (character based method). 10.2. Dữ liệu dùng để xây dựng cây tiến hóa

Trước khi sử dụng dữ liệu trình tự sinh học (nucleotide, amino acid), dữ liệu hình thái được sử dụng phổ biến để nghiên cứu mối quan hệ tiến hóa giữa các sinh vật . Sự phát triển nhanh chóng của các kỹ thuật xác định trình tự và các dự án genome đã tạo ra số lượng khổng lồ trình tự sinh học. Cùng với các dữ liệu hình thái, dữ liệu trình tự đã dần dần chiếm ưu thế trong các nghiên cứu tiến hóa. Xét ở mức độ tiến hóa nhỏ (microevolution) việc phân tích trình tự sinh học là phù hợp vì nó phản ánh được mức độ biến đổi nhỏ nhất (tần số alelle) trong quần thể. Những biến đổi này có thể hình thành do đột biến, trôi dạt gene (genetic drift), dòng gene (gene flow), tái tổ hợp và chọn lọc tự nhiên. Đứng về mặt định nghĩa loài, nếu đặt loài trong hệ thống phân loại tức là một nhóm các thể có những đặc điểm riêng đặc trưng và phân biệt được với các nhóm cá thể khác. Theo cách này, việc phân loại sẽ không phản ánh được đúng quá trình tiến hóa. Nếu định nghĩa loài là nhóm cá thể có mức độ giống nhau cao nhất về mặt di truyền hay giống nhau nhất về trình tự genome thì sẽ phản ánh chính xác hơn quá trình tiến hóa. Bởi vì những biến đổi nhỏ nhất về mặt trình tự đã có thể phát hiện ngay khi không có sự biến đổi về mặt kiểu hình . Chương này chủ yếu đề cập đến việc sử dụng trình tự sinh học để phân tích mối quan hệ tiến hóa. Các trình tự sinh học có thể thu được từ kết quả nghiên cứu riêng rẽ hoặc có thể lấy từ ngân hàng CSDL. Hai tiêu chí liên quan trực tiếp đến xây dựng cây tiến hóa là dạng dữ liệu đầu vào và thuật toán. Dữ liệu đầu vào có thể hoặc là dữ liệu ký tự hoặc dữ liệu khoảng cách. Dữ liệu ký tự : tạo ra từ kết quả căn trình tự sinh học (nucleotide hoặc amino acid) 127

Hình 58. Dữ liệu từ kết quả căn trình tự amino acid Dữ liệu khoảng cách : Bằng cách căn nhiều trình tự người ta chuyển kết quả căn trình tự thành các số liệu khoảng cách giữa các trình tự sau khi căn.

Hình 58. Tính toán ma trận khoảng cách từ kết quả căn nhiều trình tự

Ưu điểm của dữ liệu khoảng cách là cho phép tính toán và đưa ra sơ đồ cây tiến hóa nhanh chóng. Tuy nhiên, nhược điểm của phương pháp này là thông tin khi chuyển từ dữ liệu ký tự sang dữ liệu khoảng cách có thể bị mất. Thật vậy, từ việc căn nhiều trình tự, dựa vào thuật toán tạo ra một bảng ma trận. Từ ma trận này suy ra giá trị khoảng cách giữa các trình tự so sánh. Do bản chất của quá trình căn trình tự dựa vào các thuật toán mà bản thân các thuật toán này chỉ có đưa ra kết quả hợp lý nhất (heuristic) chứ không phải là chính xác nhất nên dữ liệu khoảng cách chỉ có thể áp dụng đối với một số loại trình tự và chất lượng của trình tự. Có nhiều cách tính khoảng cách từ kết quả căn trình tự. Cho đến nay có các cách tính sau: (1) Uncorrected Distance, (2) Jukes-Cantor Distance, (3) Tajima-Nei Distance, (4) Kimura Two-Parameter Distance, (5) Tamura Distance, (6) Jin-Nei Gamma Distance, (7) Kimura Protein Distance. a) Đối với trình tự DNA có thể dùng công thức: D = mismatch/align length 128

Trong đó mismatch: số nucleotide bắt cặp không giống nhau Align length: chiều dài trình tự được căn (tính theo trình tự dài nhất). Theo cách tính này các vị trí trống không tham gia vào việc hình thành khoảng cách. b) Đối với protein có thể dùng cách tính Kimura Khoảng cách = -ln(1- D- 0,2D2) Trong đó D = 1 -S, và S = số vị trí bắt cặp chính xác/số vị trí bắt cặp 10.3. Phƣơng pháp xây dựng cây tiến hóa

Có hai phương pháp xây dựng cây tiến hóa , dựa vào khoảng cách (distance method) và dựa vào phân tích ký tự (character based method).

10.2.1. Phƣơng pháp dựa vào khoảng cách

Theo phương pháp này, các trình tự trước hết được so sánh cặp với nhau. Kết quả so sánh sẽ đưa ra giá trị khoảng cách. Hai trình tự có khoảng cách gần nhau nhất sẽ được gộp lại thành một nhóm (cluster). Nhóm này sau đó sẽ được so sánh cặp với các nhóm khác và các khoảng cách lại được tính toán. Các nhóm nào có khoảng cách ngắn nhất lại được xếp với nhau thành một cụm và quá trình tính toán cứ tiếp tục cho tới khi tất cả các trình tự đều được sắp xếp vào các nhóm. Kết thúc của quá trình này sẽ tạo ra một cây biểu diễn mối quan hệ của các trình tự nghiên cứu. P hương pháp sử dụng phổ biến trong nhóm này là UPGMA (Unweighted pair-group method using arithmetic averages) và NJ (Neighbour Joining). UPGMA

Đây là phương pháp xây dựng cây đơn giản nhất dựa vào thuật toán nhóm cụm trình tự. Hạn chế của phương pháp này xây dựng dựa trên giả thiết tốc độ tiến hóa là như nhau ở tất cả các trình tự phân tích. Giả thuyết này chỉ phù hợp trong điều kiện các trình tự có mức độ giống nhau cao và có tổ tiên chung gần gũi. Đối với các trình tự có khoảng cách tiến hóa xa thì cây tiến hóa tạo ra có độ chính xác thấp. Tuy nhiên, phương pháp này tạo ra cây có gốc với tốc độ cực nhanh. Dưới đây là một ví dụ của phương pháp UPGMA. Sau khi các trình tự A, B, C và D được căn với nhau theo từng cặp. Các giá trị khoảng cách được tính toán và đưa vào bảng. OTU A B C

A 0 0.1 0.3

B

C

0 0.5

0

D

129

D 0.6

0.6

0.66

0

Các cặp A:A, B:B, C:C và D:D sẽ cho khoảng cách bằng 0. Vì vậy bảng sẽ được viết lại. Trong bảng này, khoảng cách giữa cặp trình tự A:B là nhỏ nhất (0.1) vì vậy A và B sẽ được ghép thành 1 cặp.

Một điểm được đặt vào giữa A và B, điểm này được coi là điểm mà từ đó tách riêng ra 2 trình tự A và B hay còn gọi là tổ tiên chung gần nhất của A và B. Gọi d là khoảng cách từ điểm giữa tới 2 điểm A và B, khi đó d AB/2 = 0.1/2 = 0.05. Sau đó hai trình tự A và B được ghép lại thành AB. Khoảng cách giữa trình tự C với AB và khoảng cách giữa trình tự D với AB được tính theo công thức : d(AB)C= (dAC + dBC)/2 = (0.3 + 0.5)/2 = 0.4 d(AB)D= (dAD + dBD)/2 = (0.6 + 0.6)/2 = 0.6

Giá trị d(AB)/C = 0.4/2 = 0.2 biểu diễn khoảng cách tiến hóa từ một tổ tiên chung đến AB và C. Theo khoảng cách tính được, d( AB)C < d(AB)D vì vậy trình tự C sẽ được gộp nhóm với trình tự AB tạo thành nhóm ABC.

Khoảng cách giữa D và ABC d(ABC)D = (dAD + dBD + dCD)/3 = 0.62. Giá trị d(ABC)/D = 0.62/2 = 0.31 biểu diễn khoảng cách tiến hóa từ một tổ tiên chung đến ABC và D.

130

Do việc tính toán khoảng cách phụ thuộc vào phương pháp sử dụng. Nên trong cùng một dữ liệu tùy thuộc vào thuật toán mà kết quả có thể khác nhau. Trên thực tế người ta cần phải hiệu chỉnh giá trị khoảng cách theo các mô hình như: Jukes-Cantor model, Kimura two-parameter model hoặc Kimura three-parameter model. NJ (Neighbour Joining)

Về cơ bản, phương pháp NJ cũng tương tự như phương pháp UGPMA. NJ ứng dụng trong nghiên cứu tiến hóa nhỏ (minimum evolution). Tên gọi NJ liên quan đến cách gộp nhóm kề cận (neighbor). Phương pháp này có ưu điểm là không áp dụng giả thuyết tốc độ tiến hóa giống nhau ở tất cả các nhánh của cây. 8

8 7

1

7

1

2

6

Y

X

6

X

5

2 3 4

4

3

5

A

B 8 7

1 Y

X

6

Z

5

2 3

4

C

Hình 59. Nguyên lý gộp nhóm của NJ A: dạng cây hình sao chưa phân nhánh . B: các OTU 1 và 2 được xếp với nhau tại vị trí X, một khoảng cách giữa X và Y được tạo ra. C. Tiếp theo OTU 3 gắn ở vị trí Y sẽ tách riêng khỏi các OTU còn lại, một khoảng cách tiếp theo sẽ được tạo ra ở một vị trí Z. Quá trình này tiếp tục cho đến khi chỉ còn duy nhất một OTU. 10.2.2 . Phƣơng pháp phân tích ký tự

Theo phương pháp này, thuật toán sẽ tạo ra tất cả các dạng cây có thể với trình tự đưa vào và sau đó tìm trong số các cây vừa tạo ra cây phù hợp nhất theo một số tiêu chí nhất định. Phương pháp này có nhược điểm là tốn nhiều thời gian bởi vì khi số lượng trình tự phân tích càng nhiều thì số cây tạo ra tăng lên rất nhanh chóng. So với phương pháp dựa vào khoảng cách, việc tính toán chỉ diễn ra trong vài giây thì phương pháp dựa vào phân tích ký tự có thể lên tới vài phút hoặc lâu hơn phụ thuộc vào số lượng và 131

chiều dài trình tự. Phương pháp sử dụng phổ biến trong nhóm này là MP ( Maximum Parsimony) và ML (Maximum Likelihood). Ưu điểm chung của phương pháp này là xác định tổ tiên chung (trình tự ở các điểm giao ở bên trong cây và không mất thông tin tính toán trực tiếp bởi dữ liệu căn nhiều trình tự).

Phƣơng pháp MP (Maximum Parsimony) MP được bắt đầu bằng cách căn nhiều trình tự, tuy nhiên số trình tự áp dụng trong phương pháp MP không được quá nhiều và các trình tự phải có mức độ giống nhau cao (cả về chiều dài lẫn mức độ khác nhau giữa các trình tự). Sau khi căn trình tự, các vị trí chứa nhiều thông tin (informative site) được lựa chọn để phân tích . Vị trí chứa nhiều thông tin không phải là các trình tự bảo thủ (conserved sequences) và nên có những ký tự giống nhau ở ít nhất 2 trong số các trình tự được căn. Tiếp đó, xác định các dạng hình cây (topology) tốt nhất cho mỗi vị trí chứa nhiều thông tin. Quá trình này bao gồm đưa ra các dạng hình cây khác nhau sau đó đánh giá chúng và lựa chọn một hoặc nhiều dạng cây với số lần thay đổi ít nhất (parsimony).

Hình 60. Vùng trình tự chứa thông tin

MP không đưa ra chiều dài nhánh mà chỉ đưa ra trật tự của của các nhánh. Đối với trình tự DNA các chương trình Paup, molphy, phylo_win hoặc bộ phần mềm của Phylip (Phylip package) như DNAPars, DNAPenny… cho phép phân tích MP. Đối với trình tự Protei có thể dùng các chương trình paup, molphy, phylo_win hoặc bộ phần mềm của Phylip: paup, molphy, phylo_win. ML (Maximum Likelihood)

Phương pháp này dựa vào mô hình tính toán để tính xác suất để tìm ra cây tiến hóa. Phương pháp này phân tích từng vị trí trong kết quả căn nhiều trình tự vì thế nó đòi hỏi tài nguyên máy tính lớn. Ban đầu, chương trình đặt ra một mô hình tiến hóa nhất định sau đó phân tích các trình tự và dựa vào các thông số, mô hình phức tạp để tính toán ma trận thay thế (substitution matrix) nhằm tạo ra cây tiến hóa với xác suất cao nhất đối với số liệu và mô hình tiến hóa đặt ra ban đầu . Phương pháp này cho độ chính xác cao hơn rất nhiều so với các phương pháp còn lại . Ưu điểm: - Có thể xây dựng cây chính xác với các trình tự có khoảng cách xa (các trình tự đã tiến hóa lâu từ tổ tiên chung ban đầu). - Tạo ra ít biến thể so với các phương pháp khác - Có thể can thiệp vào giả thuyết mô hình tiến hóa 132

- Á p dụng được với các trình tự rất ngắn vốn không thể đối với các phương pháp khác như phương pháp khoảng cách hoặc MP. - Thẩm định nhiều dạng sơ đồ cây khác nhau dựa vào các phương pháp thống kê chính xác. - Sử dụng tất cả các thông tin có trong trình tự Nhược điểm: - Đòi hỏi cấu hình máy tính cao và thời gian phân tích lâu. - Kết quả phụ thuộc vào mô hình tiến hóa sử dụng . Dưới đây là sơ đồ chung hướng dẫn cách lựa chọn phương pháp phân tích tiến hóa

10.3. Lựa chọn mô hình tiến hóa

Như đã trình bày ở trên phương pháp dựa vào khoảng cách thường phản ánh không chính xác và thiếu đầy đủ khoảng cách tiến hóa thực. Vì vậy cần thiết phải hiệu chỉnh khoảng cách khi sử dụng phương pháp này. Việc lựa chọn mô hình tiến hóa phù hợp cho tất cả các đối tượng cần phân tích là rất cần thiết. Tuy nhiên, lựa chọn mô hình tiến hóa không phải đơn giản vì vậy người ta thường lựa chọn một mô hình nhất định để thử sau đó chọn ra cây tiến hóa phù hợp nhất với dữ liệu phân tích. So với phương pháp UPGMA, NJ có ưu điểm hơn vì nó không sử dụng chung một đồng hồ phân tử nói cách khác là nó không giả thuyết tất cả các nhánh đều tiến hóa cùng một tốc độ như nhau. 10.4. Đánh giá cây phân tiến hóa

Một trong những cách phổ biến nhất để kiểm tra độ tin cậy của cây tiến hóa là sử dụng giá trị bootstrap hoặc Jack-knifing. Giá trị boostrap hỗ trợ dữ liệu trong việc lựa chọn một nhánh tương ứng với mô hình tiến hóa và phương pháp xây dựng cây . Đối với các trình tự có mức độ khác nhau nhất định việc xác định kết quả că n trình tự tối ưu thường rất khó đặc biệt có nhiều vị trí nucleotide bị thay thế nhiều. Sau khi căn trình tự, chọn ngẫu nhiên một vùng trình tự nhất định sau khi căn để phân tích (hình 60).

133

Hình 61. Các vùng trình tự đƣợc lựa chọn ngẫu nhiên

Trong quá trình lựa chọn ngẫu nhiên, một vùng trình tự nhất định có thể được chọn lặp lại nhiều lần. Các vùng trình tự lựa chọn sau đó lại được phân tích để đưa ra các cây khác nhau. Quá trình này được lặp lại nhiều lần (từ 100 -10000 lần), thông thường giá trị lặp lại 100 lần cũng đủ để đánh giá thống kê. Giá trị bootstrap >70% số lần lặp lại được coi là có giá trị thống kê cao hơn 95%. Giá trị bootstrap không đưa ra thông tin về mức độ hoặc tính chất của cây tiến hóa mà giúp nhà nghiên cứu lựa chọn hoặc thay đổi mô hình tiến hóa hoặc phương pháp phân tích tiến hóa . Jack-knife cũng là phương pháp để thẩm định độ tin cậy của cây tiến hóa. Nguyên lý của Jack -knife cũng tương tự như bootstrap nhưng Jack -knife chỉ chọn ngẫu nhiên một vùng trình tự một lần duy nhất. 10.5. Tạo gốc cho cây tiến hóa

Một bước quan trọng trong xây dựng cây tiến hóa là xác định gốc cho cây. Có hai phương pháp phổ biến được sử dụng để tạo gốc là phương pháp lấy một điểm ở giữa (midpoint rooting) và sử dụng nhóm ngoại (outgroup). Phương pháp thứ nhất gốc được đặt ở điểm giữa các OTU xa nhất. Theo như tên gọi, phương pháp này sẽ đặt một gốc vào điểm giữa của khoảng cách OTU xa nhất, ở đây là khoảng cách từ A tới E. Nếu như tốc độ tiến hóa giữa các OTU được coi là như nhau hoặc tương đương thì phương pháp này phù hợp. Trong trường hợp khác khi mà cây tiến hóa khá cân bằng với một số nhánh có mối quan hệ rất gần gũi được tách ra bởi một nhánh dài thì phương pháp này cũng rất hữu ích. Tuy nhiên, phương pháp này sẽ không chính xác khi tốc độ biến đổi giữa các OTU khác nhau quá lớn. Ngoài ra để đặt được điểm giữa vào trong một vị trí có rất nhiều nhánh với chiều dài ngắn cũng rất khó. Trong những trường hợp như vậy, có thể sử dụng nhóm ngoại để làm gốc.

134

Hình 62. Phương pháp tạo gốc bằng đặt điểm giữa

Phương pháp thứ hai chính xác hơn nhưng không phải lúc nào cũng áp dụng được bởi vì đòi hỏi một nhóm ngoại, là một đơn vị taxon tách khỏi cây trước sự tồn tại của tổ tiên chung cuối cùng (last common ancester) của tất cả các taxon khác đang được nghiên cứu (còn gọi là ingroup). Khác với phương pháp đặt điểm giữa, phương pháp này cần phải chọn một nhóm OTU sao cho nó đủ xa để tách khỏi tất cả các OTU còn lại trong nhóm phân tích (ingroup) nhưng cũng phải đủ gần để khẳng định nó cùng chia sẻ tổ tiên chung với các OTU phân tích. Chẳng hạn, trong hình 62, kangaroo được sử dụng làm nhóm ngoại vì nó là động vật có vú phân tách từ tổ tiên của tất cả các động vật có nhau thai. Theo cách này phương pháp đặt điểm giữa là sai bởi vì nhánh gặm nhấm (chuột nhắt, chuột cống và tổ tiên của chúng) tiến hóa nhanh hơn so với các OTU còn lại của cây nguyên nhân có thể là do thời gian thế hệ tương đối ngắn.

Hình 62. So sánh giữa hai phương pháp tạo gốc cho cây tiến hóa Một ví dụ nữa cho thấy việc sử dụng nhóm ngoại là không phù hợp, chẳng hạn cho đến nay chúng ta vẫn chưa thể chỉ ra được trật tự sự phân nhánh giữa vi khuẩn cổ, vi 135

khuẩn thực và eukaryote mà chỉ chấp nhận từ một tổ tiên chung đã tách ra 3 giới lớn này (hình 63). Không có nhóm ngoại nào phù hợp cho trường hợp này bởi vì nếu chọn một nhóm ngoại khác sẽ tạo ra một nhánh thứ 4 của sinh giới. Bởi vì không có nhánh thứ 4 nên không thể chọn được gốc cho cây phát sinh vi khuẩn cổ, vi khuẩn thực và eukaryote.

Hình 63. Ba domain của sinh giới

Tóm tắt chƣơng 10 Cây tiến hóa là dạng sơ đồ mô tả mối quan hệ tiến hóa giữa các sinh vật . Tùy thuộc vào dạng dữ liệu và phương pháp phân tích, cây tiến hóa có thể được xây dự ng từ các dữ liệu hình thái, đặc điểm phân bố, sinh lý hóa sinh hay trình tự nucleotide, amino acid... Cây tiến hóa phải thể hiện được mối quan hệ tiến hóa, trật tự tiến hóa của các đơn vị taxon (OTU) và mức độ biến đổi hoặc thời gian tiến hóa. Các dữ liệu về hình thái, đặc điểm phân bố hoặc sinh lý hóa sinh thường không phản ánh được đầy đủ mức độ tiến hóa. Hiện nay các dữ liệu về trình tự sinh học được sử dụng phổ biến để đánh giá và xây dựng cây tiến hóa. Khi xây dựng cây tiến hóa dựa trên dữ liệu trình tự sinh học cần chú ý đến việc lựa chọn trình tự, mô hình tiến hóa, đồng hồ phân tử (molecular clock) và phương pháp kiểm định độ chính xác của cây. Tùy thuộc vào mức độ giống nhau hay sai khác của các trình tự phân tích có thể lựa chọn phương pháp xây dựng cây dựa vào khoảng cách hoặc phân tích ký tự. Đối với nhóm thứ nhất người ta thường dùng phương pháp UPGMA, NJ. Nhóm thứ hai bao gồm ML và MP. Để tạo gốc cho cây tiến hóa có thể dùng phương pháp đặt điểm giữa hoặc sử dụng nhóm ngoại. Sử dụng nhóm ngoại thường hiệu quả hơn tuy nhiên nhóm ngoại phải có mối quan hệ tiến hóa đủ gần với tất các đơn vị taxon phân tích nhưng phải tách riêng khỏi các đơn vị này để tạo thành một nhóm riêng biệt. Trên cơ sở đó có thể đặt các đơn vị taxon phân tích vào đúng vị trí tiến hóa của chúng. Về mặt lý thuyết, trình tự sinh học nào cũng có thể sử dụng được trong phân tích tiến hóa. T uy nhiên trong phần lớn các trường hợp, việc phân tích một số trình tự 136

Bai Giang Tin Sinh Hoc

Recommend Documents