Đề tài Tin Sinh học: Cơ sở dữ liệu sinh học và các ngân hàng cơ sở dữ liệu
1.1. Khái quát chung về cơ sở dữ liệu sinh học
Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ yếu đề cập đến các thông tin về trình tự axit nucleic (ADN, ARN), trình tự axit amin của các phân tử protein, thông tin về cấu trúc và giải phẫu của một số genom, mô hình cấu trúc không gian của các đại phân tử.
Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ.
PRINTScan Tìm kiếm các PRINTS Protein fingerprint GeneQuiz Phân tích trình tự tự động các trình tự sinh học InquisitorInquisitor cung cấp một giao diện truy vấn đơn để xác định các trình tự protein giốn nhau trong các proteome. Các trình tự chưa biết được phân tích sử dụng FASTA và InterProScan.InterProScan Tìm kiếm các trình tự protein trong các CSDL thành viên InterPro.PPSearch Tìm kiếm các motif của protein Pratt Phát hiện các mô hình trong các trình tự protein chưa được so sánh (alignment) Radar Phát hiện các protein lặp lại. c/ Proteomic ServicesBao gồm các phương thức truy cập vào các dịch vụ proteomic do EBI cung cấp. Trong đó quan trọng nhất là máy chủ UniProt DAS nó cho phép các nhà nghiên cứu trình bày kết quả nghiên cứu của mình dưới dạng mô tả của UniProtKB/Swiss-Prot.Công cụỨng dụng, mô tảDastyCông cụ cho phép trình bày những thông tin về đặc điểm trình tự protein dưới dạng dễ quan sát. UniProt DASMáy chủ UniProt DAS cho phép các nhà nghiên cứu trình bày kết quả nhiên cứu của mình, chẳng hạn xác định các peptide hoặc các trình tự tín hiệu trên máy chủ UniProt dưới dạng mô tả của UniProtKB/Swiss-Prot.d/ Sequence Analysis: Phân tích trình tự Sử dụng rất nhiều phương pháp tin sinh học để xác định chức năng sinh học, cấu trúc của các gen và protein mà chúng mã hóa. Các công cụ như Transeq có thể giúp xác định các vùng mã hóa protein của một trình tự DNA. ClustalW được sử dụng để so sánh trình tự DNA hoặc protein để làm sáng tỏ mối quan hệ cũng như nguồn gốc tiến hóa của chúng. Các công cụ phân tích do EBI cung cấp:Công cụỨng dụng, mô tảAlign Công cụ so sánh cặp trình tự theo 2 kiểu toàn bộ và cục bộ.ClustalW Cô cụ so sánh nhiều trình tự. CpG Plot/CpGreport Công cụ tìm và vẽ CpG Island Dna Block Aligner Form So sánh hai trình tự DNA dưới dạng khối mạch thẳng (colinear block), rất thích hợp cho các promoter.GeneMark Dịch vụ dự đoán genGenetic Code Viewer Công cụ tổng kết các sự khác nhau về mã di truyềnGeneWise So sánh một trình tự protein hoặc một hồ sơ protein HMM với trình tự DNA. Muscle Công cụ so sánh nhiều trình tự với độ chính xác và tốc độ cao hơn so với Clustal W hoặc T-Coffee phụ thuộc vào tùy chọn khác nhau. Mutation Checker Đánh giá độ trính xác của trình tự, phát hiện đột biến.Pepstats/Pepwindow/Pepinfo Chương trình phân tích trình tự proteinPromoterWise So sánh hai trình tự DNA cho phép đảo ngược và đổi vị trí, rất lý tưởng cho các promoter. Reverse Translator Kiểm tra trình tự đảo ngược, bổ sung SAPS Phân tích thống kê trình tự protein T-Coffee Chương trình so sánh trình tự cho phép người sử dụng kết hợp các kết quả thu được với một số phương pháp so sánh khác nhau. Transeq Công cụ dịch mã trình tự DNA e/ Phân tích cấu trúc (Structural Analysis): Việc xác định cấu trúc 2D/3D của một protein là một công việc quan trọng nhất khi nghiên cứu chức năng của nó. Người sử dụng sẽ tìm thấy rất nhiều dịch vụ giúp cho việc phân tích cấu trúc do EBI cung cấp. Một trong những công cụ đó là DALI. và MSDfold. Công cụ của MSDfold hoặc DALI cho phép xác định cấu trúc protein cần nghiên cứu và so sánh nó với các cấu trúc trong PDB (Protein Data Bank). Công cụỨng dụng, mô tảDALI So sánh cấu trúc protein ở dạng 3D DaliLite Chương trình so sánh cấu trúc cặp (hai cấu trúc). So sánh cấu trúc cần quan tâm (cấu trúc thứ nhất) với một cấu trúc tham chiếu (cấu trúc thứ hai) MSD ServicesBảng tóm tắt và danh sách của tất cả các công cụ và dịch vụ của Macromolecular Structure Database (MSD)MSDfold So sánh các chuỗi/cấu trúc và tìm kiếm các chuỗi/cấu trúc tương đồng trong CSDL PDB hoặc trong các domain SCOP. MSDpro Một chương trình ứng dụng cho phép xây dựng các truy vấn quan hệ phức tạp của MSD mà không cần biết sự sắp xếp của dữ liệu trong CSDL hoặc ngân như mà truy vấn đó sử dụng. MSDsite Công cụ cho phép tìm các vị trí hoạt động dựa vào chất gắn (chẳng hạn ATP) hoặc thông tin vị trí hoạt động (CYS CYS CYS CYS).NMR RepresentativesTìm kiếm các cấu trúc thu được từ NMR trong PDB PQS Xác định cấu trúc bậc 4PQS-Quick Công cụ cho phép xác định được thông tin cấu trúc bậc 4 từ mã ID của PDB một cách nhanh chóng. f/ Các công cụ khácCông cụỨng dụng, mô tảBioLayoutTrình bày, hình ảnh hóa các biểu đồ và mạng lưới sinh học, chẳng hạn như độ giống nhau giữa các trình tự protein và các mạng lưới tương tác protein.CAST Lọc để phát hiện các thành phần trình tự protein bias của Computational Genomics Group.EBIMed NEWLà một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline. EMBL Computational ServicesTập hợp các công cụ do EMBL cung cấp ở Heidelberg Đức để phân tích trình tự DNA/protein.Expression ProfilerMột bộ các công cụ cho phép phân tích, nhóm và hiển thị sự biểu hiện gen và các dữ liệu genom. NEWTCSDL taxon, kết hợp các dữ liệu taxon ở NCBI với CSDL của UniProtKB/Swiss-ProtProtein ColourerMột công cụ cho phép tô màu các trình tự axit amin. Protein Corral NEWMột ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline. Readseq Công cụ chuyển các trình tự sang các dạng format khác nhau. WebservicesCung cấp các chương trình truy cập vào các CSDL sinh học khác nhau. WhatizitCó thể nói cho người sử dụng biết ý nghĩa của các từ tìm thấy trong văn bản phục thuộc vào dạng thông tin mà người dùng muốn xem ở dạng được hightlight. 1.3.2. Công cụ của NCBIa/ Các công cụ phân tích trình tựCluster of Orthologous Groups (COGs): Một hệ thống của các họ gen từ các genom hoàn chỉnh.Gene Expression Omnibus (GEO): Kho dữ liệu gen biểu hiện và các nguồn trực tuyến cho việc thu nhận các dữ liệu gen biểu hiện.HomoloGene: So sánh các trình tự nucleotide giữa các cặp sinh vật để xác định các gen ở các loài khác nhau được tiến hóa từ một gen tổ tiên chung do quá trình phân loài và chúng thường vẫn giữ được nguyên chức năng trong quá trình tiến hóa.CSDL các vùng bảo thủ (Conserved Domain Database CDD): Tập hợp các bản so sánh trình tự (sequence alignment) và các profile của các vùng bảo thủ của các phân tử protein trong quá trình tiến hóa phân tử.Tập hợp các gen động vật có vú (Mammalian Gene Collection MGC): Một nỗ lực mới của NIH để thu được các nguồn cDNA với chiều dài đầy đủ.Clone Registry: Một CSDL được sử dụng bởi sự tham gia của các trung tâm trình tự genom người và chuột để lưu giữ những dòng được lựa chọn từ việc đọc trình tự, các dòng đang được đọc trình tự và các dòng đã hoàn tất và được lưu giữ ở GenBankTrace Archive: Được phát triển để lưu giữ các dữ liệu trình tự thô được tạo ra từ các dự án xác định trình tự.Tìm khung đọc mở (ORF Finder): Một công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL.VecScreen: Một công cụ cho phép xác định các đoạn trình tự nucleotide mà có thể là của vector, các vùng linker hoặc các điểm khởi đầu sao chép (origin) trước khi sử dụng các công cụ phân tích trình tự hoặc đăng ký trình tự.Electronic-PCR (e-PCR): Có thể được sử dụng để so sánh một trình tự truy vấn (query sequence) với các vị trí trong trình tự đánh dấu (sequence-tagged sites) để tìm ra một vị trí bản đồ có thể cho trình tự truy vấn.b/ Tìm kiếm trình tự giống nhau (Sequence Similarity Searching)BLAST Homepage: Cho phép truy cập vào chương trình và công cụ BLAST (Basic Local Alignment Search Tool), các trợ giúpBLink: Trình bày các kết quả tìm kiếm của BLAST đối với mỗi trình tự protein trong CSDL protein Entrez.Network-Client BLAST: cho phép tiếp cận các công cụ tìm kiếm BLAST của NCBI. Blastcl3 có thể tìm tất cả các trình tự trong file FASTA và tạo ra một hay nhiều các bản so sánh trình tự dưới dạng text hoặc HTML. Stand-alone BLAST: Chương trình có thể sử dụng sau khi download và cài đặt vào trong máy tính cá nhân.c/ Hệ thống đơn vị phân loại (Taxonomy) Taxonomy Browser: Công cụ cho phép tìm kiếm các CSDL taxonomy của NCBITaxonomy BLAST: Các nhóm công cụ BLAST sắp xếp các nguồn sinh vật theo CSDL Taxonomy của NCBI.TaxTable: Bảng tóm tắt các dữ liệu taxon của BLAST và các mối quan hệ của sinh vật với nhau thông qua dạng đồ hoạ màu.ProtTable: Cung cấp một bảng tóm tắt các vùng mã hóa protein trong một geneTaxPlot: Cung cấp các dạng quan sát genom giống nhau (three-way view of genome similarities).d/ Đăng ký trình tự (Sequence Submission) Sequin: Một công cụ đăng ký trình tự bao gồm cả ORF finder, một công cụ để sửa chữa và xem trình tự.BankIt: Đăng ký một hay nhiều trình tự một lúc thông qua WWW. e/ Tìm kiếm các thuật ngữ (Text Term Searching)Entrez: Truy cập vào các dữ liệu trình tự protein và DNA từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D, các thông tin và bản đồ gen và PubMed MEDLINE.LinkOut: Một dịch vụ đăng ký để tạo ra các đường kết nối từ các bài báo, tạp chí hoặc các dữ liệu sinh học trong Entrez với các nguồn trang Web bên ngoài.Citation Matcher: Cho phép tìm các ID của PubMed hoặc các UID của MEDLINE của bất kỳ bài báo nào trong CSDL PubMed.f/ Các công cụ cho thể hiện cấu trúc 3D và các kết quả tìm kiếm trình tự giống nhau (Tools for 3d structure display and similarity searching)CD-Search: Dịch vụ tìm kiếm các vùng bảo thủ (Conserved Domain Search Service (CD-Search) có thể được sử dụng để xác định các vùng bảo thủ có mặt trong các trình tự protein.Cn3D: Công cụ cho phép hiển thị các trình tự và cấu trúc 3D cho các CSDL NCBI.Domain Architecture Retrieval Tool: Displays the functional domains that make up a protein and lists proteins with similar domain architectures.VAST Search: Dịch vụ tìm kiếm cấu trúc tương đồng, so sánh cấu trúc protein của mọt cấu trúc protein mới xác định với các CSDL MMDB/PDB.g/ CSDL bản đồ (MAPS)Truy cập tới các dạng bản đồ vật lý và di truyền khác nhau.Công cụ quan sát bản đồ (Map Viewer): Cung cấp công cụ quan sát bản đồ nhiễm sắc thể của hơn 17 loài sinh vật. Map Viewer trình bày một hoặc nhiều bản đồ đã được so sánh với nhau dựa trên các chỉ thị và các gen, đối với bản đồ trình tự dựa vào mức độ giống nhau giữa các trình tự. Hiện nay, có các bản đồ của Arabidopsis, Ruồi giấm (fruit fly), người (human), bản đồ tương đồng của người và chuột, sốt rét, muỗi, chuột, giun tròn (nemato), chuột (rat), Zebrafish
File đính kèm:
- TIN SINH HOC P34.ppt