Báo cáo Tin Sinh học - Phần 2 Tìm kiếm cơ sở dữ liệu sinh học

Phần 2
Tìm kiếm cơ sở dữ liệu sinh học
2.1. lý thuyết
2.1.1. Cơ sở dữ liệu về các trình tự:
Năm cơ sở dữ liệu chính trên Internet cung cấp thông tin về trình tự nucleotide và protein. EMBL cơ sở dữ liệu về các trình tự Nucleotide, Cơ sở dữ liệu GenBank và ngân hàng dữ liệu ADN Nhật Bản (DDBJ) cung cấp thông tin chuỗi nucleotide và protein cũng như các chú thích về ấn phẩm (được nghiên cứu bởi tác giả nào, đăng trên các sách, tạp chí nào ) và chú thích sinh học (có bao nhiêu cặp Nu, bao nhiêu aa.). The Swiss-Prot là một cơ sở dữ liệu về trình tự protein và cung cấp các chuỗi protein được chú thích bởi các liên kết với cơ sở dữ liệu khác. Cơ sở dữ liệu về chuỗi protein thứ hai là the Protein Information Resource (PIR).
32 trang | Chia sẻ: gaobeo18 | Lượt xem: 1912 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Báo cáo Tin Sinh học - Phần 2 Tìm kiếm cơ sở dữ liệu sinh học, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
Protein 	- UniProt (Universal Resource Protein)	 	bao gồm SWISS-PROT, TrEMBL, PIR 	- Cơ sở dữ liệu protein (NCBI)  + Protein cấu trúc	- Ngân hàng dữ liệu protein (PDB)	 	- Cơ sở dữ liệu Mô hình hóa phân tử (NCBI) + Cơ sở dữ liệu di truyền 	- Toàn bộ hệ gen (NCBI)	  Toàn bộ hệ gen vi sinh vật (TIGR) 	- Hệ gen chưa chỉnh lý (TIGR)	  	- Cơ sở dữ liệu mạch đơn nucleotide	  	- Đột biến gen của  GenBank	 ® là NIH cơ sở dữ liệu chuỗi gen, một bộ sưu tập chú thích của tất cả các trình tự DNA công khai ( nghiên cứu axit nucleic, 2011 Jan; 39 (cơ sở dữ liệu vấn đề) : D32 -7). Có khoảng 126.551.501.141 căn cứ ở 135.440.924 hồ sơ trình tự trong các bộ phận GenBank truyền thống và 191.401.393.188 căn cứ trong 62.715.288 hồ sơ trình tự trong việc phân chia WGS tháng 4 năm 2011.Có một số cách để tìm kiếm và lấy dữ liệu từ GenBank .- GenBank cho nhận dạng trình tự và các chú thích với Entrez Nucleotide, được chia thành ba bộ phận tìm kiếm: CoreNucleotide (bộ sưu tập chính), dbEST (Download Trình tự Bày tỏ) và dbGSS (Genome Trình tự khảo sát) .- Tìm kiếm và sắp xếp các trình tự GenBank một chuỗi truy vấn bằng cách sử dụng BLAST (Cơ Bản sắp Công cụ Tìm kiếm địa phương). Tìm kiếm BLAST CoreNucleotide, dbEST, và dbGSS độc lập, xem thông tin BLAST để biết thêm thông tin về cơ sở dữ liệu BLAST nhiều.- Tìm kiếm, liên kết, và trình tự tải về chương trình sử dụng NCBI e-tiện ích. - DDBJ (ngân hàng dữ liệu DNA Nhật Bản)	  Mối quan hệ của ngân hàng DNA của Nhật BảnCơ sở dữ liệu trình tự Nucleotide quốc tế (INSD) đã được phát triển và duy trì hợp tác giữa DDBJ , ENA , và GenBank trong hơn 18 năm.DDBJ, Ngân hàng dữ liệu DNA của Nhật Bản là ngân hàng dữ liệu về các trình tự nucleotide duy nhất ở châu Á, đó là nơi chính thức thu thập trình tự nucleotide được tìm ra bởi các nhà nghiên cứu .Cơ sở dữ liệu này trao đổi các dữ liệu thu thập với Cơ sở dữ liệu EMBL  viện tin sinh học châu âu và GenBank / NCBI trên cơ sở hàng ngày, ba cơ sở dữ liệu chia sẻ dữ liệu hầu như tất cả dữ liệu tại bất kỳ thời gian nào. Các cơ sở dữ liệu này hầu như thống nhất được  gọi là “ISND, cơ sở dữ liệu trình tự nucleotide quốc tế". DDBJ thu thập dữ liệu chuỗi chủ yếu là từ các nhà nghiên cứu Nhật Bản, nhưng tất nhiên vẫn chấp nhận dữ liệu từ các nhà nghiên cứu trong bất kỳ các quốc gia khác. 99% dữ liệu INSD từ các nhà nghiên cứu Nhật Bản được gửi thông qua DDBJ.DDBJ đóng một vai trò quan trọng trong việc nghiên cứu tin sinh học. nói chung trên thế giới hiện nay chấp nhận rằng nghiên cứu trong sinh học ngày nay đòi hỏi cả thiết bị máy tính và thực nghiệm. Đặc biệt, chúng ta phải dựa trên các máy tính để phân tích các dữ liệu trình tự nucleotide với một tốc độ đáng kể. Mục đích hoạt động chính DDBJ là nâng cao chất lượng INSD. Khi các nhà nghiên cứu làm cho dữ liệu của họ mở cửa cho công chúng thông qua INSD và thường được chia sẻ trong trên toàn thế giới, DDBJ nỗ lực để mô tả thông tin về các dữ liệu càng nhiều càng tốt, theo các quy tắc thống nhất của INSD.DDBJ đang hoạt động tại trung tâm thông tin sinh học và ngân hàng dữ liệu DNA Nhật Bản, viện di truyền học Mishima, Nhật Bản.DDBJ bắt đầu hoạt động chính thức vào năm 1986 với sự ủng hộ của Bộ Giáo dục, Khoa học, Thể thao và Văn hóa Swiss-Prot là một cơ sở dữ liệu protein được khởi đầu vào năm 1986 do sự hợp tác của Department of Medical Biochemistry ở Trường đại học Geneva và EMBL. Năm 1994, tổ chức này chuyển tới một chi nhán của EMBL ở Anh gọi là EBI. Vào tháng 4 năm 1998, nó được chuyển tới Swiss Institute of Bioinformatics (SIB), do đó cơ sở dữ liệu này bây giờ được duy trì bởi SIB và EBI/EMBL. Cơ sở dữ liệu này cố gắng để cung cấp những thông tin ở mức độ cao bao gồm: các mô tả về chức năng của các protein và cấu trúc của nó, sự cải biến sau phiên mã, các dạng biến đổi và những thông tin khác. Để giảm thiểu sự dư thừa Swiss-Prot liên kết với nhiều nguồn khác. Vào năm 1996, một chương trình hỗ trợ máy tính cho SWISS-PROT được tạo ra gọi là TrEMBL . Hình UniProtNCBI thành lập vào ngày 04 Tháng Mười Một 1988, như một bộ phận của Thư viện Y khoa Quốc gia (NLM ) tại Viện Y tế Quốc gia (NIH).NLM đã được lựa chọn do kinh nghiệm của họ trong việc tạo ra và duy trì cơ sở dữ liệu y sinh học. NIH là cơ sở nghiên cứu y sinh học lớn nhất trên thế giới.NCBI có một nhóm nghiên cứu đa ngành gồm các nhà khoa học máy tính, các nhà sinh vật học phân tử, các nhà toán học, sinh hóa học, các bác sĩ, và các nhà sinh học cấu trúc tập trung vào nghiên cứu cơ bản và ứng dụng trong sinh học phân tử. Các nhà khoa học không chỉ làm ra những đóng góp quan trọng cho khoa học cơ bản mà còn phục vụ như là một nguồn của phương pháp mới cho hoạt động nghiên cứu ứng dụng. Họ cùng nhau nghiên cứu các vấn đề cơ bản y sinh học ở cấp độ phân tử bằng cách sử dụng các phương pháp toán học và tin học. Ngoài ra, NCBI duy trì sự hợp tác đang diễn ra với một số viện nghiên cứu và cũng với rất nhiều phòng thí nghiệm và các cơ quan chính phủ.Hình PDBHình Cơ sở dữ liệu protein (NCBI)Hình Cơ sở dữ liệu protein (NCBI)Hình cơ sở dữ liệu hệ gen vi sinh vật (TIGR)Hình cơ sở dữ liệu hệ gen vi sinh vật (TIGR)Hình Cơ sở dữ liệu mạch đơn nucleotideCác cơ sở dữ liệu có thể được tìm kiếm có hệ thống, bởi các từ khoá, hoặc bằng trình tự giống nhau Ý nghĩa của cơ sở dữ liệu ADN và Protein.Đối với trình tự nucleotit:So sánh một đoạn ADN bất kỳ với các dữ liệu trong ngân hàng gen có thể chúng ta xác định được đoạn ADN đó của sinh vật nào .Biết được trình tự sắp xếp các nucleotit của một đoạn ADN có thể suy ra trình tự các axit amin tương ứng trên mạch polypeptide nếu đoạn ADN đó mã hóa.Xác định đột biến, sự sai khác về trình tự nucleotit trong cùng một sản phẩm gen (isozyme, allozyme) có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn. Về mặt phân loại sinh học, đối với một số gen có tính bảo thủ cao, mang tính đặc thù loài, chẳng hạn các gen mã hóa cho ARN ribosome (rRNA). Dựa vào những trình tự ADN của các gen này ở những loài sinh vật khác nhau mà người ta có thể so sánh chúng trên cơ sở xác định mức độ sai khác về trình tự nucleotit từ đó mô phỏng mối quan hệ loài, dưới loài. Biết được trình tự của một gen (chẳng hạn gen ung thư hay sự có mặt của các virus nguy hiểm chẳng hạn H5N1, bệnh virus đốm trắng ở tôm) người ta có thể phát hiện sớm bằng kỹ thuật PCR, lai ADN để ngăn chặn, điều trị.Từ trình tự nucleotit của một phân tử ADN có thể biết được bản đồ các vị trí nhận biết của các enzym cắt hạn chế. Điều này đặc biệt có ý nghĩa trong kỹ nghệ ADN tái tổ hợp.Thiết kế những cặp mồi (primer) để nhân bản các đoạn này cho những mục đích nghiên cứu khác nhau như : Nghiên cứu sự có mặt của gen đó trong các sinh vật khác nhau (xác định sự có mặt gen chống bệnh bạc lá, đạo ôn, xác định giới tính, bệnh di truyền). Ngoài ra, còn sử dụng các kỹ thuật microarray, DNA chip để phát hiện sự có mặt và mức độ hoạt động của các gen trong những điều kiện nhất định2.1.2. Cơ sở dữ liệu về các tác phẩm và sáng chế:Các trình duyệt Entrez cũng cung cấp khả năng tìmkiếm MEDLINE (cơ sở dữ liệu về y học). ( một cơ sở dữ liệu về ấn phẩm sinh học và y tế có thể được truy cập tại Thư viện Y khoa Quốc gia. Trích dẫn bao gồm cả thông tin về trình tự protein hoặc nucleotide được liên kết với các cơ sở dữ liệu tương ứng và các trích dẫn khác có liên quan. Cơ sở này cho phép tìm thấy một số lượng lớn các trích dẫn mà bạn quan tâm một khi bạn đã tìm thấy một vài trích dẫn có liên quan, và làm tăng khả năng tìm kiếm của bạn lên đáng kể. PubMed bao gồm hơn 21 triệu văn học, sinh y học từ MEDLINE.Tạpchí khoa học và đời sống, và các cuốn sách trực tuyến. Hình Một trình tìm kiếm các bằng sáng chế của Mỹ đang được cung cấp bởi US Patent và Trademark Office ( Hình The Bioinformatic Links Directory ( là một nguồn tài nguyên cộng đồng trực tuyến có chứa các công cụ, cơ sở dữ liệu, tài nguyên cho tin sinh học và nghiên cứu sinh học phân tử. 2.2. bài tập:Bài 1: Tìm kiếm các trình tự của các epxide hydrolase (EH) từ chuột trong SWISSProt. Trình bày kết quả bằng signal anchor ?Bài 2:Đó là nhóm nghiên cứu (tên người đứng đầu của nhóm và thành viên) đã tìm ra bản X-ray các cấu trúc của epxide hydrolase này. Bài 3:Tìm kiếm một ấn phẩm về cấu tạo epxide hydrolase, dựa trên cấu trúc X-ray. Chọn một ấn phẩm có sẵn trực tuyến, tải các file PDF, và tìm thấy những hình ảnh thích hợp và văn bản. Giải:Bài 1:  giới thiệu ngắn về epoxit hydrolases:2.3.1. epoxit hydrolases:	Epoxit hydrolases bao gồm một nhóm các enzym liên quan có liên quan về mặt chức năng đến xúc tác cho việc bổ sung nước cho các hợp chất oxirane (epoxit), từ đó tạo ra trans-diols. Những Epoxit hydrolases đã được tìm thấy trong tất cả các loại sinh vật sống, bao gồm cả động vật có vú, vật không xương sống, thực vật, nấm và vi khuẩn. 	Ở động vật, sự quan tâm lớn trong Epoxit hydrolases là hướng về khả năng giải độc của chúng cho epoxit vì chúng là biện pháp bảo vệ quan trọng chống lại các tác nhân gây độc cho tế bào và gây hại cho di truyền của các dẫn xuất oxirane thường phản ứng với chất có ái lực điện từ ( electrophiles) vì những căng thẳng cao của hệ thống vòng ba-bộ phận và độ phân cực mạnh của liên kết C-O. Điều này quan trọng bởi vì epoxit là chất chuyển hóa trung gian thường xuyên phát sinh trong quá trình biến đổi sinh học của các hợp chất . 	Người ta quan tâm đến Epoxit hydrolases vi sinh vật bởi vì tiềm năng của các enzym này là xúc tác sinh học enantioselective. Do phản ứng hóa học của chúng, epoxit đại diện cho các khối xây dựng đa năng hóa học. Đặc biệt là tiềm năng của Epoxit hydrolases cho độ phân giải chiral, từ enzyme thường có bản chất enantioselective. 2.3.2 Cấu trúc Epoxit hydrolases là bộ phận của một họ lớn của các enzyme có cấu trúc ba chiều thông thường, enzyme hydrolase  / Trình tự amino-acid giống nhau giữa các thành viên khác nhau của nhóm này thường rất thấp và chủ yếu giới hạn trong phạm vi hydrolase  / Tính đến nay chỉ có ba cấu trúc được biết đến! Agrobacterium radiobacter AD1 (tháng 10 năm 1998)Mus musculus cytoplasmatic EH (tháng 8 năm 1999)Aspergillus niger (tháng 11 năm 1999)
File đính kèm:
TIN SINH HOC P54.ppt