Đề tài Tin Sinh học: Tìm kiếm cơ sở dữ liệu sinh học

Cơ sở dữ liệu sinh học trong phần này chủ yếu đề cập đến các thông tin về trình tự axit nucleic (ADN, ARN), trình tự axit amin của các phân tử protein, thông tin về cấu trúc và giải phẫu của một số genom, mô hình cấu trúc không gian của các đại phân tử.
38 trang | Chia sẻ: gaobeo18 | Lượt xem: 1605 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề tài Tin Sinh học: Tìm kiếm cơ sở dữ liệu sinh học, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
của mình, EBI (Tin Học Sinh Học Viện Châu Âu) và SIB (Viện Tin Học Sinh Học Thụy Sĩ), đã được trao một khoản trợ cấp thành lập nên UniProt , một cơ sở dữ liệu về trình tự protein và chức năng của chúng, thống nhất PIR PSD, Swiss-Prot, và cơ sở dữ liệu EMBL.Hiện nay, PIR tiếp tục cung cấp các nguồn lực hàng đầu thế giới để hỗ trợ các dữ liệu protein và di truyền. Hình trang PIR1. Lý thuyết1.1. Cơ sở dữ liệu về các trình tự:Trong thập niên 70, các phương pháp cô lập trình tự ADN đã được thành lập và ý tưởng về lập bản đồ toàn bộ bộ gen được hình thành.Một số loài sinh vật (vi rút, E. coli, nấm men, ruồi giấm) đã nhanh chóng được nghiên cứu. Một danh sách cập nhật của tất cả các trình tự bộ gen hoàn toàn có sẵn tại  Thông tin về bộ gen của một số loài (con người, cây Arabidopsis, Saccharomyces cerevisiae) được cung cấp bởi MIPS ( The Munich Information Center Protein Sequences. Nhiệm vụ của NCBI là phát triển công nghệ thông tin mới để hỗ trợ trong sự hiểu biết về các quá trình cơ bản của phân tử, di truyền và y tế. Cụ thể hơn, NCBI đã tạo ra hệ thống tự động để lưu trữ và phân tích kiến thức về sinh học phân tử, hóa sinh, và di truyền, tạo điều kiện thuận lợi cho việc sử dụng cơ sở dữ liệu và phần mềm trong nghiên cứu và y tế, phối hợp các nguồn lực để thu thập thông tin sinh học ở cả Mỹ và quốc tế và thực hiện phương pháp nghiên cứu tiên tiến, xử lý thông tin dựa trên máy tính để phân tích cấu trúc và chức năng của các phân tử sinh học quan trọng.1. Lý thuyết1.1. Cơ sở dữ liệu về các trình tự:NCBI thành lập vào ngày 04 Tháng 11 năm 1988, như một bộ phận của Thư viện Y khoa Quốc gia Hoa Kỳ (NLM ) tại Viện Y tế Quốc gia (NIH). Để thực hiện các trách nhiệm khác nhau của nó, NCBI:1. Lý thuyết1.1. Cơ sở dữ liệu về các trình tự:+Tiến hành nghiên cứu trên các vấn đề y sinh học cơ bản ở cấp độ phân tử bằng cách sử dụng các phương pháp toán học và tin học.+Duy trì hợp tác với một số viện, học viện, và các cơ quan chính phủ khác.	+Thúc đẩy truyền thông khoa học bằng cách tài trợ các cuộc họp, hội thảo, và hàng loạt các bài giảng.	+Hỗ trợ đào tạo về nghiên cứu cơ bản và ứng dụng trong sinh học cho các nghiên cứu sinh.+Tham gia vào cộng đồng khoa học quốc tế trong nghiên cứu tin học.	+Phát triển, phân phối, hỗ trợ, và phối hợp truy cập vào một loạt các cơ sở dữ liệu và phần mềm cho cộng đồng khoa học và y tế.Hình NCBI Trình tự DNAGenBank ơ sở dữ liệu Nucleotide EMBL  (ngân hàng dữ liệu DNA Nhật Bản)	  Trình tự Protein UniProt (Universal Resource Protein)  gồm SWISS-PROT, TrEMBL, PIR Cơ sở dữ liệu protein (NCBI) ình cơ sở dữ liệu UniportProtein cấu trúcNgân hàng dữ liệu protein (PDB)	 	 ơ sở dữ liệu Mô hình hóa phân tử (NCBI)  là kho lưu trữ duy nhất trên toàn thế giới thông tin về các cấu trúc 3D của các phân tử sinh học lớn, bao gồm cả protein và axit nucleic. Đây là những phân tử của sự sống được tìm thấy trong tất cả các sinh vật bao gồm vi khuẩn, nấm men, thực vật, ruồi, động vật khác, và con người. Hiểu biết về hình dạng của một phân tử giúp chúng ta hiểu nó hoạt động như thế nào. Kiến thức này có thể được sử dụng để giúp suy ra vai trò của một cấu trúc trong sức khỏe con người và bệnh tật, và trong thuốc phát triển. PDB miễn phí cho người sử dụng. Các kho lưu trữ PDB được cập nhật thứ tư mỗi tuần. PDB được thành lập vào năm 1971 tại Phòng thí nghiệm quốc gia Brookhaven và ban đầu có 7 cấu trúc .  Hình trang PDBHình Cơ sở dữ liệu protein (NCBI)Hình cơ sở dữ liệu Mô hình hóa phân tử (NCBI)Cơ sở dữ liệu di truyền Toàn bộ hệ gen (NCBI)  Toàn bộ hệ gen vi sinh vật (TIGR) ệ gen chưa chỉnh lý (TIGR)	  Cơ sở dữ liệu mạch đơn nucleotide	  Đột biến gen của con người  Hình cơ sở dữ liệu hệ gen (NCBI)Hình cơ sở dữ liệu hệ gen vi sinh vật (TIGR)	Hình Cơ sở dữ liệu mạch đơn nucleotideCác cơ sở dữ liệu có thể được tìm kiếm có hệ thống, bởi các từ khoá, hoặc bằng trình tự giống nhau. 1. Lý thuyết1.1. Cơ sở dữ liệu về các trình tự:+ Ý nghĩa của cơ sở dữ liệu ADN và Protein.Đối với trình tự nucleotit:So sánh một đoạn ADN bất kỳ với các dữ liệu trong ngân hàng gen có thể chúng ta xác định được đoạn ADN đó của sinh vật nào .Biết được trình tự sắp xếp các nucleotit của một đoạn ADN có thể suy ra trình tự các axit amin tương ứng trên mạch polypeptide của đoạn ADN đó mã hóa.Xác định đột biến, sự sai khác về trình tự nucleotit trong cùng một sản phẩm gen (isozyme, allozyme) có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn. Biết được trình tự của một gen (chẳng hạn gen ung thư hay sự có mặt của các virus nguy hiểm ) người ta có thể phát hiện sớm bằng kỹ thuật PCR, lai ADN để ngăn chặn, điều trị.Về mặt phân loại sinh học, đối với một số gen có tính bảo thủ cao, mang tính đặc thù loài, chẳng hạn các gen mã hóa cho ARN ribosome. Dựa vào những trình tự ADN của các gen này ở những loài sinh vật khác nhau mà người ta có thể so sánh chúng trên cơ sở xác định mức độ sai khác về trình tự nucleotit từ đó mô phỏng mối quan hệ loài, dưới loài. Thiết kế những cặp mồi (primer) để nhân bản các đoạn này cho những mục đích nghiên cứu khác nhau như : Nghiên cứu sự có mặt của gen đó trong các sinh vật khác nhau (xác định sự có mặt gen chống bệnh, xác định giới tính, bệnh di truyền). Ngoài ra, còn sử dụng các kỹ thuật microarray, DNA chip để phát hiện sự có mặt và mức độ hoạt động của các gen trong những điều kiện nhất định. 1. Lý thuyết1.1. Cơ sở dữ liệu về các trình tự:Từ trình tự nucleotit của một phân tử ADN có thể biết được bản đồ các vị trí nhận biết của các enzym cắt hạn chế. Điều này đặc biệt có ý nghĩa trong kỹ nghệ ADN tái tổ hợp.Một trong những phương pháp trị liệu gen dựa trên trình tự ribonucleotit trên phân tử ARN thông tin để tổng hợp sợi bổ sung nhằm ngăn chặn sự hoạt động của các gen đó. Một trong những ứng dụng quan trọng đó là chuyển gen để tạo ra các sinh vật mới mang những đặc tính mong muốn hoặc có thể chuyển gen vào các tế bào vi khuẩn, nấm men để sản xuất sản phẩm gen theo con đường tái tổ hợp (protein, enzym, vaccine và các hợp chất có hoạt tính sinh học).1. Lý thuyết1.1. Cơ sở dữ liệu về các trình tự:Đối với trình tự axit amin Nếu như chúng ta biết được thành phần, trình tự sắp xếp của các axit amin trong phân tử protein, enzym nào đó có thể đánh giá được sự sai khác giữa các axit amin trong các phân tử protein, enzym cùng chức năng ở các loài khác nhau để biết được thành phần axit amin nào đóng vai trò quan trọng.Từ trình tự axit amin của phân tử protein, có thể suy diễn ra trình tự nucleotit của gen mã hóa.Từ trình tự axit amin có thể dự đoán được cấu trúc ba chiều, vị trí hoạt động (domain) của phân tử protein, enzym đó.Ngày nay, việc phát hiện sự tương đồng hay sự có mặt của phân tử protein có thể được thực hiện bằng các kỹ thuật hiện đại như khối phổ. Tuy nhiên việc xác định trình tự các axit amin là không thể thiếu được. 1. Lý thuyết1.1. Cơ sở dữ liệu về các trình tự:1.2. Cơ sở dữ liệu về các tác phẩm và sáng chế:Các trình duyệt Entrez cũng cung cấp khả năng tìm kiếm MEDLINE (cơ sở dữ liệu về y học) ( một cơ sở dữ liệu về ấn phẩm sinh học và y tế có thể được truy cập tại Thư viện y khoa quốc gia Hoa Kỳ. Trích dẫn bao gồm cả thông tin về trình tự protein hoặc nucleotide được liên kết với các cơ sở dữ liệu tương ứng và các trích dẫn khác có liên quan. Cơ sở này cho phép tìm thấy một số lượng lớn các trích dẫn mà bạn quan tâm một khi bạn đã tìm thấy một vài trích dẫn có liên quan, và làm tăng khả năng tìm kiếm của bạn lên đáng kể. Hình trang ột trình tìm kiếm các bằng sáng chế của Mỹ đang được cung cấp bởi US Patent và Trademark Office ( Cơ sở dữ liệu về các tác phẩm và sáng chế:Hình trang  The Bioinformatic Links Directory ( là một nguồn tài nguyên cộng đồng trực tuyến có chứa các công cụ, cơ sở dữ liệu, tài nguyên cho tin sinh học và nghiên cứu sinh học phân tử. 1.2. Cơ sở dữ liệu về các tác phẩm và sáng chế:Hình trang  bài tập:Bài 1: Tìm kiếm các trình tự của các epxide hydrolase (EH) từ chuột trong SWISSProt. Trình bày kết quả bằng signal anchor ?Bài 2:Đó là nhóm nghiên cứu (tên người đứng đầu của nhóm và thành viên) đã tìm ra bản X-ray các cấu trúc của epxide hydrolase này. Bài 3:Tìm kiếm một ấn phẩm về cấu tạo epxide hydrolase, dựa trên cấu trúc X-ray. Chọn một ấn phẩm có sẵn trực tuyến, tải các file PDF, và tìm thấy những hình ảnh thích hợp và văn bản. Giải:Bài 1:		 giới thiệu ngắn về epoxit hydrolases:3.1. epoxit hydrolases:Epoxit hydrolases bao gồm một nhóm các enzym liên quan có liên quan về mặt chức năng đến xúc tác cho việc bổ sung nước cho các hợp chất oxirane (epoxit), từ đó tạo ra trạng thái trans-diols. Những Epoxit hydrolases đã được tìm thấy trong tất cả các loại sinh vật sống, bao gồm cả động vật có vú, vật không xương sống, thực vật, nấm và vi khuẩn. Ở động vật, sự quan tâm lớn trong Epoxit hydrolases là hướng về khả năng giải độc của chúng cho epoxit vì chúng là biện pháp bảo vệ quan trọng chống lại các tác nhân gây độc cho tế bào và gây hại cho di truyền của các dẫn xuất oxirane thường phản ứng với chất có ái lực điện từ (electrophiles) vì những căng thẳng cao của hệ thống vòng ba-bộ phận và độ phân cực mạnh của liên kết C-O. Điều này quan trọng bởi vì epoxit là chất chuyển hóa trung gian thường xuyên phát sinh trong quá trình biến đổi sinh học của các hợp chất . 3. giới thiệu ngắn về epoxit hydrolases:3.1. epoxit hydrolases:Người ta quan tâm đến Epoxit hydrolases vi sinh vật bởi vì tiềm năng của các enzym này là xúc tác sinh học enantioselective. Do phản ứng hóa học của chúng, epoxit đại diện cho các khối xây dựng đa năng hóa học. Đặc biệt là tiềm năng của Epoxit hydrolases cho độ phân giải chiral, từ enzyme thường có bản chất enantioselective. 2.3.2 Cấu trúc Epoxit hydrolases là bộ phận của một họ lớn của các enzyme có cấu trúc ba chiều thông thường, enzyme hydrolase  /  Trình tự amino-acid giống nhau giữa các thành viên khác nhau của nhóm này thường rất thấp và chủ yếu giới hạn trong phạm vi hydrolase /.Tính đến 1999 chỉ có ba cấu trúc được biết đến! Agrobacterium radiobacter AD1 (tháng 10 năm 1998)Mus musculus cytoplasmatic EH (tháng 8 năm 1999)Aspergillus niger (tháng 11 năm 1999)
File đính kèm:
TIN SINH HOC P37.ppt