Bài giảng Tin sinh học - Chương II Tìm kiếm dữ liệu sinh học

 Cơ sở dữ liệu sinh học (csdl) là các thông tin về trình tự a.nu (ADN, ARN), trình tự a.a của các phân tử Protein, thông tin về cấu trúc và trình tự nucleotit của một số genom, mô hình cấu trúc không gian của các đại phân tử.

 Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống máy tính rất mạnh của 3 ngân hàng dữ liệu sinh học lớn nhất thế giới là NCBI, EMBL, DDBJ. Ngoài ra toàn bộ dữ liệu Protein còn được lưu trữ ở PDB (Protein Data Bank).

 

ppt48 trang | Chia sẻ: gaobeo18 | Lượt xem: 1097 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Tin sinh học - Chương II Tìm kiếm dữ liệu sinh học, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
ẾM CƠ SỞ DỮ LIỆU SINH HỌC PDB là kho lưu trữ duy nhất trên toàn thế giới, thông tin về các cấu trúc 3D của các phân tử sinh học lớn, bao gồm cả protein và axit nucleic. Đây là những phân tử của sự sống được tìm thấy trong tất cả các sinh vật bao gồm vi khuẩn, nấm men, thực vật, ruồi, động vật khác, và con người. Hiểu biết về hình dạng của một phân tử giúp chúng ta hiểu nó hoạt động như thế nào. Kiến thức này có thể được sử dụng để giúp suy ra vai trò của một cấu trúc trong sức khỏe con người và bệnh tật, và trong thuốc phát triển. PDB miễn phí cho người sử dụng. Các kho lưu trữ PDB được cập nhật thứ tư mỗi tuần. Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.2.4. PDB ( Protein Data Bank) Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.2.4.PDB ( Protein Data Bank) Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3. Sử dụng trình tự DNA và protein:1.3.1. Cơ sở dữ liệu về nucleotit(nucleotide databases): GenBank : Tập hợp tất cả các trình tự nucleotit axit amin hiện có. GenBank (là một phần của International Nucleotit Sequense database collaboration bao gồm ở DDB,EMBL,NCBI) là cơ sở dữ liệu trình tự di truyền của NIH. Chẳng hạn chúng ta có thể xem bản ghi cho 1 gen của Saccharomyces cerevisiea thì GenBank đã cung cấp đầy đủ. Cứ sau 2 tháng, 1 phiên bản update được đưa ra. Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.1. Cơ sở dữ liệu về nucleotit(nucleotide databases): Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.1. Cơ sở dữ liệu về nucleotit(nucleotide databases): Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.1. Cơ sở dữ liệu về nucleotit(nucleotide databases): Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.2. Cơ sở dữ liệu protein:1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.2. Cơ sở dữ liệu protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.3. Cơ sở dữ liệu cấu trúc 3D Domain: MMDB (molecular modeling database) : Cơ sở dữ liệu mô hình cấu trúc phân tử 3D, bao gồm các protein và các polynucleotide. MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của cơ sở dữ liệu của NCBI, bao gồm các trình tự ,trích dẫn, phân loại học và các trình tự, cấu trúc lân cận.1.3.3. Cơ sở dữ liệu cấu trúc 3D Domain: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.3. Cơ sở dữ liệu cấu trúc 3D Domain: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.4. Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Trong giữa thập niên 1970, các phương pháp để cô lập các trình tự DNA đã được thành lập và ý tưởng lập bản đồ toàn bộ bộ gien đã nảy sinh. Một số loài sinh học (virus, vi khuẩn E. coli, nấm men, ruồi giấm) sau đó đã được nghiên cứu mạnh mẽ. Một số trang web cung cấp thông tin về trình tự sắp xếp nucleotit của các gen đã được nghiên cứu như: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.4. Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein:1.3.4. Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein:1.3.4. Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC Toàn bộ hệ gen (NCBI)  Toàn bộ bộ gen của vi sinh vật (TIGR)  Chưa hoàn chỉnh bộ gen (TIGR)  Cơ sở dữ liệu đa hình đơn  Nucleotide Gen đột biến ở người  Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.4. Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein:1.3.4. Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein:1.3.4. Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC Cơ sở dữ liệu toàn bộ gen (genome): 1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.5. Cơ sở dữ liệu hệ thống học: Chứa tên các sinh vật có trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotit hoặc trình tự axit amin. Cung cấp một hệ thống phân loại và đơn vị phân loại.1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3.5. Ý nghĩa của các cơ sở dữ liệu sinh hoc: 1.3. Sử dụng trình tự DNA và protein: Biết được trình tự sắp xếp của một gen bất kì so sánh với dữ liệu trong ngân hàng gen.từ đó xác định được đoạn ADN đó của sinh vật nào(tìm kiếm trình tự tương đồng) Biết được trình tự sắp xếp nucleotit của một đoạn ADN ta suy ra được trình tự các axit amin tương ứng trên mạch Polipeptide nếu đoạn ADN mã hóa.(Dịch mã 1 phân tử ADN ra trình tự axit amin).1.3.4.1. Đối với cơ sở dữ liệu về nucleotit:1.3.4.1. Đối với cơ sở dữ liệu về nucleotit:1.3.5. Ý nghĩa của các cơ sở dữ liệu sinh hoc: 1.3.4.1. Đối với cơ sở dữ liệu về nucleotit: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3. Sử dụng trình tự DNA và protein:1.3.5. Ý nghĩa của các cơ sở dữ liệu sinh hoc: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3. Sử dụng trình tự DNA và protein:1.3.4.1. Đối với cơ sở dữ liệu về nucleotit:1.3.5. Ý nghĩa của các cơ sở dữ liệu sinh hoc: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3. Sử dụng trình tự DNA và protein: Biết được trình tự gen của một gen(chẳng hạn như gen ung thư) người ta ó thể phát hiện sớm bằng PCR, lai ADN để ngăn chặn, điều trị. Từ các trình tự nucleotit có thể thiết kế những cặp mồi để nhân bản các đoạn gen này cho những mục đích khác nhau, cũng như xác định mức độ hoạt động của gen đó trong những điều kiện phức tạp.1.3.4.1. Đối với cơ sở dữ liệu về nucleotit:1.3.5. Ý nghĩa của các cơ sở dữ liệu sinh hoc: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC Xác định đột biến, sự sắp xếp về trình tự nucleotit trong cùng một sản phẩm gen, có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn. Về mặt phân loại sinh học, đối với những gen bảo thủ cao, mang tính đặc thù cho loài, ví dụ gen mã hóa cho mARN. Dựa vào những gen này mà người ta so sánh trình tự nucleotide các loài với nhau để xác định mối quan hệ họ hàng. 1.3.5. Ý nghĩa của các cơ sở dữ liệu sinh hoc: 1.3.4.1. Đối với cơ sở dữ liệu về nucleotit:1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC Từ trình tự nucleotit của một phân tử ADN có thể nhận biết bản đồ các vị trí nhận biết của các enzim cắt hạn chế. Điều này có ý nghĩa trong công nghệ ADN tái tổ hợp, một trong những ứng dụng quan trọng là chuyển gen để tạo ra những sinh vật hoàn toàn mới như các vi khuẩn, tế bào nấm men, từ đó đưa ra sản xuất công nghiệp các sản phẩm Protein, enzim.1.3.5. Ý nghĩa của các cơ sở dữ liệu sinh hoc: 1.3.4.1. Đối với cơ sở dữ liệu về nucleotit:1.3. Sử dụng trình tự DNA và protein: Từ trình tự aa của một phân tử protein có thể dự đoán được trình tự nucleotit của gen mã hóa. Từ trình tự của các aa trong phân tử protein hoặc enzim nào đó, chúng ta có thể so sánh với các protein hoặc enzim cùng chức năng ở các loài khác để biết được thành phần axit amin nào quan trọng.1.3.5. Ý nghĩa của các cơ sở dữ liệu sinh hoc: 1.3.4.2. Đối với cơ sở dữ liệu về protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC1.3. Sử dụng trình tự DNA và protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌCII. Các công cụ tìm kiếm, phân tích các cơ sở dữ liệu:2.1. Công cụ của EMBI/EBI ( Viện tin sinh học của châu Âu):2.1.1. Similarity và Hemology: Phân tích mức độ giống nhau và tương đồng giữa các trình tự. Các công cụ như FASTA, BLAST,MPSRCH và SCANPS. Dạng tìm kiếm kết quả trả về email cũng được phát triển. 2 chương trình thường được dùng cho chức năng này là BLAST và FASTA Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC2.1. Công cụ của EMBI/EBI ( Viện tin sinh học của châu Âu):2.1.1. Similarity và Hemology: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC2.1. Công cụ của EMBI/EBI ( Viện tin sinh học của châu Âu):2.1.1. Similarity và Hemology: 2.1.2. Phân tích chức năng protein: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC2.1. Công cụ của EMBI/EBI ( Viện tin sinh học của châu Âu): Phân tích trình tự protein: xác định được các vùng mã hóa protein của một trình tự DNA. ClustalWso sánh trình tự DNA hoặc protein để xác định mối quan hệ cũng như nguồn gốc tiến hóa của chúng. Phân tích cấu trúc: Sử dụng phần mềm Dali và Pymol. Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC2.2. Công cụ của NCBI: 2.2.1. Các công cụ phân tích trình tự: Công cụ quan trong là Tìm khung đọc mở (ORF Finder): Một công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL. Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC2.2. Công cụ của NCBI: 2.2.1. Các công cụ phân tích trình tự: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC2.2. Công cụ của NCBI: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC2.2. Công cụ của NCBI: Blast homepage: Cho phép truy cập vào chương trình và công cụ của Blast, các trợ giúp2.2.2. Phân tích trình tự tương đồng: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC2.2. Công cụ của NCBI: 2.3. Các trình duyệt Entrez: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌCCác trình duyệt Entrez cũng cung cấp khả năng tìm kiếm MEDLINE (​​ một cơ sở dữ liệu trên xuất bản phẩm sinh học và y tế có thể truy cập tại Thư viện Y khoa Quốc gia. Trích dẫn bao gồm cả thông tin về protein hay trình tự nucleotide được liên kết đến các mục trình tự cơ sở dữ liệu tương ứng và các trích dẫn liên quan khác. Cơ sở này cho phép tìm thấy một số lượng lớn các trích dẫn thuộc vào khu vực của bạn quan tâm một khi bạn đã tìm thấy một vài trích dẫn có liên quan, và làm tăng đáng kể sức mạnh của tìm kiếm của bạn. Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌCIII. Thực hành tìm kiếm các cơ sở dữ liệu: Nguyên tắc: Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌCCẢM ƠN THẦY CÔ 

File đính kèm:

  • pptSinh hoc phan tu.ppt
Bài giảng liên quan