Đề tài Tin Sinh học: Các phương pháp tìm kiếm dữ liệu sinh học và ứng dụng trong việc thực hiện Đề tài (3)

 Tính đến năm 2004, đã có khoảng 500 cơ sở dữ liệu sinh học công cộng và thương mại. Những cơ sở dữ liệu này thường lưu trữ dữ liệu bộ gene (genomics) và protein (proteomics). Thông tin của chúng là trình tự nucleotide của gene hoặc trình tự amino acid của protein. Ngoài ra chúng còn chứa thông tin về chức năng, cấu trúc, vị trí trên nhiễm sắc thể hay những tác động lâm sàng của các đột biến cũng như sự tương tự của các trình tự sinh học được tìm thấy.

ppt35 trang | Chia sẻ: gaobeo18 | Lượt xem: 1035 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đề tài Tin Sinh học: Các phương pháp tìm kiếm dữ liệu sinh học và ứng dụng trong việc thực hiện Đề tài (3), để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
Giảng viên hướng dẫn: TS. Võ Văn ToànHọc viên thực hiện: Ngô Kim KhuêLớp: SHTN - K12 	Tính đến năm 2004, đã có khoảng 500 cơ sở dữ liệu sinh học công cộng và thương mại. Những cơ sở dữ liệu này thường lưu trữ dữ liệu bộ gene (genomics) và protein (proteomics). Thông tin của chúng là trình tự nucleotide của gene hoặc trình tự amino acid của protein. Ngoài ra chúng còn chứa thông tin về chức năng, cấu trúc, vị trí trên nhiễm sắc thể hay những tác động lâm sàng của các đột biến cũng như sự tương tự của các trình tự sinh học được tìm thấy. 1.1. Các cơ sở dữ liệu sinh họcCƠ SỞ DỮ LIỆU SINH HỌC TRÊN  MẠNG INTERNET	Chúng ta có thể tìm kiếm các dữ liệu sinh học trên mạng Internet thông qua các cơ sở dữ liệu sinh học và các công cụ tìm kiếm.Cơ sở dữ liệu trình tự nguyên thủy	Gồm các cơ sở dữ liệu lớn sau:	 1. DDBJ (DNA DataBase of Japan)  2. EMBL Nucleotide DB (European Molecular Biology Laboratory )  3. NCBI (National Center for Biotechnology Information)  Cơ sở dữ liệu biến đổi	Tập hợp thông tin từ những nguồn khác nhau và có nhiều tiện ích mới thuận tiện cho người dùng. Ví dụ: 1. Entrez (Nat.Center for Biotechn.Inf.)  2. euGenes (Univ. of Indiana) Cơ sở dữ liệu trình tự protein1. SWISS-PROT Protein knowledgebase (Swiss Institute of Bioinformatics)  UCSC Genome Bioinformatics (Genome Browser and Tools (UCSC) )  Ensembl Genome Browser (Sanger Institute and EBI)  4. PEDANT Protein Extraction, Description and Analysis Tool (Forschungszentrum f. Umwelt & Gesundheit) 	5. PROSITE Database of Protein Families and Domains 	6. DIP Database of Interacting Proteins (Univ. of California)   7. Pfam Protein families database of alignments and HMMs (Sanger Institute)  8. SignalP Server for signal peptide prediction ơ sở dữ liệu cấu trúc1. PDB Protein Data Bank (Research Collaboratory for Structural Bioinformatics (RCSB))  SCOP Structural Classification of Proteins  SWISS-MODEL Server and Repository for Protein Structure Models  ModBase Database of Comparative Protein Structure Models (Sali Lab, UCSF) ơ sở dữ liệu Microarray	1. ArrayExpress (European Bioinformatic Institute) 	2. Gene Expression Omnibus (National Center for Biotechnology Information) 	3. Maxd (Univ. of Manchester) 	4. SMD (Univ. of Stanford) 	5. GPX (Scottish Centre for Genomic Technology and Informatics) ơ sở dữ liệu chuyên biệt	1. CGAP Cancer Genes (National Cancer Institute)  	2. DBGET H.sapiens (Univ. of Kyoto)	  3. Ensembl Genome BrowserAnnotated Genomes (EMBL-EBI and Sanger Inst.) 	4. KEGG Functional Db (Univ. of Kyoto) 	5. MGI Mouse Genome (Jackson Lab.)  	6. NCBI-UniGene (National Center for Biotechnology Information) 	7. OMIM Inherited Diseases (National Center for Biotechnology Information)  1.2. Các công cụ tìm kiếm 	 	 Phổ biến nhất hiện nay gồm có:	www.google.com	www.altavista.com	www.infoseek.com	www.excite.com	www.nlsearch.comNCBI EMBL Giao diện một số trang web tìm kiếm và cơ sở dữ liệu sinh học trên mạng Internetwww.google.com www.altavista.com www.excite.comwww.nlsearch.com1.3. Một số trang web về sinh học- Về động vật học	 Chẩn đoán phân tử 	 Virus học	 Sinh lý thực vật 	 Tế bào thực vật	 Sinh học phân tử và tiến hóa	 Tế bào mầm 	 Thú y	 Nghiên cứu về ARN 	 Nghiên cứu về acid nucleic	 NGUYÊN TẮC TÌM KIẾM THÔNG  TIN TRÊN MẠNG INTERNET2.1. XÁC ĐỊNH THÔNG TIN CẦN TÌM 	Để có nhiều thông tin hơn, ta phải dịch nội dung chính của vấn đề sang tiếng Anh vì dữ liệu trên Internet là tiếng Anh. Ví dụ: Loài mối.  Isoptera2.2. XÁC ĐỊNH TỪ KHÓA 	Để tìm kiếm thông tin chúng ta phải xác định một từ hay một nhóm từ khóa mang nội dung chủ yếu hay quan trọng nhất của vấn đề quan tâm. Từ khóa: Isoptera 2.3. CHỌN CÔNG CỤ TÌM KIẾM	- Google Patent Search -Tìm kiếm bằng sáng chế.	- Google Scholar - Công cụ tìm kiếm dành cho học giả.	- Google Books - Công cụ tìm kiếm sách. 2.4. LỌC THÔNG TIN	- Đọc lướt nhanh rồi đối chiếu với nội dung ta cần tìm. Nếu đúng là thông tin ta cần tìm thì lưu lại trang web. 	- Từ khóa càng chuyện biệt thì kết quả tìm kiếm càng gần với thông tin ta quan tâm.TÌM KIẾM CÁC BÀI BÁO BẰNG PUBMED Thẻ giới hạn phạm vi tìm kiếm[AB]: Tóm tắt – Abstract[AU]: Tên tác giả – Author name[DP]: Ngày xuất bản – Publication date[CY]: Nơi phát xuất bản tạp chí – Country[IP]:	 Số phát hành của tạp chí[IS]:	 International Standard Serial Number of Journal (ISSN)[LA]: Ngôn ngữ của bài báo – Language[PG]: Số trang – Page number [TI]: Tựa đề – Title word[VI]: Tập (số) – Volume	Để tìm chính xác các từ khóa, chúng ta có thể sử dụng toán tử Boolean (AND, OR, NOT) và dùng thẻ (tag) trong ngoặc vuông ([]) đặt sau từ khóa để giới hạn phạm vi tìm kiếm từ khóa đó. 	Ví dụ: “ DNA microarray” [ti] AND Curtis [au] 2002[dp] 	 Nghĩa là: Tìm bài báo có chữ DNA microarray (trong tựa đề bài báo) của tác giả Curtis năm 2002.	Lưu ý: Để tìm một cụm từ (phrase) thì chúng ta phải được đặt trong dấu ngoặc kép (“”). Entrez tự động hiểu có toán tử AND giữa các từ cách nhau bằng khoảng trắng (không nằm trong dấu ngoặc kép).3. ỨNG DỤNG TRONG THỰC HIỆN ĐỀ TÀINhập từ khóa “Isoptera” vào khung tìm kiếm.Nhấn nút “Tìm với Google”.Kết quả tìm kiếm hiện ra. Chọn kết quả nào có nội dung sát nội dung cần tìm nhất và lưu lại.TÌM KIẾM TÀI LIỆU BẰNG GOOGLEKết quả tìm kiếmNhập từ khóaNhấn Tìm kiếmKết quả tìm kiếmTÌM KIẾM VỚI GOOGLE SCHOLARNhập từ khóaNhấn Tìm kiếmTÌM KIẾM VỚI GOOGLE BOOKSNhập từ khóaNhấn Tìm kiếmKết quả tìm kiếmTÌM KIẾM NÂNG CAO VỚI GOOGLEChỉ tìm định dạng file Word (có thể tùy chọn các định dạng file khác).Từ khóa Ví dụ: Tìm kiếm cấu trúc enzym cellulase của trùng roi sống trong ruột Mối.TÌM KIẾM TRÊN PDB PROTEIN DATA BANKNhập từ khóaKết quả tìm kiếm hiện ra. Chọn kết quả cần tìm.Các tùy chọn với kết quả tìm kiếmClick chuột để xem hình ảnh của protein cần tìmClick chuột để xem hình ảnh của protein cần tìmTải về máy tính để xem bằng phần mềmMở xem file trực tuyếnMở xem file PDB trực tuyếnTải về máy1243Tải hình về máy tínhTải hình về máy tínhTÌM KIẾM CÁC BÀI BÁO BẰNG PUBMED 	Tìm kiếm với từ khóa Isoptera trong tựa đề các bài báo xuất bản năm 2011. Sử dụng thẻ giới hạn [ti] và [dp].	Từ khóa: Isoptera [ti] 2011 [dp] 	Kết quả tìm kiếm hiện ra. Chọn kết quả cần tìm và lưu lại.Kết quảNhấn tìm kiếmTừ khóa

File đính kèm:

  • pptTIN SINH HOC P29.ppt
Bài giảng liên quan