Đề tài Tin Sinh học: Các phương pháp tìm kiếm dữ liệu sinh học và ứng dụng trong việc thực hiện Đề tài (3)
Tính đến năm 2004, đã có khoảng 500 cơ sở dữ liệu sinh học công cộng và thương mại. Những cơ sở dữ liệu này thường lưu trữ dữ liệu bộ gene (genomics) và protein (proteomics). Thông tin của chúng là trình tự nucleotide của gene hoặc trình tự amino acid của protein. Ngoài ra chúng còn chứa thông tin về chức năng, cấu trúc, vị trí trên nhiễm sắc thể hay những tác động lâm sàng của các đột biến cũng như sự tương tự của các trình tự sinh học được tìm thấy.
Giảng viên hướng dẫn: TS. Võ Văn ToànHọc viên thực hiện: Ngô Kim KhuêLớp: SHTN - K12 Tính đến năm 2004, đã có khoảng 500 cơ sở dữ liệu sinh học công cộng và thương mại. Những cơ sở dữ liệu này thường lưu trữ dữ liệu bộ gene (genomics) và protein (proteomics). Thông tin của chúng là trình tự nucleotide của gene hoặc trình tự amino acid của protein. Ngoài ra chúng còn chứa thông tin về chức năng, cấu trúc, vị trí trên nhiễm sắc thể hay những tác động lâm sàng của các đột biến cũng như sự tương tự của các trình tự sinh học được tìm thấy. 1.1. Các cơ sở dữ liệu sinh họcCƠ SỞ DỮ LIỆU SINH HỌC TRÊN MẠNG INTERNET Chúng ta có thể tìm kiếm các dữ liệu sinh học trên mạng Internet thông qua các cơ sở dữ liệu sinh học và các công cụ tìm kiếm.Cơ sở dữ liệu trình tự nguyên thủy Gồm các cơ sở dữ liệu lớn sau: 1. DDBJ (DNA DataBase of Japan) 2. EMBL Nucleotide DB (European Molecular Biology Laboratory ) 3. NCBI (National Center for Biotechnology Information) Cơ sở dữ liệu biến đổi Tập hợp thông tin từ những nguồn khác nhau và có nhiều tiện ích mới thuận tiện cho người dùng. Ví dụ: 1. Entrez (Nat.Center for Biotechn.Inf.) 2. euGenes (Univ. of Indiana) Cơ sở dữ liệu trình tự protein1. SWISS-PROT Protein knowledgebase (Swiss Institute of Bioinformatics) UCSC Genome Bioinformatics (Genome Browser and Tools (UCSC) ) Ensembl Genome Browser (Sanger Institute and EBI) 4. PEDANT Protein Extraction, Description and Analysis Tool (Forschungszentrum f. Umwelt & Gesundheit) 5. PROSITE Database of Protein Families and Domains 6. DIP Database of Interacting Proteins (Univ. of California) 7. Pfam Protein families database of alignments and HMMs (Sanger Institute) 8. SignalP Server for signal peptide prediction ơ sở dữ liệu cấu trúc1. PDB Protein Data Bank (Research Collaboratory for Structural Bioinformatics (RCSB)) SCOP Structural Classification of Proteins SWISS-MODEL Server and Repository for Protein Structure Models ModBase Database of Comparative Protein Structure Models (Sali Lab, UCSF) ơ sở dữ liệu Microarray 1. ArrayExpress (European Bioinformatic Institute) 2. Gene Expression Omnibus (National Center for Biotechnology Information) 3. Maxd (Univ. of Manchester) 4. SMD (Univ. of Stanford) 5. GPX (Scottish Centre for Genomic Technology and Informatics) ơ sở dữ liệu chuyên biệt 1. CGAP Cancer Genes (National Cancer Institute) 2. DBGET H.sapiens (Univ. of Kyoto) 3. Ensembl Genome BrowserAnnotated Genomes (EMBL-EBI and Sanger Inst.) 4. KEGG Functional Db (Univ. of Kyoto) 5. MGI Mouse Genome (Jackson Lab.) 6. NCBI-UniGene (National Center for Biotechnology Information) 7. OMIM Inherited Diseases (National Center for Biotechnology Information) 1.2. Các công cụ tìm kiếm Phổ biến nhất hiện nay gồm có: www.google.com www.altavista.com www.infoseek.com www.excite.com www.nlsearch.comNCBI EMBL Giao diện một số trang web tìm kiếm và cơ sở dữ liệu sinh học trên mạng Internetwww.google.com www.altavista.com www.excite.comwww.nlsearch.com1.3. Một số trang web về sinh học- Về động vật học Chẩn đoán phân tử Virus học Sinh lý thực vật Tế bào thực vật Sinh học phân tử và tiến hóa Tế bào mầm Thú y Nghiên cứu về ARN Nghiên cứu về acid nucleic NGUYÊN TẮC TÌM KIẾM THÔNG TIN TRÊN MẠNG INTERNET2.1. XÁC ĐỊNH THÔNG TIN CẦN TÌM Để có nhiều thông tin hơn, ta phải dịch nội dung chính của vấn đề sang tiếng Anh vì dữ liệu trên Internet là tiếng Anh. Ví dụ: Loài mối. Isoptera2.2. XÁC ĐỊNH TỪ KHÓA Để tìm kiếm thông tin chúng ta phải xác định một từ hay một nhóm từ khóa mang nội dung chủ yếu hay quan trọng nhất của vấn đề quan tâm. Từ khóa: Isoptera 2.3. CHỌN CÔNG CỤ TÌM KIẾM - Google Patent Search -Tìm kiếm bằng sáng chế. - Google Scholar - Công cụ tìm kiếm dành cho học giả. - Google Books - Công cụ tìm kiếm sách. 2.4. LỌC THÔNG TIN - Đọc lướt nhanh rồi đối chiếu với nội dung ta cần tìm. Nếu đúng là thông tin ta cần tìm thì lưu lại trang web. - Từ khóa càng chuyện biệt thì kết quả tìm kiếm càng gần với thông tin ta quan tâm.TÌM KIẾM CÁC BÀI BÁO BẰNG PUBMED Thẻ giới hạn phạm vi tìm kiếm[AB]: Tóm tắt – Abstract[AU]: Tên tác giả – Author name[DP]: Ngày xuất bản – Publication date[CY]: Nơi phát xuất bản tạp chí – Country[IP]: Số phát hành của tạp chí[IS]: International Standard Serial Number of Journal (ISSN)[LA]: Ngôn ngữ của bài báo – Language[PG]: Số trang – Page number [TI]: Tựa đề – Title word[VI]: Tập (số) – Volume Để tìm chính xác các từ khóa, chúng ta có thể sử dụng toán tử Boolean (AND, OR, NOT) và dùng thẻ (tag) trong ngoặc vuông ([]) đặt sau từ khóa để giới hạn phạm vi tìm kiếm từ khóa đó. Ví dụ: “ DNA microarray” [ti] AND Curtis [au] 2002[dp] Nghĩa là: Tìm bài báo có chữ DNA microarray (trong tựa đề bài báo) của tác giả Curtis năm 2002. Lưu ý: Để tìm một cụm từ (phrase) thì chúng ta phải được đặt trong dấu ngoặc kép (“”). Entrez tự động hiểu có toán tử AND giữa các từ cách nhau bằng khoảng trắng (không nằm trong dấu ngoặc kép).3. ỨNG DỤNG TRONG THỰC HIỆN ĐỀ TÀINhập từ khóa “Isoptera” vào khung tìm kiếm.Nhấn nút “Tìm với Google”.Kết quả tìm kiếm hiện ra. Chọn kết quả nào có nội dung sát nội dung cần tìm nhất và lưu lại.TÌM KIẾM TÀI LIỆU BẰNG GOOGLEKết quả tìm kiếmNhập từ khóaNhấn Tìm kiếmKết quả tìm kiếmTÌM KIẾM VỚI GOOGLE SCHOLARNhập từ khóaNhấn Tìm kiếmTÌM KIẾM VỚI GOOGLE BOOKSNhập từ khóaNhấn Tìm kiếmKết quả tìm kiếmTÌM KIẾM NÂNG CAO VỚI GOOGLEChỉ tìm định dạng file Word (có thể tùy chọn các định dạng file khác).Từ khóa Ví dụ: Tìm kiếm cấu trúc enzym cellulase của trùng roi sống trong ruột Mối.TÌM KIẾM TRÊN PDB PROTEIN DATA BANKNhập từ khóaKết quả tìm kiếm hiện ra. Chọn kết quả cần tìm.Các tùy chọn với kết quả tìm kiếmClick chuột để xem hình ảnh của protein cần tìmClick chuột để xem hình ảnh của protein cần tìmTải về máy tính để xem bằng phần mềmMở xem file trực tuyếnMở xem file PDB trực tuyếnTải về máy1243Tải hình về máy tínhTải hình về máy tínhTÌM KIẾM CÁC BÀI BÁO BẰNG PUBMED Tìm kiếm với từ khóa Isoptera trong tựa đề các bài báo xuất bản năm 2011. Sử dụng thẻ giới hạn [ti] và [dp]. Từ khóa: Isoptera [ti] 2011 [dp] Kết quả tìm kiếm hiện ra. Chọn kết quả cần tìm và lưu lại.Kết quảNhấn tìm kiếmTừ khóa
File đính kèm:
- TIN SINH HOC P29.ppt