Đề tài Tin Sinh học: Tìm kiếm cơ sở dữ liệu tương đồng BLAST
Trình tự tìm kiếm tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein chứa thứ tự của 100 triệu dư lượng.
Để tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để sản xuất các thuật toán nhanh hơn so với lập trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các sự sắp xếp điểm cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên máy tính mở rộng phù hợp với khoa học chính xác.
BÁO CÁO TIN SINH HỌC Chủ đề: Tìm kiếm cơ sở dữ liệu tương đồng BLASTHọc viên: PHAN THỊ THU HiỀNLớp: Sinh học thực nghiệm k14 I. Bối cảnh và lý thuyết1. Trình tự tìm kiếm Trình tự tìm kiếm tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein chứa thứ tự của 100 triệu dư lượng. Để tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để sản xuất các thuật toán nhanh hơn so với lập trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các sự sắp xếp điểm cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên máy tính mở rộng phù hợp với khoa học chính xác. Tuy nhiên, để tìm thấy được xa hơn, các phương pháp này chính xác trở nên khó, và cách tiếp cận đã được sử dụng, hy sinh một số độ nhạy cảm, trong đó có những trường hợp, nơi họ có thể bỏ lỡ sự liên kết tốt nhất. Hầu hết các chương trình phổ biến là: - BLAST - FastA1.1 BLAST 1.1.1 Khái niệm: BLAST (Công cụ tìm kiếm địa phương cơ bản): là một tập hợp các chương trình tìm kiếm tương tự được thiết kế để khám phá tất cả (DNA và protein), cơ sở dữ liệu trình tự có sẵn bất kể việc truy vấn là protein hay DNA. Các chương trình BLAST đã được thiết kế cho tốc độ, với một sự hy sinh tối thiểu của nhạy cảm với mối quan hệ thứ tự xa. BLAST sử dụng các khái niệm về một "cặp phân khúc" mà là một cặp trình tự của các chiều dài cùng tạo thành một liên kết ungapped. Đầu tiên, thuật toán tìm kiếm các từ ngắn có mặt trong cả hai chuỗi, và sau đó mở rộng ở mỗi đầu để tìm thấy những phân đoạn dài nhất hiện nay trong cả hai. Ý nghĩa thống kê của những cao điểm cặp phân khúc được đánh giá để xác định xem các trận đấu là ngẫu nhiên hay không. Như vậy, điểm được giao trong một tìm kiếm BLAST có một giải thích thống kê được xác định rõ, làm cho trận đấu thực sự dễ dàng hơn để phân biệt với nền ngẫu nhiên.1.1.2 Cách sử dụng BLASTTa cần lựa chọn các chương trình BLASTBLAST có các trang tìm kiếm cho phép chúng ta chọn từ một vài chương trình khác nhau.Dưới đây là một bảng của các chương trình này. blastp So sánh một chuỗi axit amin với một cơ sở dữ liệu về enzim. blastn So sánh trình tự nucleotide chúng ta có với cơ sở dữ liệu. blastx Đi sâu vào, từ chuỗi đó người ta dịch ra axit amin. Bạn có thể sử dụng tùy chọn này để tìm các sản phẩm dịch tiềm năng của một trình tự nucleotide không rõ. tblastn Từ đoạn AND ta có thể so sánh được với các gen mã hóa của các đoạn AND tương tự. tblastx So sánh các khả năng dịch mã của đoạn AND đối với cơ sở dữ liệu AND. Xin lưu ý rằng chương trình tblastx không có thể được sử dụng với cơ sở dữ liệu nr trên trang Web BLAST bởi vì nó được tính toán chuyên sâu. 1.2 DNA và protein chuỗi Trình tự DNA: Chọn một cơ sở dữ liệu axit nucleic. Chọn trong số các sinh vật cụ thể (ví dụ như: Agrobacterium), bao gồm (ví dụ, blastn nonredundant), hoặc chuyên ngành thiết lập (ví dụ, dbEST, dbSTS, GSS, HTG) cơ sở dữ liệu và sử dụng chương trình BLAST blastn . Trình tự Protein: Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) sử dụng chương trình BLAST blastp.Accession # DescriptionGenBank Identifier (gi)Hình. 1: Pubmed-nhập cảnh của các hydrolase epoxit từ Agrobacterium radiobacter AD1. Để thực hiện một tìm kiếm BLAST trình tự FastA định dạng được sử dụng trong đó bao gồm một biểu tượng lớn hơn (>) theo sau là một dòng mô tả và trong các dòng tiếp theo trình tự quan tâm. Hình. 2: Để sao chép và dán dữ liệu vào blastp, định dạng FastA được sử dụng. 1.3 Kiểm tra các điểm liên kết và thống kê Điểm số nguyên "S" của sự liên kết thường được tính bằng cách cộng điểm cho mỗi lá thư, lá thư và thư-to-null vị trí trong sự liên kết. Điểm cho mỗi vị trí của một liên kết được bắt nguồn từ một ma trận thay thế phổ biến nhất trong số này là các ma trận BLOSUM và PAM. Không giống như số điểm thô, tài khoản số điểm bit (được hiển thị ở bên phải trong cửa sổ đầu ra) cho các loại hình của hệ thống tính điểm được sử dụng, và do đó thông tin mới hơn. Điểm số bit được tính từ số điểm thô bằng cách bình thường với các biến số thống kê để xác định một hệ thống tính điểm. Do đó, điểm số bit từ sự sắp xếp khác nhau, thậm chí cả những người sử dụng ma trận điểm khác nhau có thể được so sánh. Số điểm càng cao càng tốt sự liên kết, nhưng ý nghĩa của một sự liên kết không thể được rút ra từ số điểm một mình. Xem Thống kê dưới đây. Một vị trí mà tại đó một lá thư được kết hợp với một vô giá trị được gọi là một khoảng cách. Khoảng cách điểm số là tiêu cực. Kể từ khi một sự kiện đột biến duy nhất có thể gây ra chèn vào hoặc xóa nhiều hơn một dư lượng, sự hiện diện của khoảng cách là thường xuyên được gán cho ý nghĩa quan trọng hơn chiều dài của khoảng cách. Do đó khoảng cách bị trừng phạt nặng nề, trong khi một hình phạt nhẹ hơn là gán cho mỗi dư lượng tiếp theo trong khoảng cách.1.3.1 Nguyên Điểm Điểm số của một liên kết, S, được tính là tổng của điểm thay thế và khoảng cách. Thay thế (không giống hệt các axit amin ở một vị trí nhất định trong sự liên kết một) điểm được đưa ra bởi nhìn lên bảng (xem PAM, BLOSUM). Khoảng cách điểm số thường được tính là tổng của G, mở L, khoảng cách hình phạt và phần mở rộng khoảng cách hình phạt. Đối với một khoảng cách của n dài, chi phí khoảng cách sẽ được G + Ln. Việc lựa chọn chi phí khoảng cách, G và L là thực nghiệm, nhưng nó là phong tục để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2).1.3.2 Mẫu điểm 'S giá trị có nguồn gốc từ S Điểm số nguyên liên kết, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào tài khoản. Bởi vì điểm số bit đã được bình thường hoá quan đến hệ thống tính điểm, họ có thể được sử dụng để so sánh điểm liên kết từ tìm kiếm khác nhau. S’= s-(lnK/ln2)Lambda và K là các thông số phụ thuộc vào các hệ thống tính điểm (ma trận thay thế và chi phí khoảng cách) đã sử dụng [4-6].1.3.3 giá trị: giá trị mong đợi Với giá trị E, ý nghĩa của điểm số có thể được đánh giá. Nó là một phương pháp để quyết định, nếu một liên kết sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai trình tự hoàn toàn không liên quan.Số lượng các sự sắp xếp khác nhau với số điểm tương đương hoặc tốt hơn so với S được dự kiến sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu bằng cơ hội. E thấp hơn các giá trị, quan trọng hơn số điểm. E = mn * 2-S 'Các tham số m và n là độ dài của chuỗi truy vấn và cơ sở dữ liệu.1.4 PSI-BLAST Chức vụ BLAST lặp đi lặp lại cụ thể (PSI-BLAST) đề cập đến một tính năng của 2,0 BLAST trong đó một hồ sơ cá nhân (hoặc vị trí cụ thể ghi bàn ma trận, PSSM) được xây dựng (tự động) từ một liên kết nhiều chạm mức điểm cao nhất trong một tìm kiếm BLAST ban đầu. PSSM được tạo ra bằng cách tính toán điểm số vị trí cụ thể cho từng vị trí trong sự liên kết. Vị trí cao bảo tồn nhận được điểm cao và yếu vị trí bảo tồn nhận được điểm gần bằng không. Hồ sơ cá nhân được sử dụng để thực hiện một tìm kiếm BLAST tiếp theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh hồ sơ cá nhân. Điều này lặp đi lặp lại tìm kiếm kết quả chiến lược tăng nhạy cảm. PSI-BLAST tìm kiếm có tiềm năng để xác định homologies yếu.Liên kết:BLAST: FastA: Swiss-Prot: Cơ sở dữ liệu NCBI: Tài liệu tham khảo1. Chang, WI, Lawler, EL, xấp xỉ chuỗi kết hợp trong thời gian dự kiến sublinear. Kỷ yếu của Hội nghị chuyên đề thứ 31 hàng năm IEEE Khoa học máy tính Cơ sở năm 1990: p.116-124.2. Wu, S., Manber, U., Fast văn bản tìm kiếm các lỗi cho phép. Comunications của ACM, năm 1992. 35: p. 83-90.3. Myers, EW, thuật toán sublinear để tìm kiếm từ khóa gần đúng. Algorithmica, năm 1994. 12: p. 345-374.4. Altschul, SF, et al, Gapped BLAST và BLAST PSI: một thế hệ mới của chương trình tìm kiếm cơ sở dữ liệu protein. Axit nucleic Res năm 1997. 25 (17): p. 3389-402.5. Altschul, SF và W. Gish, số liệu thống kê liên kết địa phương. Phương Pháp Enzymol, năm 1996. 266: p. 460-80.6. Karlin, S. và SF Altschul, phương pháp đánh giá ý nghĩa thống kê các tính năng trình tự phân tử bằng cách sử dụng chương trình chấm điểm chung. Proc Natl Acad Sci U S A, 1990. 87 (6): p. 2264-8.II. Các bài tập1) Hãy tìm trình tự DNA và protein của epoxide hydrolase từ Agrobacterium tumefaciens AD1 (DNA EMBL nhập: Y12804; Protein EMBL nhập: CAA73331). Thực hiện tìm kiếm blastn, blastp và blastx và so sánh kết quả. Hãy thử sử dụng các thiết lập mặc định và các thông số thích hợp (ma trận điểm, chi phí khoảng cách, E-giá trị). So sánh kết quả của việc tìm kiếm cơ sở dữ liệu DNA và protein: bạn sẽ có được kết quả tương tự bằng cách sử dụng blastn, blastp và blastx? Bạn có thể giải thích những kết quả này không?2) Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. PSI-BLAST tìm thấy protein không? Có các loại enzyme được tìm thấy? Giải thích lý do tại sao điều này có thể được
File đính kèm:
- TIN SINH HOC P39.ppt