Tin Sinh học - Phần 3: Tìm kiếm trình tự tương đồng
3.1 Cơ sở và lý thuyết
3.2.1 Tìm kiếm tương đồng
Tìm kiếm trình tự tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự cho protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein hiện tại chứa thứ tự của 100 triệu dư lượng. Để tìm kiếm với nhiều trình tự khác nhau, thời gian ngắn là một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để xây dựng các thuật toán nhanh hơn so với chương trình động lực tuần tự. Mục tiêu của các phương pháp này là để tìm kiếm một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các liên kết điểm cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên sự mở rộng khoa học máy tính phù hợp một cách chính xác [1-3]. Tuy nhiên, để tìm thấy các ghép cặp xa, những phương pháp chính xác này trở nên cứng nhắc, những phương pháp khảo sát được sử dụng, từ bỏ một số độ nhạy, trong đó có những trường hợp, chúng có thể mất sự liên kết điểm cao nhất. Một số kỹ thuật khảo sát
Hầu hết các chương trình phổ biến là:
• BLAST
• FastA
Phần 3 Tìm kiếm trình tự tương đồngBLAST3.1 Cơ sở và lý thuyết3.2.1 Tìm kiếm tương đồng Tìm kiếm trình tự tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự cho protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein hiện tại chứa thứ tự của 100 triệu dư lượng. Để tìm kiếm với nhiều trình tự khác nhau, thời gian ngắn là một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để xây dựng các thuật toán nhanh hơn so với chương trình động lực tuần tự. Mục tiêu của các phương pháp này là để tìm kiếm một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các liên kết điểm cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên sự mở rộng khoa học máy tính phù hợp một cách chính xác [1-3]. Tuy nhiên, để tìm thấy các ghép cặp xa, những phương pháp chính xác này trở nên cứng nhắc, những phương pháp khảo sát được sử dụng, từ bỏ một số độ nhạy, trong đó có những trường hợp, chúng có thể mất sự liên kết điểm cao nhất. Một số kỹ thuật khảo sátHầu hết các chương trình phổ biến là:• BLAST• FastABLAST ( Công cụ tìm kiếm liên kết cục bộ cơ bản) là tập hợp các chương trình tìm kiếm tương đồng được thiết kế để khảo sát tất cả các cơ sở dữ liệu trình tự có sẵn (DNA và Protein) không phụ thuộc vào truy vấn là Protein hay DNA. Các chương trình BLAST đã được thiết kế tốc độ, với một sự từ bỏ tối thiểu độ nhạy với mối liên hệ trình tự xa . BLAST sử dụng các khái niệm về một "cặp phân khúc" là một cặp trình tự phụ cùng chiều dài hình thành một liên kết liền nhau. Đầu tiên, thuật toán tìm kiếm các từ ngắn có mặt trong cả hai trình tự, và sau đó mở rộng ở mỗi đầu để tìm những phân đoạn dài nhất hiện có trong cả hai. Ý nghĩa thống kê của những cặp phân khúc điểm được đánh giá để xác định xem sự phù hợp là ngẫu nhiên hay không. Như vậy, những điểm được chỉ định trong tìm kiếm BLAST giải thích thống kê rõ ràng, làm cho sự tương xứng thực sự dễ dàng hơn để phân biệt với nền ngẫu nhiên.Cách sử dụng BLAST ( So sánh một aa truy vấn với một cơ sở dữ liệu trình tự protein blastn So sánh trình tự nucleotide truy vấn với cơ sở dữ liệu trình tự nucleotide blastx So sánh trình tự truy vấn nucleotide dịch mã trong cả khung đọc với một cơ sở dữ liệu trình tự protein. Bạn nên sử dụng tùy chọn này để tìm kiếm sản phẩm dịch mã có thể của một trình tự nucleotide chưa biết. tblastn So sánh một trình tự protein truy vấn với một cơ sở dữ liệu trình tự nucleotide đã dịch mã tự động trong khung đọc. tblastx So sánh những bản dịch mã 6 khung của một trình tự nucleotide với những bản dịch mã 6 khung của một CSDL trình tự nucleotide. Chú ý rằng chương trình tblastx không thể sử dụng với CSDL nr trên trang web BLAST vì nó được tính toán chuyên sâu 3.2.2 Trình tự DNA và protein Trình tự DNA: Chọn một cơ sở dữ liệu axit nucleic. Chọn trong số các sinh vật cụ thể (ví dụ như: Agrobacterium), bao gồm (ví dụ, blastn nonredundant), hoặc bộ cơ sở dữ liệu chuyên biệt (vídụ, dbEST, dbSTS, GSS, HTG) và sử dụng chương trình BLAST blastn . Trình tự Protein : Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) sử dụng chương trình BLAST blastp.Những hình ảnh cho thấy một ví dụ một protein. Thay vì một trình tự protein,cũng có thể sử dụng một chuỗi DNA.Để thực hiện một tìm kiếm BLAST trình tự định dạng FastA được sử dụng gồm một biểu tượng lớn hơn (>) theo sau bởi một dòng mô tả duy nhất và trong các dòng tiếp theo là trình tự quan tâm.Hình2: Để sao chép và dán trình tự vào blastp, sử dụng định dạng FastA 3.2.3 Kiểm tra các điểm liên kết và thống kê Điểm số raw "S" của sự liên kết thường được tính bằng tổng điểm cho vị trí mỗi chữ cái, chữ cái vô nghĩa trong liên kết. Điểm cho mỗi vị trí của một liên kết được bắt nguồn từ một ma trận thay thế, phổ biến nhất trong số này là các ma trận BLOSUM và PAM. Không giống như số điểm raw, điểm bit (được hiển thị ở bên phải trong cửa sổ ) cho các loại hình của hệ thống tính điểm được sử dụng, nên thông tin mới hơn. Điểm số bit được tính từ số điểm raw bằng cách chuẩn hóa với các biến số thống kê để xác định một hệ thống tính điểm. Do đó, điểm số bit từ sự liên kết khác nhau, thậm chí cả những người sử dụng ma trận điểm khác nhau có thể được so sánh. Số điểmcàng cao sự liên kết càng tốt , nhưng ý nghĩa của một sự liên kết không thể được rút ra chỉ từ số điểm. Xem Thống kê dưới đây. Một vị trí mà tại đó một chữ cái được kết hợp với một vô giá trị được gọi là một khoảng cách. Điểm số khoảng trống là âm. Kể từ khi một sự kiện đột biến đơn lẻ có thể gây ra sự chèn vào hoặc xóa nhiều hơn một dư lượng, sự hiện diện của khoảng trống thường xuyên có ý nghĩa quan trọnghơn chiều dài của khoảng trống. Do đó khoảng trống bị phạt nặng nề, trong khi một hình phạt nhẹ hơn là các dư lượng sautrong khoảng trống Điểm số RAW Điểm số của một liên kết, S, được tính là tổng điểm thay thế và khoảng cách. Thay thế (các axit amin khác nnhau ở một vị trí nhất định trong một liên kết ) điểm được đưa ra bởi tìm kiếm trên bảng (xem PAM, BLOSUM). Điểm số khoảng trống thường được tính là tổng của G, hình phạt đoạn mở, và L, hình phạt khoảng trống mở rộng khoảng . Đối với một khoảng trống chiều dài n, hao tốn khoảng trống sẽ là G + Ln. Việc lựa chọn hao phí khoảng cách, G và L là thực nghiệm, nhưng nó là cách để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2). Điểm số bit Giá trị có S’ có nguồn gốc từ liên kết raw điểm S, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào bảng. Bởi vì điểm số bit đã được chuẩn hoá liên quan đến hệ thống tính điểm, có thể được sử dụng để so sánh điểm liên kết từ tìm kiếm khác nhau. S '= S - (lnK/ln2) Lambda và K là các thông số phụ thuộc vào hệ thống tính điểm (ma trận thay thế và hao tổn khoảng cách) sử dụng [06/04]. Giá trị E: giá trị mong đợi Với giá trị E, ý nghĩa của điểm số có thể được đánh giá. Nó là một phương pháp để quyếtđịnh, liệu một liên kết sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai trình tự hoàn toàn không liên quan. Số lượng các liên kết khác nhau với số điểm tương đương hoặc tốt hơn so với S được dự kiến sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu bằng sự lựa chọn. Giá trị E càng thấp , số điểm càng có ý nghĩaE = mn * 2-S 'Các tham số m và n là độ dài của trình tự truy vấn và cơ sở dữ liệu.3.2.4 PSI-BLAST Vị trí cụ thể lặp lại BLAST (PSI-BLAST) đề cập đến một tính năng của 2,0 BLAST trong đó một dữ liệu (hoặc vị trí ma trận ghi điểm số cụ thể , PSSM) được xây dựng (tự động ) từ một đa liên kết của mức điểm cao nhất trong một tìm kiếm BLAST. PSSM sinh ra bởi cách tính toán vị trí điếm số cụ thể cho mỗi vị trí trong liên kết..Vị trí bảo tồn cao nhận được điểm cao và vị trí bảo tồn yếu nhận được điểm gần bằng không. Dữ liệu được sử dụng để thực hiện một tìm kiếm BLAST tiếp theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh dữ liệu. Cách tìm kiếm lặp đi lặp lại làm tăng độ nhạy của tìm kiếm PSI-BLAST có khả năng thậm chí để xác định các tương đồng yếu.Liên kết:BLAST: databases: - Công cụ BLASTFastAExPASy CSDL NCBITài liệu tham khảo:1. Chang, W. I., Lawler, E. L., Approximate string matching in sublinear expected time. Proceedings of the 31st Annual IEEE Symposium on Foundations Computer Science, 1990: p. 116-124.2. Wu, S., Manber, U., Fast text searching allowing errors. Comunications of the ACM, 1992. 35: p. 83-90.3. Myers, E. W., A sublinear algorithm for approximate keyword searching. Algorithmica, 1994. 12: p. 345-374.4. Altschul, S. F., et al., Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res, 1997. 25(17): p. 3389-402.5. Altschul, S. F. and W. Gish, Local alignment statistics. Methods Enzymol, 1996. 266: p. 460-80.6. Karlin, S. and S. F. Altschul, Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc Natl Acad Sci U S A, 1990. 87(6): p. 2264-8. Ứng dụng 1. Lấy DNA và trình tự protein của epoxide hydrolase từ Agrobacterium tumefaciens AD1 (DNA EMBL: Y12804; Protein EMBL: CAA73331). Thực thiện tìm kiếm blastn, blastp và blastx và so sánh kết quả. Sử dụng cài đặt mặc định và thông số phù hợp (điểm số, ma trận, hao phí khoảng trống, Giá trị E). So sánh với kết quả của CSDL tìm kiếm DNA và Protein: Bạn có được cùng kết quả với blastn, blastp và blastx không? Hãy giải thích kết quả?Tìm kiếm Blastp đối với protein CAA73331Tìm kiếm CAA73331 bằng công cụ tím kiếm protein trên trang web tìm kiếm NCBI Tìm kiếm bằng công cụ Blastp Tương tự như thế với tìm kiếm blastn và blastx- GenbankTìm kiếm bằng blastn và blastxBlastnBlastxSo sánh với kết quả của CSDL tìm kiếm DNA và Protein: ta có được cùng kết quả với blastn, blastp và blastx2.Thực hiện 1 tìm kiếm PSI-BLAST Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331 Sử dụng công cụ tìm kiếm PSI – BLAST trên cơ sở dữ liệu NCBI để tìm kiếm - Đầu tiên ta vào trang Blast trên NCBI và chọn công cụ tìm kiếm cho protein - Sau đó ta sẽ thấy được bảng công cụ tìm kiếm blastp. Điền Protein EMBL entry vào ô trình tự “Enter accession number(s), gi(s), or FASTA sequence(s)” - Đánh dấu chọn vào mục “AlgorithmPSI-BLAST (Position-Specific Iterated BLAST)” - Tiến hành tìm kiếm bằng cách nhấn vào nút BLASTTa được kết quả là epoxide hydrolase [Agrobacterium tumefaciens]
File đính kèm:
- TIN SINH HOC P41.ppt