Tin Sinh học - Phần 3 Tìm kiếm trình tự tương đồng: Blast (2)

Tìm kiếm trình tự tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein chứa thứ tứ của 100 triệu dư lượng. Để tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nổ lực để sản xuất các thuật toán nhanh hơn so với lập trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các sự sắp xếp điểm cao.
32 trang | Chia sẻ: gaobeo18 | Lượt xem: 1660 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tin Sinh học - Phần 3 Tìm kiếm trình tự tương đồng: Blast (2), để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
c khái niệm về một "cặp phân khúc" mà là một cặp siêu phân tử có cùng chiều dài tạo thành một liên kết không gián đoạn. 3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồng3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngChọn dữ liệuNhập tên loại protein hay DNA3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngNhấp chọn fasta3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngCopy chuỗi3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngNhấp chọn3.2  Bối cảnh và lý thuyết 3.2.1 Tìm kiếm sự tương đồng Chọn chương trình BLAST3.2  Bối cảnh và lý thuyết 3.2.1 Tìm kiếm sự tương đồngDán chuỗi3.2  Bối cảnh và lý thuyết 3.2.1 Tìm kiếm sự tương đồng 3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồng 3.2  Bối cảnh và lý thuyết 3.2.1 Tìm kiếm sự tương đồngThuật toán đầu tiên tìm kiếm các từ ngắn có mặt trong cả hai chuỗi, và sau đó mở rộng ở mỗi đầu để tìm thấy những phân đoạn dài nhất có mặt trong cả hai. Ý nghĩa thống kê của những cao điểm cặp phân khúc được đánh giá để xác định xem sự kết hợp là ngẫu nhiên hay không. Như vậy, điểm được giao trong một tìm kiếm BLAST có một giải thích thống kê được xác định rõ, làm cho sự liên kết thực sự dễ dàng hơn để phân biệt với nền ngẫu nhiên.3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngLàm thế nào để sử dụng BLAST(ựa chọn các chương trình BLASTCác trang tìm kiếm BLAST cho phép bạn chọn từ một vài chương trình khác nhau.Dưới đây là một bảng của các chương trình này.3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồng	blastp: So sánh truy vấn một chuỗi axit amin với một cơ sở dữ liệu trình tự protein.blastn: So sánh một chuỗi truy vấn nucleotide với một cơ sở dữ liệu trình tự nucleotide.blastx: So sánh một chuỗi truy vấn nucleotide dịch trong tất cả các khung đọc đối với một cơ sở dữ liệu trình tự protein. Bạn có thể sử dụng tùy chọn này để tìm các sản phẩm dịch tiềm năng của một trình tự nucleotide không rõ.3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồng Tblastn: So sánh một chuỗi truy vấn protein với một cơ sở dữ liệu trình tự nucleotide tự động dịch trong tất cả các khung đọc.Tblastx: So sánh các bản dịch sáu-khung của một chuỗi truy vấn nucleotide với các bản dịch sáu khung của một cơ sở dử liệu trình tự nucleotide. Xin lưu ý rằng chương trình tblastx không có thể được sử dụng với cơ sở dữ liệu như trên trang Web BLAST bởi vì nó được tính toán chuyên sâu.3.2.2 DNA và protein chuỗiTrình tự DNA: Chọn một cơ sở dữ liệu axit nucleic. Chọn trong số các sinh vật cụ thể (ví dụ như: Agrobacterium), bao gồm (ví dụ, blastn nonredundant), hoặc chuyên ngành thiết lập (ví dụ, dbEST, dbSTS, GSS, HTG) cơ sở dữ liệu và sử dụng blastn chương trình BLAST. Trình tự Protein : Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) sử dụng chương trình BLAST blastp.3.2.2 DNA và protein chuỗiNhững hình ảnh cho thấy một ví dụ cho một protein. Thay vì một trình tự protein, nó cũng có thể sử dụng một chuỗi DNA.Hình1: Pubmed nhập cảnh của epoxide hydrolase từ radiobacter AD1 Agrobacterium Accession # DescriptionGenBank Identifier (gi)3.2.2 DNA và protein chuỗiĐể thực hiện một tìm kiếm BLAST chuỗi FastA định dạng được sử dụng trong đó bao gồm một lớn hơn biểu tượng (>) theo sau bởi một dòng mô tả duy nhất và trong các dòng tiếp theo trình tự quan tâm.Hình 2: Để sao chép và dán chuỗi vào blastp, định dạng FastA được sử dụng.3.2.3 Kiểm tra các điểm liên kết và thống kêĐiểm số nguyên "S" của sự liên kết thường được tính bằng cách cộng điểm cho mỗi mẫu tự này đến mẫu tự khác, mẫu tự này đến vị trí vô cùng trong sự liên kết. Điểm cho mỗi vị trí của một liên kết được bắt nguồn từ một ma trận thay thế phổ biến nhất trong số này là các ma trận BLOSUM và PAM. Không giống như số điểm nguyên, bản miêu tả số điểm bit (được hiển thị ở bên phải trong cửa sổ đầu ra) cho các loại hình của hệ thống tính điểm được sử dụng, và do đó thông tin mới hơn. 3.2.3 Kiểm tra các điểm liên kết và thống kêĐiểm số bit được tính từ số điểm nguyên bằng cách bình thường với các biến số thống kê để xác định một hệ thống tính điểm. Do đó, điểm số bit từ sự sắp xếp khác nhau, thậm chí cả những người sử dụng ma trận điểm khác nhau có thể được so sánh. Số điểm càng cao sự liên kết càng cao, nhưng ý nghĩa của một sự liên kết không thể được rút ra từ số điểm đơn lẻ. Xem Thống kê dưới đây.3.2.3 Kiểm tra các điểm liên kết và thống kê	Một vị trí mà tại đó một mẫu tự được kết hợp với một vô giá trị được gọi là một khoảng cách. Khoảng cách điểm số là tiêu cực. Kể từ khi một sự kiện đột biến duy nhất có thể gây ra chèn vào hoặc xóa nhiều hơn một dư lượng, sự hiện diện của khoảng cách là thường xuyên được gán cho ý nghĩa quan trọng hơn chiều dài của khoảng cách. Do đó khoảng cách cản trở nặng, trong khi một sự cản trở thấp hơn là gán cho mỗi dư lượng tiếp theo trong khoảng cách.3.2.3 Kiểm tra các điểm liên kết và thống kêNguyên điểmĐiểm số của một liên kết, S, được tính là tổng của điểm thay thế và khoảng cách. Thay thế (không giống hệt các axit amin ở một vị trí nhất định trong một sự liên kết) điểm được đưa ra bởi nhìn lên bảng (xem PAM, BLOSUM). Khoảng cách điểm số thường được tính là tổng của G, mở L, khoảng cách bất lợi và phần mở rộng khoảng cách bất lợi. Đối với một khoảng cách của độ dài n, giá trị khoảng cách sẽ được G + Ln. Việc lựa chọn giá trị khoảng cách, G và L là thực nghiệm, nhưng nó là cách thức để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2).3.2.3 Kiểm tra các điểm liên kết và thống kêĐiểm bit'S giá trị có nguồn gốc từ S Điểm số nguyên liên kết, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào bản miêu tả. Bởi vì điểm số bit đã được bình thường hoá cụ thể đến hệ thống tính điểm, nó có thể được sử dụng để so sánh điểm liên kết từ tìm kiếm khác nhau.S '=  S - (lnK/ln2)Lambda và K là các thông số phụ thuộc vào các hệ thống tính điểm (ma trận thay thế và giá trị khoảng cách) đã sử dụng [4-6].3.2.3 Kiểm tra các điểm liên kết và thống kêE giá trị: giá trị kỳ vọngVới giá trị E, tầm quan trọng của điểm số có thể được đánh giá. Nó là một phương pháp để quyết định, nếu một liên kết sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai trình tự hoàn toàn không liên quan.Số lượng các sự sắp xếp khác nhau với số điểm tương đương hoặc tốt hơn so với S được dự kiến sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu ngẫu nhiên. E thấp hơn các giá trị, quan trọng hơn số điểm.E = mn * 2-S 'Các tham số m và n là độ dài của chuỗi truy vấn và cơ sở dữ liệu.3.2.4 PSI-BLASTVị trí BLAST lặp đi lặp lại cụ thể (PSI-BLAST) đề cập đến một tính năng của 2,0 BLAST trong đó một thông tin cá nhân (hoặc vị trí cụ thể đánh dấu ma trận, PSSM) được xây dựng (tự động) từ một liên kết nhiều chạm mức điểm cao nhất trong một tìm kiếm BLAST ban đầu. PSSM được tạo ra bằng cách tính toán điểm số vị trí cụ thể cho từng vị trí trong sự liên kết. Vị trí cao bảo tồn nhận được điểm cao và vị trí yếu bảo tồn nhận được điểm gần bằng không. Thông tin cá nhân được sử dụng để thực hiện một tìm kiếm BLAST tiếp theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh thông tin cá nhân. Điều này lặp đi lặp lại tìm kiếm kết quả chiến lược tăng nhạy cảm. PSI-BLAST tìm kiếm có tiềm năng để xác định homologies yếu.3.2.4 PSI-BLASTLiên kết:BLAST: FastA: Swiss-Prot: Cơ sở dữ liệu NCBI: Tài liệu tham khảo1. Chang, WI, Lawler, EL, xấp xỉ chuỗi kết hợp trong thời gian dự kiến. Kỷ yếu của Hội nghị chuyên đề thứ 31 hàng năm IEEE Khoa học máy tính Cơ sở năm 1990: p. 116-124.2. Wu, S., Manber, U., Fast văn bản tìm kiếm các lỗi cho phép. Nghiên cứu của ACM, năm 1992. 35: p. 83-90.3. Myers, EW, thuật toán dưới để tìm kiếm từ khóa gần đúng. Algorithmica, năm 1994. 12: p. 345-374 Tài liệu tham khảo4. Altschul, SF, et al, Gapped BLAST và BLAST PSI: một thế hệ mới cúa chương trình tìm kiếm cơ sở dữ liệu protein. Axit nucleic Res năm 1997. 25 (17): p. 3389-402.5. Altschul, SF và W. Gish, số liệu thống kê liên kết địa phương. Phương Pháp Enzymol, năm 1996. 266: p. 460-80.6. Karlin, S. và SF Altschul, phương pháp đánh giá ý nghĩa thống kê các tính năng trình tự phân tử bằng cách sử dụng chương trình chấm điểm chung. Proc Natl Acad Sci U S A, 1990. 87 (6): p. 2264-8.3.3 Các bài tập	Nhiệm vụ 3.1Hãy tìm trình tự DNA và protein của epoxide hydrolase từ Agrobacterium tumefaciens AD1 (DNA EMBL nhập: Y12804; Protein EMBL nhập: CAA73331). Thực hiện tìm kiếm blastn, blastp và blastx và so sánh kết quả. Hãy thử sử dụng các thiết lập mặc định và các thông số thích hợp (ma trận điểm, chi phí khoảng cách, E-giá trị). So sánh kết quả của việc tìm kiếm cơ sở dữ liệu DNA và protein: bạn sẽ có được kết quả tương tự bằng cách sử dụng blastn, blastp và blastx? Bạn có thể giải thích những kết quả này không?3.3 Các bài tập	Nhiệm vụ 3.2Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. PSI-BLAST tìm thấy protein không? Có các loại enzyme được tìm thấy? Giải thích lý do tại sao điều này có thể được.
File đính kèm:
TIN SINH HOC P65.ppt