Tin Sinh học - Phần 3 Tìm kiếm trình tự tương đồng: Blast (2)

 Tìm kiếm trình tự tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein chứa thứ tứ của 100 triệu dư lượng. Để tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nổ lực để sản xuất các thuật toán nhanh hơn so với lập trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các sự sắp xếp điểm cao.

 

ppt32 trang | Chia sẻ: gaobeo18 | Lượt xem: 1436 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Tin Sinh học - Phần 3 Tìm kiếm trình tự tương đồng: Blast (2), để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
c khái niệm về một "cặp phân khúc" mà là một cặp siêu phân tử có cùng chiều dài tạo thành một liên kết không gián đoạn. 3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồng3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngChọn dữ liệuNhập tên loại protein hay DNA3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngNhấp chọn fasta3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngCopy chuỗi3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngNhấp chọn3.2  Bối cảnh và lý thuyết 3.2.1 Tìm kiếm sự tương đồng Chọn chương trình BLAST3.2  Bối cảnh và lý thuyết 3.2.1 Tìm kiếm sự tương đồngDán chuỗi3.2  Bối cảnh và lý thuyết 3.2.1 Tìm kiếm sự tương đồng 3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồng 3.2  Bối cảnh và lý thuyết 3.2.1 Tìm kiếm sự tương đồngThuật toán đầu tiên tìm kiếm các từ ngắn có mặt trong cả hai chuỗi, và sau đó mở rộng ở mỗi đầu để tìm thấy những phân đoạn dài nhất có mặt trong cả hai. Ý nghĩa thống kê của những cao điểm cặp phân khúc được đánh giá để xác định xem sự kết hợp là ngẫu nhiên hay không. Như vậy, điểm được giao trong một tìm kiếm BLAST có một giải thích thống kê được xác định rõ, làm cho sự liên kết thực sự dễ dàng hơn để phân biệt với nền ngẫu nhiên.3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồngLàm thế nào để sử dụng BLAST(ựa chọn các chương trình BLASTCác trang tìm kiếm BLAST cho phép bạn chọn từ một vài chương trình khác nhau.Dưới đây là một bảng của các chương trình này.3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồng	blastp: So sánh truy vấn một chuỗi axit amin với một cơ sở dữ liệu trình tự protein.blastn: So sánh một chuỗi truy vấn nucleotide với một cơ sở dữ liệu trình tự nucleotide.blastx: So sánh một chuỗi truy vấn nucleotide dịch trong tất cả các khung đọc đối với một cơ sở dữ liệu trình tự protein. Bạn có thể sử dụng tùy chọn này để tìm các sản phẩm dịch tiềm năng của một trình tự nucleotide không rõ.3.2  Bối cảnh và lý thuyết 3.2.1  Tìm kiếm sự tương đồng Tblastn: So sánh một chuỗi truy vấn protein với một cơ sở dữ liệu trình tự nucleotide tự động dịch trong tất cả các khung đọc.Tblastx: So sánh các bản dịch sáu-khung của một chuỗi truy vấn nucleotide với các bản dịch sáu khung của một cơ sở dử liệu trình tự nucleotide. Xin lưu ý rằng chương trình tblastx không có thể được sử dụng với cơ sở dữ liệu như trên trang Web BLAST bởi vì nó được tính toán chuyên sâu.3.2.2 DNA và protein chuỗiTrình tự DNA: Chọn một cơ sở dữ liệu axit nucleic. Chọn trong số các sinh vật cụ thể (ví dụ như: Agrobacterium), bao gồm (ví dụ, blastn nonredundant), hoặc chuyên ngành thiết lập (ví dụ, dbEST, dbSTS, GSS, HTG) cơ sở dữ liệu và sử dụng blastn chương trình BLAST. Trình tự Protein : Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) sử dụng chương trình BLAST blastp.3.2.2 DNA và protein chuỗiNhững hình ảnh cho thấy một ví dụ cho một protein. Thay vì một trình tự protein, nó cũng có thể sử dụng một chuỗi DNA.Hình1: Pubmed nhập cảnh của epoxide hydrolase từ radiobacter AD1 Agrobacterium Accession # DescriptionGenBank Identifier (gi)3.2.2 DNA và protein chuỗiĐể thực hiện một tìm kiếm BLAST chuỗi FastA định dạng được sử dụng trong đó bao gồm một lớn hơn biểu tượng (>) theo sau bởi một dòng mô tả duy nhất và trong các dòng tiếp theo trình tự quan tâm.Hình 2: Để sao chép và dán chuỗi vào blastp, định dạng FastA được sử dụng.3.2.3 Kiểm tra các điểm liên kết và thống kêĐiểm số nguyên "S" của sự liên kết thường được tính bằng cách cộng điểm cho mỗi mẫu tự này đến mẫu tự khác, mẫu tự này đến vị trí vô cùng trong sự liên kết. Điểm cho mỗi vị trí của một liên kết được bắt nguồn từ một ma trận thay thế phổ biến nhất trong số này là các ma trận BLOSUM và PAM. Không giống như số điểm nguyên, bản miêu tả số điểm bit (được hiển thị ở bên phải trong cửa sổ đầu ra) cho các loại hình của hệ thống tính điểm được sử dụng, và do đó thông tin mới hơn. 3.2.3 Kiểm tra các điểm liên kết và thống kêĐiểm số bit được tính từ số điểm nguyên bằng cách bình thường với các biến số thống kê để xác định một hệ thống tính điểm. Do đó, điểm số bit từ sự sắp xếp khác nhau, thậm chí cả những người sử dụng ma trận điểm khác nhau có thể được so sánh. Số điểm càng cao sự liên kết càng cao, nhưng ý nghĩa của một sự liên kết không thể được rút ra từ số điểm đơn lẻ. Xem Thống kê dưới đây.3.2.3 Kiểm tra các điểm liên kết và thống kê	Một vị trí mà tại đó một mẫu tự được kết hợp với một vô giá trị được gọi là một khoảng cách. Khoảng cách điểm số là tiêu cực. Kể từ khi một sự kiện đột biến duy nhất có thể gây ra chèn vào hoặc xóa nhiều hơn một dư lượng, sự hiện diện của khoảng cách là thường xuyên được gán cho ý nghĩa quan trọng hơn chiều dài của khoảng cách. Do đó khoảng cách cản trở nặng, trong khi một sự cản trở thấp hơn là gán cho mỗi dư lượng tiếp theo trong khoảng cách.3.2.3 Kiểm tra các điểm liên kết và thống kêNguyên điểmĐiểm số của một liên kết, S, được tính là tổng của điểm thay thế và khoảng cách. Thay thế (không giống hệt các axit amin ở một vị trí nhất định trong một sự liên kết) điểm được đưa ra bởi nhìn lên bảng (xem PAM, BLOSUM). Khoảng cách điểm số thường được tính là tổng của G, mở L, khoảng cách bất lợi và phần mở rộng khoảng cách bất lợi. Đối với một khoảng cách của độ dài n, giá trị khoảng cách sẽ được G + Ln. Việc lựa chọn giá trị khoảng cách, G và L là thực nghiệm, nhưng nó là cách thức để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2).3.2.3 Kiểm tra các điểm liên kết và thống kêĐiểm bit'S giá trị có nguồn gốc từ S Điểm số nguyên liên kết, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào bản miêu tả. Bởi vì điểm số bit đã được bình thường hoá cụ thể đến hệ thống tính điểm, nó có thể được sử dụng để so sánh điểm liên kết từ tìm kiếm khác nhau.S '=  S - (lnK/ln2)Lambda và K là các thông số phụ thuộc vào các hệ thống tính điểm (ma trận thay thế và giá trị khoảng cách) đã sử dụng [4-6].3.2.3 Kiểm tra các điểm liên kết và thống kêE giá trị: giá trị kỳ vọngVới giá trị E, tầm quan trọng của điểm số có thể được đánh giá. Nó là một phương pháp để quyết định, nếu một liên kết sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai trình tự hoàn toàn không liên quan.Số lượng các sự sắp xếp khác nhau với số điểm tương đương hoặc tốt hơn so với S được dự kiến sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu ngẫu nhiên. E thấp hơn các giá trị, quan trọng hơn số điểm.E = mn * 2-S 'Các tham số m và n là độ dài của chuỗi truy vấn và cơ sở dữ liệu.3.2.4 PSI-BLASTVị trí BLAST lặp đi lặp lại cụ thể (PSI-BLAST) đề cập đến một tính năng của 2,0 BLAST trong đó một thông tin cá nhân (hoặc vị trí cụ thể đánh dấu ma trận, PSSM) được xây dựng (tự động) từ một liên kết nhiều chạm mức điểm cao nhất trong một tìm kiếm BLAST ban đầu. PSSM được tạo ra bằng cách tính toán điểm số vị trí cụ thể cho từng vị trí trong sự liên kết. Vị trí cao bảo tồn nhận được điểm cao và vị trí yếu bảo tồn nhận được điểm gần bằng không. Thông tin cá nhân được sử dụng để thực hiện một tìm kiếm BLAST tiếp theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh thông tin cá nhân. Điều này lặp đi lặp lại tìm kiếm kết quả chiến lược tăng nhạy cảm. PSI-BLAST tìm kiếm có tiềm năng để xác định homologies yếu.3.2.4 PSI-BLASTLiên kết:BLAST: FastA: Swiss-Prot: Cơ sở dữ liệu NCBI: Tài liệu tham khảo1. Chang, WI, Lawler, EL, xấp xỉ chuỗi kết hợp trong thời gian dự kiến. Kỷ yếu của Hội nghị chuyên đề thứ 31 hàng năm IEEE Khoa học máy tính Cơ sở năm 1990: p. 116-124.2. Wu, S., Manber, U., Fast văn bản tìm kiếm các lỗi cho phép. Nghiên cứu của ACM, năm 1992. 35: p. 83-90.3. Myers, EW, thuật toán dưới để tìm kiếm từ khóa gần đúng. Algorithmica, năm 1994. 12: p. 345-374 Tài liệu tham khảo4. Altschul, SF, et al, Gapped BLAST và BLAST PSI: một thế hệ mới cúa chương trình tìm kiếm cơ sở dữ liệu protein. Axit nucleic Res năm 1997. 25 (17): p. 3389-402.5. Altschul, SF và W. Gish, số liệu thống kê liên kết địa phương. Phương Pháp Enzymol, năm 1996. 266: p. 460-80.6. Karlin, S. và SF Altschul, phương pháp đánh giá ý nghĩa thống kê các tính năng trình tự phân tử bằng cách sử dụng chương trình chấm điểm chung. Proc Natl Acad Sci U S A, 1990. 87 (6): p. 2264-8.3.3 Các bài tập	Nhiệm vụ 3.1Hãy tìm trình tự DNA và protein của epoxide hydrolase từ Agrobacterium tumefaciens AD1 (DNA EMBL nhập: Y12804; Protein EMBL nhập: CAA73331). Thực hiện tìm kiếm blastn, blastp và blastx và so sánh kết quả. Hãy thử sử dụng các thiết lập mặc định và các thông số thích hợp (ma trận điểm, chi phí khoảng cách, E-giá trị). So sánh kết quả của việc tìm kiếm cơ sở dữ liệu DNA và protein: bạn sẽ có được kết quả tương tự bằng cách sử dụng blastn, blastp và blastx? Bạn có thể giải thích những kết quả này không?3.3 Các bài tập	Nhiệm vụ 3.2Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. PSI-BLAST tìm thấy protein không? Có các loại enzyme được tìm thấy? Giải thích lý do tại sao điều này có thể được.

File đính kèm:

  • pptTIN SINH HOC P65.ppt
Bài giảng liên quan