Tin Sinh học - Phần 3 Tìm kiếm trình tự tương đồng: Blast

 Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học.

 

ppt39 trang | Chia sẻ: gaobeo18 | Lượt xem: 1575 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Tin Sinh học - Phần 3 Tìm kiếm trình tự tương đồng: Blast, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
ần phân tích với cấu trúc chuỗi nuleotide trong cơ sở dữ liệu. Blastx: So sánh cấu trúc chuỗi nucleotide cần phân tích dưới dạng được dịch đầy đủ với một cấu trúc protein trong cơ sở dữ liệu. Bạn có thể sử dụng phương án này để tìm sản phẩm dịch có thể có của một trình tự nucleotide không rõ. Tblastn: So sánh một cấu trúc chuỗi protein dược địch mã bảo toàn từ trình tự chuỗi nucleotide trong cơ sở dữ liệu. Tblastx: So sánh cấu trúc chuỗi nucleotide cần phân tích với cấu trúc chuỗi nucleotide trong cơ sở dữ liệu. Xin lưu ý rằng chương trình tblastx không thể được sử dụng với cơ sở dữ liệu nr trên trang BLAST Web bởi vì nó được tính toán chuyên sâu.3.1.2. Phương pháp tìm kiếm chuỗi tương đồng bằng chương trình BLASTThao tác cơ bản khi sử dụng chương trình phân tích cấu trúc chuỗi tương đồng BLAST gồm các bước chính sau: Bước 2: Nhập dữ liệu Chương trình xử lý trực tuyến BLAST cho phép nhập dữ liệu chuỗi phân tích trực tuyến dạng ký tự qua bàn phím hay nhập dữ liệu đã được viết theo một trong 3 ngôn ngữ là “” FASTA sequence format, “Identifiers” và “Bare sequence”Bước 3: Đặt vùng phân tích “Set Subsequence” Trong mục này, người phân tích phải cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bàng hai giá trị số chỉ vị trí giới hạn đầu cuối đoạn chuối ấy. Trong trường hợp cần phân tích toàn chuỗi, dữ liệu nhập sẽ có dạng From I to length.Bước 4 Lựa chọn ngân hàng dữ liệu “choose databases” Trong bước lựa chọn này, người phân tích phải xác định nhóm dữ liệu cụ thể của ngân hàng dữ liệu được chỉ định làm đối tượng so sánh. Thao tác lựa chọn này được thực hiện bằng cách dùng chuột đánh dấu vào một trong các mảng cấu trúc chuỗi, trong cửa sổ giao tiếp “choose databases”, tương ứng với đối tượng chuỗi cần phân tíchNhập mã truy mật hoặc trình tự cần so sánhHoặc tải trình tự có sẵn trong máy tínhChọn cơ sở dữ liệuVí dụ với chương trình blastpBước 5: Gửi yêu cầu xử lí Sau khi nhập hết dữ liệu, người phân tích nhấn lệnh “BLAST” để gửi tin đi. Sau khoảng thời gian chờ đợi ngắn, chương trình BLAST sẽ phục hồi yêu cầu với dạng giao diện như :Phần đầu hiển thị kết quả sơ bộ dạng đồ họa hình ảnh màu sắc của các chuỗi tương đồng cao nhất.Phần tiếp theo hiển thị kết quả dạng kí tự tóm tắt kết quảPhần cuối cùng hiển thị kết quả cụ thể khi so sánh Ví dụ, tiếp sau việc khám phá ra các gen mà trước đây chưa biết ở chuột (loại mus musculus), một nhà khoa học sẽ thường thực thi một tìm kiếm BLAST trên genome người để tìm kiếm xem liệu con người có mang các gen giống vậy không; BLAST sẽ xác định các chuỗi nào trong genome người mà giống với gen chuột dựa trên sự giống nhau của chuỗi.Hiển thị kết quả sơ bộ dạng đồ họa hình ảnh màu sắc của các chuỗi tương đồng cao nhất.Hiển thị kết quả dạng kí tự tóm tắt kết quảHiển thị kết quả cụ thể khi so sánh3.1.3. Ý nghĩa:BLAST là một trong những chương trình được sử dụng rộng rãi nhất trong tin sinh học, có lẽ là vì nó giúp giải quyết một vấn đề cơ bản và giải thuật tập trung vào tốc độ hơn tính chính xác. Nó tập trung vào tốc độ vì đó là quyết định đến tính thực tiễn của giải thuật do cơ sở dữ liệu về genome người là cực kì lớn, mặc dù các giải thuật về sau có thể nhanh hơn. * Ứng dụng BLAST trong việc xây dựng cây phát sinh chủng loài: Thông tin từ các nucleotit và các chuỗi protein có thể được sử dụng để suy ra mối quan hệ phát sinh loài. Bởi vì cần nhiều đột biến nhỏ tích lũy thành đột biến lớn để có thể thay đổi chuỗi này thành chuỗi khác. Vì vậy một cặp so sánh giống nhau hơn về trình tự hay có ít hơn các thay đổi có thể cho thấy chúng có tổ tiên gần nhau hơn. Do vậy chúng ta có thể xây dựng được cây phát sinh chủng loại3.1.4 Trình tự DNA và proteinTrình tự DNA: Chọn một cơ sở dữ liệu acid nucleic hiện hành. Chọn trong số các sinh vật, cụ thể: (ví dụ như Agrobacterium), bao gồm (ví dụ, blastn nonredundant), hoặc thiết lập các chuyên ngành (ví dụ, dbEST, dbSTS, GSS, HTG) cơ sở dữ liệu và chương trình BLAST sử dụng blastn. Trình tự Protein: Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) sử dụng blastp của chương trình BLAST.Những hình ảnh cho thấy một ví dụ cho protein. Thay vì một chuỗi protein nó cũng có thể sử dụng một trình tự DNA.Accession # DescriptionGenBank Identifier (gi)Hình. 1: Pubmed-nhập cảnh của các hydrolase epoxit từ Agrobacterium radiobacter AD1Để thực hiện một tìm kiếm BLAST trình tự FastA định dạng được sử dụng trong đó bao gồm một biểu tượng lớn hơn (>) theo sau là một dòng mô tả và trong các dòng tiếp theo trình tự quan tâm.Hình2: Để sao chép và dán trình tự vào blastp, sử dụng định dạng FastA 3.1.5 Kiểm tra các điểm liên kết và thống kê Điểm số raw "S" của sự liên kết thường được tính bằng tổng điểm cho vị trí  mỗi chữ cái, chữ cái vô nghĩa  trong liên kết. Điểm cho mỗi vị trí của một liên kết được bắt nguồn từ một ma trận thay thế, phổ biến nhất trong số này là các ma trận BLOSUM và PAM. Không giống như số điểm raw, điểm bit (được hiển thị ở bên phải trong cửa sổ ) cho các loại hình của hệ thống tính điểm được sử dụng, nên thông tin mới hơn. Điểm số bit được tính từ số điểm raw bằng cách chuẩn hóa với các biến số thống kê để xác định một hệ thống tính điểm. Do đó, điểm số bit từ sự liên kết khác nhau, thậm chí cả những người sử dụng ma trận điểm khác nhau có thể được so sánh. Số điểm càng cao  sự liên kết càng tốt , nhưng ý nghĩa của một sự liên kết không thể được rút ra chỉ từ số điểm. Xem Thống kê dưới đây. Một vị trí mà tại đó một chữ cái được kết hợp với một vô giá trị được gọi là một khoảng cách. Điểm số khoảng trống là âm. Kể từ khi một sự kiện đột biến đơn lẻ có thể gây ra sự chèn vào hoặc xóa nhiều hơn một dư lượng, sự hiện diện của khoảng trống thường xuyên có ý nghĩa quan trọng hơn chiều dài của khoảng trống. Do đó khoảng trống bị phạt nặng nề, trong khi một hình phạt nhẹ hơn là các dư lượng sau trong khoảng trống Điểm số RAW Điểm số của một liên kết, S, được tính là tổng điểm thay thế và khoảng cách. Thay thế (các axit amin khác nnhau ở một vị trí nhất định trong một liên kết ) điểm được đưa ra bởi tìm kiếm trên bảng (xem PAM, BLOSUM). Điểm số khoảng trống thường được tính là tổng của G, hình phạt đoạn mở, và L, hình phạt  khoảng trống mở rộng khoảng . Đối với một khoảng trống chiều dài n, hao tốn khoảng trống sẽ là G + Ln. Việc lựa chọn  hao phí khoảng cách, G và L là thực nghiệm, nhưng nó là cách để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2). Điểm số bit   Giá trị có S’ có nguồn gốc từ liên kết raw điểm S, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào bảng. Bởi vì điểm số bit đã được chuẩn hoá liên quan đến hệ thống tính điểm, có thể được sử dụng để so sánh điểm liên kết từ tìm kiếm khác nhau. S '=  S - (lnK/ln2) Lambda và K là các thông số phụ thuộc vào hệ thống tính điểm (ma trận  thay thế và hao tổn khoảng cách) sử dụng [06/04]. Giá trị E: giá trị mong đợi Với giá trị E, ý nghĩa của điểm số có thể được đánh giá. Nó là một phương pháp để quyếtđịnh, liệu một liên kết sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai trình tự hoàn toàn không liên quan. Số lượng các liên kết khác nhau với số điểm tương đương hoặc tốt hơn so với S được dự kiến ​​sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu bằng sự lựa chọn. Giá trị E càng thấp , số điểm càng có ý nghĩa	E = mn * 2-S 'Các tham số m và n là độ dài của trình tự truy vấn và cơ sở dữ liệu.3.2.6 PSI-BLAST Vị trí cụ thể lặp lại  BLAST (PSI-BLAST) đề cập đến một tính năng của 2,0 BLAST trong đó một dữ liệu (hoặc vị trí ma trận ghi điểm số cụ thể , PSSM) được xây dựng (tự động ) từ một đa liên kết của mức điểm cao nhất trong một tìm kiếm BLAST. PSSM sinh ra bởi cách tính toán vị trí điếm số cụ thể cho mỗi vị trí trong liên kết..Vị trí bảo tồn cao nhận được điểm cao và  vị trí bảo tồn yếu nhận được điểm gần bằng không. Dữ liệu được sử dụng để thực hiện một tìm kiếm BLAST tiếp theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh dữ liệu. Cách tìm kiếm lặp đi lặp lại làm  tăng độ nhạy  của tìm kiếm  PSI-BLAST  có khả năng thậm chí để xác định các tương đồng yếu.Liên kết:BLAST:    databases:  ài liệu tham khảo:	1. Chang, W. I., Lawler, E. L., Approximate string matching in sublinear expected time. Proceedings of the 31st Annual IEEE Symposium on Foundations Computer Science, 1990: p. 116-124.	2. Wu, S., Manber, U., Fast text searching allowing errors. Comunications of the ACM, 1992. 35: p. 83-90.	3. Myers, E. W., A sublinear algorithm for approximate keyword searching. Algorithmica, 1994. 12: p. 345-374.	4. Altschul, S. F., et al., Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res, 1997. 25(17): p. 3389-402.	5. Altschul, S. F. and W. Gish, Local alignment statistics. Methods Enzymol, 1996. 266: p. 460-80.	6. Karlin, S. and S. F. Altschul, Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc Natl Acad Sci U S A, 1990. 87(6): p. 2264-8. 3.2. Bài tập 3.1 Lấy DNA và trình tự protein của epoxide hydrolase từ Agrobacterium tumefaciens AD1 (DNA EMBL: Y12804; Protein EMBL: CAA73331). Thực thiện tìm kiếm blastn, blastp và blastx và so sánh kết quả. Cố gắng sử dụng cài đặt mặc định và thông số phù hợp (điểm số, ma trận, hao phí khoảng trống, Giá trị E). So sánh với kết quả của CSDL tìm kiếm DNA và Protein: Bạn có được cùng kết quả với blastn, blastp và blastx không? Hãy giải thích kết quả? 3.2. Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. PSI-BLAST tìm thấy protein nào? Có loại enzyme nào khác được tìm thấy không? Giải thích lý do tại sao?Bài 3.1. Protein : CAA73331Protein : CAA73331Protein : CAA73331Trang kết quảProtein : CAA73331Trang kết quảTrang kết quảProtein : CAA73331DNA : Y12804DNA : Y12804 (làm tương tự như trên với trình tự dưới đây)3.2. Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. 3.2. Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. 3.2. Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. CẢM ƠN THẦY VÀ CÁC BẠN ĐÃ LẮNG NGHE

File đính kèm:

  • pptTIN SINH HOC P63.ppt
Bài giảng liên quan