Đề tài Tin Sinh học: Tìm kiếm chuỗi tương đồng

Chuỗi tìm kiếm tương tự được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự cho protein với những tương đồng với một protein truy vấn. Các cơ sở dữ liệu protein hiện có của lệnh là 100 triệu dư lượng. Đối với tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để sản xuất các thuật toán nhanh hơn các chương trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như là một phần nhỏ nhất có thể nhỏ, trong khi vẫn nhìn vào tất cả các điểm sắp xếp cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên việc mở rộng kết hợp chính xác khoa học máy tính [1-3]. Tuy nhiên, để tìm thấy phù hợp ở xa, các phương pháp này chính xác trở nên khó chữa, và cách tiếp cận heuristic đã được sử dụng, mà hy sinh một số nhạy cảm, trong đó có những trường hợp, nơi họ có thể bỏ qua sự liên kết tốt nhất ghi bàn. Một số kỹ thuật heuristic có sẵn.

21 trang | Chia sẻ: gaobeo18 | Lượt xem: 1314 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Đề tài Tin Sinh học: Tìm kiếm chuỗi tương đồng, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên

Tìm kiếm chuỗi tương đồngNgười thực hiện: Võ Thị Bích Thương 	Tìm kiếm tương đồng 	 Chuỗi tìm kiếm tương tự được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự cho protein với những tương đồng với một protein truy vấn. Các cơ sở dữ liệu protein hiện có của lệnh là 100 triệu dư lượng. Đối với tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để sản xuất các thuật toán nhanh hơn các chương trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như là một phần nhỏ nhất có thể nhỏ, trong khi vẫn nhìn vào tất cả các điểm sắp xếp cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên việc mở rộng kết hợp chính xác khoa học máy tính [1-3]. Tuy nhiên, để tìm thấy phù hợp ở xa, các phương pháp này chính xác trở nên khó chữa, và cách tiếp cận heuristic đã được sử dụng, mà hy sinh một số nhạy cảm, trong đó có những trường hợp, nơi họ có thể bỏ qua sự liên kết tốt nhất ghi bàn. Một số kỹ thuật heuristic có sẵn. Hầu hết chương trình phổ biến là: BLAST FastA Nguyên tắc trong blast: - Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được: + Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi là (Bit-Score). Giá trị càng cao chứng tỏ khả năng tương tự của các bắt cặp càng cao. + Ngoài ra BLAST tính toán một giá trị trông đợi E-Score (Expect-Score) phụ thuộc vào Bit-Score.Thu thập và lựa chọn trình tự (protein hay DNA, RNA) BlastKết quảBlastn :Chương trình này, khi đưa vào chuỗi nucleotid truy vấn, sẽ trả về các chuỗi nucleotit gần giống nhất từ cơ sở dữ liệu mà người dùng chỉ địnhProtein-protein BLAST: Chương trình này, khi đưa vào một protein truy vấn, sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu protein mà người dùng chỉ định. - Blastp - PSI-blast - PHI-blastBlastx : dịch mã protein từ trình tự DNA nhập vàoTBLASTN: tìm kiếm cơ sở dữ liệu dịch nucleotide bằng cách sử dụng một truy vấn protein.TBLASTX:tìm kiếm 6 cơ sở dữ liệu dịch nucleotide bằng cách sử dụng 6 truy vấn nucleotide dịch dịch tại tất cả các khung đọc đối với một cơ sở dữ liệu chuỗi protein. 2. DNA và các chuỗi protein 	Trình tự DNA: Chọn một cơ sở dữ liệu acid nucleic hiện hành. Chọn trong số các sinh vật, cụ thể: bao gồm (ví dụ như Agrobacterium), (ví dụ, blastn nonredundant), hoặc thiết lập các chuyên ngành (ví dụ, dbEST, dbSTS, GSS, HTG) cơ sở dữ liệu và chương trình BLAST sử dụng blastn.Protein tự: Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) blastp sử dụng chương trình BLAST.Những hình ảnh cho thấy một ví dụ cho protein. Thay vì một chuỗi protein nó cũng có thể sử dụng một trình tự DNA. Để thực hiện một tìm kiếm BLAST trình tự FastA định dạng được sử dụng trong đó bao gồm một biểu tượng lớn hơn (>) theo sau là một dòng mô tả và trong các dòng tiếp theo trình tự quan tâm.3. Kiểm tra và thống kê các điểm liên kết Các điểm số liệu "S" của sự liên kết này thường được tính bằng tổng điểm số cho mỗi vị trí ký tự chữ đến ký tự chữ và vị trí ký tự đến ký tự trắng trên liên kết. Điểm cho từng vị trí của một liên kết được bắt nguồn từ một ma trận thay thế; phổ biến nhất là các ma trận BLOSUM và PAM. Không giống như các điểm số liệu, điểm số bit (hiển thị bên phải trong cửa sổ xuất) các tài khoản cho hệ thống tính điểm được sử dụng, và do đó được nhiều thông tin. Các điểm số bit được tính từ điểm số liệu được bình thường hóa bởi các biến số thống kê để xác định một hệ thống tính điểm cho trước. Do đó, điểm số bit từ các liên kết khác nhau, ngay cả những ma trận điểm khác nhau cũng có thể được so sánh. Số điểm càng cao càng có sự liên kết chặt, nhưng ý nghĩa của sự liên kết là không thể được rút ra từ một điểm riêng lẻ. Xem Thống kê dưới đây. Một vị trí mà tại đó một ký tự được ghép nối với null được gọi là một khoảng cách. Khoảng cách điểm là tiêu cực. Vì một sự kiện đột biến có thể gây ra sự chèn hoặc xóa nhiều hơn một dư lượng, sự xuất hiện thường xuyên của khoảng cách được gán cho ý nghĩa quan trọng hơn độ dài của khoảng cách. Do đó khoảng cách là bị phạt nặng nề, trong khi một hình phạt nhẹ hơn là gán cho mỗi dư lượng tiếp theo trong khoảng cách.Hệ số liệuCác điểm số của một sự liên kết, S, được tính là tổng của điểm thay thế và khoảng cách. Thay thế (không giống axit amin ở một vị trí nhất định trong sự liên kết một) điểm số được cho bởi bảng nhìn lên (xem PAM, BLOSUM). Khoảng cách điểm số thường được tính bằng tổng của G, việc mở cửa khoảng cách hình phạt và L, phần mở rộng khoảng cách hình phạt. Đối với một khoảng cách của n chiều dài, chi phí khoảng cách sẽ là G + Ln. Việc lựa chọn chi phí khoảng cách, G và L là thực nghiệm, nhưng nó là phong tục để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2). Hệ số BitGiá trị S 'có nguồn gốc từ sự liên kết điểm số nguyên S, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào tài khoản. Bởi vì điểm số bit đã được chuẩn hóa đối với các hệ thống tính điểm, họ có thể được sử dụng để so sánh điểm số liên kết từ tìm kiếm khác nhau. S’ = S - (lnK/ln2) Lambda và K là các thông số phụ thuộc vào hệ thống tính điểm (thay thế khoảng cách ma trận và chi phí) sử dụng [4-6].E có giá trị: giá trị vọngVới giá trị E, ý nghĩa của điểm số có thể được đánh giá. Nó là một phương pháp để quyết định, nếu sắp xếp một là sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai chuỗi hoàn toàn không liên quan.Số lượng các sắp xếp khác nhau với điểm số tương đương hoặc tốt hơn so với S mà dự kiến sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu của cơ hội. Việc hạ thấp giá trị E, những điểm số quan trọng hơn.E = mn * 2-S 'Các tham số m và n là độ dài của chuỗi truy vấn và cơ sở dữ liệu.4 PSI-BLAST BLAST lặp đi lặp lại một vị trí đặc trưng (PSI-BLAST) là một tính năng của BLAST 2.0 trong đó có một hồ sơ (hoặc vị trí cụ thể ghi bàn ma trận, PSSM) được xây dựng (tự động) từ một hệ thống liên kết trong những hit mức điểm cao nhất trong một tìm kiếm BLAST ban đầu. PSSM được tạo ra bằng cách tính điểm số vị trí cụ thể cho từng vị trí trong sự liên kết này. Bảo tồn cao vị trí nhận được điểm cao và vị trí yếu bảo tồn nhận được điểm số gần số không. Các hồ sơ được sử dụng để thực hiện một tìm kiếm BLAST lên theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh hồ sơ. Điều này lặp đi lặp lại chiến lược tìm kiếm kết quả ở độ nhạy cảm tăng lên. PSI-BLAST tìm kiếm có tiềm năng để xác định tính tương đồng thậm chí còn yếu.QUÁ TRÌNH ĐƯỢC THỰC HIỆN NHƯ SAU:B1: mở trình duyệt NCBI  chọn BASTCickProgram query	 Database	 1Blastn:	 DNA	 DNA	 1Blastp:	 protein protein	 6Blastx:	 DNA	 protein	Bastn:Nhập mã truy mật hoặc trình tự cần so sánhHoặc tải trình tự có sẵn trong máy tínhChọn cơ sở dữ liệuKết Quả Thể hiện bằng sơ đồ đồ họa (a); mô tả cụ thể và (b); thể hiện các trình tự tương đồng (b)Tiến hành tương tự với Bastp ta có kết quả:Blastx: dịch mã protein từ trình tự DNA nhập vàoNhư vậy: Thông tin từ các acid nucleic và các chuỗi protein được tìm kiếm từ Blast có thể được sử dụng để suy ra các mối quan hệ phát sinh loài .Từ đó ta có cây phát sinh để tìm ra mối quan hệ giữa các loài với nhau.HJ.

File đính kèm:

TIN SINH HOC P26.ppt