Đề tài Tin Sinh học: Trình tự của các tương đồng - Xây dựng cây phát sinh

So sánh trình tự protein là một trong những cơ sở của tin sinh học. Khả năng của chúng tôi để thực hiện nhanh chóng so sánh trình tự tự động tạo điều kiện cho tất cả mọi thứ từ giao chức năng cho một trình tự mới, để dự báo và xây dựng mô hình cấu trúc protein, để thiết kế và phân tích thí nghiệm biểu hiện gen.

ppt54 trang | Chia sẻ: gaobeo18 | Lượt xem: 917 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đề tài Tin Sinh học: Trình tự của các tương đồng - Xây dựng cây phát sinh, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
ấy trong cấu trúc là tốt. Với một kiến thức chi tiết về hóa sinh của protein, bạn có thể tạo ra một sự liên kết nhiều bằng tay. Đây là một quá trình khó nhọc. Tuy nhiên, các thách thức của sự liên kết tự động là rất khó để xác định chính xác những gì một sự liên kết tối ưu là nhiều và không thể thiết lập một tiêu chuẩn cho một sự liên kết nhiều chính xác. Về lý thuyết, có một quá trình tiến hóa cơ bản và một sự liên kết tiến hóa chính xác được tạo ra từ bất kỳ nhóm các trình tự. Tuy nhiên, sự khác biệt giữa các trình tự có thể rất tuyệt vời trong các bộ phận của một liên kết mà không có một, giải pháp duy nhất rõ ràng được tìm thấy bởi một thuật toán sắp xếp. Những khu vực khác nhau thường có cấu trúc tương tự là tốt. Hầu hết những cái nhìn sâu sắc mà chúng ta xuất phát từ sự sắp xếp nhiều từ việc phân tích các khu vực tương tự, không phải từ nỗ lực để gắn kết các vùng rất phân tán. Các thuật toán lập trình năng động được sử dụng cho sự liên kết các cặp chuỗi về mặt lý thuyết có thể được mở rộng cho bất kỳ số lượng các trình tự. Tuy nhiên, các yêu cầu về thời gian và bộ nhớ của thuật toán này tăng theo cấp số nhân với số trình tự. Năng động, lập trình liên kết của hai chuỗi mất vài giây. Liên kết của bốn trình tự tương đối ngắn mất một vài giờ. Ngoài ra, nó trở nên không thực tế để sắp xếp trình tự theo cách này. Các MSA là một chương trình thực hiện một thuật toán làm giảm sự phức tạp của các vấn đề lập trình năng động cho các trình tự ở nhiều mức độ nào đó. Nó có thể sắp xếp khoảng bảy chuỗi protein tương đối ngắn (200-300 amino axit) trong một khoảng thời gian hợp lý. Một cách tiếp cận chung để liên kết nhiều trình tự là để dần dần sắp xếp các cặp trình tự. Các chiến lược tổng thể tiến bộ có thể được trình bày như sau: một cặp khởi đầu của chuỗi được chọn và liên kết, sau đó, mỗi chuỗi tiếp theo là gắn kết với sự liên kết trước đó. Giống như các thuật toán Needleman-Wunsch và Smith-Waterman cho sự liên kết trình tự, tiến bộ liên kết là một cách thể hiện của một thuật toán heuristic. Cụ thể, đó là một thuật toán tham lam. Các thuật toán tham lam phân hủy một vấn đề thành nhiều phần, sau đó chọn giải pháp tốt nhất cho mỗi phần mà không chú ý đến các vấn đề chung. Trong trường hợp của sự liên kết tiến bộ, các vấn đề tổng thể (liên kết của nhiều trình tự) được chia ra thành một loạt các bước liên kết cặp). Bởi vì nó là một thuật toán heuristic, sự liên kết tiến bộ không được bảo đảm để tìm ra sự liên kết tốt nhất có thể. Tuy nhiên, trong thực tế nó là hiệu quả và kết quả sản xuất sinh học có ý nghĩa.4.1.6 Nhiều trình tự sắp với ClustalW Một chương trình thường được sử dụng cho sự liên kết trình tự nhiều tiến bộ là ClustalW. Các heuristic được sử dụng trong ClustalW là dựa trên phân tích phát sinh loài. Đầu tiên, một khoảng cách cặp ma trận cho tất cả các trình tự được liên kết được tạo ra, và một cây hướng dẫn được tạo ra bằng cách sử dụng các thuật toán láng giềng, tham gia. Sau đó, mỗi cặp chặt chẽ nhất có liên quan của các chuỗi - ngoài cùng các chi nhánh của cây - là liên kết với nhau bằng cách sử dụng chương trình năng động. Tiếp theo, mỗi liên kết mới được phân tích để xây dựng một hồ sơ trình tự. Cuối cùng, các cấu hình liên kết là liên kết với nhau hoặc với các trình tự khác (tùy thuộc vào cấu trúc liên kết của cây) cho đến khi một sự liên kết được xây dựng. Chiến lược này tạo ra sự sắp xếp hợp lý theo một loạt các điều kiện. Nó không đơn giản, đối với các trình tự xa, nó có thể xây dựng không chính xác của sự liên kết cặp và phân tích phát sinh loài. Nhưng đối với các bộ liên tục với một số cặp dể nhận ra có liên quan, nó được xây dựng trên những thế mạnh của các phương pháp này. Cặp trình tự sắp xếp bằng cách lập trình năng động là rất chính xác cho trình tự liên quan chặt chẽ đến bất kể là các giá trị ma trận điểm hoặc hình phạt được sử dụng. Phát sinh loài phân tích tương đối rõ ràng cho các trình tự liên quan chặt chẽ. Sử dụng nhiều trình tự để tạo ra các cấu hình tăng tính chính xác của sự liên kết cặp với trình tự xa hơn. Có nhiều thông số liên quan đến nhiều sự liên kết chuỗi. Có tất nhiên, các ma trận điểm và hình phạt khoảng cách liên kết với các bước liên kết cặp. Ngoài ra, còn có các thông số trọng mà làm thay đổi điểm sắp xếp ma trận được sử dụng trong hồ sơ trình tự và hồ sơ cá nhân. Các thông số liên kết cặp quen thuộc và có cùng một nghĩa trong nhiều liên kết như trong sự liên kết cặp. Các thông số liên kết bao gồm việc mở nhiều khoảng cách và hình phạt mở rộng khoảng cách cho quá trình liên kết nhiều - được sử dụng khi tinh chỉnh sắp xếp - và một sự chậm trễ tối đa cho phép, về độ dài chuỗi, bắt đầu trình tự khác nhau vào lúc bắt đầu của sự liên kết. Một trong những chẩn đoán của ClustalW rằng trong sự liên kết chuỗi protein, các ma trận điểm khác nhau được sử dụng cho mỗi liên kết dựa trên khoảng cách tiến hóa dự kiến. Nếu hai chuỗi là láng giềng gần cây, trong một ma trận điểm tối ưu hóa cho các mối quan hệ gần gũi sắp xếp chúng. Các láng giềng xa được liên kết bằng cách sử dụng các ma trận tối ưu hóa các mối quan hệ xa. Vì vậy, khi được nhắc để lựa chọn một loạt các ma trận trong menu nhiều liên kết tham số, nó có nghĩa là chỉ rằng: sử dụng BLOSUM62 cho quan hệ gần gũi và BLOSUM45 cho mối quan hệ xa hơn, chứ không phải là ma trận điểm giống nhau cho tất cả các sắp xếp cặp. Một phương pháp heuristic mà ClustalW sử dụng là hình phạt khoảng cách có thể mở rộng cho sắp xếp hồ sơ cá nhân protein. Một khoảng cách mở bên cạnh một dư lượng kỵ nước bảo tồn có thể bị phạt nhiều hơn so với mở cửa khoảng cách bên cạnh một dư lượng ưa nước. Một khoảng cách mở quá gần với một khoảng cách khác có thể bị phạt nặng nề hơn nhiều so với một khoảng cách cô lập. 4.2 Phát sinh loài phân tích 	 Thông tin từ các acid nucleic và các chuỗi protein có thể được sử dụng để suy ra các mối quan hệ phát sinh loài trong số các trình tự và các sinh vật là nguồn của các trình tự. Lý do khá đơn giản - càng nhiều đột biến cần thiết để thay đổi một chuỗi thành cái khác, không liên quan nhiều hơn các trình tự và xác suất thấp hơn mà họ chia sẻ một trình tự tổ tiên chung gần đây. Ngược lại, một cặp giống nhau hơn về trình tự, việc ít hơn số lượng các thay đổi cần thiết và khả năng lớn hơn mà họ chia sẻ một trình tự tổ tiên chung gần đây. Chúng tôi có thể xây dựng một cây từ bất kỳ thiết lập liên kết của trình tự, nhưng nếu chúng tôi cố gắng để giải thích các cây để suy ra thời gian thực tế của sự khác nhau về các trình tự, chúng tôi sẽ phải giả định rằng các gen lựa chọn này không thuộc thẩm lựa chọn khác biệt, và rằng tỷ lệ thay đổi đã được tương đối ổn định. Mặc dù các điều kiện này có thể không thường xuyên được đáp ứng, giả sử chúng cho phép dự đoán hữu ích được thực hiện. Để biết thêm kiến thức về các mối quan hệ tiến hóa so sánh giữa các sinh vật, và so sánh các gen khác nhau có thể cần thiết để cải thiện dự đoán như vậy. Các mối quan hệ phát sinh loài thường được minh họa trong một cây đồ họa. Như một cái cây là một đồ thị 2-chiều cho thấy mối quan hệ tiến hóa giữa các sinh vật hoặc trong các gen nhất định từ sinh vật riêng biệt. Cây bao gồm có các nút đại diện cho các đơn vị phân loại và chi nhánh đại diện các mối quan hệ giữa các đơn vị phân loại này. Độ dài của các ngành này thường được vẽ tỉ lệ thuận với số lượng thay đổi trình tự trong ngành. Một ví dụ về một cây như vậy phát sinh loài được đưa ra ở trên. Ví dụ về một cây bắt nguồn từ 4 đơn vị phân loại cho thấy độ dài ngành tỷ lệ thuận với số lượng thay đổi trong các ngành. Đối với một giải thích chính xác các đặc tính cây là cần thiết. * Một con đường duy nhất dẫn từ nút gốc đến bất kỳ nút khác và sự chỉ đạo cho thấy thời gian tiến hóa. * Gốc được xác định bằng cách bao gồm một đơn vị phân loại là hợp lý chắc chắn phân nhánh ra sớm hơn so với các loài khác được nghiên cứu nhưng phải liên quan đến các đơn vị phân loại còn lại. * Nếu chúng ta không có một đơn vị phân loại để xác định gốc rễ, chúng ta có thể dự đoán các mối quan hệ bởi một cây không có rễ. Ba loại phân tích để kiểm tra có thể xảy ra hầu hết các mối quan hệ phát sinh loài giữa các trình tự được sử dụng: - Phương pháp  khoảng cách: Có thể lấy tất cả cặp chuỗi liên kết để xác định những cặp tương tự hoặc liên quan chặt chẽ. Những sự sắp xếp này cung cấp một thước đo về khoảng cách di truyền giữa các chuỗi. Những phép đo khoảng cách này sau đó được sử dụng để dự đoán mối quan hệ tiến hóa. - Phương pháp  cẩn thận  tối đa: Một liên kết nhiều chuỗi được sản xuất để dự đoán thứ tự các vị trí có khả năng tương ứng. Những vị trí này sẽ xuất hiện trong cột dọc của sự liên kết nhiều chuỗi. Đối với mỗi vị trí phù hợp, cây phát sinh loài đó có yêu cầu số lượng nhỏ nhất của thay đổi tiến hóa để sản xuất những thay đổi trình tự quan sát được xác định. Phân tích này là tiếp tục cho mỗi vị trí trong sự liên kết chuỗi. Cuối cùng, những cây sản xuất số lượng nhỏ nhất của những thay đổi tổng thể cho tất cả các vị trítrình tự được xác định. - Phương pháp khả năng tối đa: Như phương pháp sự cẩn thận tối đa, các phương pháp khả năng tối đa phụ thuộc khi đầu tiên có được một sự liên kết nhiều chuỗi đáng tin cậy và sau đó kiểm tra những thay đổi trong mỗi cột của sự liên kết. Trong trường hợp này, khả năng của một cây cụ thể được tính bằng cách sử dụng một mô hình dự kiến của sự thay đổi trong các cảnh quay. Ví dụ, tất cả các nucleotide được giả định là như nhau thường xuyên và xác suất của sự thay đổi của bất kỳ nucleotide khác được giả định là giống nhau trong mô hình Jukes-Cantor. Đối với mỗi cây có thể, khả năng của việc tìm kiếm các thay đổi trình tự thực tế tại mỗi cột trong các chuỗi liên kết được tính toán. Xác suất cho mỗi vị trí phù hợp sau đó được nhân với nhau để cung cấp một khả năng cho mỗi cây. Cây cung cấp các giá trị khả năng tối đa là cây có thể xảy ra nhất. Một phân tích phát sinh loài theo các bước sau đây: 1. Liên kết nhiều chuỗi. 2.  Xây dựng cây. 3. Đánh giá của tín hiệu phát sinh loài trong dữ liệu và sự vững mạnh của cây tính.VÍ DỤ: CÁC BƯỚC XÂY DỰNG CÂY PHÁT SINHCẢM ƠN THẦY CÔ VÀ CÁC BẠN!

File đính kèm:

  • pptTIN SINH HOC P45.ppt
Bài giảng liên quan