Đề tài Tin Sinh học: Trình tự của các tương đồng - Xây dựng một cây phát sinh loài

 So sánh trình tự protein là một trong những cơ sở của tin sinh học. khả năng của chúng tôi để thực hiện nhanh chóng so sánh trình tự tự động tạo điều kiện cho tất cả mọi thứ từ giao chức năng cho một trình tự mới, để dự báo và xây dựng mô hình cấu trúc protein, để thiết kế và phân tích thí nghiệm biểu hiện gen. Theo dữ liệu chuỗi sinh học đã tích lũy được, nó đã trở nên rõ ràng rằng bản chất là bảo thủ. Một sinh hóa mới không tạo ra cho mỗi loài mới, và chức năng mới không tạo ra bởi sự xuất hiện đột ngột của các gen hoàn toàn mới. Thay vào đó, thay đổi gia tăng làm gia tăng sự đa dạng di truyền và chức năng mới. Với tiền đề này trong tâm trí, phát hiện sự tương tự giữa các trình tự cho phép bạn chuyển thông tin về một trình tự để trình tự tương tự khác hợp lý, mặc dù không phải luôn luôn tổng cộng, sự tự tin. Trước khi bạn có thể lập báo cáo so sánh trình tự protein, một sắp xếp trình tự là cần thiết.

 

ppt42 trang | Chia sẻ: gaobeo18 | Lượt xem: 1127 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đề tài Tin Sinh học: Trình tự của các tương đồng - Xây dựng một cây phát sinh loài, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
 kết quả sản xuất sinh học có ý nghĩa. 4.1.6 Nhiều trình tự sắp với ClustalW Một chương trình thường được sử dụng cho sự liên kết trình tự nhiều tiến bộ là ClustalW. Các heuristic được sử dụng trong ClustalW là dựa trên phân tích phát sinh loài. Đầu tiên, một khoảng cách cặp ma trận cho tất cả các trình tự được liên kết được tạo ra, và một cây hướng dẫn được tạo ra bằng cách sử dụng các thuật toán láng giềng, tham gia. Sau đó, mỗi cặp chặt chẽ nhất có liên quan của các chuỗi - ngoài cùng các chi nhánh của cây - là liên kết với nhau bằng cách sử dụng chương trình năng động. Tiếp theo, mỗi liên kết mới được phân tích để xây dựng một hồ sơ trình tự. Cuối cùng, các cấu hình liên kết là liên kết với nhau hoặc với các trình tự khác (tùy thuộc vào cấu trúc liên kết của cây) cho đến khi một sự liên kết được xây dựng. Chiến lược này tạo ra sự sắp xếp hợp lý theo một loạt các điều kiện. Nó không đơn giản, đối với các trình tự xa, nó có thể xây dựng trên không chính xác của sự liên kết cặp và phân tích phát sinh loài. Nhưng đối với các bộ liên tục với một số cặp dể nhận ra có liên quan, nó được xây dựng trên những thế mạnh của các phương pháp này. Cặp trình tự sắp xếp bằng cách lập trình năng động là rất chính xác cho trình tự liên quan chặt chẽ đến bất kể là các giá trị ma trận điểm hoặc hình phạt được sử dụng. Phát sinh loài phân tích tương đối rõ ràng cho các trình tự liên quan chặt chẽ. Sử dụng nhiều trình tự để tạo ra các cấu hình tăng tính chính xác của sự liên kết cặp với trình tự xa hơn. Có nhiều thông số liên quan đến nhiều sự liên kết chuỗi. Có tất nhiên, các ma trận điểm và hình phạt khoảng cách liên kết với các bước liên kết cặp. Ngoài ra, còn có các thông số trọng mà làm thay đổi điểm sắp xếp ma trận được sử dụng trong hồ sơ trình tự và hồ sơ cá nhân. Các thông số liên kết cặp quen thuộc và có cùng một nghĩa trong nhiều liên kết như trong sự liên kết cặp. Các thông số liên kết bao gồm việc mở nhiều khoảng cách và hình phạt mở rộng khoảng cách cho quá trình liên kết nhiều - được sử dụng khi tinh chỉnh sắp xếp - và một sự chậm trễ tối đa cho phép, về độ dài chuỗi, bắt đầu trình tự khác nhau vào lúc bắt đầu của sự liên kết. Một trong những chẩn đoán của ClustalW rằng trong sự liên kết chuỗi protein, các ma trận điểm khác nhau được sử dụng cho mỗi liên kết dựa trên khoảng cách tiến hóa dự kiến. Nếu hai chuỗi là láng giềng gần cây, trong một ma trận điểm tối ưu hóa cho các mối quan hệ gần gũi sắp xếp chúng. Các láng giềng xa được liên kết bằng cách sử dụng các ma trận tối ưu hóa các mối quan hệ xa. Vì vậy, khi được nhắc để lựa chọn một loạt các ma trận trong menu nhiều liên kết tham số, nó có nghĩa là chỉ rằng: sử dụng BLOSUM62 cho quan hệ gần gũi và BLOSUM45 cho mối quan hệ xa hơn, chứ không phải là ma trận điểm giống nhau cho tất cả các sắp xếp cặp. Một phương pháp heuristic mà ClustalW sử dụng là hình phạt khoảng cách có thể mở rộng cho sắp xếp hồ sơ cá nhân protein. Một khoảng cách mở bên cạnh một dư lượng kỵ nướcbảo tồn có thể bị phạt nhiều hơn so với mở cửa khoảng cách bên cạnh một dư lượng ưa nước. Một khoảng cách mở quá gần với một khoảng cách khác có thể bị phạt nặng nề hơn nhiều so với một khoảng cách cô lập. 4.2 phát sinh loài phân tích 	Thông tin từ các acid nucleic và các chuỗi protein có thể được sử dụng để suy ra các mối quan hệ phát sinh loài trong số các trình tự và các sinh vật là nguồn của các trình tự. Lý do khá đơn giản - càng nhiều đột biến cần thiết để thay đổi một chuỗi thành cái khác, không liên quan nhiều hơn các trình tự và xác suất thấp hơn mà họ chia sẻ một trình tự tổ tiên chung gần đây. Ngược lại, một cặp giống nhau hơn về trình tự, việc ít hơn số lượng các thay đổi cần thiết và khả năng lớn hơn mà họ chia sẻ một trình tự tổ tiên chung gần đây. Chúng tôi có thể xây dựng một cây từ bất kỳ thiết lập liên kết của trình tự, nhưng nếu chúng tôi cố gắng để giải thích các cây để suy ra thời gian thực tế của sự khác nhau về các trình tự, chúng tôi sẽ phải giả định rằng các gen lựa chọn này không thuộc thẩm lựa chọn khác biệt, và rằng tỷ lệ thay đổi đã được tương đối ổn định. Mặc dù các điều kiện này có thể không thường xuyên được đáp ứng, giả sử chúng cho phép dự đoán hữu ích được thực hiện. Để biết thêm kiến thức về các mối quan hệ tiến hóa so sánh giữa các sinh vật, và so sánh các gen khác nhau có thể cần thiết để cải thiện dự đoán như vậy. Các mối quan hệ phát sinh loài thường được minh họa trong một cây đồ họa. Như một cái cây là một đồ thị 2-chiều cho thấy mối quan hệ tiến hóa giữa các sinh vật hoặc trong các gen nhất định từ sinh vật riêng biệt. Cây bao gồm có các nút đại diện cho các đơn vị phân loại và chi nhánh đại diện các mối quan hệ giữa các đơn vị phân loại này. Độ dài của các ngành này thường được vẽ tỉ lệ thuận với số lượng thay đổi trình tự trong ngành. Ví dụ về một cây bắt nguồn từ 4 đơn vị phân loại cho thấy độ dài ngành tỷ lệ thuận với số lượng thay đổi trong các ngànhMột ví dụ về một cây như vậy phát sinh loài được đưa ra ở trên. Đối với một giải thích chính xác các đặc tính cây là cần thiết • Một con đường duy nhất dẫn từ nút gốc đến bất kỳ nút khác và sự chỉ đạo cho thấy thời gian tiến hóa. • Gốc là được xác định bằng cách bao gồm một đơn vị phân loại là hợp lý chắc chắn phân nhánh ra sớm hơn so với các loài khác được nghiên cứu nhưng phải được liên quan đến các đơn vị phân loại còn lại • Nếu chúng ta không có một đơn vị phân loại để xác định gốc rễ,chúng ta có thể dự đoán các mối quan hệ bởi một cây không cõ rễ.* Ba loại phân tích để kiểm tra có thể xảy ra hầu hết các mối quan hệ phát sinh loài giữa các trình tự được sử dụng. Những phương pháp này là khoảng cách hoặc các phương pháp dựa trên nhân vật (sự cẩn thận tối đa và khả năng tối đa): - Phương pháp  Khoảng cách  - tất cả có thể cặp chuỗi liên kết đểxác định những cặp tương tự hoặc liên quan chặt chẽ. Những sự sắp xếp này cung cấp một thước đo của khoảng cách di truyền giữa các chuỗi. Những phép đo khoảng cách này sau đó được sử dụng để dự đoán mối quan hệ tiến hóa. - Phương pháp  cẩn thận  tối đa - một liên kết chuỗi nhiều được sản xuất để dự đoán thứ tự các vị trí có khả năng tương ứng. Những vị trí này sẽ xuất hiện trong cột dọc trong sự liên kết chuỗinhiều. Đối với mỗi vị trí phù hợp, cây phát sinh loài đó có yêu cầusố lượng nhỏ nhất của thay đổi tiến hóa để sản xuất những thay đổi trình tự quan sát được xác định. Phân tích này là tiếp tục cho mỗi vị trí trong sự liên kết chuỗi. Cuối cùng, những cây sản xuất số lượng nhỏ nhất của những thay đổi tổng thể cho tất cả các vị trítrình tự được xác định. - Phương pháp khả năng tối đa - như phương pháp sự cẩn thậntối đa, các phương pháp khả năng tối đa phụ thuộc là khi đầu tiên có được một sự liên kết chuỗi nhiều đáng tin cậy và sau đó kiểm tra những thay đổi trong mỗi cột trong sự liên kết. Trong trường hợp này, tuy nhiên, khả năng của một cây cụ thể được tínhbằng cách sử dụng một mô hình dự kiến của sự thay đổi trong các cảnh quay [3]. Ví dụ, tất cả các nucleotide được giả định lànhư nhau thường xuyên và xác suất của sự thay đổi của bất kỳnucleotide bất kỳ nucleotide khác được giả định là giống nhautrong mô hình Jukes-Cantor. [4]. Đối với mỗi cây có thể, khả năngcủa việc tìm kiếm các thay đổi trình tự thực tế tại mỗi cột trongcác chuỗi liên kết được tính toán. Xác suất cho mỗi vị trí phù hợpsau đó được nhân với nhau để cung cấp một khả năng cho mỗi cây. Cây cung cấp các giá trị khả năng tối đa là cây có thể xảy ra nhất.Một phân tích phát sinh loài theo các bước sau đây: 1.  liên kết nhiều chuỗi2.  xây dựng cây3. Đánh giá của tín hiệu phát sinh loài trong dữ liệu và sự vững mạnh của cây tính4.3 Các baì tập Nhiệm vụ 4,1 Cặp trình tự liên kếtAlign động vật có vú monooxygenase cytochrome p450 (CYP)2C5 gi | 117222 | của các trình tự CYP sau đây sử dụng công cụliên kết các cặp chuỗi  LALIGN:gi | 30840237 | con người CYP 3A4, gi | 21221333 | CYP154A1vi khuẩn (sử dụng liên kết toàn cầu).các cặp chuỗi tương ứng như thế nào? Những khu vực nào được bảo vệ? Nhiệm vụ 4,2 Liên kết nhiều chuỗiĐối với  liên kết nhiều chuỗi gi  117222 | (CYP2C5 động vật có vú) và 13 loại protein bổ sung mà bạn có để tải về các trình tự sau đây:• gi | 13699818 | CYP2C9 Homo sapiens,• gi | 4503219 | CYP2C19 Homo sapiens• gi | 30840237 | CYP3A4 Homo sapiens,• gi | 90110014 | CYP3A7 Homo sapiens,• gi | 20137481 | CYP3A43 Homo sapiens,• gi | 443388 | CYP102A1 Bacillus megaterium,• gi | 1934614 | CYP102A3 Bacillus subtilis,• gi | 21221333 | Streptomyces coelicolor• gi | 15609413 | CYP121 Mycobacterium tuberculosis,• gi | 230464 | CYP101D Pseudomonas putida,• gi | 13878362 | CYP71A12 Arabidopsis thaliana,• gi | 5915819 | CYP75A6 cây sơn tiểu thai trung bình,• gi | 46255130 | Thermus thermophilusThực hiện liên kết nhiều chuỗi của tất cả 14 trình tự. So sánhsự liên kết multisequence sự liên kết của hai chuỗi liên kết các cặp ((Nhiệm vụ 4,1)Có một threonine bảo tồn? Rút ra một khuôn mẫu cho các trang web liên kết heme Nhiệm vụ 4,3 cây phát sinh loài Trong quá trình liên kết nhiều chuỗi , CLUSTAL tạo ra một câyhướng dẫn đơn giản. Hình dung nó bằng cách sử dụng chương trình "TreeView". Giải thích cây, có sự khác biệt giữa các CYPs?Nhiệm vụ 4,4 thông số TrốngMột lần nữa sự liên kết, phân tích phát sinh loài với:• Các giá trị mặc định• tăng khoảng cách mở hình phạt• tăng khoảng cách mở rộng hình phạt• Làm thế nào là những thay đổi trong sự liên kết và cây? Cáccây có giá trị nữa không?• thay đổi có lợi của hình phạt khoảng cách là gì?4.4. Tài liệu tham khảo Có một số chương trình khác hữu ích và phổ biến rộng rãi để xây dựng lại mối quan hệ phát sinh loài và phân tích dữ liệu chuỗi phân tử mà có sẵn miễn phí. Sau đây là các URL của một số trang web cung cấp liên kết đến hầu hết trong số họ (bao gồm cả các gói PHYLIP và MOLPHY và khả năng PAML chương trình tối đa): Joe Felsenstein danh sách các chương trình (được tổ chức tốt và khá đầy đủ):  "Tree of Life" phần mềm trang:  Châu Âu Viện Tin Học Sinh Học:  ClustalW và Align:  Xin chân thành cảm ơn quý thầy cô và các bạn 

File đính kèm:

  • pptTIN SINH HOC P66.ppt
Bài giảng liên quan