Báo cáo Tin Sinh học - Bài 4: Trình tự của các tương đồng- Xây dựng một cây phát sinh loài
So sánh trình tự protein là một trong những cơ sở của tin sinh học. khả năng của chúng tôi để thực hiện nhanh chóng so sánh trình tự tự động tạo điều kiện cho tất cả mọi thứ từ giao chức năng cho một trình tự mới, để dự báo và xây dựng mô hình cấu trúc protein, để thiết kế và phân tích thí nghiệm biểu hiện gen. Theo dữ liệu chuỗi sinh học đã tích lũy được, nó đã trở nên rõ ràng rằng bản chất là bảo thủ. Một sinh hóa mới không tạo ra cho mỗi loài mới, và chức năng mới không tạo ra bởi sự xuất hiện đột ngột của các gen hoàn toàn mới. Thay vào đó, thay đổi gia tăng làm gia tăng sự đa dạng di truyền và chức năng mới. Với tiền đề này trong tâm trí, phát hiện sự tương tự giữa các trình tự cho phép bạn chuyển thông tin về một trình tự để trình tự tương tự khác hợp lý, mặc dù không phải luôn luôn tổng cộng, sự tự tin. Trước khi bạn có thể lập báo cáo so sánh trình tự protein, một sắp xếp trình tự là cần thiết.
ng số liên kết bao gồm việc mở nhiều khoảng cách và hình phạt mở rộng khoảng cách cho quá trình liên kết nhiều - được sử dụng khi tinh chỉnh sắp xếp - và một sự chậm trễ tối đa cho phép, về độ dài chuỗi, bắt đầu trình tự khác nhau vào lúc bắt đầu của sự liên kết. Một trong những chẩn đoán của ClustalW rằng trong sự liên kết chuỗi protein, các ma trận điểm khác nhau được sử dụng cho mỗi liên kết dựa trên khoảng cách tiến hóa dự kiến. Nếu hai chuỗi là láng giềng gần cây, trong một ma trận điểm tối ưu hóa cho các mối quan hệ gần gũi sắp xếp chúng. Các láng giềng xa được liên kết bằng cách sử dụng các ma trận tối ưu hóa các mối quan hệ xa. Vì vậy, khi được nhắc để lựa chọn một loạt các ma trận trong menu nhiều liên kết tham số, nó có nghĩa là chỉ rằng: sử dụng BLOSUM62 cho quan hệ gần gũi và BLOSUM45 cho mối quan hệ xa hơn, chứ không phải là ma trận điểm giống nhau cho tất cả các sắp xếp cặp. Một phương pháp heuristic mà ClustalW sử dụng là hình phạt khoảng cách có thể mở rộng cho sắp xếp hồ sơ cá nhân protein. Một khoảng cách mở bên cạnh một dư lượng kỵ nướcbảo tồn có thể bị phạt nhiều hơn so với mở cửa khoảng cách bên cạnh một dư lượng ưa nước. Một khoảng cách mở quá gần với một khoảng cách khác có thể bị phạt nặng nề hơn nhiều so với một khoảng cách cô lập. 4.2. Phân tích phát sinh loài Thông tin từ các acid nucleic và các chuỗi protein có thể được sử dụng để suy ra các mối quan hệ phát sinh loài trong số các trình tự và các sinh vật là nguồn của các trình tự. Lý do khá đơn giản - càng nhiều đột biến cần thiết để thay đổi một chuỗi thành cái khác, không liên quan nhiều hơn các trình tự và xác suất thấp hơn mà họ chia sẻ một trình tự tổ tiên chung gần đây. Ngược lại, một cặp giống nhau hơn về trình tự, việc ít hơn số lượng các thay đổi cần thiết và khả năng lớn hơn mà họ chia sẻ một trình tự tổ tiên chung gần đây. Chúng tôi có thể xây dựng một cây từ bất kỳ thiết lập liên kết của trình tự, nhưng nếu chúng tôi cố gắng để giải thích các cây để suy ra thời gian thực tế của sự khác nhau về các trình tự, chúng tôi sẽ phải giả định rằng các gen lựa chọn này không thuộc thẩm lựa chọn khác biệt, và rằng tỷ lệ thay đổi đã được tương đối ổn định. Mặc dù các điều kiện này có thể không thường xuyên được đáp ứng, giả sử chúng cho phép dự đoán hữu ích được thực hiện. Để biết thêm kiến thức về các mối quan hệ tiến hóa so sánh giữa các sinh vật, và so sánh các gen khác nhau có thể cần thiết để cải thiện dự đoán như vậy. Các mối quan hệ phát sinh loài thường được minh họa trong một cây đồ họa. Như một cái cây là một đồ thị 2-chiều cho thấy mối quan hệ tiến hóa giữa các sinh vật hoặc trong các gen nhất định từ sinh vật riêng biệt. Cây bao gồm có các nút đại diện cho các đơn vị phân loại và chi nhánh đại diện các mối quan hệ giữa các đơn vị phân loại này. Độ dài của các ngành này thường được vẽ tỉ lệ thuận với số lượng thay đổi trình tự trong ngành. Ví dụ về một cây bắt nguồn từ 4 đơn vị phân loại cho thấy độ dài ngành tỷ lệ thuận với số lượng thay đổi trong các ngànhMột ví dụ về một cây như vậy phát sinh loài được đưa ra ở trên. *Đối với một giải thích chính xác các đặc tính cây là cần thiết • Một con đường duy nhất dẫn từ nút gốc đến bất kỳ nút khác và sự chỉ đạo cho thấy thời gian tiến hóa. • Gốc là được xác định bằng cách bao gồm một đơn vị phân loại là hợp lý chắc chắn phân nhánh ra sớm hơn so với các loài khác được nghiên cứu nhưng phải được liên quan đến các đơn vị phân loại còn lại • Nếu chúng ta không có một đơn vị phân loại để xác định gốc rễ,chúng ta có thể dự đoán các mối quan hệ bởi một cây không cõ rễ.* Ba loại phân tích để kiểm tra có thể xảy ra hầu hết các mối quan hệ phát sinh loài giữa các trình tự được sử dụng. Những phương pháp này là khoảng cách hoặc các phương pháp dựa trên nhân vật (sự cẩn thận tối đa và khả năng tối đa): - Phương pháp khoảng cách - tất cả có thể cặp chuỗi liên kết đểxác định những cặp tương tự hoặc liên quan chặt chẽ. Những sự sắp xếp này cung cấp một thước đo của khoảng cách di truyền giữa các chuỗi. Những phép đo khoảng cách này sau đó được sử dụng để dự đoán mối quan hệ tiến hóa. - Phương pháp cẩn thận tối đa - một liên kết chuỗi nhiều được sản xuất để dự đoán thứ tự các vị trí có khả năng tương ứng. Những vị trí này sẽ xuất hiện trong cột dọc trong sự liên kết chuỗinhiều. Đối với mỗi vị trí phù hợp, cây phát sinh loài đó có yêu cầusố lượng nhỏ nhất của thay đổi tiến hóa để sản xuất những thay đổi trình tự quan sát được xác định. Phân tích này là tiếp tục cho mỗi vị trí trong sự liên kết chuỗi. Cuối cùng, những cây sản xuất số lượng nhỏ nhất của những thay đổi tổng thể cho tất cả các vị trítrình tự được xác định. - Phương pháp khả năng tối đa - như phương pháp sự cẩn thậntối đa, các phương pháp khả năng tối đa phụ thuộc là khi đầu tiên có được một sự liên kết chuỗi nhiều đáng tin cậy và sau đó kiểm tra những thay đổi trong mỗi cột trong sự liên kết. Trong trường hợp này, tuy nhiên, khả năng của một cây cụ thể được tínhbằng cách sử dụng một mô hình dự kiến của sự thay đổi trong các cảnh quay [3]. Ví dụ, tất cả các nucleotide được giả định lànhư nhau thường xuyên và xác suất của sự thay đổi của bất kỳnucleotide bất kỳ nucleotide khác được giả định là giống nhautrong mô hình Jukes-Cantor. [4]. Đối với mỗi cây có thể, khả năngcủa việc tìm kiếm các thay đổi trình tự thực tế tại mỗi cột trongcác chuỗi liên kết được tính toán. Xác suất cho mỗi vị trí phù hợpsau đó được nhân với nhau để cung cấp một khả năng cho mỗi cây. Cây cung cấp các giá trị khả năng tối đa là cây có thể xảy ra nhất.* Một phân tích phát sinh loài theo các bước sau đây: 1. Liên kết nhiều chuỗi 2. Xây dựng cây 3. Đánh giá của tín hiệu phát sinh loài trong dữ liệu và sự vững mạnh của cây tính4.3 Các baì tập Nhiệm vụ 4,1: Cặp trình tự liên kếtAlign động vật có vú monooxygenase cytochrome p450 (CYP)2C5 gi | 117222 | của các trình tự CYP sau đây sử dụng công cụliên kết các cặp chuỗi LALIGN:gi | 30840237 | con người CYP 3A4, gi | 21221333 | CYP154A1vi khuẩn (sử dụng liên kết toàn cầu).các cặp chuỗi tương ứng như thế nào? Những khu vực nào được bảo vệ? Nhiệm vụ 4,2: Liên kết nhiều chuỗiĐối với liên kết nhiều chuỗi gi 117222 | (CYP2C5 động vật có vú) và 13 loại protein bổ sung mà bạn có để tải về các trình tự sau đây:• gi | 13699818 | CYP2C9 Homo sapiens,• gi | 4503219 | CYP2C19 Homo sapiens• gi | 30840237 | CYP3A4 Homo sapiens,• gi | 90110014 | CYP3A7 Homo sapiens,• gi | 20137481 | CYP3A43 Homo sapiens,• gi | 443388 | CYP102A1 Bacillus megaterium,• gi | 1934614 | CYP102A3 Bacillus subtilis,• gi | 21221333 | Streptomyces coelicolor• gi | 15609413 | CYP121 Mycobacterium tuberculosis,• gi | 230464 | CYP101D Pseudomonas putida,• gi | 13878362 | CYP71A12 Arabidopsis thaliana,• gi | 5915819 | CYP75A6 cây sơn tiểu thai trung bình,• gi | 46255130 | Thermus thermophilus Thực hiện liên kết nhiều chuỗi của tất cả 14 trình tự. So sánhsự liên kết multisequence sự liên kết của hai chuỗi liên kết các cặp ((Nhiệm vụ 4,1)Có một threonine bảo tồn? Rút ra một khuôn mẫu cho các trang web liên kết heme Nhiệm vụ 4,3: cây phát sinh loài Trong quá trình liên kết nhiều chuỗi, CLUSTAL tạo ra một câyhướng dẫn đơn giản. Hình dung nó bằng cách sử dụng chương trình "TreeView". Giải thích cây, có sự khác biệt giữa các CYPs? Nhiệm vụ 4,4: thông số trốngMột lần nữa sự liên kết, phân tích phát sinh loài với:• Các giá trị mặc định• Tăng khoảng cách mở hình phạt• Tăng khoảng cách mở rộng hình phạt• Làm thế nào là những thay đổi trong sự liên kết và cây? Cáccây có giá trị nữa không?• thay đổi có lợi của hình phạt khoảng cách là gì?4.4. Tài liệu tham khảo Có một số chương trình khác hữu ích và phổ biến rộng rãi để xây dựng lại mối quan hệ phát sinh loài và phân tích dữ liệu chuỗi phân tử mà có sẵn miễn phí. Sau đây là các URL của một số trang web cung cấp liên kết đến hầu hết trong số họ (bao gồm cả các gói PHYLIP và MOLPHY và khả năng PAML chương trình tối đa): Joe Felsenstein danh sách các chương trình (được tổ chức tốt và khá đầy đủ): "Tree of Life" phần mềm trang: Châu Âu Viện Tin Học Sinh Học: ClustalW và Align: * Đọc thêm: [1] Christian Büschking và Chris Schleiermacher, trình tự phân tích với phân phối tài nguyên, [2] M.-Y. Kao: Cây cơn co thắt và cây tiến hóa. SIAM J. comput., 6 (1998) 1592-1616 [3] A. Amir, D. Keselmann: thoả thuận tối đa cây con trong một tập hợp của cây tiến hóa: các số liệu và giải thuật hiệu quả. SIAM J. comput., 26 (1997) 1656-1669 [4] LA Goldberg, PW Goldberg, Phillips CA, GB Sorkin: Xây dựng Phylogenies Virus máy tính. J. ALG., 26 (1998) 188-208 [5] S. Kannan, T. Warnow: Một thuật toán nhanh chóng cho việc tính toán và đếm số phylogenies hoàn hảo. SIAM J. comput., 26 (1997) 1749-1763 [6] B. Schwikowsky, M. Vingron: Các con đường chậm heuristic cho các vấn đề liên kết tổng quát cây. J. Comp. Ngành sinh vật, 4 (1997) 415. – [7] L. Wang, T. Giang, EL Lawler: thuật toán gần đúng cho sự liên kết với một cây phát sinh loài nhất định. Algorithmica, 16 (1996) 302-315 (s. họ làm L. Wang, D. Gusfield:.. Cải thiện các thuật toán cho vị trí thẳng cây J. ALG, 25 (1997) 255-273) * Sách Cynthia Gibas, Per Jambeck "Phát triển kỹ năng máy tính sinh học", O'Reilly, 2001* Tài liệu tham khảo 1. Thompson, J.D., D.G. Higgins, và T.J. Gibson, CLUSTAL W: cải thiện các ensitivity của tiến trình tự sắp xếp nhiều thông qua trình tự trọng, hình phạt khoảng cách vị trí cụ thể và trọng lượng lựa chọn ma trận. Axit nucleic Res, năm 1994. 22 (22): p. 4673-80. 2. Saitou, N. và M. Nei, Phương pháp hàng xóm, gia nhập: một phương pháp mới để xây dựng lại cây huyết thống. Mol Biol Evol, năm 1987. 4 (4): p. 406-25. 3. Swofford, dL, Olsen, GJ, Phylogeny xây dựng lại. Hệ thống hóa phân tử, Associates Sinauer, Sunderland, MA, 1990, p. 411-501. 4. Jukes, TH, Cantor, C., Sự phát triển của phân tử Protein. Protein động vật có vú trao đổi chất, 1969: p. 21-132. 5. Schmidt, HA, et al, Tree-TRÒ CHƠI:. Tối đa khả năng phân tích phát sinh loài sử dụng các tứ tấu và song song. Tin sinh học, năm 2002. 18: p. 502-504. The end !
File đính kèm:
- TIN SINH HOC P67.ppt