Tin Sinh học - Chương 5: Phân tích trình tự ADN

5,1 Cơ sở và học thuyết
5.1.1 Dự đoán gen
- Các phương pháp máy tính hiện tại định vị gen trong DNA được dựa trên các thuộc tính thống kê của các trình tự nucleotide, chẳng hạn như sử dụng codon hoặc vị trí ưau tiên. Những phương pháp này đòi hỏi một sự đào tạo rành mạch, mà chỉ có thể được thu từ các gen mã hóa protein được xác định trước đó. Vì vậy, các công cụ dự đoán gen hiện nay được tối ưu hóa cho một số giới hạn của sinh vật.
26 trang | Chia sẻ: gaobeo18 | Lượt xem: 1415 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tin Sinh học - Chương 5: Phân tích trình tự ADN, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
Chương 5 PHÂN TÍCH TRÌNH TỰ ADN5,1 Cơ sở và học thuyết5.1.1 Dự đoán gen	- Các phương pháp máy tính hiện tại định vị gen trong DNA được dựa trên các thuộc tính thống kê của các trình tự nucleotide, chẳng hạn như sử dụng codon hoặc vị trí ưau tiên. Những phương pháp này đòi hỏi một sự đào tạo rành mạch, mà chỉ có thể được thu từ các gen mã hóa protein được xác định trước đó. Vì vậy, các công cụ dự đoán gen hiện nay được tối ưu hóa cho một số giới hạn của sinh vật. Một danh sách các phần mềm dự đoán gen hiện có sẵn tại  Việc ưu tiên vị trí được thể hiện bởi mối tương quan giữa nucleotide liền kề trong trình tự DNA nhiễm sắc thể. Điều đó có nghĩa rằng nếu chúng ta có một nucleotide của loại A bên trong một gen, sau đó ta sẽ tìm thấy một nucleotide loại B ở vị trí tiếp theo với một tần số có thể khác với tần số của B nucleotide trong một vùng không mã hóa. Mô hình xác suất này có thể được mô tả bởi một chuỗi Markov. 	- Một trong những công cụ là GeneMark (Danh sách các phần mềm dự đoán gen tại: Công cụ genmark	Các chương trình GeneMark truy cập vào mã hóa protein tiềm năng của một trình tự DNA (trong một cửa sổ trượt) bằng cách sử dụng các mô hình Markov của các vùng mã hóa và không mã hóa. Cách tiếp cận này là nhạy cảm với các biến thể cục bộ của tiềm năng mã hóa, và đồ thị GeneMark cho thấy chi tiết của việc phân phối tiềm năng mã hóa cùng một trình tự. Chương trình GeneMark.hmm xác định các phân tích cú pháp có khả năng tối đa của toàn bộ trình tự bên trong các gen mã hóa protein (với những đoạn intron có thể) và khu vực intergenic ( Để phân tích DNA từ prokaryote và eukaryote thấp, GeneMark và GeneMark.hmm đã được đưa vào một công cụ dự đoán kết hợp (	Khi một gen giả định đã được xác định, công cụ dịch thuật cho phép để lấy được chuỗi axit amin từ chuỗi ADN bằng cách dịch trong ba khung đọc trong cả hai hướng (5 ' →3' và 3 '→ 5'). Phổ biến nhất là các công cụ dịch thuật EXPASY ( Công cụ dự đoán kết hợpCông cụ dịch thuật EXPASY5.1.2 Thiết kế đoạn mồi Primer - PCR (Polymerase Chain Reaction) là một trong những kỹ thuật phổ biến nhất được sử dụng trong nghiên cứu sinh học và y sinh. Cơ chế của PCR là khuếch đại một đoạn DNA dựa trên một cặp mồi, DNA polymerase và một số hóa chất cần thiết. PCR tiết kiệm thời gian và rất nhạy cảm, tuy nhiên, tín hiệu sai lầm của phản ứng là một vấn đề nghiêm trọng. Các nguyên nhân phổ biến này là ô nhiễm, tự nhị trùng hóa và ủ không chính xác mẫu ADN mồi. Thiết kế mồi là một bước quan trọng trong chiến lược PCR. Về mặt lý thuyết, các tiêu chí cho việc lựa chọn một cặp mồi là đơn giản nhưng rất nghiêm ngặt. Một số tính chất của đoạn mồi như chiều dài, nhiệt độ nóng chảy, nhiệt độ ủ ... cần đạt được để đảm bảo rằng phản ứng PCR là thành công và các sản phẩm khuếch đại được sản xuất. Tính toán bằng tay để kiểm tra các tính năng này cho nhiều trình tự nucleotide để lựa chọn tốt nhất là rất tốn thời gian. 	- Ngày nay, nhiều chương trình máy tính được xây dựng bởi các nhà nghiên cứu tin sinh học để giải quyết vấn đề này. Phần mềm thương mại, thường là các chương trình độc lập, được bán với giá cao, và các dịch vụ dựa trên web là miễn phí nhưng chất lượng của chúng đang được xem xét. Thông thường, một phần mềm thiết kế mồi có thể tính toán nhiệt độ nóng chảy, các xu hướng trong việc hình thành vòng kẹp tóc, dimer của mồi, và dị-dimer mồi về phía trước và ngược lại. Một mồi phải thỏa mãn các yêu cầu sau:	1.Ủ chính xác các mẫu DNA.2. Primer chiều dài phải ở trong phạm vi 18 - 30 nucleotide.3. % GC phải ở trong phạm vi 50 - 60%4. Cuối thiết bị đầu cuối 3 'nên ủ chặt chẽ với các mẫu DNA5. Nhiệt độ nóng chảy trong khoảng 48 - 65oC *6. Tránh các hình thành vòng kẹp tóc, tự-dimer và dị dimer **7. Sự khác biệt trong nhiệt độ nóng chảy của mồi về phía trước và ngược lại là không cao hơn 5oC* Một số phương pháp để tính toán nhiệt độ nóng chảy của mồi:1. Phương pháp 2AT 4 GC: Tm = 2 * (A + T) + 4 * (G + C)2. Phương pháp GC%: Tm = 64,9 41 (GC-16,4%) / chiều dài3. Phương pháp lân cận gần nhất:Tm = DH / (DS + R * ln (C / 4)) 16,6 * log ([K +] / (1 0,7 [K +]))- 273,15(DH, DS là entanpy và Entropy của chuỗi nucleotide, tương ứng)** Vòng kẹp tóc	 3’-GGGAAA | | | |TATCTAGGACCTTATự-dimer	 3’-GGGAAAATTCCAGGATCTAT | | | | | | | | TATCTAGGACCTTAAAAGGG-3’Dị-dimer 5’-TATCTAGGACCTTAAAAGGG | | | | | 3’-CATGGAAACTAGGGACTrong phần này, học viên sẽ được hướng dẫn để biết làm thế nào để sử dụng FastPCR - một phần mềm miễn phí - để thiết kế mồi cho phản ứng PCR.5.3 Tài liệu tham khảoGeneMark:  GeneMark.hmm:  FastPCR manual: ỨNG DỤNGThiết kế mồi bằng phần mềm FastPCR Thiết kế mồi cho gen cytochrome P450 (GenBank nhập số: 13699817) để khuếch đại một sản phẩm DNA: khoảng 500bp Khởi động chương trình với các thông số mặc định, bạn nhận được bao nhiêu cặp mồi? Mở cửa sổ " PCR primers or Probes design options ", trong thẻ " General primer design options ", hãy đánh dấu " Show all possible primers " Đóng lại. Khởi động lại chương trình, bạn nhận được bao nhiêu cặp mồi?Hãy cố gắng tăng số lượng tối đa đoạn mồi có thể đến 3000.Chạy chương trình và chọn cặp mồi của bạn.Xác định vị trí cặp mồi của bạn, sản phẩm PCR của bạn tốn bao lâu. Xác định nhiệt độ nóng chảy, GC% và nhiệt độ ủ của phản ứng PCR với mồi của bạn được thiết kế.Sử dụng trang web tìm kiếm  để tìm kiếm trình tự nucleotide của gen cytochrome P450 Chọn hiển thị FastA lấy trình tự nucleotideChạy chương trình FastPCR với đoạn trình tự nucleotid vừa cóKết quả được đưa ra dưới dạng file .txt trong cửa sổ mới.Ta sẽ thấy được 	- Mồi trái được lựa chọn (Chiều thuận)  PCR thông thường: (20) 	- Mồi phải được lựa chọn (chiều nghịch) PCR thông thương (20)	- 50 sự kết hợp tương thích của cặp mồi Mở cửa sổ " PCR primers or Probes design options ", trong thẻ " General primer design options ", chọn " Show all possible primers " Đóng lại. Khởi động lại chương trình, bạn nhận được cặp mồi	Ta cũng được kết quả xuất ra bằng file .txt: 	- Mồi trái được lựa chọn (Chiều thuận)  PCR thông thường: (447) 	- Mồi phải được lựa chọn (chiều nghịch) PCR thông thương (481)	- 50 sự kết hợp tương thích của cặp mồi Dưới mỗi kết quả đều được hiện thị các thông số cần thiết : nhiệt độ nóng chảy, GC% và nhiệt độ ủ của phản ứng PCR với mồi được thiết kếKhung đọc mở là gì?Đoạn trình tự nằm giữa một bộ ba khởi đầu và một bộ ba kết thúc tương ứng cùng khung đọc được gọi là khung đọc mở (ORF = open reading frame). Đặc điểm này được dùng để xác định các trình tự ADN mã hoá protein trong các dự án giải mã hệ gen. Initiation codonStop codonPromoter region Shine-Dalgarno box (AGGAGG) Pribnow box (TATAAT) -35 site (TTGACA)Prokaryote5’ Mở đầu: AUG (ATG, GTG, CTG, TTG)3’ORFTerminatorUAA,UAG UGA (TAA, TAG, TGA)PHÂN TÍCH TRÌNH TỰ ADNTrong Di truyền phân tử, một ORF là một bộ phận của gene của sinh vật mà bao gồm một chuỗi trình tự các base có khả năng mã hóa cho một protein. Trong một gene, các ORF nằm giữa trình tự khởi đầu (codon bắt đầu) và trình tự kết thúc (codon kết thúc).Công cụ tiến hành và cách sử dụngSử dụng công cụ ORF Finder (Open Reading Frame Finder) trên trang cơ sở dữ liệu NCBI Bước 3: Nhập trình tự DNA vào hộp trình tự (sequence in FASTA format) hoặc mã số trình tự vào hộp GI or ACESSSION (nếu muốn dùng toàn bộ trình tự trong cơ sở dữ liệu).•	Lựa vị trí dịch mã (From: 	 To:	 ) và kiểu mã di truyền•Nhấn nút OrfFind để thực hiện chương trình.Đợi kết quả xuất hiện sau vài phút (hoặc có thể lâu hơn). Kết quả có sáu khung dịch mã xuất hiện. Các khung đọc mở (nếu có) sẽ là những thanh có màu sậm hơn. Lựa chọn giới hạn cách thể hiện bằng trị số trong mục Redraw (50, 100, 300).Kết quả thể hiện có dạng tương tự:	Nhấn lên trình tự khung đọc mở sẽ thấy hiện lên trình tự DNA và trình tự dịch mã amino acid tương tự kết quả bên dưới.
File đính kèm:
TIN SINH HOC P42.ppt