Đề tài Tin Sinh học: Phân tích trình tự ADN
Các phương pháp máy tính hiện nay để định vị gen trong DNA được dựa trên những đặc tính thống kê của chuỗi nucleotide, chẳng hạn như sử dụng codon hoặc vị trí ưu tiên. Những phương pháp này đòi hỏi sự đào tạo được xác định, mà chỉ có thể thu được từ trước đó các gen mã hóa protein. Vì vậy, các công cụ dự đoán gen hiện nay được tối ưu hóa cho một số lượng hạn chế của các sinh vật.
BÁO CÁO TIN SINH HỌCBÀI 5PHÂN TÍCH TRÌNH TỰ ADNHỌC VIÊN : PHAN THỊ HẰNG NGALỚP : SINH HỌC THỰC NGHIỆM K14GVHD: TS VÕ VĂN TOÀNI - BỐI CẢNH VÀ LÝ THUYẾT1.1 DỰ ĐOÁN GEN Các phương pháp máy tính hiện nay để định vị gen trong DNA được dựa trên những đặc tính thống kê của chuỗi nucleotide, chẳng hạn như sử dụng codon hoặc vị trí ưu tiên. Những phương pháp này đòi hỏi sự đào tạo được xác định, mà chỉ có thể thu được từ trước đó các gen mã hóa protein. Vì vậy, các công cụ dự đoán gen hiện nay được tối ưu hóa cho một số lượng hạn chế của các sinh vật. Một danh sách các phần mềm dự đoán gene có sẵn tại Việc ưu tiên về vị trí được thể hiện bởi mối tương quan giữa nucleotide liền kề trong chuỗi DNA nhiễm sắc thể. Nó có nghĩa là nếu chúng ta có một nucleotide của loại A bên trong một gen, thì chúng ta sẽ tìm thấy một nucleotide của B nhập vào các vị trí tiếp theo với một tần số có thể khác biệt với tần số của B nucleotide trong một vùng không mã hóa. Mô hình này xác suất có thể được mô tả bởi một chuỗi Markov. Một trong những công cụ là GeneMark ( Chương trình GeneMark được truy cập vào các tiềm năng mã hóa protein của một chuỗi DNA (trong một cửa sổ trượt) bằng cách sử dụng các mô hình Markov mã hóa và vùng không mã hóa. Cách tiếp cận này là nhạy cảm với các biến thể cục bộ của tiềm năng mã hóa và các đồ thị GeneMark hiển thị chi tiết của việc phân phối tiềm năng mã hóa cùng một trình tự. Chương trình GeneMark.hmm xác định khả năng phân tích tối đa của toàn bộ trình tự bên trong các gen mã hóa prôtêin ( với những đoạn intron có thể) và khu vực intergenic( Để phân tích ADN từ các sinh vật nhân sơ và sinh vật nhân chuẩn bậc thấp, GeneMark và GeneMark.hmm đã được bao gồm trong một công cụ dự đoán kết hợp ( Khi một gen giả định đã được xác định, công cụ dịch thuật cho phép lấy được chuỗi axit amin từ chuỗi DNA bằng cách dịch trong ba khung đọc ở cả hai hướng (5 '→ 3' và 3 '→ 5'). Phổ biến nhất là các công cụ dịch thuật EXPASY ( 1.2 Thiết kế Primer PCR (Polymerase Chain Reaction) bây giờ là một trong những kỹ thuật phổ biến nhất được sử dụng trong nghiên cứu sinh học và y sinh. Cơ chế của PCR là khuếch đại một đoạn DNA dựa trên một cặp mồi, ADNpolymerase và một số hóa chất cần thiết. PCR tiết kiệm thời gian và rất nhạy cảm; Tuy nhiên, sai tín hiệu của phản ứng là một vấn đề nghiêm trọng. Các nguyên nhân phổ biến của hiện tượng này là ô nhiễm, tự dimerization và ủ không chính xác mẫu DNA mồi. Thiết kế mồi là một bước quan trọng trong chiến lược PCR. Về mặt lý thuyết, các tiêu chí cho việc lựa chọn một cặp mồi là đơn giản nhưng rất nghiêm ngặt. Một số tính năng của mồi như chiều dài mồi, nhiệt độ nóng chảy, nhiệt độ ủ... nên đạt được để đảm bảo rằng phản ứng PCR là thành công và các sản phẩm khuếch đại được sản xuất. Tính toán bằng tay để kiểm tra các tính năng này cho nhiều trình tự nucleotide để lựa chọn trình tự tốt nhất thì tốn rất nhiều thời gian. Ngày nay, nhiều chương trình máy tính đã được xây dựng bởi các nhà nghiên cứu tin sinh học để giải quyết vấn đề này. Phần mềm thương mại, thường là các chương trình độc lập, được bán với giá cao, và các dịch vụ dựa trên web là miễn phí nhưng chất lượng của chúng đang được xem xét. Thông thường, một phần mềm thiết kế mồi có thể tính toán nhiệt độ nóng chảy, các xu hướng hình thành vòng kẹp tóc, dimer của mồi và dị-dimer của mồi phía trước và ngược lại. Một mồi nên vượt qua các yêu cầu này:1. Bám một cách chính xác với mẫu DNA. 2. Primer chiều dài phải ở trong phạm vi 18-30 nucleotide. 3. % GC nên trong khoảng từ 50 - 60% 4. Cuối thiết bị đầu cuối 3 'nên bám chặt vào các mẫu DNA 5. Nhiệt độ nóng chảy trong khoảng 48 – 65 0C * 6. Tránh hình thành vòng kẹp tóc, tự dimer và dị dimer-** 7. Sự khác biệt trong nhiệt độ nóng chảy của mồi phía trước và ngược lại thì không cao hơn 5 0C * Một số phương pháp để tính toán nhiệt độ nóng chảy của mồi: 1. Phương pháp 2AT +4GC: Tm = 2 * (A + T) + 4 * (G + C) 2. Phương pháp GC% : Tm = 64,9 41 * (GC-16,4%) / chiều dài 3. Phương pháp lân cận gần nhất: Tm = DH / (DS + R * ln (C / 4)) 16,6 * log ([K +] / (1 0,7 [K +]))- 273,15 (DH, DS là entanpy và Entropy của trình tự nucleotide tương ứng) ** Vòng kẹp tóc 3'-GGGAAA | | | | TATCTAGGACCTTA Tự-dimer 3'-GGGAAAATTCCAGGATCTAT | | | | | | | | TATCTAGGACCTTAAAAGGG-3 ' Dị-dimer 5'-TATCTAGGACCTTAAAAGGG ||||| 3'-CATGGAAACTAGGGAC Trong phần này, học viên sẽ được huấn luyện để biết cách sử dụng FastPCR - một phần mềm miễn phí - để thiết kế mồi cho phản ứng PCR. Đoạn trình tự nằm giữa một bộ ba khởi đầu và một bộ ba kết thúc tương ứng cùng khung đọc được gọi là khung đọc mở (ORF = open reading frame). Đặc điểm này được dùng để xác định các trình tự ADN mã hoá protein trong các dự án giải mã hệ gen. Initiation codonStop codonPromoter region Shine-Dalgarno box (AGGAGG) Pribnow box (TATAAT) -35 site (TTGACA)Prokaryote5’ Mở đầu: AUG (ATG, GTG, CTG, TTG)3’ORFTerminatorUAA,UAG UGA (TAA, TAG, TGA)BÀI TẬP 1: CÁCH PHÂN TÍCH TRÌNH TỰ ADNKhung đọc mở là gì?Trong Di truyền phân tử, một ORF là một bộ phận của gene của sinh vật mà bao gồm một chuỗi trình tự các base có khả năng mã hóa cho một protein. Trong một gene, các ORF nằm giữa trình tự khởi đầu (codon bắt đầu) và trình tự kết thúc (codon kết thúc).Các ORF luôn luôn được bắt gặp khi di chuyển vị trí ngang qua các mẩu DNA trong lúc cố gắng xác định vị trí một gene. Bởi vì các sai khác tồn tại trong trình tự khởi đầu của các sinh vật với mã di truyền khác nhau, ORF sẽ được xác định khác nhau.Ví dụ: Nếu một phần của bộ gene đã được giải trình tựCác ORF có thể được xác định vị trí bằng cách khảo sát mỗi một trong số 3 ORF có thể có (hoặc 6 đối với DNA mạch kép). Trong trình tự này hai nằm ngoài 3 khung đọc có thể là "mở". Đây là một trong hai trình tự mRNA có thể có của sự phiên mã, và chúng ta thấy rằng nó có thể được đọc theo 3 cách khác nhau: 1. UCU AAA AUG GGU GAC 2. ..CUA AAA UGG GUG AC 3. ....UAA AAU GGG UGA CMỗi trình tự ADN có thể đọc theo ba khung đọc khác nhau, phụ thuộc vào bazơ nào được chọn làm bazơ khởi đầu. Trên mỗi phân đoạn ADN mạch kép về lý thuyết có thể có tối đa sáu khung đọc mở (ORF) khác nhau.Ngoài việc quy định điểm bắt đầu quá trình tổng hợp protein, bộ ba mã khởi đầu (AUG) còn xác định khung đọc của trình tự ARN.Có thể có ba bộ ba cho bất kỳ một trình tự bazơ nào, phụ thuộc vào bazơ nào được chọn làm bazơ bắt đầu của codon. CÔNG CỤ VÀ CÁCH THỰC HIỆN Để tìm các khung đọc mở có thể có trong một trình tự DNA, chúng ta sử dụng một chương trình có tên là ORF finder của NCBI. Chương trình này sẽ tìm kiếm những khung đọc mở có thể có của trình tự nhập vào và trình tự bổ sung của nó. Sau đó đưa ra bản đồ khung đọc mở với các trình tự đã dịch mã thành trình tự amino acid.Bước 1: Từ google chúng ta nhập vào từ khóa orf finder Bước 2: Mở trang ORF finder từ trang chủ NCBI bằng cách nhấn vào dòng ORF finder.Bước 3: Nhập trình tự DNA vào hộp trình tự (sequence in FASTA format) hoặc mã số trình tự vào hộp GI or ACESSSION (nếu muốn dùng toàn bộ trình tự trong cơ sở dữ liệu).• Lựa vị trí dịch mã (From: To: ) và kiểu mã di truyền•Nhấn nút OrfFind để thực hiện chương trình.Nhập trình tự Đợi kết quả xuất hiện sau vài phút (hoặc có thể lâu hơn). Kết quả có sáu khung dịch mã xuất hiện. Các khung đọc mở (nếu có) sẽ là những thanh có màu sậm hơn. Lựa chọn giới hạn cách thể hiện bằng trị số trong mục Redraw (50, 100,200, 300).Kết quả thể hiện có dạng tương tự:Nhấn lên trình tự khung đọc mở sẽ thấy hiện lên trình tự DNA và trình tự dịch mã amino acid tương tự kết quả bên dưới.Click vàoNgoài ra, ta có thể tìm ORF bằng DNA clubHoặc sử dụng máy giải trình tự ADN tự động ((Automated DNA Sequencers)HỆ THỐNG MÁY GIẢI TRÌNH TỰ GEN 3100- HÃNG ABI – MỸMÁY GIẢI TRÌNH TỰ GEN 3130 - HÃNG ABI - MỸ Thiết kế mồi bằng phần mềm FastPCR Thiết kế mồi cho gen cytochrome P450 (GenBank nhập số: 13699817) để khuếch đại một sản phẩm DNA: khoảng 500bp Khởi động chương trình với các thông số mặc định, bạn nhận được bao nhiêu cặp mồi? Mở cửa sổ " PCR primers or Probes design options ", trong thẻ " General primer design options ", hãy đánh dấu " Show all possible primers " Đóng lại. Khởi động lại chương trình, bạn nhận được bao nhiêu cặp mồi?Hãy cố gắng tăng số lượng tối đa đoạn mồi có thể đến 3000.Chạy chương trình và chọn cặp mồi của bạn.Xác định vị trí cặp mồi của bạn, sản phẩm PCR của bạn tốn bao lâu. Xác định nhiệt độ nóng chảy, GC% và nhiệt độ ủ của phản ứng PCR với mồi của bạn được thiết kế.BÀI TẬP 2Vào trang web →nucleotid→Nhập mã 13699817→Search→ FASTA→ được trình tự nucleotide của gen cytochrome P450CÁCH THỰC HIỆN Sử dụng chương trình FastPCR để thiết kế mồi cho gen cytochrome P450 Nhập trình tự Click vàoKết quả được đưa ra dưới dạng file .txt trong cửa sổ mới.Ta sẽ thấy được - Lựa chọn được mồi trái (Chiều thuận) PCR thông thường: (50) - Lựa chọn được mồi phải (chiều nghịch) PCR thông thương (50)- 50 sự kết hợp tương thích của cặp mồi Dưới mỗi kết quả đều được hiện thị các thông số cần thiết : nhiệt độ nóng chảy, GC% và nhiệt độ ủ của phản ứng PCR với mồi được thiết kếMở cửa sổ " PCR primers or Probes design options ", trong thẻ " General primer design options ", chọn " Show all possible primers " Đóng lại. Khởi động lại chương trình, bạn nhận được cặp mồi Ta cũng được kết quả xuất ra bằng file .txt nhưng số lượng mồi khac nhau: - Lựa chọn được mồi trái (Chiều thuận) PCR thông thường: (228) - Lựa chọn được mồi phải(chiều nghịch) PCR thông thương (248) - 50 sự kết hợp tương thích của cặp mồi Dưới mỗi kết quả đều được hiện thị các thông số cần thiết : nhiệt độ nóng chảy, GC% và nhiệt độ ủ của phản ứng PCR với mồi được thiết kếGeneMark:GeneMark.hmm:FastPCR dẫn sử dụng:ÀI LIỆU THAM KHẢOCẢM ƠN THẦY VÀ CÁC BẠN ĐÃ LẮNG NGHE
File đính kèm:
- TIN SINH HOC P50.ppt