Đề tài Tin Sinh học: Phương pháp tìm kiếm chuỗi tương đồng đối với dna và protein
Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học.
HÁP TÌM KIẾM CHUỖI TƯƠNG ĐỒNG ĐỐI VỚI DNA VÀ PROTEINGVHD: Dr Võ Văn Toàn HVTH: Trương Thị Vệ Lớp: Cao học SHTN khóa 12MỞ ĐẦUThế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học.Tin sinh học chính là sự hội tụ, hợp tác của cả ba lĩnh vực công nghệ hàng đầu: tin học – công nghệ thông tin – công nghệ sinh học, cùng cộng tác với nhau để khám phá thế giới sốngThực tế cho thấy, từ khi tin sinh học ra đời đã thực sự trở thành công cụ nghiên cứu mới, trợ giúp đăc lực và hiệu quả, đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học, chắp cánh cho công nghệ sinh học nói chung và sinh học nói riêng tiến lên một lầm cao mới. Nhờ thành tựu của tin sinh học, thời gian nghiên cứu được rút ngắn “ trước đây bạn phải mất nửa năm trong phòng thí nghiệm bây gời bạn có thể dễ dàng tiết kiệm thời gian chỉ với một buổi chiều trước chiếc máy tính”Tin sinh học có rất nhiều ứng dụng, vì thế cơ sở dữ liệu của công nghệ sinh học không chỉ dừng lại ở tập hợp các kết quả nghiên cứu thực nghiệm đơn thuần của các nhà khoa học trên khắp thế giới, mà nó còn bao gồm khả năng khái quát hóa, mô phỏng hóa thành những “đối tượng số” của thế giới sinh học sống động.Trong nhiều chương trình ứng dụng của tin sinh học, Chương trình phân tích cấu trúc tương đồng Blast là một ứng dụng vô cùng quan trọng, cho biết chính xác sự tương đồng của các Nucleotic, chuỗi AND hay proteinI. ĐẠI CƯƠNG VỀ CHƯƠNG TRÌNH PHÂN TÍCH CẤU TRÚC TƯƠNG ĐỒNG I.1 . Tìm kiếm tương đồng Chương trình tìm kiếm tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự tương đồng cho AND hay các chuỗi amino-acid của các protein với AND hay các chuỗi amino-acid của các protein khác trong ngân hàng dữ liệu. Các cơ sở dữ liệu protein hiện có của ngân hàng dữ liệu là 100 triệu dư lượng..Đối với việc tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để sản xuất các thuật toán nhanh hơn các chương trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như là một phần nhỏ nhất có thể, trong khi vẫn nhìn vào tất cả các điểm sắp xếp cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên việc mở rộng kết hợp chính xác khoa học máy tínhTuy nhiên, để tìm thấy sự phù hợp, các phương pháp này khó đem đến sự chính xác tuyệt đối, và cách tiếp cận các công cụ phần mềm đã được sử dụng. Hầu hết chương trình phổ biến là: BLAST ; FastAI.2. Chương trình phân tích cấu trúc tương đồng BLASTChúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?.BLAST (Basic Local Alignment Công cụ tìm kiếm) là một bộ các chương trình tìm kiếm và so sánh cấu trúc của chuỗi AND, protein, phân tích với các chuỗi tương ứng lưu giữ trong ngân hàng dữ liệu, nhằm tìm kiếm chuỗi (hay một số chuỗi ) tương đồng nhất với chuỗi kiểm tra. Sau đó người phân tích sẽ khai thác thông tin về đặc điểm hay đặc tính đã biết của các chuỗi trong ngân hàng để dự đoán, xác định cấu trúc và đặc tính của chuỗi kiểm tra này.Trọng tâm của kỹ thuật phân tích là tìm kiếm và xác định các vùng tương đồng nhau về cấu trúc trên các chuỗi, để xác định mức độ phân ly tương đối của chuỗi phân tích với các chuỗi khác trong ngân hàng dữ liệu. Về phương diện kỹ thuật, chương trình BLAST cho phép phát hiện sự tương đồng cấu trúc của hai mức độ là mang tính cục bộ ở một vùng hay mang tính tổng thể giữa hai chuỗi với nhau.Khi được cung cấp một thư viện hay cơ sở dữ liệu các chuỗi đó, một tìm kiếm BLAST sẽ cho phép nhà nghiên cứu tìm kiếm các chuỗi con giống với chuỗi có sẵn mà ta quan tâm. Ví dụ, tiếp sau việc khám phá ra các gen mà trước đây chưa biết ở chuột (loại mus musculus), một nhà khoa học sẽ thường thực thi một tìm kiếm BLAST trên genome người để tìm kiếm xem liệu con người có mang các gen giống vậy không; BLAST sẽ xác định các chuỗi nào trong genome người mà giống với gen chuột dựa trên sự giống nhau của chuỗiĐể chạy, BLAST cần đầu vào là 2 chuỗi: một là chuỗi cần phân tích (hay còn gọi là chuỗi đích) và một cơ sở dữ liệu chuỗi. BLAST sẽ tìm kiếm các chuỗi con trong chuỗi cần phân tích mà giống với các chuỗi con trong cơ sở chuỗi dữ liệu. Thông thường, khi sử dụng, chuỗi cần phân tích là nhỏ hơn rất nhiều so với cơ sở dữ liệu, ví dụ: chuỗi cần phân tích có thể chỉ gồm 1 nghìn nucleotide trong khi cơ sở dữ liệu chuỗi có hàng tỉ nucleotide.BLAST tìm kiếm những bắt cặp trình tự có điểm số cao giữa chuỗi cần phân tích và các chuỗi trong cơ sở dữ liệu bằng cách sử dụng phương pháp dựa trên kinh nghiệm (heuristic) để có thể có tìm được kết quả gần tốt bằng với giải thuật Smith-Waterman. Thuật toán bắt cặp trình tự tối ưu của Smith-Waterman là quá chậm khi tìm kiếm trong một cơ sở dữ liệu gen quá lớn như Ngân Hàng Gen (GenBank). Bởi vậy, giải thuật BLAST dùng một hướng tiếp cận heuristic, dù ít chính xác hơn Smith-Waterman nhưng lại cho tốc độ nhanh hơn gấp 50 lần. Tốc độ và sự chính xác tương đối của BLAST là những cải tiến kĩ thuật quan trọng của các chương trình BLAST và những điều đó cho thấy lí do vì sao công cụ này lại là công cụ tìm kiếm phổ biến nhất trong tin sinh học.II.PHƯƠNG PHÁP TÌM KIẾM CHUỐI TƯƠNG ĐỒNG BẰNG CHƯƠNG TRÌNH BLAST Thao tác cơ bản khi sử dụng chương trình phân tích cấu trúc chuỗi tương đồng BLAST gồm các bước chính sau:Bước 1: Lựa chọn chương trình BLAST Các BLAST các trang tìm kiếm cho phép bạn chọn từ các chương trình khác nhau. Dưới đây là một bảng của các chương trình này.Blastp: Để so sánh cấu trúc một chuỗi amino acid cần phân tích với cấu trúc chuỗi protein trong ngân hàng dữ liệu.Blastn: Để so sánh cấu trúc chuỗi nucleotide cần phân tích với cấu trúc chuỗi nucleotide trong ngân hàng dữ liệu .Blastx : Để so sánh cấu trúc chuỗi nucleotide cần phân tích (dưới dạng được dịch đầy đủ sang cấu trúc chuỗi amino axit ) với cấu trúc chuỗi protein trong ngân hàng dữ liệu. Phương án so sánh này được sử dụng để tìm hiểu đặc điểm “sản phẩm ” sẽ được tạo ra khi lựa chọn đoạn chuỗi này. Tblastn: Để So sánh cấu trúc chuỗi amino axit cần phân tích với cấu trúc chuỗi protein tương ứng được dịch mã bảo toàn trình tự chuỗi nucleotic trong ngân hàng dữ liệu. Tblastx : Là phương án so sánh cấu trúc chuỗi amino axit cần phân tích với cấu trúc chuỗi protein trong ngân hàng dữ liệu. Xin lưu ý rằng chương trình tblastx không thể được sử dụng với cơ sở dữ liệu trên trang BLAST Web bởi vì nó được tính toán chuyên sâu. Bước 2: Nhập dữ liệuChương trình xử lý trực tuyến BLAST cho phép nhập dữ liệu chuỗi phân tích trực tuyến dạng ký tự qua bàn phím hay nhập dữ liệu đã được viết theo một trong 3 ngôn ngữ là “” FASTA sequence format, “Identifiers” và “Bare sequence”Bước 3: Đặt vùng phân tích “Set Subsequence”Trong mục này, người phân tích phải cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bàng hai giá trị số chỉ vị trí giới hạn đầu cuối đoạn chuối ấy. Trong trường hợp cần phân tích toàn chuỗi, dữ liệu nhập sẽ có dạng From I to length.Bước 4: Lựa chọn ngân hàng dữ liệu “choose databases”Trong bước lựa chọn này, người phân tích phải xác định nhóm dữ liệu cụ thể của ngân hàng dữ liệu được chỉ định làm đối tượng so sánh. Thao tác lựa chọn này được thực hiện bằng cách dùng chuột đánh dấu vào một trong các mảng cấu trúc chuỗi, trong cửa sổ giao tiếp “choose databases”, tương ứng với đối tượng chuỗi cần phân tích Bước 5: Gửi yêu cầu xử líSau khi nhập hết dữ liệu, người phân tích nhấn lệnh “BLAST” để gửi tin đi. Sau khoảng thời gian chờ đợi ngắn, chương trình BLAST sẽ phục hồi yêu cầu với dạng giao diện như :Phần đầu hiển thị kết quả sơ bộ dạng đồ họa hình ảnh màu sắc của các chuỗi tương đồng cao nhất.Phần tiếp theo hiển thị kết quả dạng kí tự tóm tắt kết quảPhần cuối cùng hiển thị kết quả cụ thể khi so sánhVí dụ, tiếp sau việc khám phá ra các gen mà trước đây chưa biết ở chuột (loại mus musculus), một nhà khoa học sẽ thường thực thi một tìm kiếm BLAST trên genome người để tìm kiếm xem liệu con người có mang các gen giống vậy không; BLAST sẽ xác định các chuỗi nào trong genome người mà giống với gen chuột dựa trên sự giống nhau của chuỗi.Ứng dụngBLAST là một trong những chương trình được sử dụng rộng rãi nhất trong tin sinh học, có lẽ là vì nó giúp giải quyết một vấn đề cơ bản và giải thuật tập trung vào tốc độ hơn tính chính xác. Nó tập trung vào tốc độ vì đó là quyết định đến tính thực tiễn của giải thuật do cơ sở dữ liệu về genome người là cực kì lớn, mặc dù các giải thuật về sau có thể nhanh hơn. - Ứng dụng BLAST trong việc xây dựng cây phát sinh chủng loài: Thông tin từ các nucleotit và các chuỗi protein có thể được sử dụng để suy ra mối quan hệ phát sinh loài. Bởi vì cần nhiều đột biến nhỏ tích lũy thành đột biến lớn để có thể thay đổi chuỗi này thành chuỗi khác. Vì vậy một cặp so sánh giống nhau hơn về trình tự hay có ít hơn các thay đổi có thể cho thấy chúng có tổ tiên gần nhau hơn. Do vậy chúng ta có thể xây dựng được cây phát sinh chủng loạiIII.ỨNG DỤNG TÌM CHUỖI TƯƠNG ĐỒNGIII.1. Tìm chuỗi amino acid tương đồng của protein hemoglobin trong hồng cầu người.B1: Mở trình duyệt NCBI chọn BLASTCickGiao diện chương trình BLASTGiao diện chương trình BlastpGửi yêu cầu phân tích: nhấn BLASTGiao diện kết quả chương trình BLASTGiao diện kết quả chương trình BLASTHiển thị kết quả dạng kí tự tóm tắt kết quảHiển thị kết quả cụ thể khi so sánh 2. Tìm kiếm chuỗi tương đồng đối vơi chuỗi nucleotitB1: mở trình duyệt NCBI chọn BLASTCickProgram query Database 1Blastn: DNA DNA 1Blastp:protein protein 6Blastx: DNA protein Blastn:Chap mã truy mật hoặc trình tự cần so sánhHoặc tải trình tự có sẵn trong máy tínhChọn cơ sở dữ liệuKết Quả Thể hiện bằng sơ đồ đồ họa (a); mô tả cụ thể (b); thể hiện các trình tự tương đồng (b)Tiến hành tương tự với Blastp ta có kết quả:Blastx: Dịch mã protein từ trình tự DNA nhập vàoThe end
File đính kèm:
- TIN SINH HOC P36.ppt