Module 9: Ngôn ngữ lập trình và chương trình dịch

9.1. Các mức khác nhau của ngôn ngữ lập trình

Trong mục 7, ta đã xem xét một số phương pháp diễn đạt thuật toán. Để cho máy

tính có thể thực hiện được thuật toán, cần phải viết thuật toán dưới dạng các dòng "lệnh"

theo các quy ước nào đó mà máy tính có thể thực hiện được một cách trực tiếp hoặc viết

dưới dạng nào đó để có thể sinh tự động dạng mà máy tính có thể thực hiện trực tiếp. Tập

các kí hiệu và các quy tắc viết các lệnh để thể hiện thuật toán được gọi là một ngôn ngữ

lập trình (programming language). Các quy tắc để viết chương trình được gọi là cú pháp

(syntax) của ngôn ngữ lập trình. Mỗi chương trình sẽ mang một ý nghĩa nhất định mà ta

gọi là ngữ nghĩa (semantic) của chương trình.

Có nhiều lớp ngôn ngữ lập trình khác nhau. Theo mức độ hình thức hoá, người ta

chia các ngôn ngữ lập trình thành các lớp sau:

Ngôn ngữ máy. Chương trình trong ngôn ngữ máy là dãy các lệnh máy mà CPU

có thể thực hiện trực tiếp. Đó là ngôn ngữ lập trình duy nhất mà máy tính "hiểu được".

Trong thang bậc các ngôn ngữ giao tiếp với máy tính, đây là mức thấp nhất nhưng hiệu

quả của chương trình sẽ là cao nhất vì ta có thể khai thác triệt để khả năng của máy. Tuỳ

theo thiết kế về phần cứng, mỗi loại máy tính có một ngôn ngữ máy khác nhau. Các lệnh

viết bằng ngôn ngữ máy nói chung ở dạng nhị phân hoặc biến thể của chúng trong hệ

đếm 16.

Ví dụ sau đây là một đoạn chương trình viết bằng ngôn ngữ máy của một máy

tính dùng bộ vi xử lý Intel 8086.

Bảng 9.1. Ngôn ngữ máy

Mã trên hệ nhị phân Mã hệ 16 Ý nghĩa

1001 0001 0110 0100 0001 0000 A1 64 10 Nạp số 2 byte từ 1064 lên AX

0000 0011 0110 0110 0001 0000 03 65 10 Cộng AX với số 2 byte ở 1066 kết quả để trên AX

1010 0011 0000 0000 0010 1011 A3 00 2B Chuyển kết quả từ AX về hai byte bắt đầu từ 2B00

Đoạn chương trình này cộng hai số nguyên hai byte ở trong các địa chỉ 1064 và

1066. Kết quả để ở hai byte bắt đầu từ địa chỉ 2B00. Cột đầu là dòng lệnh trong hệ 16,

cột giữa là dòng lệnh tương đương trong hệ nhị phân (chính là hình ảnh thực sự của

chương trình trong bộ nhớ) và cột bên phải là giải thích. AX là tên một thanh ghi 16 bít

trong bộ vi xử lý 8086 .

Qua ví dụ trên, ta thấy ngôn ngữ máy không thật thích hợp cho số đông người sử

dụng máy tính vì để viết hoặc hiểu chương trình, người ta phải nhớ rất máy móc các mã

số của lệnh mà các dòng số này không có hàm ý rõ ràng. Mặt khác do tập lệnh của các bộ

xử lý có thể khác nhau nên không thể dùng chương trình viết trên bộ xử lý này chạy trên

máy tính dùng bộ xử lý khác loại.

Hợp ngữ (Assembly). Để khắc phục nhược điểm trên của ngôn ngữ máy, người ta

đề xuất một ngôn ngữ giao tiếp với máy ở mức độ hình thức hơn gọi là hợp ngữ. Về cơ

bản, hợp ngữ có các cấu trúc rất giống với ngôn ngữ máy. Điều khác là trong hợp ngữ cóthể viết lệnh dưới dạng mã chữ. Mã chữ thể hiện mã lệnh hoặc các đối tượng trong lệnh

(trong ngôn ngữ máy nó là mã lệnh và địa chỉ của đối tượng). Mã lệnh ở dạng chữ thường

chính là những từ trong tiếng Anh có ý nghĩa rõ ràng, còn đối tượng do ta tự đặt tên phù

hợp với ý niệm về đối tượng đó. Ví dụ nếu đoạn chương trình trên dùng để cộng chiều

dài và chiều rộng của hình chữ nhật để tính nửa chu vi thì trong hợp ngữ ASM ta chỉ cần

viết

pdf6 trang | Chia sẻ: hienduc166 | Lượt xem: 717 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Module 9: Ngôn ngữ lập trình và chương trình dịch, để tải tài liệu về máy bạn click vào nút TẢI VỀ ở trên
ta 
đề xuất một ngôn ngữ giao tiếp với máy ở mức độ hình thức hơn gọi là hợp ngữ. Về cơ 
bản, hợp ngữ có các cấu trúc rất giống với ngôn ngữ máy. Điều khác là trong hợp ngữ có 
thể viết lệnh dưới dạng mã chữ. Mã chữ thể hiện mã lệnh hoặc các đối tượng trong lệnh 
(trong ngôn ngữ máy nó là mã lệnh và địa chỉ của đối tượng). Mã lệnh ở dạng chữ thường 
chính là những từ trong tiếng Anh có ý nghĩa rõ ràng, còn đối tượng do ta tự đặt tên phù 
hợp với ý niệm về đối tượng đó. Ví dụ nếu đoạn chương trình trên dùng để cộng chiều 
dài và chiều rộng của hình chữ nhật để tính nửa chu vi thì trong hợp ngữ ASM ta chỉ cần 
viết 
Bảng 9.2. Chương trình viết trên Assembly 
MOV AX CHIEU_DAI 
ADD AX CHIEU_RONG 
MOV NUA_CHU_VI AX 
Từ MOV có gốc từ từ MOVE trong tiếng Anh, có nghĩa là chuyển, còn từ ADD 
có nghĩa là cộng. Lệnh thứ nhất có nghĩa là nạp số liệu mà ta đặt tên là CHIEU_DAI lên 
thanh ghi AX, lệnh thứ hai có nghĩa là cộng số trong thanh ghi AX với số liệu mà ta đặt 
tên là CHIEU_RONG. Ta thấy mặc dù còn cồng kềnh và còn phụ thuộc vào một loại máy 
tính cụ thể, hợp ngữ dễ dùng hơn rất nhiều so với ngôn ngữ máy. 
Để một chương trình viết bằng hợp ngữ chạy được trên máy tính, nó cần phải 
được dịch ra ngôn ngữ máy. Rõ ràng là, mỗi hợp ngữ dùng cho một loại máy nào đó đều 
cần có trình dịch phù hợp. Khi dịch, hai đối tượng CHIEU_DAI và CHIEU_RONG nói 
trên sẽ được tự động thay bằng hai địa chỉ cụ thể nào đó không nhất thiết là 1064 và 1066 
như ở ví dụ trên. Vì vậy ta cũng không cần phải quan tâm đến sắp xếp địa chỉ cụ thể sau 
khi dịch xong và chạy chương trình. Chương trình dịch đối với hợp ngữ được gọi là hợp 
dịch (assembler). 
Ngôn ngữ thuật toán (còn gọi là ngôn ngữ thuật toán) . Ta đã thấy ngôn ngữ máy 
và cả hợp ngữ đều phụ thuộc vào hệ thống lệnh của một loại máy cụ thể. Chúng chưa thật 
thích hợp cho đông đảo người sử dụng máy tính. Người ta muốn thể hiện thuật toán bằng 
những lệnh với ý nghĩa thực tế và độc lập với bất cứ loại máy cụ thể nào. Chẳng hạn 
trong ví dụ trên chỉ cần viết NUA_CHU_VI = CHIEU_DAI + CHIEU_RONG là đủ. Từ 
đầu những năm 50, người ta đã xây dựng những ngôn ngữ lập trình vạn năng có các lệnh 
gần với ngôn ngữ tự nhiên và ngôn ngữ toán học. Các ngôn ngữ lập trình này được gọi là 
các ngôn ngữ lập trình bậc cao (high level programming language). Vì chúng chỉ nhằm 
vào thể hiện thuật toán độc lập với các máy tính cụ thể nên người ta còn gọi nó là các 
ngôn ngữ thuật toán (algorithmic language). Cũng như đối với hợp ngữ, mỗi ngôn ngữ 
lập trình bậc cao trên một loại máy cụ thể đều cần có chương trình dịch để dịch các 
chương trình sang sang ngôn ngữ máy của máy đó mới có thể thực hiện được. 
Chú ý rằng mỗi lệnh của hợp ngữ nói chung được dịch thành một lệnh trong ngôn 
ngữ máy còn mỗi lệnh của ngôn ngữ bậc cao thường tương đương với nhiều lệnh máy. Ví 
dụ lệnh NUA_CHU_VI = CHIEU_DAI + CHIEU_RONG sẽ dịch thành 3 lệnh máy. 
Có hai kiểu dịch: thông dịch (Interpeter) là kiểu dịch từng lệnh để hiểu công việc 
phải làm và thực hiện luôn nhưng không nhất thiết phải tạo ra những đoạn mã tương ứng 
trong ngôn ngữ máy. Nếu một lệnh cần thực hiện nhiều lần thì cũng phải dịch nhiều lần. 
Ngôn ngữ BASIC thịnh hành vào những năm 80 thường đi theo chế độ thông dịch. Còn 
các trình biên dịch (compiler) sẽ dịch toàn bộ chương trình ban đầu (gọi là chương trình 
nguồn) thành một chương trình tương ứng trong ngôn ngữ máy (gọi là chương trình 
đích), sau đó nạp chương trình đích vào máy tính để thực hiện. Sở dĩ trong tiếng Việt 
chúng ta gọi hai kiểu dịch này là "thông dịch' và "biên dịch" vì tính chất dịch có phần nào 
giống với dịch tiếng nước ngoài. Thông dịch giống như công việc của người phiên dịch 
(thông ngôn), nói tới đâu dịch tới đó. Còn biên dịch là công việc của người biên dịch, căn 
cứ trên tài liệu đầy đủ, ta viết ra một lần bản dịch đầy đủ. 
Ngôn ngữ bậc cao đầu tiên được xây dựng vào năm 1957 là ngôn ngữ FORTRAN 
(FORmula TRANslator - Bộ dịch các công thức). Ngày nay có rất nhiều các ngôn ngữ lập 
trình bậc cao như PASCAL hay C. Sau đây là một đoạn chương trình giải phương trình 
bậc 2 viết trên PASCAL và FORTRAN. Bạn đọc dù chưa có một chút ý niệm gì về các 
ngôn ngữ này cũng có thể hiểu được các đoạn chương trình sau nói gì 
Bảng 9.3. Chương trình viết trên Pascal 
(*Đoạn chương trình trên PASCAL*) 
DELTA := B*B - 4*A*C; 
IF DELTA > 0 THEN 
 BEGIN 
 X1 := (- B + SQRT(DELTA))/(2*A); 
 X2 := (- B - SQRT(DELTA))/(2*A); 
 WRITE (X1,X2); 
 END 
ELSE 
 WRITE('Vo nghiem'); 
 ..... 
Sau đây là đoạn chương trình viết trên ngôn ngữ FORTRAN. Theo quy ước, 
chương trình FORTRAN được viết trên giấy mẫu có 80 cột. Từ cột 1 đến cột 5 dành cho 
nhãn các toán tử, từ cột 7 đến 72 dành cho toán tử. 
Các lệnh in phải đi kèm với thông tin về cách in (ví dụ kênh 3 để nối máy in và 
nhãn của một toán tử FORMAT giải thích cách in, ví dụ F8.3 là in một số thực ở 8 vị trí 
trong đó dành cho phần lẻ sau dấu phảy 3 vị trí). 
Bảng 9.4. Chương trình viết trên FORTRAN IV 
1 6 7 72 73 80 
 DELTA = B*B - 4* A*C 
 IF DELTA < 0 GOTO 10 
 X1 = (- B + SQRT(DELTA))/(2*A) 
 X2 = (- B - SQRT(DELTA))/(2*A) 
 WRITE (3,20) X1, X2 
20 FORMAT ('NGHIEM 1= ', F8.3, NGHIEM 2 = ', F8.3) 
 GOTO 30 
10 WRITE(3,40) 
40 FORMAT('VO NGHIEM') 
30 ........................................... 
Qua các ví dụ trên ta thấy ngôn ngữ thuật toán dễ sử dụng hơn nhiều so với hợp 
ngữ và ngôn ngữ máy. Ngày nay rất ít người phải sử dụng hợp ngữ và ngôn ngữ máy để 
phát triển phần mềm. 
9.2. Quá trình thực hiện một chương trình với ngôn ngữ bậc cao 
Cần nhắc lại rằng MTĐT chỉ làm việc trực tiếp với ngôn ngữ máy. Việc dịch một 
chương trình viết bằng ngôn ngữ bậc cao sang ngôn ngữ máy do một chương trình dịch 
(compiler) thực hiện. Chương trình dịch chính là một loại phần mềm thuộc lớp công cụ 
mà chúng ta thảo luận trong mục 7. Quá trình tạo ra một chương trình thực hiện được bao 
gồm những bước sau: 
Soạn thảo chương trình nguồn. Có thể dùng các phần mềm soạn thảo văn bản để 
tạo ra văn bản chương trình nguồn. 
Phân tích từ vựng (Lexical Analysis) và phân tích cú pháp (Syntax Analysis). 
Phân tích từ vựng để xây dựng danh sách các đối tượng của chương trình. Phân tích cú 
pháp có mục đích duyệt chương trình nguồn để phát hiện và thông báo các lỗi không 
đúng với quy ước của ngôn ngữ. Các lỗi này làm cho nghĩa của chương trình không rõ và 
do đó không thể dịch đúng được. Ví dụ trong ngôn ngũ PASCAL ta viết dòng lệnh d := (a 
+ b)/e-f)+g. Khi đọc đến dấu ngoặc đóng thứ 2 sau f, ta sẽ không hiểu được nguời viết 
muốn tính gì và đương nhiên cũng không thể dịch được. Lý do làm cho dòng lệnh không 
rõ nghĩa ở đây là thiếu một dấu ngoặc "(" ở phía trước, có thể là trước chữ e, cũng có thể 
trước chữ a. Những lỗi sai với quy ước của ngôn ngữ gọi là lỗi cú pháp. Quá trình phân 
tích cú pháp cũng tạo ra các thông tin cần thiết về cấu trúc của chương trình và các đối 
tượng sẽ dùng trong công việc dịch được mô ta tiếp theo đây. Trong quá trình phân tích 
cú pháp, danh mục các đối tượng cũng được xây dựng để còn sinh mã chương trình trong 
giai đoạn tiếp theo. Công việc này gọi là phân tích từ vựng. 
Dịch (Compile). Nếu chương trình nguồn không có lỗi cú pháp thì việc dịch ra 
lệnh máy mới có thể tiến hành được. Thông thường việc phân tích cú pháp và dịch 
thường tiến hành xen kẽ. Kết quả sau giai đoạn dịch là những đoạn chương trình gọi là 
mô đun đối tượng (object module). Nói chung các mô đun đối tượng chưa đủ hoàn chỉnh 
để có thể thi hành được. Sau khi dịch có thể tối ưu mã. Một đoạn chương trình sau khi 
dịch có thể chuyển tải được các ý đồ của thuật giải nhưng chưa được đối ưu. Công đoạn 
tối ưu hoá có thể giúp tạo ra các mã hiệu quả hơn. 
Liên kết (Link). Trên thực tế, một chương trình có thể có nhiều phần được dịch 
một cách độc lập. Ngoài ra rất nhiều công việc thường dùng đã được lập trình sẵn và 
được lưu trong các thư viện dưới dạng các mô đun đối tượng. Người lập trình chỉ cần viết 
yêu cầu sử dụng. Ví dụ trong PASCAL khi viết y := 3 + sin(x) thì chính đoạn chương 
trình tính sin được lập sẵn từ trước dưới dạng một mô đun đối tượng sẽ được ghép vào 
chương trình đích. Như vậy sau khi dịch để có một chương trình hoàn chỉnh cần phải liên 
kết các các mô đun đối tượng lại với nhau. Quá trình ghép nối các đoạn chương trình của 
người sử dụng và các đoạn chương trình khác được lập từ trước gọi là hợp nhất hoặc liên 
kết (link). Quá trình này cũng có thể gặp lỗi ví dụ không tìm thấy các đoạn chương trình 
được yêu cầu nối vào hoặc cấu trúc kết nối không phù hợp, ví dụ mô đun A thông báo 
chuyển cho mô đun B dữ liệu là một ký tự trong khi trong mô đun B lại yêu cầu nhận mọt 
số. 
Thực hiện (run). Sau khi liên kết, ta được một chương trình có thể sẵn sàng thi 
hành trên máy. Trong quá trình thi hành trên máy vẫn có thể có lỗi gọi là lỗi thi hành 
(runtime error). Lỗi thi hành có thể có nguyên nhân từ thuật toán , cũng có thể có nguyên 
nhân do ta không thể hiện chính xác ý nghĩa hoặc không kiểm soát được đúng quá trình 
sinh ra hoặc biến đổi của các đối tượng. Các lỗi này gọi là lỗi ngữ nghĩa (semantic). Ví 
dụ dòng lệnh trong ngôn ngữ PASCAL a: = x/y nghĩa là a tính bằng thương của x và y thì 
không sai cú pháp nhưng khi thực hiện nếu y là 0 thì sẽ gây lỗi ngữ nghĩa. Lỗi thi hành 
còn có nguyên nhân là tình trạng xử lý cụ thể của máy. Ví dụ chương trình đòi in nhưng 
máy in không bật điện hoặc ghi đĩa nhưng đĩa bị hỏng. 
Sơ đồ thực hiện một công việc sử dụng hợp ngữ hoặc ngôn ngữ bậc cao được 
minh hoạ trong hình 9.1. 
Ta thấy rằng các bộ dịch hay chương trình liên kết chính là một loại phần mềm 
phát triển 
Hình 9.1. Sơ đồ thực thực hiện một công việc với ngôn ngữ bậc cao 
Soạn thảo Dịch Liên kết Thực hiện 
Phần mềm 
soạn thảo 
Chương trình 
dịch
Chương 
trình liên kết 
Dữ liệu 
Chương trình 
nguồn 
Các mô đun 
đối tượng
Chương trình 
chạy được
Kết quả 
xử lý 
Lỗi cú 
pháp 
Lỗi liên kết Lỗi thi 
hành 

File đính kèm:

  • pdfNgon_ngu_lap_trinh & CT dịch.pdf
Bài giảng liên quan