Module 9: Ngôn ngữ lập trình và chương trình dịch

9.1. Các mức khác nhau của ngôn ngữ lập trình

Trong mục 7, ta đã xem xét một số phương pháp diễn đạt thuật toán. Để cho máy

tính có thể thực hiện được thuật toán, cần phải viết thuật toán dưới dạng các dòng "lệnh"

theo các quy ước nào đó mà máy tính có thể thực hiện được một cách trực tiếp hoặc viết

dưới dạng nào đó để có thể sinh tự động dạng mà máy tính có thể thực hiện trực tiếp. Tập

các kí hiệu và các quy tắc viết các lệnh để thể hiện thuật toán được gọi là một ngôn ngữ

lập trình (programming language). Các quy tắc để viết chương trình được gọi là cú pháp

(syntax) của ngôn ngữ lập trình. Mỗi chương trình sẽ mang một ý nghĩa nhất định mà ta

gọi là ngữ nghĩa (semantic) của chương trình.

Có nhiều lớp ngôn ngữ lập trình khác nhau. Theo mức độ hình thức hoá, người ta

chia các ngôn ngữ lập trình thành các lớp sau:

Ngôn ngữ máy. Chương trình trong ngôn ngữ máy là dãy các lệnh máy mà CPU

có thể thực hiện trực tiếp. Đó là ngôn ngữ lập trình duy nhất mà máy tính "hiểu được".

Trong thang bậc các ngôn ngữ giao tiếp với máy tính, đây là mức thấp nhất nhưng hiệu

quả của chương trình sẽ là cao nhất vì ta có thể khai thác triệt để khả năng của máy. Tuỳ

theo thiết kế về phần cứng, mỗi loại máy tính có một ngôn ngữ máy khác nhau. Các lệnh

viết bằng ngôn ngữ máy nói chung ở dạng nhị phân hoặc biến thể của chúng trong hệ

đếm 16.

Ví dụ sau đây là một đoạn chương trình viết bằng ngôn ngữ máy của một máy

tính dùng bộ vi xử lý Intel 8086.

Bảng 9.1. Ngôn ngữ máy

Mã trên hệ nhị phân Mã hệ 16 Ý nghĩa

1001 0001 0110 0100 0001 0000 A1 64 10 Nạp số 2 byte từ 1064 lên AX

0000 0011 0110 0110 0001 0000 03 65 10 Cộng AX với số 2 byte ở 1066 kết quả để trên AX

1010 0011 0000 0000 0010 1011 A3 00 2B Chuyển kết quả từ AX về hai byte bắt đầu từ 2B00

Đoạn chương trình này cộng hai số nguyên hai byte ở trong các địa chỉ 1064 và

1066. Kết quả để ở hai byte bắt đầu từ địa chỉ 2B00. Cột đầu là dòng lệnh trong hệ 16,

cột giữa là dòng lệnh tương đương trong hệ nhị phân (chính là hình ảnh thực sự của

chương trình trong bộ nhớ) và cột bên phải là giải thích. AX là tên một thanh ghi 16 bít

trong bộ vi xử lý 8086 .

Qua ví dụ trên, ta thấy ngôn ngữ máy không thật thích hợp cho số đông người sử

dụng máy tính vì để viết hoặc hiểu chương trình, người ta phải nhớ rất máy móc các mã

số của lệnh mà các dòng số này không có hàm ý rõ ràng. Mặt khác do tập lệnh của các bộ

xử lý có thể khác nhau nên không thể dùng chương trình viết trên bộ xử lý này chạy trên

máy tính dùng bộ xử lý khác loại.

Hợp ngữ (Assembly). Để khắc phục nhược điểm trên của ngôn ngữ máy, người ta

đề xuất một ngôn ngữ giao tiếp với máy ở mức độ hình thức hơn gọi là hợp ngữ. Về cơ

bản, hợp ngữ có các cấu trúc rất giống với ngôn ngữ máy. Điều khác là trong hợp ngữ cóthể viết lệnh dưới dạng mã chữ. Mã chữ thể hiện mã lệnh hoặc các đối tượng trong lệnh

(trong ngôn ngữ máy nó là mã lệnh và địa chỉ của đối tượng). Mã lệnh ở dạng chữ thường

chính là những từ trong tiếng Anh có ý nghĩa rõ ràng, còn đối tượng do ta tự đặt tên phù

hợp với ý niệm về đối tượng đó. Ví dụ nếu đoạn chương trình trên dùng để cộng chiều

dài và chiều rộng của hình chữ nhật để tính nửa chu vi thì trong hợp ngữ ASM ta chỉ cần

viết

6 trang | Chia sẻ: hienduc166 | Lượt xem: 910 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Module 9: Ngôn ngữ lập trình và chương trình dịch, để tải tài liệu về máy bạn click vào nút TẢI VỀ ở trên

ta
đề xuất một ngôn ngữ giao tiếp với máy ở mức độ hình thức hơn gọi là hợp ngữ. Về cơ
bản, hợp ngữ có các cấu trúc rất giống với ngôn ngữ máy. Điều khác là trong hợp ngữ có
thể viết lệnh dưới dạng mã chữ. Mã chữ thể hiện mã lệnh hoặc các đối tượng trong lệnh
(trong ngôn ngữ máy nó là mã lệnh và địa chỉ của đối tượng). Mã lệnh ở dạng chữ thường
chính là những từ trong tiếng Anh có ý nghĩa rõ ràng, còn đối tượng do ta tự đặt tên phù
hợp với ý niệm về đối tượng đó. Ví dụ nếu đoạn chương trình trên dùng để cộng chiều
dài và chiều rộng của hình chữ nhật để tính nửa chu vi thì trong hợp ngữ ASM ta chỉ cần
viết
Bảng 9.2. Chương trình viết trên Assembly
MOV AX CHIEU_DAI
ADD AX CHIEU_RONG
MOV NUA_CHU_VI AX
Từ MOV có gốc từ từ MOVE trong tiếng Anh, có nghĩa là chuyển, còn từ ADD
có nghĩa là cộng. Lệnh thứ nhất có nghĩa là nạp số liệu mà ta đặt tên là CHIEU_DAI lên
thanh ghi AX, lệnh thứ hai có nghĩa là cộng số trong thanh ghi AX với số liệu mà ta đặt
tên là CHIEU_RONG. Ta thấy mặc dù còn cồng kềnh và còn phụ thuộc vào một loại máy
tính cụ thể, hợp ngữ dễ dùng hơn rất nhiều so với ngôn ngữ máy.
Để một chương trình viết bằng hợp ngữ chạy được trên máy tính, nó cần phải
được dịch ra ngôn ngữ máy. Rõ ràng là, mỗi hợp ngữ dùng cho một loại máy nào đó đều
cần có trình dịch phù hợp. Khi dịch, hai đối tượng CHIEU_DAI và CHIEU_RONG nói
trên sẽ được tự động thay bằng hai địa chỉ cụ thể nào đó không nhất thiết là 1064 và 1066
như ở ví dụ trên. Vì vậy ta cũng không cần phải quan tâm đến sắp xếp địa chỉ cụ thể sau
khi dịch xong và chạy chương trình. Chương trình dịch đối với hợp ngữ được gọi là hợp
dịch (assembler).
Ngôn ngữ thuật toán (còn gọi là ngôn ngữ thuật toán) . Ta đã thấy ngôn ngữ máy
và cả hợp ngữ đều phụ thuộc vào hệ thống lệnh của một loại máy cụ thể. Chúng chưa thật
thích hợp cho đông đảo người sử dụng máy tính. Người ta muốn thể hiện thuật toán bằng
những lệnh với ý nghĩa thực tế và độc lập với bất cứ loại máy cụ thể nào. Chẳng hạn
trong ví dụ trên chỉ cần viết NUA_CHU_VI = CHIEU_DAI + CHIEU_RONG là đủ. Từ
đầu những năm 50, người ta đã xây dựng những ngôn ngữ lập trình vạn năng có các lệnh
gần với ngôn ngữ tự nhiên và ngôn ngữ toán học. Các ngôn ngữ lập trình này được gọi là
các ngôn ngữ lập trình bậc cao (high level programming language). Vì chúng chỉ nhằm
vào thể hiện thuật toán độc lập với các máy tính cụ thể nên người ta còn gọi nó là các
ngôn ngữ thuật toán (algorithmic language). Cũng như đối với hợp ngữ, mỗi ngôn ngữ
lập trình bậc cao trên một loại máy cụ thể đều cần có chương trình dịch để dịch các
chương trình sang sang ngôn ngữ máy của máy đó mới có thể thực hiện được.
Chú ý rằng mỗi lệnh của hợp ngữ nói chung được dịch thành một lệnh trong ngôn
ngữ máy còn mỗi lệnh của ngôn ngữ bậc cao thường tương đương với nhiều lệnh máy. Ví
dụ lệnh NUA_CHU_VI = CHIEU_DAI + CHIEU_RONG sẽ dịch thành 3 lệnh máy.
Có hai kiểu dịch: thông dịch (Interpeter) là kiểu dịch từng lệnh để hiểu công việc
phải làm và thực hiện luôn nhưng không nhất thiết phải tạo ra những đoạn mã tương ứng
trong ngôn ngữ máy. Nếu một lệnh cần thực hiện nhiều lần thì cũng phải dịch nhiều lần.
Ngôn ngữ BASIC thịnh hành vào những năm 80 thường đi theo chế độ thông dịch. Còn
các trình biên dịch (compiler) sẽ dịch toàn bộ chương trình ban đầu (gọi là chương trình
nguồn) thành một chương trình tương ứng trong ngôn ngữ máy (gọi là chương trình
đích), sau đó nạp chương trình đích vào máy tính để thực hiện. Sở dĩ trong tiếng Việt
chúng ta gọi hai kiểu dịch này là "thông dịch' và "biên dịch" vì tính chất dịch có phần nào
giống với dịch tiếng nước ngoài. Thông dịch giống như công việc của người phiên dịch
(thông ngôn), nói tới đâu dịch tới đó. Còn biên dịch là công việc của người biên dịch, căn
cứ trên tài liệu đầy đủ, ta viết ra một lần bản dịch đầy đủ.
Ngôn ngữ bậc cao đầu tiên được xây dựng vào năm 1957 là ngôn ngữ FORTRAN
(FORmula TRANslator - Bộ dịch các công thức). Ngày nay có rất nhiều các ngôn ngữ lập
trình bậc cao như PASCAL hay C. Sau đây là một đoạn chương trình giải phương trình
bậc 2 viết trên PASCAL và FORTRAN. Bạn đọc dù chưa có một chút ý niệm gì về các
ngôn ngữ này cũng có thể hiểu được các đoạn chương trình sau nói gì
Bảng 9.3. Chương trình viết trên Pascal
(*Đoạn chương trình trên PASCAL*)
DELTA := B*B - 4*A*C;
IF DELTA > 0 THEN
BEGIN
X1 := (- B + SQRT(DELTA))/(2*A);
X2 := (- B - SQRT(DELTA))/(2*A);
WRITE (X1,X2);
END
ELSE
WRITE('Vo nghiem');
.....
Sau đây là đoạn chương trình viết trên ngôn ngữ FORTRAN. Theo quy ước,
chương trình FORTRAN được viết trên giấy mẫu có 80 cột. Từ cột 1 đến cột 5 dành cho
nhãn các toán tử, từ cột 7 đến 72 dành cho toán tử.
Các lệnh in phải đi kèm với thông tin về cách in (ví dụ kênh 3 để nối máy in và
nhãn của một toán tử FORMAT giải thích cách in, ví dụ F8.3 là in một số thực ở 8 vị trí
trong đó dành cho phần lẻ sau dấu phảy 3 vị trí).
Bảng 9.4. Chương trình viết trên FORTRAN IV
1 6 7 72 73 80
DELTA = B*B - 4* A*C
IF DELTA < 0 GOTO 10
X1 = (- B + SQRT(DELTA))/(2*A)
X2 = (- B - SQRT(DELTA))/(2*A)
WRITE (3,20) X1, X2
20 FORMAT ('NGHIEM 1= ', F8.3, NGHIEM 2 = ', F8.3)
GOTO 30
10 WRITE(3,40)
40 FORMAT('VO NGHIEM')
30 ...........................................
Qua các ví dụ trên ta thấy ngôn ngữ thuật toán dễ sử dụng hơn nhiều so với hợp
ngữ và ngôn ngữ máy. Ngày nay rất ít người phải sử dụng hợp ngữ và ngôn ngữ máy để
phát triển phần mềm.
9.2. Quá trình thực hiện một chương trình với ngôn ngữ bậc cao
Cần nhắc lại rằng MTĐT chỉ làm việc trực tiếp với ngôn ngữ máy. Việc dịch một
chương trình viết bằng ngôn ngữ bậc cao sang ngôn ngữ máy do một chương trình dịch
(compiler) thực hiện. Chương trình dịch chính là một loại phần mềm thuộc lớp công cụ
mà chúng ta thảo luận trong mục 7. Quá trình tạo ra một chương trình thực hiện được bao
gồm những bước sau:
Soạn thảo chương trình nguồn. Có thể dùng các phần mềm soạn thảo văn bản để
tạo ra văn bản chương trình nguồn.
Phân tích từ vựng (Lexical Analysis) và phân tích cú pháp (Syntax Analysis).
Phân tích từ vựng để xây dựng danh sách các đối tượng của chương trình. Phân tích cú
pháp có mục đích duyệt chương trình nguồn để phát hiện và thông báo các lỗi không
đúng với quy ước của ngôn ngữ. Các lỗi này làm cho nghĩa của chương trình không rõ và
do đó không thể dịch đúng được. Ví dụ trong ngôn ngũ PASCAL ta viết dòng lệnh d := (a
+ b)/e-f)+g. Khi đọc đến dấu ngoặc đóng thứ 2 sau f, ta sẽ không hiểu được nguời viết
muốn tính gì và đương nhiên cũng không thể dịch được. Lý do làm cho dòng lệnh không
rõ nghĩa ở đây là thiếu một dấu ngoặc "(" ở phía trước, có thể là trước chữ e, cũng có thể
trước chữ a. Những lỗi sai với quy ước của ngôn ngữ gọi là lỗi cú pháp. Quá trình phân
tích cú pháp cũng tạo ra các thông tin cần thiết về cấu trúc của chương trình và các đối
tượng sẽ dùng trong công việc dịch được mô ta tiếp theo đây. Trong quá trình phân tích
cú pháp, danh mục các đối tượng cũng được xây dựng để còn sinh mã chương trình trong
giai đoạn tiếp theo. Công việc này gọi là phân tích từ vựng.
Dịch (Compile). Nếu chương trình nguồn không có lỗi cú pháp thì việc dịch ra
lệnh máy mới có thể tiến hành được. Thông thường việc phân tích cú pháp và dịch
thường tiến hành xen kẽ. Kết quả sau giai đoạn dịch là những đoạn chương trình gọi là
mô đun đối tượng (object module). Nói chung các mô đun đối tượng chưa đủ hoàn chỉnh
để có thể thi hành được. Sau khi dịch có thể tối ưu mã. Một đoạn chương trình sau khi
dịch có thể chuyển tải được các ý đồ của thuật giải nhưng chưa được đối ưu. Công đoạn
tối ưu hoá có thể giúp tạo ra các mã hiệu quả hơn.
Liên kết (Link). Trên thực tế, một chương trình có thể có nhiều phần được dịch
một cách độc lập. Ngoài ra rất nhiều công việc thường dùng đã được lập trình sẵn và
được lưu trong các thư viện dưới dạng các mô đun đối tượng. Người lập trình chỉ cần viết
yêu cầu sử dụng. Ví dụ trong PASCAL khi viết y := 3 + sin(x) thì chính đoạn chương
trình tính sin được lập sẵn từ trước dưới dạng một mô đun đối tượng sẽ được ghép vào
chương trình đích. Như vậy sau khi dịch để có một chương trình hoàn chỉnh cần phải liên
kết các các mô đun đối tượng lại với nhau. Quá trình ghép nối các đoạn chương trình của
người sử dụng và các đoạn chương trình khác được lập từ trước gọi là hợp nhất hoặc liên
kết (link). Quá trình này cũng có thể gặp lỗi ví dụ không tìm thấy các đoạn chương trình
được yêu cầu nối vào hoặc cấu trúc kết nối không phù hợp, ví dụ mô đun A thông báo
chuyển cho mô đun B dữ liệu là một ký tự trong khi trong mô đun B lại yêu cầu nhận mọt
số.
Thực hiện (run). Sau khi liên kết, ta được một chương trình có thể sẵn sàng thi
hành trên máy. Trong quá trình thi hành trên máy vẫn có thể có lỗi gọi là lỗi thi hành
(runtime error). Lỗi thi hành có thể có nguyên nhân từ thuật toán , cũng có thể có nguyên
nhân do ta không thể hiện chính xác ý nghĩa hoặc không kiểm soát được đúng quá trình
sinh ra hoặc biến đổi của các đối tượng. Các lỗi này gọi là lỗi ngữ nghĩa (semantic). Ví
dụ dòng lệnh trong ngôn ngữ PASCAL a: = x/y nghĩa là a tính bằng thương của x và y thì
không sai cú pháp nhưng khi thực hiện nếu y là 0 thì sẽ gây lỗi ngữ nghĩa. Lỗi thi hành
còn có nguyên nhân là tình trạng xử lý cụ thể của máy. Ví dụ chương trình đòi in nhưng
máy in không bật điện hoặc ghi đĩa nhưng đĩa bị hỏng.
Sơ đồ thực hiện một công việc sử dụng hợp ngữ hoặc ngôn ngữ bậc cao được
minh hoạ trong hình 9.1.
Ta thấy rằng các bộ dịch hay chương trình liên kết chính là một loại phần mềm
phát triển
Hình 9.1. Sơ đồ thực thực hiện một công việc với ngôn ngữ bậc cao
Soạn thảo Dịch Liên kết Thực hiện
Phần mềm
soạn thảo
Chương trình
dịch
Chương
trình liên kết
Dữ liệu
Chương trình
nguồn
Các mô đun
đối tượng
Chương trình
chạy được
Kết quả
xử lý
Lỗi cú
pháp
Lỗi liên kết Lỗi thi
hành

File đính kèm:

Ngon_ngu_lap_trinh & CT dịch.pdf