Giáo trình Kinh tế lượng nâng cao - Bài 1 Hồi quy với biến giả

BÀI 1

HỒI QUY VỚI BIẾN GIẢ

1. ĐẶT VẤN ĐỀ

 Trong nhiều tình huống, cùng với các biến định lượng còn có những biến định tính . Ví dụ khi nghiên cứu tiêu dùng của hộ dân cư, các biến thu nhập, giá cả, số nhân khẩu, có thể định lượng được, nhưng giới tính của chủ hộ, cấu trúc thế hệ của hộ, tôn giáo - tín ngưỡng, một chính sách của chính phủ là các biến không định lượng được.

 Trong nhiều trường hợp, chính mức giá trị của các biến định lượng cũng làm thay đổi quan hệ của chúng một cách cơ bản. Có thể dễ dàng nhận ra rằng, khi tiền lương tăng đến một mức nào đó thì lượng cung lao động không còn tăng mà có thể giảm, điều này đã được mô tả trong nhiều nghiên cứu về thị trường lao động. Cũng như vậy, thu nhập ở những mức khác nhau có thể tương ứng với những tỷ lệ tiết kiệm khác nhau.

 

doc31 trang | Chia sẻ: ngochuyen96 | Lượt xem: 1120 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Giáo trình Kinh tế lượng nâng cao - Bài 1 Hồi quy với biến giả, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
ác suất như sau:
 ui
 - b1 - b2Xi 1 - b1 - b2Xi
 Pi
 1 - Pi Pi
 Tuy nhiên dù ui không phân phối chuẩn thì các ước lượng OLS vẫn là không chệch, và với mẫu lớn thì ui sẽ tiệm cận chuẩn. Do đó có thể dùng OLS để ước lượng (1).
* Các ước lượng của E(Y/Xi) là i chưa chắc đã thoả mãn điều kiện 0 Ê i Ê 1.
ước Lượng của hệ số xác định R2 có thể thấp hơn thực tế.
ước lượng mô hình.
Với các đặc điểm trên, thủ tục ước lượng mô hình LPM như sau
Bước 1. Dùng OLS ước lượng (1) thu được i.
Bước 2. Do ui có phương sai của sai số thay đổi nên phải khắc phục bằng phép đổi biến số.
Do chưa biết Pi nên dùng ước lượng của nó là i. Trước hết phải loại đi các quan sát có i 1 và đặt:
 Wi = i(1 - i)
đổi biến số và ước lượng mô hình sau:
Yi/ = b1(1/) + b2(Xi/) + ui/ (2)
Từ kết quả ước lượng (2) suy ra ước lượng của mô hình xuất phát.
Ví dụ: điều tra ngẫu nhiên 40 gia đình theo hai chỉ tiêu:
 Y = 1 nếu có nhà riêng
 Y = 0 nếu không có nhà riêng
 X là thu nhập ( ngàn USD/ năm)
GD	Y	X	GD	Y	X
1	0	8	21	1	22
2	1	16	22	1	16
3	1	18	23	0	12
4	0	11	24	0	11
5	0	12	25	1	16
6	1	19	26	0	11
7	1	20	27	1	20
8	0	13	28	1	18
9	0	9	29	0	11
10	0	10	30	0	10
11	1	17	31	1	17
12	1	18	32	0	13
13	0	14	33	1	21
14	1	20	 34	1	20
15	0	6	 35	0	11
16	1	19	 36	0	8
17	1	16	 37	1	17
18	0	10	 38	1	16
19	0	8	 39	0	7
20	1	18	 40	1	17
Hãy ước lượng mô hình LPM và cho nhận xét.
2. Mô hình logit.
Như đã phân tích, mô hình LPM có nhiều nhược điểm. Mặc dù các nhược điểm này có thể khắc phục được song nhược điểm lớn nhất là trong mô hình LPM ta đã giả thiết Pi phụ thuộc tuyến tính vào Xi. Đó là điều không thực tế vì thông thường Pi phụ thuộc phi tuyến vào Xi.
Như vậy cần xây dựng mô hình thoả mãn hai điều kiện:
Khi Xi tăng thì Pi cũng tăng song Piẻ [0,1]
Pi phụ thuộc phi tuyến vào Xi.
Có hai loại mô hình thoả mãn được các điều kiện trên là mô hình LOGIT và mô hình PROBIT.
Mô hình LOGIT và phương pháp Berkson
 ( Phương pháp moment)
Trong mô hình LOGIT ta giả thiết rằng:
 	 1
E(Y/Xi) = Pi = ----------------------	 (3)
 1 + e -(b1 + b2Xi)
Nếu đặt Zi = b1 + b2Xi thì (11) có dạng
 1
	 Pi = ----------------	(4)
 1 + e - Zi
Phương trình (4) được gọi là hàm phân bố Logistic.
 Biểu thức (4) có thể viết dưới dạng:
 e Zi
 Pi = ----------------
 1 + e Zi
 1
 ị 1 - Pi = ----------------
 1 + e Zi
Vì vậy Pi	
 ------------ = e Zi	(5)
 1 - Pi
Lúc đó Pi/( 1 - Pi) là tỷ lệ cá cược có lợi cho việc chọn Y = 1. Chẳng hạn nếu Pi = 0.8 thì có nghĩa là tỷ lệ cá cược là 4 ăn 1 cho việc chọn Y = 1.
Từ (5) ta có:
Ln(Pi/(1 - Pi)) = Zi = b1 + b2Xi
Đặt Li = ln(Pi/(1 - Pi)) = b1 + b2Xi + ui	(6)
thì lúc đó Li không chỉ tuyến tính đối với biến số mà cả đối với tham số. Với mô hình (6) ta có các nhận xét sau:
Khi Z biến thiên từ -Ơ đến +Ơ , P biến thiên từ 0 đến 1 và L biến thiên từ -Ơ đến +Ơ , như vậy dù P phải thuộc [0,1] song L vẫn không bị giới hạn.
Dù L là hàm tuyến tính của X nhưng P không phải là hàm tuyến tính của X.
Các hệ số của mô hình được giải thích như sau: b2 đo sự thay đổi của L khi X thay đổi một đơn vị, b1 đo L khi X = 0.
* ƯƠC LƯƠNG MÔ HìNH
Do chưa biết Pi nên ta dùng ước lượng của chúng.Giả sử ứng với giá trị Xi trong mấu có Ni phần tử, trong đó có ni phần tử(ni Ê Ni) mà Yi = 1. Khi đó ước lượng điểm của Pi là tần suất:
 ni
	fi = ---------	(7)
 Ni
Dùng fi ước lượng được mô hình (6). Tuy nhiên do (6) có phương sai của sai số thay đổi vì fi có phân phối nhị thức với E(fi) = Pi và Var(fi) = Pi(1 - Pi)/Ni và sẽ hội tụ chuẩn khi Ni khá lớn. Từ đó có thể chứng minh rằng ui cũng phân phối xấp xỉ chuẩn với E(ui) = 0 và Var(ui) = 1/NiPi(1 - Pi).
 Như vậy mô hình Logit cũng có phương sai của sai số thay đổi nên phải đổi biến số, trong đó thay Var(ui) bằng ước lượng:
 1
 ---------------------
	 Nifi(1 - fi)
 Như vậy thủ tục ước lượng mô hình Logit bằng phương pháp Moment như sau:
Bước 1: Với mỗi Xi tính fi = ni/Ni , Li = Ln(fi/(1 - fi))
	Và	Wi = Nifi(1 - fi)
Bước 2: Dùng OLS hồi quy mô hình
	Li = b1 + 	b2Xi + ui (8)
 Ví dụ: Cho các số liệu sau về thu nhập Xi( ngàn USD/năm),Ni là số gia đình có thu nhập tương ứng và ni là số gia đình có nhà riêng:
	Xi	Ni	ni
	6	40	8
	8	50	12
	10	60	18
	13	80	28
	15	100	45
	20	70	36
	25	65	39
	30	50	33
	35	40	30
	40	25	20
 Từ kết quả hồi quy, với mỗi Xi có thể tìm được các Pi tương ứng( ví dụ, với Xi = 10).
Phương pháp Golberger (phương pháp ước lượng hợp lý tối đa).
 Phương pháp Berkson có hạn chế là đòi hỏi điều kiện 0 < fi < 1. Nếu có fi = 0 hoặc bằng 1 thì Ln(fi/(1 - fi)) là vô nghĩa. Lúc đó phải áp dụng phương pháp ước lượng hợp lý tối đa.	
 Trước hết viết lại mô hình Logit dưới dạng:
 exp(b1 + b2X2i)
 Pi = ----------------------------
 1 + exp(b1 + b2X2i)
 exp(Xi,b)
 = --------------------	(9)
 1 + exp(Xi,b)	
Trong đó Xi = (1 , X2i) b = (b1 , b2)
 1 1
 ị 1 - Pi = -------------------------- = ------------------------
 1 + exp(b1 + b2X2i) 1 + exp(Xi,b)
Vì Yi chỉ nhận hai giá trị là 0 hoặc 1 nên nó phân phối A(P) nên với mẫu kích thước n hàm hợp lý có dạng:
L = 
 = exp(b)/,b))	(10)
Ký hiệu 
 	S(b) = ảLnL/ảb
Và	I(b) = E[- ả2LnL/ảb2]
Thì I(b) được gọi là ma trận thông tin.
 Từ đó phương pháp ước lượng hợp lý tối đa cho kết quả sau:
	 - b = [I(b)]-1S(b)	(11)
Ta có quá trình lặp để ước lượng như sau: Bắt đầu với một giá trị nào đó của b, chẳng hạn b0, tìm được S(b0) và I(b0) sau đó tìm b mới bằng công thức:
	b1 = b0 + [I(b0)]-1S(b0)	(12)
Quá trình lặp sẽ được tiếp tục cho đến khi hội tụ. Tương ứng với , [I()]-1 chính là ma trận hiệp phương sai của và được dùng trong các suy diễn thống kê.
Sau khi tìm được có thể tính được các ước lượng xác suất Pi:
	 1
i = ----------------------------- 	(13)
 1 + exp(-1 - 2Xi)	
Như vậy trong mô hình Logit người ta không nghiên cứu ảnh hưởng trực tiếp của Xi đến Yi mà là ảnh hưởng của Xi đến xác suất để Y = 1.
ảnh hưởng biên của Xi đến Pi được tính như sau:
	ải/ảXi = exp(-(1 + 2Xi))/[1 + exp(-(1 +2Xi))]2
	 = 2i(1 - i)	(14)
Ví dụ: Giải lại bài toán về quan hệ Có nhà - Thu nhập bằng phương pháp Golberger, tìm ảnh hưởng biên khi 
X = 10.
Mô hình Probit.
 Để mô tả hành vi của biến phụ thuộc, mô hình Logit đã sử dụng hàm Logistic. Trong một số trường hợp khác có thể dùng hàm phân bố chuẩn và sẽ dẫn đến mô hình Probit. ở đây ta sẽ không thay thế ngay hàm phân bố chuẩn vào chỗ của hàm phân bố Logistic mà kết hợp thêm với Lý thuyết về độ thoả dụng ( Utility Theory).
 Giả sử Yi sẽ nhận giá trị bằng 1 hoặc bằng 0 tuỳ thuộc vào một độ thoả dụng Ii được xác định bởi các biến giải thích. Độ thoả dụng càng lớn thì xác suất để Y = 1 càng lớn.
	Ii = b1 + b2Xi	(15)
 Giả sử tồn tại một giá trị tới hạn Ii* sao cho:
	Yi = 1	nếu Ii > Ii*
	Yi = 0	nếu Ii Ê Ii*
Cũng giống như Ii, Ii* không quan sát được song nếu giả thiết chúng cùng phân phối chuẩn với cùng kỳ vọng toán và phương sai thì không những có thể ước lượng được các tham số của mô hình (15) mà còn khai thác được các thông tin liên quan đến chỉ số I.
 Với giả thiết Ii* phân phối chuẩn ta có:
	Pi = P(Y = 1) = P(Ii* < Ii) = F(Ii) =
	 = 1/ệ2p = 1/ệ2p	(16)
trong đó U là biến ngẫu nhiênphân phối N(0,1).
 Từ đó Ii = F-1(Pi) = b1 + b2Xi	 (17)
Trong đó F-1 là hàm ngược của hàm phân phối chuẩn hoá.
Phương pháp Moment.
 Thủ tục ước lượng bằng phương pháp mô men như sau:
Xét mô hình	Ii = b1 + b2Xi + ui	(18)
 Bước 1: Với các số liệu ghép nhóm tìm ước lượng của Pi
	fi = ni/Ni
 Bước 2: Từ fi tra bảng tìm được Ii theo bảng giá trị tới hạn chuẩn.
 Bước 3: Hồi quy mô hình (18) tìm được 1 và 2.
Chú ý: Mô hình (18) có phương sai của sai số thay đổi:
	Var(ui) = Pi(1 - Pi)/Nifi2
Với fi là hàm mật độ xác suất của phân phối chuẩn hoá được ước lượng tại F-1(Pi). Dể khắc phục khuyết tật này có thể thực hiện phép đổi biến bằng cách hồi quy mô hình:
	WiIi = b1Wi + b2WiXi + Wiui	 (19)
	Với	Wi = ------------------- 	(20)
Ví dụ: Tiến hành lại với các số liệu ghép nhóm của mô hình Logit.
	Xi	Ni	ni	Pfi	Ii = F-1(Pi)	Zi = Ii + 5
	6	40	8	0.2	-0.84
	8	50	12	0.24	-0.7
	10	60	18	0.3	-0.52
	13	80	28	0.35	-0.38
	15	100	45	0.45	-0.12
	20	70	36	0.51	0.03
	25	65	39	0.6	0.25
	30	50	33	0.66	0.4
	35	40	30	0.75	0.67
	40	25	20	0.8	0.84
Do Ii < 0 khi Pi < 0.5 nên cộng thêm 5 vào Ii và kết quả gọi là Probit ( nếu không cộng thêm 5 thì kết quả gọi là Normit).
3.2. Phương pháp ước lượng hợp lý tối đa.
 Trước hết viết lại hàm thoả dụng dưới dạng:
	Ii = b1 + b2X2i	(21)
Kí hiệu:	Xi = (1,X2i)
= (b1 , b2)
f là hàm mật độ phân phối chuẩn hoá.
 Lúc đó Hàm hợp lý có dạng:
L = 
 Ký hiệu	S(b) = ảlnL/ảb
	I(b) = E(-ả2lnL/ảb2)
 Nếu là nghiệm của S(b) = 0 thì ta có:
	S() = ảlnL/ảb + ả2lnL/ảb2( - b)
( - b) = -[ả2lnL/ảb2]-1S(b) = [I(b)]-1S(b)
 Như vậy quá trình ước lượng bắt đầu với b = b0 từ đó tính được S(b0) và I(b0). Giá trị tiếp theo của b được tìm theo công thức:
	b = b0 + [I(b0)]-1S(b0)	(22)
Quá trình kết thúc khi hội tụ.
Cũng giống như mô hình Logit, mô hình Probit không nghiên cứu sự ảnh hưởng trực tiếp của biến giải thích Xi đối với Yi mà xem xét ảnh hưởng của Xi đến xác suất để Y = 1, tức là kỳ vọng toán của Y.
ảnh hưởng biên của Xi đến Pi được tính như sau:
 (23)
Ví dụ: ước lượng lại mô hình Probit với các số liệu của mô hình Logit bằng phương pháp Golberger.
Các mô hình trên có thể mở rộng theo các hướng
*Hướng mô hình Tobit, Chuẩn cụt
*Các mô hình có nhiều lựa chọn
Mô hình LPM, Logit, Probit
So sánh các mô hình LPM, Logit và Probit.
 Trong mô hình Logit các Pi được xác định từ hàm phân bố Logistic, còn trong mô hình Probit các Pi được xác định từ giả thiết Ii phân phối chuẩn. Vì vậy kết quả của các mô hình này không thể so sánh trực tiếp.
Amemiya nhận xét rằng nếu lấy các tham số ước lượng được tư mô hình Logit nhân với 0,625 thì sẽ cho kết quả xấp xỉ mô hình Probit.
Đồng thời Amemiya cũng chỉ ra rằng mối liên hệ giữa các tham số của mô hình LPM và Logit như sau:
	bLPM ằ 0,25bLogit (trừ hệ số chặn)
 bLPM ằ bLogit + 0,5 đối với hệ số chặn.	
Chú ý: Nếu biến phụ thuộc có nhiều hơn hai trạng thái thì có thể sử dụng các lớp mô hình đa thức

File đính kèm:

  • doctrinh chieu kinh te luong nang cao - bai 1.doc