HỌC PHẦN: PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC
Tên học phần:
Phương pháp nghiên cứu khoa học
Research Methodology
Mã học phần: 71BUSI40153
Số tín chỉ: 3
VLU
Chương 7. CHỈNH LÝ DỮ LIỆU VÀ PHÂN TÍCH HỒI QUY TUYẾN TÍNH
7.1. Phân tích tương quan
7.2. Lọc dữ liệu
7.3. Mô hình hồi quy tuyến tính
7.3.1. Hồi quy tuyến tính đơn
7.3.2. Hồi quy tuyến tính đa biến
7.4. Đánh giá mô hình
7.5. Kiểm định mô hình
7.6. Hiện tượng tự tương quan
7.1. Phân tích tương quan
• Phân tích tương quan Pearson là một trong các bước chúng
ta thực hiện trong bài nghiên cứu sử dụng phân tích định
lượng SPSS.
• Thường bước này sẽ được thực hiện trước khi phân tích hồi
quy.
• Mục đích chạy tương quan Pearson nhằm kiểm tra mối
tương quan tuyến tính chặt chẽ giữa biến phụ thuộc với các
biến độc lập và sớm nhận diện vấn đề đa cộng tuyến khi các
biến độc lập cũng có tương quan mạnh với nhau.
Lý thuyết về tương quan Pearson:
• Tương quan tuyến tính giữa hai biến là mối tương quan mà
khi biểu diễn giá trị quan sát của hai biến trên mặt phẳng
Oxy, các điểm dữ liệu có xu hướng tạo thành một đường
thẳng.
• Theo Gayen (1951), trong thống kê, các nhà nghiên cứu sử
dụng hệ số tương quan Pearson (ký hiệu r) để lượng hóa
mức độ chặt chẽ của mối liên hệ tuyến tính giữa hai biến
định lượng.
• Nếu một trong hai hoặc cả hai biến không phải là biến định
lượng (biến định tính, biến nhị phân,…) chúng ta sẽ không
thực hiện phân tích tương quan Pearson cho các biến này.
Hệ số tương quan Pearson r có giá trị dao động từ -1 đến 1:
• Nếu r càng tiến về 1, -1: tương quan tuyến tính càng mạnh, càng
chặt chẽ. Tiến về 1 là tương quan dương, tiến về -1 là tương quan
âm.
• Nếu r càng tiến về 0: tương quan tuyến tính càng yếu.
• Nếu r = 1: tương quan tuyến tính tuyệt đối, khi biểu diễn trên đồ
thị phân tán Scatter, các điểm biểu diễn sẽ nhập lại thành 1
đường thẳng.
• Nếu r = 0: không có mối tương quan tuyến tính. Lúc này sẽ có 2
tình huống xảy ra. Một, không có một mối liên hệ nào giữa 2
biến. Hai, giữa chúng có mối liên hệ phi tuyến.
Chúng ta cần kiểm định giả thuyết sau:
• Ho: Không có tương quan giữa 2 biến
• H1: Có tương quan giữa 2 biến
• Chúng ta cần thực hiện kiểm định giả thuyết hệ số tương quan này
có ý nghĩa thống kê hay không.
• Kết quả kiểm định nếu sig. kiểm định nhỏ hơn 0,05, cặp biến có
tương quan tuyến tính với nhau;
• Nếu sig. lớn hơn 0,05, cặp biến không có tương quan tuyến tính (giả
định lấy mức ý nghĩa 5% = 0,05).
• Khi đã xác định hai biến có mối tương quan tuyến tính (sig
nhỏ hơn 0,05), chúng ta sẽ xét đến độ mạnh/yếu của mối
tương quan này thông qua trị tuyệt đối của r.
• Theo Andy Field (2009):
• |r| < 0,1: mối tương quan rất yếu
• |r| < 0,3: mối tương quan yếu
• |r| < 0,5: mối tương quan trung bình
• |r| ≥ 0,5: mối tương quan mạnh
Theo Hair và cộng sự (2013)
Giá trị của hệ số tương quan (R) Độ mạnh của mối quan hệ
0,81 - 1,00 Rất mạnh
0,61 - 0,80 Mạnh
0,41 - 0,60 Trung bình
0,21 - 0,40 Yếu
0,00 - 0,20 Rất yếu/ko có mối quan hệ
Phân tích tương quan Pearson trên SPSS
• Thực hiện phân tích tương quan để đánh giá mối quan hệ giữa các
biến bằng cách vào Analyze > Correlate > Bivariate…
Tại đây, chúng ta đưa hết tất cả các biến muốn chạy tương quan
Pearson vào mục Variables. Để tiện cho việc đọc kết quả, chúng ta
nên đưa biến phụ thuộc lên trên cùng, các biến còn lại là độc lập.
Nhấp vào OK để xác nhận thực hiện lệnh.
• Kết quả tương quan Pearson sẽ được thể hiện trong bảng Correlations.
Điểm qua các ký hiệu trong bảng này: Pearson Correlation là hệ số tương
quan Pearson (r), Sig. (2-tailed) là giá trị sig của kiểm định t đánh giá hệ số
tương quan Pearson có ý nghĩa thống kê hay không, N là cỡ mẫu.
Đọc kết quả tương quan Pearson
• Chúng ta sẽ xem xét hai loại mối quan hệ tương quan: tương
quan giữa biến phụ thuộc với các biến độc lập và tương quan
giữa các biến độc lập với nhau.
• Sở dĩ việc chia ra như vậy, vì sự kỳ vọng về kết quả sẽ có đôi chút
khác biệt giữa hai loại mối quan hệ này.
• Kỳ vọng: (1) sig tương quan giữa các biến độc lập lớn hơn 0.05 hệ số
tương quan càng thấp càng tốt (nên dưới 0.5).
• Ký hiệu ** cho biết rằng cặp biến này có sự tương quan tuyến tính ở mức
tin cậy đến 99% (tương ứng mức ý nghĩa 1% = 0,01).
• Ký hiệu * cho biết rằng cặp biến này có sự tương quan tuyến tính ở mức
tin cậy đến 95% (tương ứng mức ý nghĩa 5% = 0.05).
7.2. Lọc dữ liệu
• Để lọc dữ liệu định lượng, người ta sử dụng biểu đồ phân tán Scatter hoặc Boxplot.
• Trong SPSS: chọn Graphs -> Legacy Dialogs -> Boxplot, chọn simple, summaries of
separate variable được giao diện Boxplot.
• Lựa chọn và đẩy các biến cần được lọc nhiễu vào Boxes Represent, bấm
OK
• Ngoài ra có thể dùng hệ số Cronbach’s Alpha để lọc dữ liệu như đã trình
bày
7.3. Mô hình hồi quy tuyến tính
7.3.1. Hồi quy tuyến tính đơn
• Phân tích hồi qui tuyến tích đơn giản (Simple Linear Regression Analysis) là
tìm sự liên hệ giữa 2 biến số liên tục: biến độc lập (biến dự đoán) trên trục
hoành x với biến phụ thuộc (biến kết cục) trên trục tung y. Sau đó vẽ một
đường thẳng hồi qui và từ phương trình đường thẳng này ta có thể dự đoán
được biến y (ví dụ: cân nặng) khi đã có x (ví dụ: tuổi):
Tuổi 1 2 3 4 5 6
Cân nặng 10 12 14 16 18 20
Cân nặng 25
20 20
18
16
15
14
12
10 10
0
1 2 3 4 5 6
Tuổi
Scatterplot of Tuổi vs Cân nặng
4
Tuổi
10 12 14 16 18 20
Cân nặng
Trong thống kê, phương trình đường thẳng (bậc nhất)
này được viết dưới dạng:
y= ax + b
Đây là phương trình hồi qui tuyến tính, trong đó a gọi là độ dốc
(slope) và b là hệ số chặn (intercept), điểm cắt trên trục tung
khi x=0.
Nối các cặp (x,y) của ví dụ trên ta thấy có dạng 1 phương trình
bậc nhất:
Y = 2x + 8
(trong đó 2 là độ dốc và 8 là điểm cắt trên trục tung y khi x=0).
• Thực ra phương trình hồi qui tuyến tính này chỉ có trên lý thuyết,
nghĩa là các trị số của xi (i=1,2,3,4,5,6) và yi tương ứng, liên hệ với
nhau 100% (hoặc hệ số tương quan R=1).
• Trong thực tế hiếm khi có sự liên hệ 100% này mà thường có sự
sai lệch giữa trị số quan sát yi và trị số yi’ ước đoán nằm trên
đường hồi qui.
• Ví dụ: Khảo sát mối liên hệ giữa thu nhập (triệu đ/tháng) và chi
tiêu cá nhân (triệu đ/tháng) trên một mẫu 8 quan sát:
Thu nhập (X) 8.0 10.0 5.0 3.0 4.0 4.0 6.0 12.0
Chi tiêu (Y) 6.0 7.0 5.0 3.7 3.2 3.6 5.0 9.0
Scatterplot of Thu nhập vs Chi tiêu
12
10
8
Thu nhập
2
3 4 5 6 7 8 9
Chi tiêu
• Sự sai lệch này trong thống kê gọi là phần dư (residual) hoặc errors.
• Gọi y1, y2, y3, y4, y5, y6 là trị số quan sát và y’1, y’2, y’3, y’4, y’5, y’6
là trị số ước đoán nằm trên đường hồi qui, ɛ1, ɛ2, ɛ3, ɛ4, ɛ5, ɛ6 là
phần dư. Như vậy:
• ɛ1= y1 –y’1
• ɛ2 = y2 –y’2
• ɛ3 = y3 –y’3
• ɛ4 = y4 –y’4
• ɛ5 = y5 – y’5
• ɛ6 = y6 –y’6
Khi đó phương trình hồi qui tuyến tính được viết dưới
dạng tổng quát như sau:
Y’= axi + bi + ɛi
• Như vậy nếu phần dư ɛi càng nhỏ sự liên hệ giữa x,y càng lớn và
ngược lại.
• Các giả định cần thiết trong hồi qui tuyến tính:
1. xi là biến số cố định, không có sai sót ngẫu nhiên trong đo lường.
2. Phần dư (trị số quan sát trừ cho trị số ước đoán) phân phối theo
luật phân phối chuẩn.
3. Phần dư có trị trung bình bằng 0 và phương sai không thay đổi
cho mọi trị xi.
4. Không có tương quan giữa các phần dư.
Trọng tâm phương pháp OLS
1.Số liệu biểu đồ phân tán = đám mây toạ độ – Mỗi điểm, 1
toạ độ x, y
2.Từ biểu đồ phân tán, các điểm toạ độ (X,Y) được HỒI QUI về
1 đường thẳng
3.Mỗi điểm toạ độ có một khoảng cách khi chiếu xuống đường
thẳng
4.Phương pháp OLS = tổng bình phương các khoảng cách min
Hàm hồi qui
28
Công thức
n
X Y nXYi i
ˆ i 1
2 n
X
i 1
i
2
n( X ) 2
ˆ1 Y ˆ2 X
29
Phân tích hồi qui tuyến tính trong SPSS Nhập số liệu tuổi
và cân nặng cân được của 30 trẻ 1-6 tuổi vào SPSS: Cột 1:
tuổi; cột 2: cân nặng.
Vào menu: >Analyze > Regression > Linear
7.3.2. Hồi quy tuyến tính bội/đa biến
• Là phương trình/hàm hồi quy có hai biến độc lập trở lên:
Y= a1X1 + a2X2 + … + anXn + b + ɛ
• Trong phân tích hồi quy tuyến tính bội, tập dữ liệu chứa một biến phụ
thuộc vào nhiều biến độc lập. Hàm hồi quy tuyến tính thay đổi để bao gồm
nhiều yếu tố như sau:
Y = β0*X0 + β1X1 + β2X2+…… βnXn+ ε
• Khi số lượng biến dự báo tăng lên, các hằng số β cũng tăng lên tương ứng.
7.4. Đánh giá mô hình
• Sau khi xác định được giá trị của các hệ số hồi quy, cần
đánh giá mức độ phù hợp của mô hình hồi qui xây dựng
dựa trên hệ số R2 và phương sai của phép hồi quy.
• R2 dùng để đánh giá mô hình hồi quy.
• R2 hiệu chỉnh dùng để đánh giá mô hình hồi quy bội.
• R2 = 86% nghĩa là biến độc lập giải thích được 86% sự biến
thiên của biến phụ thuộc.
7.5. Kiểm định mô hình
• Trong SPSS thông qua bảng ANOVA, nếu Sig. < 5% thì mô
hình hồi quy có ý nghĩa.
• Lúc này ta có thể bác Ho: cho rằng tất cả các hệ số hồi qui =
0 (ngoại trừ hằng số); H1: có ít nhất một hệ số hồi quy khác
không.
7.6. Hiện tượng tự tương quan
• Tự tương quan là sự tương quan phần dư εi/ui của chuỗi các
quan sát.
• Tự tương quan hay còn gọi là Autocorrelation là hiện tượng
mà tại đó hạng nhiễu tại thời điểm t (hay còn gọi là sai số)
thường được kí hiệu là ut có tương quan với hạng nhiễu tại
thời điểm (t-1) hoặc bất kỳ hạng nhiều nào trong quá khứ.
• Hiện tượng này vi phạm giả thuyết trong mô hình hồi quy
tuyến tính cổ điển giả định rằng quan hệ tự tương quan
không tồn tại trong các nhiễu ui.
Hiện tượng đa cộng tuyến (Multicollinearity)
• Đa cộng tuyến là hiện tượng các biến độc lập trong mô hình hồi
qui phụ thuộc tuyến tính lẫn nhau, thể hiện dưới dạng hàm số
(vi phạm giả định 5 của mô hình hồi qui tuyến tính).
Cách phát hiện đa cộng tuyến:
Có hai cách:
dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương
quan.
Tuy nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa
dụng cách nhận xét chỉ số VIF.
Cách 1
Dựa vào VIF ,khi thực hiện hồi quy đa biến, ta nhấn vào nút
Statistics , xong check vào Collinearity diagnostics.
Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là điều
không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng tuyến.
Ta cũng có thể xem xét giá trị Tolerance bằng công thức Tolerance=1/VIF. Hệ số này nằm cột bên trái của hệ
số VIF. Tương ứng là: nếu hệ số Tolerance bé hơn 0.5 thì có dấu hiệu đa cộng tuyến, đây là điều không mong
muốn. Nếu giá trị Tolerance bé hơn 0.1 thì chắc chắn có đa cộng tuyến.
Hậu quả của hiện tượng đa cộng tuyến:
Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t
ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ
đi đến không có cơ sở bác bỏ giả thiết “không” và điều này có thể
không đúng.
Ba nguyên nhân gây ra hiện tượng đa cộng tuyến
1. Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có
tương quan cao vì đồng thời phụ thuộc vào một điều kiện khác.
2. Cách thu thập mẫu: mẫu không đặc trưng cho tổng thể.
3. Chọn biến độc lập có độ biến thiên nhỏ.
• Cách 2
• Nhận dạng Multicollinearity dựa vào hệ số tương quan, có
hay không tương quan tuyến tính mạnh giữa các biến độc
lập.
• Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các
biến độc lập và quan sát để nhận diện độ mạnh của các
tương quan giữa từng cặp biến số độc lập.
• Cũng có thể nhìn vào kết quả hồi quy, ta thấy R2 cao (tầm
trên 0.8) và thống kê t thấp.
• Tuy nhiên như đã nói thì ít khi sử dụng cách hai này. Vì nó
dựa vào phán đoán chủ quan hơn là công thức như cách 1.
• Các giải pháp khắc phục đa cộng tuyến
• Giải pháp 1: Bỏ bớt biến độc lập (điều này xảy ra với giả định rằng
không có mối quan hệ giữa biến phụ thuộc và biến độc lập bị loại
bỏ mô hình).
• Giải pháp 2: Bổ sung dữ liệu hoặc tìm dữ liệu mới, tìm mẫu dữ liệu
khác hoặc gia tăng cỡ mẫu. Tuy nhiên, nếu mẫu lớn hơn mà vẫn
còn multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho
phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu
nhỏ.
• Giải pháp 3: Thay đổi dạng mô hình, mô hình kinh tế lượng có
nhiều dạng hàm khác nhau. Thay đổi dạng mô hình cũng có nghĩa
là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn,
thì lúc đó bạn phải thay đổi mô hình nghiên cứu.
Phương sai sai số thay đổi:
• Một trong những giả định của mô hình hồi quy tuyến tính là
phương sai của sai số phải như nhau (gọi là
homoskedasticity). Việc vi phạm giả định này sẽ gây ra hiện
tượng phương sai sai số thay đổi.
• Phương sai sai số thay đổi là hiện tượng mà phương sai của
các sai số ước lượng không bằng nhau. Từ heteroscedasticity
nghĩa là unequal variance. Hiện tượng này thường hay xảy ra
đối với dữ liệu cắt ngang/dữ liệu chéo/dữ liệu không gian.
(cross-sectional data).
Nguyên nhân:
• Nguyên nhân chính dẫn đến sự xuất hiện của hiện tượng này có lẽ là do
sự tồn tại của các outliers trong biến.
• Outliers là các quan sát của biến mà có giá trị quá khác biệt so với các
quan sát còn lại.
• Hoặc là các quan sát của cùng một biến nhưng lại được đo lường với
những thang đo khác nhau.
• Ví dụ khi đo lường thu nhập, bạn dùng đơn vị tỷ đồng cho những người
có thu nhập cao, nhưng lại vô tình dùng đơn vị triệu đồng cho những
người có thu nhập thấp hơn. Ngoài ra, hiện tượng này cũng có thể xảy ra
trong trường hợp sai dạng hàm hoặc sai sót trong quá trình biến đổi dữ
liệu.
Hậu quả:
• Nếu như mô hình chỉ xảy ra lỗi phương sai sai số thay đổi thôi thì
ước lượng OLS vẫn là ước lượng ko bị thiên lệch và nhất quán
(unbiased and consistent), tuy nhiên nó không phải là ước lượng
tốt nhất (hiệu quả nhất) nữa.
• Bởi vì, phương sai của sai số trong trường hợp này không thể đạt
được giá trị nhỏ nhất nữa.
• Khi đó, các kiểm định hệ số hồi quy và kiểm định F của mô hình
trở nên không đáng tin cậy. Vì vậy, việc đưa ra các kết luận dựa
trên các kiểm định này sẽ không chính xác.
Có hai cách phát hiện hiện tượng này: đó là dùng hình
vẽ hoặc dùng các kiểm định.
Đầu tiên chạy hồi quy mô hình trong Stata.
Sau đó, dùng lệnh rvfplot để có thể vẽ được đồ thị giữa sai số và
giá trị ước lượng của biến phụ thuộc trong mô hình.
Thêm một cái option trong câu lệnh là yline(0) để đồ thị hiện ra
đường thẳng tại mức sai số = 0. Giá trị 0 là giá trị trung bình của sai
số.
Các chấm xanh trong hình vẽ thể hiện cho vị trí của các sai số
đối với từng giá trị ước lượng của biến Y (fitted values).
Nếu khoảng cách của các chấm xanh này đến đường giá trị
trung bình tương tự nhau thì chúng ta có thể ngầm hiểu là
không có hiện tượng phương sai sai số thay đổi xảy ra.
Tuy nhiên, trong hình vẽ trên, ta thấy càng về phía bên phải thì
các chấm xanh càng cách xa đường giá trị trung bình hơn.
Điều này ngầm báo hiệu cho chúng ta rằng có hiện tượng
phương sai sai số thay đổi xảy ra.
Ta có thể dùng các kiểm định chuyên dụng để kiểm tra lại lần
nữa cho chắc.
Dùng các kiểm định chuyên dụng.
• Có 2 kiểm định mà chúng ta có thể sử dụng đó là kiểm định Breusch-
Pagan và kiểm định White. Cả hai kiểm định này đều có cùng một giả
thuyết, đó là:
• Ho: Phương sai sai số là bằng nhau/không đổi (Constant
variance/Homoskedasticity)
• H1: Phương sai sai số không bằng nhau/thay đổi (Unequal
variance/Heteroskedasticity)
• Nếu như chúng ta bác bỏ giả thuyết Ho thì nghĩa là mô hình hồi quy
có hiện tượng phương sai sai số thay đổi.
• Ngược lại nếu chúng ta chấp nhận giả thuyết H0 thì nghĩa là không có
hiện tượng PSSS thay đổi xảy ra.
• Cả hai kiểm định này đều sẽ cung cấp cho chúng ta một hệ số
thống kê đi cùng với giá trị P-value tương ứng.
• Như vậy, nếu P-value> = 0,1 thì chúng ta có thể an tâm không
thể bác bỏ giả thuyết H0 và vì vậy mô hình của chúng ta ổn.
• Ngược lại, nếu P-value < 0,1 thì điều đó có nghĩa là mô hình gặp
phải hiện tượng PSSS thay đổi.
Ví dụ trong trường hợp này, P-value là 0,0001. Điều này có nghĩa là mô
hình có hiện tượng PSSS thay đổi.
Kết quả này phù hợp với cách kiểm tra bằng hình vẽ mà mình nói ở trên.
Chúng ta có thể thấy giá trị P-value = 0.0066, vẫn quá nhỏ so với 0.1. Vậy
nên chúng ta phải bác bỏ giả thuyết H0 và kết luận rằng mô hình có hiện
tượng PSSS thay đổi.
Cách khắc phục:
• Cách 1: Chúng ta có thể dùng Weighted Least Squares (WLS).
• Cách 2: Biến đổi biến về dạng log. Khi đó, thang đo biến sẽ nhỏ
bớt lại và giúp làm giảm hiện tượng PSSS thay dổi.
• Cách 3: Chúng ta có thể thực hiện winsorize để loại bỏ đi các
outliers (nghĩa là loại bỏ đi các biến có giá trị bất thường).
• Cách 4: Ước lượng với phương sai sai số chuẩn (standard errors
or robust standard errors)
• Regress dependent variable Independent variables, robust