_Cons Stata là gì

Dữ liệu bảng được sử dụng nhiều trong các nghiên cứu gần đây đặc biệt trong kinh tế vi mô khi nghiên cứu về hộ gia đình, doanh nghiệp,...
Dữ liệu bảng là sự kết hợp dữ liệu theo "cá nhân" ( individual - mang nghĩa phổ quát) và theo thời gian. Do đó, khi các nhà phân tích cần theo dõi hay tìm hiểu các vấn đề dựa trên dữ liệu thời gian của hàng loạt các " cá nhân" thì phân tích dữ liệu bảng là phù hợp là phức tạp hơn so với các dữ liệu cross-section.

Trong phân tích dữ liệu bảng cơ bản, ta đi phân tích theo các hướng tiếp cận sau:
- Mô hình POOLED. Phân biệt mô hình pooled và mô hình biến giả cũng như kiểm định lựa chọn
- Mô hình các nhân tố ảnh hưởng cố định và mô hình ảnh hưởng ngẫu nhiên, phân biệt 2 mô hình cũng như kiểm định hausman dùng để lựa chọn mô hình phù hợp.
Việc phân tích này có thể được thực hiện ở các phần mềm phân tích dữ liệu như SPSS, Eviews, Stata, R,....
Trong bài viết này, các bước phân tích sẽ được minh họa thông qua phần mềm Stata.
Bước đầu tiên trong phân tích dữ liệu bảng khi chúng ta xác định được vấn đề nghiên cứucó dữ liệu bảng, do đó, tiếp cận theo phương thức phân tích dữ liệu bảng sẽ giúp xử lý các dữ liệu được thuận tiện hơn.
- Khi có dữ liệu, đầu tiên chúng ta và gắn dữ liệu vào phần mềm để phần mềm nhận dạng dữ liệu bảng, việc gắn dữ liệu vào phần mềm tùy thuộc vào từng phần mềm, đây hoàn toàn chỉ mang tính kỹ thuật trong phân tích.
+ Trong Eviews, có thể sử dụng chức năng restructure page\ undate structure ( lưu ý, không nhớ chính xác từ ngữ nhá :) ) --> thực hiện đưa tên biến individuals vào sau đó là tên thời biến thời gian ( vd : id nam)
+ Trong Stata, có thể thực hiện nhiều cách, đơn giản nhất là câu lệnh : xtset [individual- tên biến cá nhân] [time- tên biến thời gian].

". use C:\Users\PC\Desktop\fdi.dta
. xtset id yr
panel variable: id (strongly balanced)
time variable: yr, 2005 to 2011
delta: 1 unit"
Một cách khác để khai báo trong stata về dữ liệu bảng, dùng 2 câu lệnh
iis [individual]
tis [timeseries]
1. Mô hình Pooled
Mô hình pooled thực chất là việc sử dụng dữ liệu bảng để phân tích bằng hình thức sử dụng tất cả dữ liệu bằng cách xếp chồng không phân biệt từng individual riêng. Tức là, mô hình này sử dụng dữ liệu như một phân tích OLS bình thường, sử dụng tập hợp thành đám mây dữ liệu để ước lượng tương quan trong mô hình.
Trong Stata:
regress fdi x1 x2 x3

.regress fdix1 x2 x3

Source SSdf MSNumber of obs= 35F( 3, 31)= 1.89Model 4805.941023 1601.98034Prob > F= 0.1516Residual 26259.291331 847.073914R-squared= 0.1547Adj R-squared= 0.0729Total 31065.232434 913.683305Root MSE= 29.105fdi Coef.Std. Err. tP>t[95% Conf.Interval]x1 5.0806395.377495 0.940.352-5.88683416.04811x2 -1.860765.059891 -0.370.716-12.180488.458956x3 11.238657.738756 1.450.156-4.5446527.02194_cons -69.6419750.99462 -1.370.182-173.646234.36224

Trong Eviews: Có thể sử dụng vào menu object\ newobject\ pooled

2. Mô hình ảnh hưởng của các nhân tố cố định ( fixed effect model)

Việc sử dụng các nhân tố cố định để xem xét sự ảnh hưởng của nó đến mô hình có thể được xem xét giống như một mô hình OLS sử dụng biến giả, các biến giả đóng vai trò là các nhân tố cố định:
TH1: cố định individual
TH2: cố định time
TH3: cố định cả 2 nhân tố

Trong Stata, thực hiện câu lệnh: xtreg [DEV] [INDEV], fe
xtreg fdi x1 x2 x3, feFixed-effects (within) regressionNumber of obs = 35Group variable: idNumber of groups = 5R-sq: within = 0.1094Obs per group: min = 7between = 0.2505avg = 7.0overall = 0.1434max = 7F(3,27) = 1.11corr(u_i, Xb) = -0.0792Prob > F = 0.3642fdi Coef. Std. Err.t P>t [95% Conf. Interval]x1 6.962278 5.7800321.20 0.239 -4.897369 18.82193x2 .4011396 6.3062230.06 0.950 -12.53816 13.34044x3 9.176508 10.486590.88 0.389 -12.3402 30.69322_cons -83.36419 81.74524-1.02 0.317 -251.0916 84.36318sigma_u 14.485612sigma_e 27.735893rho .21430929 (fractionof variance due to u_i)F test that all u_i=0: F(4, 27) =1.78 Prob > F = 0.1612

R-sq: within: Đây là chỉ số biểu thị độ phù hợp của mô hình chưa điều chỉnh- sử dụng trong FEM
R-sq: between: Đây là chỉ số biểu thị độ phù hợp của mô hình nếu chúng ta sử dụng trung bình từng nhóm sau khi điều chỉnh dữ liệu phù hợp sử dụng trong REM
R-sq:overall: Chỉ số về độ phù hợp của mô hình sau khi điều chỉnh dữ liệu biến.

Chú ý rằng các hệ số ảnh hưởng của các biến là trung bình cộng các hệ số ảnh hưởng theo từng id khác nhau. Để xem xét cho từng id riêng ta thực hiện lệnh hồi quy theo mô hình có các biến giả của từng id ( chú ý rằng số biến giả = số id -1 ). Riêng trong phần mềm Eviews thì không cần khai báo biến giả.

regress fdi x1 x2 x3 D1 D2 D3 D4 D5, noconst

Source | SS df MS Number of obs = 35
-------------+------------------------------ F( 8, 27) = 7.19
Model | 44261.575 8 5532.69687 Prob > F = 0.0000
Residual | 20770.553 27 769.279742 R-squared = 0.6806
-------------+------------------------------ Adj R-squared = 0.5860
Total | 65032.128 35 1858.0608 Root MSE = 27.736

------------------------------------------------------------------------------
fdi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x1 | 6.962278 5.780032 1.20 0.239 -4.897369 18.82193
x2 | .4011396 6.306223 0.06 0.950 -12.53816 13.34044
x3 | 9.176508 10.48659 0.88 0.389 -12.3402 30.69322
D1 | -69.87496 73.94172 -0.95 0.353 -221.5908 81.84092
D2 | -92.39651 77.51531 -1.19 0.244 -251.4448 66.65175
D3 | -82.48445 92.54192 -0.89 0.381 -272.3648 107.3959
D4 | -69.28772 84.50002 -0.82 0.419 -242.6674 104.092
D5 | -102.7773 83.24263 -1.23 0.228 -273.5771 68.02247
------------------------------------------------------------------------------

hoặc có thể dùng lệnh sau:

regress fdi x1 x2 x3 D1 D2 D3 D4 D5

note: D1 omitted because of collinearity

Source | SS df MS Number of obs = 35

-------------+------------------------------ F( 7, 27) = 1.91

Model | 10294.6793 7 1470.66847 Prob > F = 0.1068

Residual | 20770.553 27 769.279742 R-squared = 0.3314

-------------+------------------------------ Adj R-squared = 0.1580

Total | 31065.2324 34 913.683305 Root MSE = 27.736

------------------------------------------------------------------------------

fdi | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

x1 | 6.962278 5.780032 1.20 0.239 -4.897369 18.82193

x2 | .4011396 6.306223 0.06 0.950 -12.53816 13.34044

x3 | 9.176508 10.48659 0.88 0.389 -12.3402 30.69322

D1 | (omitted)

D2 | -22.52155 15.26087 -1.48 0.152 -53.83427 8.791165

D3 | -12.60949 23.91759 -0.53 0.602 -61.68433 36.46535

D4 | .58724 19.40353 0.03 0.976 -39.22551 40.39999

D5 | -32.90233 18.42248 -1.79 0.085 -70.70214 4.897474

_cons | -69.87496 73.94172 -0.95 0.353 -221.5908 81.84092

------------------------------------------------------------------------------

Vậy với 2 mô hình đã đưa ra, kiểm định nào để lựa chọn mô hình tốt hơn :
-- Trước hết nói hạn chế của 2 mô hình này: Mô hình POOLED với các giả định mạnh thường mang tính phi thực tế trong khi đó mô hình FEM lại làm giảm bậc tự do của mô hình đặc biệt khi số biến giả lớn ( id lớn - dữ liệu bảng rộng.)
-- Ta sử dụng kiểm định F cho 2 mô hình
F(n-1, nT-n-K)=[ (Ru2- Rp2) / (n-1) ] / [ (1 - Ru2) / (nT - n - k) ]
Ru: unrestricted model ( mô hình không hạn chế) - mô hình có biến giả. Hệ số R được lấy từ mô hình có đầy đủ biến giả (regress fdi x1 x2 x3 D1 D2 D3 D4 D5)
Rp: mô hình pooled.

n : là số id
nT: Tổng số quan sát
k: số biến độc lập

Giả thiết Ho : mô hình Pooled hiệu quả hơn.
Giá trị để so sánh là giá trị F(id-1,nT-id-k)với mức ý nghĩa được lựa chọn.

3. Mô hình tác động ngẫu nhiên ( ECM hay REM )
Mô hình tác động ngẫu nhiên là khi chúng ta quan tâm đến việc các khác biệt của mỗi cá nhân ảnh hưởng đên mô hình chung. Lệnh stata thực hiện : xtreg dev indev, re .
4. Kiểm định lựa chọn mô hình FEM hay REM
Việc lựa chọn mô hình nào phụ thuộc vào việc có hiện tượng tác động ngẫu nhiên của từng cá nhân vào mô hình hay chỉ có khác biệt của cá nhân đóng góp vào mô hình.
Kiểm định thực hiện là kiểm định Hausman.

.................................................................................................................................................................

> The three R-squareds are: > > 1) within: The R-squared from the mean-deviated regression, > i.e. the ordinary r-squared from running OLS on the transformed data. > > 2)between: first, this computes the fitted values using the > fixed-effects parameter vector and the within-individual > means of the indepdenent variables. Then calculates the > r-squared as the squared correlation between those predicted > values and the within-individual means of the original y variable. > > 3) overall: first, this computes the fitted values using the > fixed-effects parameter vector and the original, > untransformed independent variables. Then calculates the > r-squared as the squared correlation between those predicted > values and the original, untransformed y variable. > > > Seems to me like you would want the within R-squared, since > you are using the within estimator. > > Justin Smith