So sánh coefficient của 2 biến năm 2024

Một công việc quan trọng của bất kỳ thủ tục thống kê xây dựng mô hình từ dữ liệu nào cũng đều là chứng minh sự phù hợp của mô hình. Để biết mô hình hồi quy tuyến tính đã xây dựng trên dữ liệu mẫu phù hợp đến mức độ nào với dữ liệu, chúng ta cần dùng một thước đo nào đó về độ phù hợp của nó.

So sánh coefficient của 2 biến năm 2024

1. R bình phương là gì?

Một thước đo sự phù hợp của mô hình tuyến tính thường dùng là hệ số xác định R bình phương (Coefficient of Determination). Công thức tính R bình phương (R square) xuất phát từ ý tưởng xem toàn bộ biến thiên quan sát được của biến phụ thuộc được chia thành 2 phần: phần biến thiên do Hồi quy (Regression) và phần biến thiên do Phần dư (Residual). Nếu phần biến thiên do Phần dư càng nhỏ, nghĩa là khoảng cách từ các điểm quan sát đến đường ước lượng hồi quy càng nhỏ thì phần biến thiên do Hồi quy sẽ càng cao, khi đó giá trị R bình phương sẽ càng cao.

Hệ số R bình phương là hàm không giảm theo số biến độc lập được đưa vào mô hình, nếu chúng ta càng đưa thêm biến độc lập vào mô hình thì R bình phương càng tăng. Tuy nhiên, điều này cũng được chứng minh rằng không phải phương trình càng có nhiều biến thì càng tốt hơn.

2. R bình phương hiệu chỉnh là gì?

Ý nghĩa của R bình phương hiệu chỉnh cũng giống như R bình phương là phản ánh mức độ phù hợp của mô hình. R bình phương hiệu chỉnh được tính từ R bình phương thường được sử dụng hơn vì giá trị này phản ánh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến. R bình phương hiệu chỉnh không nhất thiết tăng lên khi chúng ta đưa thêm các biến độc lập vào mô hình.

So sánh coefficient của 2 biến năm 2024

So sánh 2 giá trị như ở hình trên, giá trị R bình phương hiệu chỉnh (Adjusted R Square) nhỏ hơn giá trị R bình phương (R Square), dùng nó để đánh giá độ phù hợp của mô hình sẽ an toàn hơn vì nó không thổi phồng mức độ phù hợp của mô hình.

3. Ý nghĩa của R bình phương hiệu chỉnh

Mức dao động của R bình phương hiệu chỉnh là từ 0 đến 1, tuy nhiên việc đạt được mức giá trị bằng 1 là gần như không tưởng dù mô hình đó tốt đến nhường nào.

So sánh coefficient của 2 biến năm 2024

Về ý nghĩa của R bình phương hiệu chỉnh, như đã đề cập ở trên. Chỉ số này phản ánh mức độ giải thích của các biến độc lập đối với biến phụ thuộc trong mô hình hồi quy.

Trong ví dụ đọc kết quả hồi quy trên SPSS ở trên, giá trị R bình phương hiệu chỉnh là 0.725. Như vậy, các biến độc lập giải thích được 72.5% sự biến thiên của biến phụ thuộc. Phần còn lại 27.5% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên.

4. R bình phương hiệu chỉnh dưới 0.5 (50%)

Không có tiêu chuẩn chính xác R bình phương hiệu chỉnh ở mức bao nhiêu thì mô hình mới đạt yêu cầu, chỉ số này nếu càng tiến về 1 thì mô hình càng có ý nghĩa, càng tiến về 0 thì ý nghĩa mô hình càng yếu. Mức R bình phương này phụ thuộc vào số lượng biến độc lập tác động vào biến phụ thuộc của phép hồi quy đó. Nhiều biến độc lập tác động vào biến phụ thuộc Y chúng ta thường sẽ kỳ vọng mức R2 cao hơn so với chỉ có 1 biến độc lập tác động vào Y bởi Y sẽ được giải thích bởi nhiều yếu tố hơn.

Thường với hồi quy SPSS ở mô hình đơn giản nhiều độc lập tác động vào 1 phụ thuộc, chúng ta chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu, từ 0.5 đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, điều này chỉ phù hợp trong một số ít tình huống, việc yêu cầu giá trị R2 phải lớn hơn 0.5 là đi ngược với lý thuyết thống kê.

Như vậy, nếu kết quả hồi quy bạn phân tích được có R bình phương hiệu chỉnh dưới 50% (0.5) thì kết quả vẫn được chấp nhận.

Nếu bạn gặp khó khăn khi thực hiện phân tích hồi quy vì số liệu khảo sát không tốt, vi phạm các tiêu chí kiểm định. Bạn có thể tham khảo dịch vụ chạy SPSS của Phạm Lộc Blog hoặc liên hệ trực tiếp email [email protected] để tối ưu thời gian làm bài và đạt kết quả tốt.

Có thể nói mô tả biến số liên tục bằng giá trị trung bình và độ lệch chuẩn rất thường gặp trong nghiên cứu khoa học. Nhưng nếu không tuân theo các giả định phân bố của nó thì có thể kết quả sai lầm và dĩ nhiên diễn giải kết quả cũng sai lầm.

Ví dụ: một nghiên cứu đánh giá hiệu quả của việc sử dụng kháng sinh dự phòng có khác nhau hay không so với nhóm chứng (không dùng kháng sinh dự phòng) về nhiễm trùng vết mổ, thời gian nằm viện… trong phẫu thuật u nang buồng trứng? Khi so sách sự khác biệt 02 nhóm mà biến số là biến liên tục, tác giả dùng t.test như bảng dưới đây:

So sánh đặc điềm 02 nhóm

Chỉ tiêu

Nhóm dùng kháng sinh

Nhóm chứng

P

Thời gian nằm viện trước mổ

Trung bình (ngày) ±SD

Lớn nhất

Nhỏ nhất

1,63±1,45

7

1

1,33±0,95

5

1

0,343

1. Mô tả biến số liên tục.

Đây là kiểu mô không đúng quy ước. Để ý rằng số trung bình và độ lệch chuẩn 02 nhóm trên, hai lần độ lệch chuẩn lớn hơn chỉ số trung bình cho nên có thể nói 02 biến số này không tuân theo phân phối chuẩn. Một biến số không tuân theo luật phân phối chuẩn thì không thể mô tả dưới dạng giá trị trung bình và độ lệ chuẩn. Thay vào đó mô tả trung vị và khoảng tin cậy 95% trung vị hay trung vị và bách vị phân các vị trí 25%, 75% thì hợp lý hơn.

Giả định số liệu tuân theo luật phân phối chuẩn là khoảng tin cậy 95% nằm trong khoảng giá trị trung bình ±1,96* độ lệch chuẩn. Trở lại mô tả trên, thời gian điều trị trước mổ dao động từ 1,63-1,96*1,45 = -1,2 đến 1,63+1,96*1,45 = 4,8 ngày. Ngày điều trị thì không thể nào âm được.

2. So sánh 02 nhóm.

T.test là phương pháp so sánh sự khác biệt của 02 biến liên tục rất thường gặp trong nghiên cứu khoa học. Nhưng phải để ý so sánh t.test cho hai nhóm độc lập hay là 02 nhóm mà số liệu lập lại (một bệnh nhân lấy số liệu 02 lần ví như trước và sau điều trị chẳng hạn). Vì cũng là t.test nhưng phương pháp khác nhau nên kết quả cũng khác nhau. Trường hợp trên là sử dụng t.test cho 02 nhóm độc lập vì 02 nhóm không liên quan gì với nhau. Nhưng so sánh trên vẫn chưa hợp lý bởi:

Sử dụng t.test phải thỏa mãn các điều kiện sau:

1. Phương pháp lấy mẫu: phải ngẫu nhiên.

2. Hai nhóm thu thập dữ liệu phải độc lập.

3. Số liệu tuân theo luật phân phối chuẩn.

4. Hai nhóm không khác nhau về phương sai.

Trở lại nghiên cứu tên. Xem như điều kiện 1 và 2 không có vấn đề nhưng điều kiện 3 và 4 có vấn đề đó là:

(i). Số liệu không phải là phân phối chuẩn (như phân tích phần 1)

(ii). Phương sai khác nhau: Phương sai là bình phương độ lệch chuẩn. Do đó ta có thể tính được nhóm sử dụng kháng sinh dự phòng có phương sai là (1,45)2=2,1, nhóm không sử dụng kháng sinh dự phòng là (0,95)2=0,9. Rõ ràng phương sai hai nhóm khác nhau đến 2 lần.

Từ đó so sánh sự khác biệt hai nhóm trong trường hợp này bằng t.test là không hợp lý. Một phương pháp so sánh có lẽ hợp lý hơn bằng phương pháp phi tham số, hay phương pháp khác vẫn dùng được bằng phương pháp t.test nhưng phải hoán đổi số liệu. Tuy nhiên phương pháp này tương đối phức tạp.

Để minh họa, có thể lấy ví dụ dưới đây:

Số liệu nhóm 01: 0.2,0.3,0.4,1.1,2.0,2.1,3.3,3.8,4.5,4.8,4.9,5.0,5.3,7.5,9.8,10.4,10.9,11.3,12.4,16.2,17.6,18.9,20.7, 24.0,25.4,40.0,42.5,50.0,60.0

Số liệu nhóm 02:

0.2,0.3,0.4,0.7,1.2,1.5,1.5,1.9,2.0,2.4,2.5,2.8,3.6,4.8,4.8,5.4,5.7,5.8,7.5,8.7,8.8,9.1,10.3,15.6,16.1,16.5,16.7,20.0,20.7,30

(số liệu mỗi cá thể cách nhau dấu phẩy)

Ta thấy rằng cả hai nhóm không phải là phân phối chuẩn, phương sai nhóm 01 cao hơn nhòm đến 4 lần và có ý nghĩa thống kê (có thể kiểm chứng). Do đó so sánh sự khác biệt 02 nhóm không thể dùng t.test. Nhưng giả sử không kiểm định phân phối và phương sai 02 nhóm chúng tà dùng t.test kết quả p=0.04364 (có ý nghĩa thống kê).

Như đã nói, so sánh 02 nhóm này chỉ hợp lý khi dùng phương pháp phi tham số và kết quả p=0.1096 (không có ý nghĩa thống kê).

Một nhầm lẫn thường gặp khác là so sánh sự khác biệt 03 biến số liên tục bằng t.test như nghiên cứu dưới đây.

Nhóm bệnh

N

Đường huyết (mmol/L)

TB±ĐLC

p

Nhóm 1

58

7,42±4,05

p(1) với (3) <0,01

Nhóm 2

22

11,52±6,24

p(2) với (3) >0,05

Nhóm 3

7

11,86±3,03

p(1) với (2) <0,05

Mới nhìn qua ta thấy có vẻ hợp lý vì khi so sánh sự khác biệt 03 nhóm người ta dùng đến 03 lần so sánh với nhau. Nhóm 01 với nhóm 02, nhóm 01 với nhóm 03 và nhóm 02 với nhóm 03. Nhưng khi để ý kỷ chúng ta thấy nhóm 02 có phương sai là (6,24)2=40, nhóm 03 có phương sai là (3,03)2=9. Phương sai nhóm 02 cao gấp 04 lần so với nhóm 03, nghĩa là rất khác nhau về phương sai. Do đó ứng dụng t.test trong trường hợp này không hợp lý mà phải dùng phương pháp so sánh phương sai.