So sánh tương quan và hồi quy

Trong nghiên cứu tâm lí giáo dục, phân tích hồi quy là một trong những thủ tục thống kê được sử dụng rất rộng rãi. Nó được xem xét khi sự quan tâm tập trung vào sự phụ thuộc của một biến phản hồi vào (các) biến giải thích. Ví dụ: một nhà nghiên cứu giáo dục có thể muốn biết liệu liệu ước tính của giáo viên trong lớp về khả năng toán học của học sinh có dự đoán được điểm số môn toán của học sinh đó trong một bài kiểm tra tiêu chuẩn về khả năng toán học hay không. Phân tích hồi quy có thể được sử dụng để: Mô tả mối quan hệ giữa biến phản hồi (điểm trong bài kiểm tra toán) và biến giải thích (ước tính của giáo viên về khả năng toán học của học sinh) và dự đoán giá trị của biến phản hồi từ các biến giải thích (biến độc lập). Khi có mối quan hệ tuyến tính giữa chỉ có một biến giải thích và một biến phản hồi, chúng ta gọi đây là hồi quy tuyến tính đơn (simple linear regression). Khi có một biến phản hồi nhưng có nhiều hơn một biến giải thích, điều này được gọi là phân tích hồi quy bội (multiple regression analysis). Chúng tôi sử dụng thuật ngữ hồi quy đa biến (multivariate regression) khi chúng ta có nhiều hơn một biến phản hồi và bất kỳ số lượng biến giải thích nào.

Phân tích tương quan là một phép đo mối quan hệ tuyến tính giữa hai hoặc nhiều biến ngẫu nhiên được ước lượng. Thống kê tương quan tham số Pearson là một chỉ số định lượng về độ mạnh của mối quan hệ tuyến tính giữa hai biến. Tuy nhiên, nếu nhà nghiên cứu muốn xác định độ mạnh của mối quan hệ giữa hai biến thì phân tích tương quan là phù hợp, tuy nhiên, nếu sự quan tâm đến việc dự đoán của một giá trị cho biến trên (các) biến khác thì phân thồi quy là kỹ thuật phân tích thích hợp.

Trong phân tích hồi quy tuyến tính đơn, một mẫu quan sát ngẫu nhiên được chọn từ một dân số quan tâm xác định và dữ liệu bao gồm các phép đo định lượng liên tục trên một biến phản hồi và thường là các phép đo định tính trên một biến giải thích (đôi khi được gọi là biến độc lập). Thường trong nghiên cứu tâm lí giáo dục, phân tích hồi quy được sử dụng với dữ liệu khảo sát thay vì dữ liệu được tạo ra từ các thiết kế thử nghiệm. Nghiên cứu giáo dục có truyền thống khảo sát mạnh mẽ và chủ yếu dựa vào các kỹ thuật tương quan và hồi quy. Khi sử dụng hồi quy, biến phản hồi có liên quan đến tổng trọng số hồi quy của các biến độc lập. Mỗi trọng số hồi quy, β, (hệ số hồi quy) phản ánh ảnh hưởng của một biến giải thích có trọng số lên biến phản hồi được gọi là hiệu ứng hồi quy (regression effect) hay đơn giản là về việc liệu hệ số hồi quy (regression coefficient), β, có ý nghĩa thống kê hay không. Sai số ngẫu nhiên (Random error), tức phần dư của hồi quy là sự khác biệt giữa điểm quan sát và điểm dự đoán từ mô hình thống kê trong hồi quy, được ước tính bằng sự khác biệt giữa điểm quan sát và điểm dự đoán từ đường hồi quy phù hợp.

Khi nhà nghiên cứu quan tâm đến việc dự đoán các giá trị của biến phản hồi (giá trị dự đoán trung bình cho các nhóm con hoặc giá trị dự đoán riêng lẻ) dựa vào giá trị của một biến giải thích khác và có một mẫu ngẫu nhiên gồm các cặp quan sát (X, Y) có các phép đo liên tục, và khi giả định mối quan hệ tuyến tính giữa X và Y là hợp lý, thì hồi quy tuyến tính đơn (simple linear regression) nên được coi là một cách tiếp cận phân tích khả thi. Có những giả định bổ sung cần được đáp ứng trước khi phân tích hồi quy có thể được sử dụng đúng cách để đưa ra suy luận về sự phụ thuộc của một biến này vào biến khác và những giả định này sẽ được thảo luận trong Bài 2 – Phân tích hồi quy tuyến tín đơn.

2. Mô hình hồi quy tuyến tính đơn (Simple Linear Regression Model)

Phân tích hồi quy có thể được sử dụng để điều tra mối quan hệ đường thẳng (tuyến tính) trong một tập hợp giữa một biến phản ứng ngẫu nhiên, Y và một biến giải thích độc lập, X. Mối quan hệ tuyến tính này có thể được biểu thị dưới dạng một phương trình hồi quy có dạng tổng quát: Y = β0 + β1x + ε

Hai tham số của hàm tuyến tính trong mô hình, β0, hằng số phản ánh hệ số bậc không, và β1, trọng số hồi quy (hệ số hồi quy phản ánh bậc 1) cho các giá trị của biến giải thích X. Mô hình hồi quy bao gồm hai thành phần, phần xác định của mô hình, β0 + β1x, mô tả mối quan hệ đường thẳng và thành phần sai số ngẫu nhiên, ε, giá trị chưa được giải thích. Biến phản hồi Y có thể được dự đoán từ giá trị của biến giải thích, X, và thành phần lỗi không giải thích được, ε, cho phép sự biến thiên ngẫu nhiên của các giá trị Y về trung bình của chúng.

3. Đường hồi quy tuyến tính đơn (Simple Linear Regression Line)

Một đường hồi quy tuyến tính đơn với Y là biến phản hồi dự đoán và X là biến giải thích được mô tả là hồi quy của Y trên X. Một được hồi quy tuyến tính đơn được mô tả bởi hai tham số: β0, điểm chặn mà tại đó đường hồi quy cắt trục Y khi X=0, và β1 là hệ số hồi quy (trọng số) đại diện cho độ dốc của đường hồi quy, đó là sự tăng hoặc giảm của biến Y tương ứng với sự thay đổi của biến X.

Các ước lượng mẫu của tham số dân số trong hồi quy bao gồm: b0 là thống kê mẫu ước lượng β0, b0 là hệ số hồi quy mẫu ước lượng β1. Mô hình hồi quy dân số và phương trình hồi quy mẫu được ước lượng tương ứng là: Y=β0+β1x+ε (mô hình hồi quy dân số), và Ŷ= b0+b1x (phương trình hồi quy mẫu được ước lượng)

Trong đó, mô hình hồi quy dân số (population regression model) xác định giá trị quan sát của Y bởi một giá trị cụ thể của X, biến giải thích. Thống kê mẫu được sử dụng để ước tính các tham số dân số tương ứng. Trong phương trình hồi quy mẫu được ước lượng, Ŷ biểu thị giá trị dự đoán (ước tính) của biến phản hồi Y bởi các giá trị của biến giải thích X.

Nguyên tắc để tìm đường hồi quy phù hợp nhất liên quan đến việc xác định hệ số hồi quy b0 và b1 sao cho các sai số của ước lượng được giảm thiểu. Một sai số của ước lượng là sự khác biệt giữa giá trị quan sát của Y và giá trị dự đoán tương ứng, Ŷ thu được từ mô hình hồi quy. Đó là ε = Ŷ− (b0 + b1x). Các ước lượng sai số (error estimates) trong một mẫu được gọi là phần dư (residuals).

4. Ước lượng và dự đoán (Estimation & Prediction)

Sử dụng mô hình hồi quy tuyến tính đơn, nhà nghiên cứu có thể muốn ước tính b0, b1 và từ đó mô tả sự phụ thuộc giữa các biến phản hồi và giải thích. Khi các giá trị này được ước tính, chúng có thể được sử dụng để dự đoán giá trị chưa biết của một biến phản hồi từ giá trị đã biết của một biến giải thích. Tuy nhiên, chúng ta không nên sử dụng các giá trị dị biệt đáng kể của biến giải thích để dự đoán giá trị của biến phản hồi Y. Điều này làm cho sai số dự đoán có thể bị thổi phồng. Hãy xem hình dưới đây để nhận biết một điểm dị biệt của mẫu. Cách phát hiện và kiểm tra điểm dị biệt, xin vui lòng đọc bài kiểm tra điểm ngoại lệ.

So sánh tương quan và hồi quy

5. Kiểm tra ý nghĩa thống kê và khoảng tin cậy

Để kiểm tra xem liệu mô hình hồi quy tuyến tính có hữu ích cho việc dự đoán hay không, chúng ta cần kiểm tra xem liệu biến giải thích X có thực sự giải thích sự thay đổi trong biến phản hồi Y. Nếu X không đóng góp thông tin nào cho dự đoán của Y, thì độ dốc thực của đường hồi quy dân số có thể là không. Giả thuyết vô hiệu sẽ là, H0 : β1 = 0. Giả thuyết thay thế, tức là X và Y có quan hệ tuyến tính, H1 : β1 ≠ 0, và X đóng góp đáng kể vào dự đoán của Y. Cuối cùng, bất cứ khi nào có thể thì khoảng tin cậy nên được sử dụng cùng với các kiểm định có ý nghĩa thống kê.

Khoảng tin cậy cho độ dốc hồi quy dân số được ước lượng bằng công thức:

b−[t1−α/2 SE(b1)] to b+[t1−α/2 SE(b1)] , với df = n-2.

Nếu khoảng tin cậy 95% được yêu cầu thì t1 − α / 2 sẽ bằng t0.025. Khoảng tin cậy cho điểm chặn của đường hồi quy tương tự như công thức trên ngoại trừ việc SE (b1) được thay đổi thành SE (b0), sai số chuẩn của điểm chặn.

6. Hồi quy bội (Multiple Regression)

Hồi quy bội là sự mở rộng của hồi quy tuyến tính đơn để bao hàm hai hoặc nhiều biến giải thích. Các ứng dụng thực tế của phân tích hồi quy thường yêu cầu hai hoặc nhiều biến dự báo. Phương trình tổng quát cho mô hình hồi quy bội là: Y = β0 + β1x1 + β2x2 +… + βkxk + ε

Hệ số bậc không, β0, là giá trị của biến phản hồi Y khi tất cả các biến giải thích bằng 0. Trong thống kê hồi quy, các hệ số hồi quy ước lượng mẫu b1, b2… bk như trong hồi quy tuyến tính đơn giản ước tính các tham số chưa biết β1, β2… βk.

7. Các bước trong phân tích hồi quy

Có bảy bước trong phân tích hồi quy; hai bước đầu có thể được coi là một phần của phân tích dữ liệu ban đầu:

Khi nào đúng tương quan khi nào dùng hồi quy?

Về cơ bản, bạn cần biết khi nào sử dụng tương quan và hồi quy. Sử dụng tương quan để tóm tắt nhanh chóng và đơn giản về hướng và độ mạnh của mối quan hệ giữa hai hoặc nhiều biến số. Sử dụng hồi quy khi bạn đang tìm cách dự đoán, tối ưu hóa hoặc giải thích phản ứng số giữa các biến (cách x ảnh hưởng đến y ).

Tương quan và hồi quy khác nhau như thế nào?

Tương quan là phép phân tích cho phép chúng ta biết được mối quan hệ giữa hai biến không có sự phân biệt vai trò độc lập hay phụ thuộc. Trong khi đó, phân tích hồi quy dự đoán giá trị của biến phụ thuộc dựa trên giá trị đã biết của một hay nhiều biến độc lập.

Hỏi quỹ là gì cho ví dụ?

Hồi quy (regression) : Khẳng định mối liên hệ giữa hai biến số, Dự đoán hoặc ước lượng giá trị của một biến số từ các giá trị của một hay nhiều biến số khác. Ví dụ: dự đoán huyết áp dựa trên tuổi, cân nặng, ....

Mô hình hồi quy tuyến tính là gì?

Hồi quy tuyến tính là một kỹ thuật phân tích dữ liệu dự đoán giá trị của dữ liệu không xác định bằng cách sử dụng một giá trị dữ liệu liên quan và đã biết khác. Nó mô hình toán học biến không xác định hoặc phụ thuộc và biến đã biết hoặc độc lập như một phương trình tuyến tính.