Hướng dẫn chạy mô hình hồi quy đa biến logistics

Hồi quy logistic (thường được gọi đơn giản là hồi quy logistic nhị thức) được sử dụng để dự đoán xác suất một quan sát rơi vào một trong các loại của biến phụ thuộc dựa trên một hoặc nhiều biến độc lập có thể liên tục hoặc phân loại. Mặt khác, nếu biến phụ thuộc của bạn là một số đếm, phương pháp thống kê nên được xem xét là hồi quy Poisson. Ngoài ra, nếu bạn có nhiều hơn hai loại biến phụ thuộc, đó là khi hồi quy logistic đa thức (multinomial logistic regression) nên được sử dụng.

Nội dung chính Show

2. Mô hình hồi quy logistic
3. Diễn giải hiệu ứng trong hồi quy logistic
4. Ước lượng mô hình hồi quy logistic với sự hợp lí cực đại (Maximum Likelihood)
5. Suy luận thống kê và giả thuyết vô hiệu
6. Mở rộng hồi quy logistic
7. Các giả định kiểm tra
8. Phân tích hồi quy Logistic nhị thức trong SPSS
9. Kiểm tra giả định hồi quy về sự tuyến tính giữa biến độc lập liên tục và Logit của biến phụ thuộc

Ví dụ, bạn có thể sử dụng hồi quy logistic nhị thức để hiểu liệu có thể dự đoán thành tích bài kiểm tra dựa trên thời gian ôn tập và mức độ lo lắng của bài kiểm tra hay không (tức là, trong đó biến phụ thuộc là “thành tích thi”, được đo trên thang phân đôi – “đạt” hoặc “không đạt” – và bạn có hai biến độc lập: “thời gian ôn tập” và “lo lắng khi kiểm tra”).

2. Mô hình hồi quy logistic

Mô hình hồi quy logistic được sử dụng để dự đoán một biến phân loại bởi một hoặc nhiều biến độc lập liên tục hoặc phân loại. Biến phụ thuộc có thể là nhị thức (binary), thứ tự (ordinal) hoặc đa phân loại (multicategorical).

Biến độc lập có thể là khoảng/tỉ lệ, lưỡng phân (dichotomous), rời rạc (discrete) hoặc hỗn hợp của tất cả.

Phương trình hồi quy logistic (trường hợp biến phụ thuộc là nhị thức) là:

Trong đó P là xác suất quan sát một trường hợp i trong kết quả biến Y với một giá trị = 1; e là một hằng số toán học Euler có giá trị gần bằng 2.71828; và các hệ số hồi quy β tương ứng với các biến quan sát.

Chúng ta thương sử dụng mô hình hồi quy để ước lượng hiệu ứng của các biến X về một Odds (Y=1).

3. Diễn giải hiệu ứng trong hồi quy logistic

Cho mục đích ước lượng và tiên đoán, các xác suất có giới hạn nghiêm trọng. Đầu tiên, chúng bị ràng buộc trong phạm vi từ 0 đến 1. Điều này ngụ ý rằng nếu cho một hiệu ứng thực của biến X về kết quả của biến Y vượt quá 1, sự diễn giải có thể là vấn đề. Giới hạn thứ hai, xác suất không thể là âm. Giả sử cho hiệu ứng của một biến độc lập về biến Y là âm, sự diễn giải theo hệ số hồi quy logistic là vô nghĩa. Một vấn đề rằng hệ số hồi quy chỉ nên là dương.

Làm thế nào để giải quyết hai vấn đề trên?

Có hai bước tiếp cận thông qua việc chúng ta thực hiện hai biến đổi. Thứ nhất, chúng ta chuyển đổi xác suất trong Odds (O) là:

Đó là, Odds rằng một sự kiện sẽ xảy ra là tỉ lệ của số lần kì vọng rằng sự kiện sẽ xảy ra với số lần kì vọng rằng sự kiện sẽ không xảy ra. Đây là mối quan hệ trực tiếp giữa Odds (Y=1) và xác suất Y=1. Như vậy, cho rằng Odds có thể có giá trị vô cùng, thì xác suất với Odds bây giờ cho phép hệ số hồi quy có thể có bất kì giá trị nào.

Bước tiếp theo là để giải quyết vấn đề thứ hai. Mối quan hệ giữa Odds và xác suất, mở rộng một chút đại số học, chúng ta có thể trình bày lại công thức Odds (O) ở trên theo logarit của Odds (Y=1):

Để tính toán logarit cho một trường hợp ngẫu nhiên trong dân số cho giá trị về một biến độc lập hoặc hiệp biến. Bổ sung vào biến phụ thuộc Y có giá trị 1 (ví dụ, 1 (phiếu bầu cho Obama trong năm 2008), 0 (phiếu bầu cho McCain trong năm 2008, tại bầu cử Mỹ). Giả định rằng xác suất bầu phiếu cho Obama P(Y=1) là 0.218 ; và như vậy 1-P = 0.782 . Chúng ta tính được Odds là: Odds=0.218/0.782=0.279. Giá trị này chỉ cho chúng ta nhìn thấy Odds thu được, bây giờ chúng ta phải tiếp tục giả định rằng các hệ số hồi quy logistic liên quan là trong hướng chính xác. Do đó chúng ta cần sử dụng công thức logarit của Odds.

Theo đó, logarit tự nhiên (loge , kí hiệu ln) của Odds (ví dụ ln 0.279 = -1.276). Do đó, logarit của xác suất của phiếu bầu cho Obama là ‘-1.276’. Như vậy, nếu chúng ra chỉ dừng lại ở dự đoán xác suất, chúng ta có thể đi đến các kết quả sai (một số dương). Thứ hai, hiệu ứng đúng của các hiệp biến được liên quan là được đánh giá không đúng mức (đánh giá thấp). Ưu điểm chính của logarit Odds rằng các hệ số thu được là ràng buộc, và chúng có thể là âm cũng như dương, phạm vi từ âm vô cùng đến dương vô cùng.

Phát biểu theo cách này, hồi quy logistic thấy chính xác như hồi quy bội ở phía bên phải của phương trình logarit Odds. Phía bên trái của phương trình không là điểm số của Y. Nó là logarit của Odds (Y=1). Điều này có nghĩa rằng mỗi đơn vị của X có hiệu ứng của β về logarit Odds của Y. Logarit Odds của Y không là một ý tưởng dễ, do vậy, chúng ta cần một cách khác để giải thích về hiệu ứng trong hồi quy logistic, xin đọc phần tiếp theo.

4. Ước lượng mô hình hồi quy logistic với sự hợp lí cực đại (Maximum Likelihood)

Bởi vì hồi quy logistic hoạt động về một biến phân loại, phương pháp của bình phương nhỏ nhất (ordinary least squares – OLS) là không thể sử dụng (nó giả định một biến phụ thuộc được phân phối chuẩn). Do vậy, một phương pháp ước lược chung hơn được sử dụng để phát hiện giá trị phù hợp tốt của các tham số. Điều này được gọi là “ước lượng hợp lí cực đại” (Maximum likelihood estimation).

Hợp lí cực đại (Maximum likelihood) là một kĩ thuật ước lượng tương tác để chọn các ước lượng tham số rằng cực đại sự hợp lí của bộ dữ liệu mẫu là được quan sát. Trong hồi quy logistic, hợp lí cực đại chọn các ước lượng hệ số rằng sự cực đại về logarit của xác suất của quan sát bộ giá trị cụ thể của biến phụ thuộc trong mẫu cho một bộ đã cho của các giá trị X.

Nhưng câu hỏi nghiên cứu cơ bản được giải quyết bởi phương pháp hợp lí cực đại là: Các giá trị tham số gì của dân số có trong thực tế đã làm phát sinh mẫu mà chúng ta được quan sát?

Bởi vì hồi quy logistic sử dụng phương pháp hợp lí cực đại, hệ số xác định (R2) có thể không được ước lượng trực tiếp. Do đó, chúng ta có hai lúng túng cho việc diễn giải hồi quy logistic: Đầu tiên, làm thế nào cũng ta đánh giá được ‘điều tốt của sự phù hợp’ (goodness of fit) – một giả thuyết vô hiệu tổng quát? Thứ hai, làm thế nào chúng ta đánh giá được hiệu ứng từng phần của mỗi biến X? Để trả lời câu hỏi, vui lòng xem phần tiếp theo.

5. Suy luận thống kê và giả thuyết vô hiệu

Câu hỏi thứ nhất, làm thế nào cũng ta đánh giá được ‘điều tốt của sự phù hợp’ (goodness of fit) – một giả thuyết vô hiệu tổng quát? Các suy luận thống kê, cùng với giả thuyết vô hiệu được diễn giải theo các bước sau đây:

– Bước đầu tiên trong diễn giải hồi quy là đánh giá giả thuyết vô hiệu tổng quát (golbal null hypothesis) rằng các biến độc lập không có bất kì mối liên hệ nào với Y. Trong phương pháp hồi quy OLS, chúng ta thực hiện điều này bằng kiểm tra liệu R2 phải là 0 trong dân số sử dụng một F-test. Trong khi hồi quy logistic sử dụng phương pháp hợp lí cực đại (không OLS): Giả thuyết vô hiệu H0 là: β0 = β0 = β0 = 0 . Chúng ta đo lường kích thước củ phần dư từ mô hình này với một logarit thống kê sự hợp lí (likelihood statistic).

– Sau đó chúng ta ước lượng mô hình một lần nữa, giả định rằng giả thuyết vô hiệu là sai lầm, rằng chúng ta tìm thấy giá trị hợp lí cực đại của các hệ số β trong mẫu. Một lần nữa, chúng ta đo lường kích thước của phần dư từ mô hình này với một logarit thống kê sự hợp lí.

– Cuối cùng, chúng ta so sánh hai thống kê bởi tính toán một thống kê kiểm tra: -2(ln Lnull – ln Lmodel)

Thống kê này nói cho chúng biết có bao nhiêu phần dư (hoặc dự đoán lỗi), có thể giảm bằng cách sử dụng các biến X. Giả thuyết vô hiệu gợi ý rằng sự giảm này là 0 ; nếu thống kê là đủ lớn (trong một kiểm tra Chi-bình phương với df = số biến độc lập), chúng ta bác bỏ giả thuyết vô hiệu. Tại đây, chúng ta kết luận rằng ít nhất một biến độc lập có hiệu ứng với logarit Odds.

SPSS cũng chạy ra thống kê R2 để giúp đánh giá sự mạnh mẽ của sự liên kết. Nhưng nó như một R2 giả, không nên được diễn giải vì hồi quy logistic không sử dụng R2 giống như hồi quy tuyến tính.

Câu hỏi thứ hai, làm thế nào chúng ta đánh giá được hiệu ứng từng phần của mỗi biến X?

Khi giả thuyết vô hiệu tổng quát bị bác bỏ, chúng ta sẽ đánh giá hiệu ứng từng phần của các biến dự đoán.

Như trong hồi quy tuyến tính bội, trong hồi quy logistic, điều này ngụ ý rằng giả thuyết vô hiệu cho mỗi biến độc lập bao gồm trong phương trình. Giả thuyết vô hiệu rằng mỗi hệ số hồi quy là bằng 0, hoặc nó không ảnh hưởng đến logarit Odds.

Mỗi ước lượng hệ số B có một sai số chuẩn (standard error) – mức độ trung bình, chúng ta kì vọng B thay đổi từ một mẫu này với mẫu khác bởi cơ hội may rủi. Để kiểm tra ý nghĩa của B, một thống kê kiểm tra (không phải t-test, nhưng là Wald Chi-bình phương) được tính toán, với 1df – bậc tự do. Cần nhớ rằng hệ số B bày tỏ những hiệu ứng của một đơn vị thay đổi của X về logarit Odds.

Trong giáo dục, hiệu ứng là dương, khi giáo dục tăng lên, logarit Odds cũng tăng lên.

Giá trị Exp(B) của một biến độc lập X được sử dụng để dự đoán xác suất của một sự kiện xảy ra dựa trên sự thay đổi một đơn vị trong một biến độc lập khi tất cả các biến độc lập khác được giữ không đổi. Nó cho biết rằng khi nó tăng một đơn vị, Odds cho sự kiện “có” là được nhân lên bởi một giá trị của giá trị Exp(B) (đây là hàm e mũ B, giả sử 1.05, tức là tăng 5%).

6. Mở rộng hồi quy logistic

Bên phải của phương trình hồi quy logistic cũng tương tự như bất kì mô hình hồi quy nào khác, nên chúng ta có thể bao gồm các biến độc lập phân loại và liên tục trong hồi quy logistic. Chúng ta cũng có thể bao gồm các hiệu ứng tương tác.

Hồi quy logistic có khả năng mở rộng trong hai cách:

– Hồi quy logistic thứ bậc (Ordinal Logistic Regression) được sử dụng để phân tích logarit tích lũy Odds của điểm số ở thứ hạng cao nhất tiếp theo của một biến thứ tự được nhóm gộp. Ví dụ điển hình là một thang đo khảo sát thái độ để chọn giữa “rất không đồng ý, không đồng ý, trung lập, đồng ý, rất đồng ý”. Chúng ta có thể sử dụng hồi quy logistic thứ bậc để kiểm tra liệu một đơn vị của X tăng, logarit Odds của chọn “không đồng ý” thay vì “rất đồng ý”, hoặc chọn “đồng ý” thay vì “trung lập”.

– Hồi quy logistic đa thức (Multinomial logistic regression) được sử dụng để phân tích loại đa lựa chọn của các kết quả. Ví dụ, chúng ta muốn dự đoán liệu một người là kết hôn, ly hôn, ly thân, chưa kết hôn. Nếu đó là sự loại trừ lẫn nhau và chung sức, chúng ta có thể phân tích logarit tỷ lệ cược của mỗi kết quả so với một đường cơ sở. Ví dụ, chúng ta có thể phân tích logarit tỷ lệ cược của việc kết hôn so với chưa bao giờ kết hôn, ly hôn so với chưa bao giờ kết hôn và ly thân so với chưa bao giờ kết hôn. Chúng ta có thể kiểm tra giả thuyết về những hiệu ứng của các biến dự đoán về mỗi Odds này. Mô hình hồi quy logistic đa thức sau đó để chúng ta kiểm tra các đa thức danh nghĩa.

7. Các giả định kiểm tra

Các giả định cơ bản của hồi quy logistic nhị thức bao gồm:

– Biến phụ thuộc của bạn nên được đo lường trên thang đo nhị phân. Ví dụ về các biến nhị phân bao gồm giới tính (nam và nữ), thành tích thi (đạt và không đạt), kiểu tính cách (hướng nội hoặc hướng ngoại) v.v. Tuy nhiên, nếu biến phụ thuộc của bạn được đo lường trên thang liên tục, bạn sẽ cần thực hiện hồi quy tuyến tính bội, trong khi nếu biến phụ thuộc của bạn được đo lường trên thang đo thứ tự, thì hồi quy logistic thứ bậc sẽ là thích hợp hơn.

– Một hoặc nhiều biến độc lập, có thể là liên tục (tức là biến khoảng hoặc tỷ lệ) hoặc biến phân loại (tức là biến thứ tự hoặc danh nghĩa). Ví dụ về các biến liên tục bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100)v.v. Ví dụ về các biến thứ tự bao gồm các mục Likert (ví dụ: thang điểm 5 hoặc 7 từ “rất đồng ý” đến “rất không đồng ý”). Ví dụ về các biến danh nghĩa bao gồm giới tính (nam và nữ), khu vực sống (thành thị và nông thôn), ngành nghề (ví dụ: 5 nhóm: điện, CNTT, cơ khí, ngoại ngữ, kinh tế).

– Các quan sát là độc lập và biến phụ thuộc phải có các danh mục loại trừ lẫn nhau và đầy đủ.

– Cần có mối quan hệ tuyến tính giữa bất kỳ biến độc lập liên tục nào và phép biến đổi logarit Odds (hay còn được gọi là Logit) của biến phụ thuộc. Chúng ta có thể sử dụng quy trình Box-Tidwell (1962) để kiểm tra sự tuyến tính cho giả định này.

Bạn có thể kiểm tra giả định số 4 bằng cách sử dụng thống kê SPSS. Các giả định 1, 2 và 3 nên được kiểm tra đầu tiên, trước khi chuyển sang giả định 4. Bạn nên kiểm tra các giả định này theo thứ tự này vì nó đại diện cho một thứ tự này. Nếu bạn không chạy kiểm tra thống kê trên các giả định này một cách chính xác, kết quả bạn nhận được khi chạy hồi quy logistic nhị thức có thể không hợp lệ.

8. Phân tích hồi quy Logistic nhị thức trong SPSS

Ví dụ, chúng ta có thể sử dụng hồi quy logistic nhị thức để hiểu liệu có thể dự đoán thành tích bài thi Toán của các sinh viên dựa trên thời gian ôn tập, mức độ lo lắng của bài kiểm tra và yếu tố giới tính hay không (tức là, trong đó biến phụ thuộc là “thành tích thi”, được đo trên thang lưỡng phân “đạt” hoặc “không đạt” và ba biến số độc lập: “thời gian ôn tập” và “giới tính”). Có 20 sinh viên được mời tham gia một cuộc thử nghiệm, kể từ khi bài học của môn Toán giải tích kết thúc đến ngày thi cuối kì, họ được đề nghị ghi lại tổng số giờ ôn bài (cộng dồn của mỗi ngày) dành cho môn Toán. Kết thúc kì thi, nhà nghiên cứu thu thập điểm số của 20 sinh viên này theo thang điểm 10 (nếu ≥5 là đạt ‘1’, và < 5 là không đạt ‘0’), gán giá trị 1 = nam, 2 = nữ. Các dữ liệu được tổng hợp trong bảng dưới đây.

Các bước phân tích hồi quy logistic nhị phân trong SPSS như sau:

Bước 1: Chọn Analyze > Regression > Binary Logistic…

Bước 2: Trong hộp thoại Logistic Regression, chúng ta chuyển biến phụ thuộc ‘Diemthi’ vào ô Dependent, chuyển các biến độc lập ‘Gioitinh’, ‘Ontap’ vào Covariates.

Bước 3: Nhấp vào nút Categorical để mở hộp thoại Logistic Regression: Define Categorical Variables. Chuyển biến độc lập phân loai “Gioitinh” từ cùng Covariates vào hộp Categorical Covariates. Tại vùng Change Contrast, chúng ta chuyển “Last” thành “Fist”, tiếp theo nhấp vào Change. Sau đó nhấp vào Continue.

Bước 4: Nhấp vào nút Options để mở hộp thoại Logistic Regression: Options. Trong vùng Statistics and Plots, chúng ta chọn Classification plots, Hosmer-Lemeshow goodness-of-fit, Casewise listing of residuals và CI for exp(B). Trong vùng Display, nhấp vào At last step. Sau đó nhấp vào Continue.

Bước 5: Nhấp OK để chạy kết quả.

Đọc kết quả:

Nói chung, hồi quy logistic chạy ra khá nhiều bảng, nhưng chúng ta có thể cần quan tâm những bảng chính dưới đây:

Bảng Case Processing Summary cho chúng ta các thông tin mô tả đặc điểm dữ liệu đưa vào phân tích hồi quy logistic nhị phân. Có 20 quan sát được đưa vào phân tích (Included in Analysis), không có quan sát nào bị thiếu (Missing Cases), không có quan sát nào không được chọn (Unselected Cases).

Tiếp theo, chúng ta bỏ qua phần Block 0 bởi vì các kết quả phân tích ở đây nằm ở trường hợp không có bất kỳ biến độc lập nào được đưa vào mô hình. Chúng ta sẽ sử dụng kết quả ở Block 1 với đầy đủ các biến độc lập được đưa vào xử lý.

Bảng đầu tiên là Omnibus Tests of Model Coefficients. Bảng này cho biết các hệ số của mô hình. Step 1 là bước thứ nhất trong chạy mô hình Logistic. Do ở đây chúng ta dùng phương pháp Enter đưa các biến độc lập vào cùng một lần nên chỉ xuất hiện Step 1 trong kết quả thống kê. Trường hợp dùng các phương pháp khác bảng này sẽ có thêm các Step 2, 3, 4 tùy số lượng biến đưa vào. Phương pháp Enter tạo ra 3 giá trị Chi-bình phương, df và sig. của Step, Block và Model đều như nhau. Trong tất cả trường hợp, giá trị p = 0.001 < 0.05 nên mô hình hồi quy là có ý nghĩa thống kê.

Bảng Model Summary cho kết quả tóm tắt về sự phù hợp của mô hình. Cột -2 Log likelihood (ký hiệu là -2LL) là một thông số để xem xét so sánh giữa các mô hình hồi quy với nhau, mô hình nào có -2LL nhỏ hơn sẽ tốt hơn. Nhưng nó không mang nhiều ý nghĩa nếu không có sự so sánh với mô hình hồi quy khác.

Hai cột Cox & Snell R Square và Nagelkerke R Square là giá trị R2 giả. Hồi quy logistic không sử dụng giá trị R2 giống với hồi quy tuyến tính. Cũng giống như -2LL, 2 chỉ số này dùng để so sánh các mô hình hồi quy khác nhau trên cùng một bộ số liệu, cùng một biến phụ thuộc. Mô hình hồi quy tốt hơn sẽ có R2 lớn hơn.

Kết quả kiểm tra Hosmer and Lemeshow test cho biết sự phù hợp của mô hình hồi quy tổng thể. Giá trị p nhỏ (thường dưới 5%) có nghĩa là mô hình không phù hợp. Nhưng giá trị p lớn không nhất thiết có nghĩa là mô hình của bạn phù hợp, chỉ là không có đủ bằng chứng để nói rằng nó phù hợp kém. Nhiều tình huống có thể gây ra giá trị p lớn, bao gồm cả sức mạnh thống kê kém. Sức mạnh thấp là một trong những lý do khiến thử nghiệm này bị chỉ trích nhiều. Trong ví dụ này, giá trị p = 0.93 > 0.05 cho thấy một mô hình hồi quy là phù hợp tốt, hay nói khác đi là mô hình hồi quy tổng thể được chấp nhập.

Bảng Classification Table cho biết xác xuất một điểm thi được dự đoán (ở mức đạt) so với được quan sát thực tế. Điểm cắt là 0.5 cho biết rằng nếu xác suất ước tính của sự kiện xảy ra lớn hơn hoặc bằng 0.5, SPSS phân loại sự kiện là đã xảy ra (tức là đạt, vượt qua bài thi). Nếu xác suất nhỏ hơn 0.5, SPSS phân loại sự kiện là không xảy ra (không đạt bài thi). Như vậy, trong 10 trường hợp quan sát thực tế là không đạt, thì cả 8 trường hợp được dự đoán là không đạt, tỉ lệ dự đoán đúng là 8/10 = 80%. Trong 10 trường hợp quan sát thực tế là đạt (vượt qua bài kiểm tra), dự đoán có 9 trường hợp là đạt, tỉ lệ dự đoán đúng là 9/10 = 90%. Như vậy, tỷ lệ trung bình dự đoán đúng là (10*80 + 10*90) = 85%.

Bảng Variables in the Equation cung cấp nhiều thông tin về phương trình hồi quy. Kiểm định Wald (cột ” Wald “) được sử dụng để xác định ý nghĩa thống kê cho từng biến độc lập. Ý nghĩa thống kê của thử nghiệm được tìm thấy trong cột ” Sig. “. Cụ thể trong trường hợp này, giá trị p của kiểm định Wald với biến ‘Gioitinh’, ‘Ontap’ nhỏ hơn 0.05 (độ tin cậy 95%) cho thấy nó có hiệu ứng đáng kể vào trong mô hình dự đoán biến Diemthi. Nếu biến độc lập nào có giá trị p > 0.05 thì cho thấy nó không có sự hiệu ứng lên biến phụ thuộc. Trong ví dụ này, cả hai biến ‘Gioitinh’ và ‘Ontap’ là có tác động đến dự đoán biến ‘Diemthi’ của các sinh viên.

Giá trị cột Exp(B) được sử dụng để dự đoán xác suất của một sự kiện xảy ra dựa trên sự thay đổi một đơn vị trong một biến độc lập khi tất cả các biến độc lập khác được giữ không đổi. Ví dụ: bảng cho thấy tỷ lệ sinh viên vượt qua bài thi (loại “đạt”) là 20.345 gấp nhiều lần đối với nam so với nữ. Tức là nữ có khả năng vượt qua bài thi cao gấp 20.345 lần so với nam, với khoảng tin cậy là 1.209 – 342.554. Khoảng tin cậy này là quá rộng, có thể bởi vì do cỡ mẫu là nhỏ và bài toán này mang tính minh họa nhiều hơn.

Cột B là hệ số hồi quy của các biến độc lập. Nếu B nhận dấu âm, nghĩa là biến độc lập đang tác động nghịch lên biến phụ thuộc, ngược lại, B mang dấu dương thể hiện biến độc lập tác động thuận lên biến phụ thuộc. Các trường hợp biến độc lập có giá trị p > 0.05 trong kiểm định Wald sẽ không được đưa vào phương trình hồi quy. Phương trình hồi quy thu được là:

Như vậy, số giờ ôn tập cao làm tăng khả năng vượt qua bài thi, và các sinh viên nữ có khả năng vượt qua bài thi cao hơn sinh viên nam.

Một ưu thế rất mạnh của hồi quy logistic nhị thức là khả năng dự báo. Ví dụ, một sinh viên nữ, với số giờ ôn tập là 5 giờ, thay vào phương trình:

Trong khi, vẫn 5 giờ ôn tập, xác xuất này ở sinh viên nam sẽ là:

Như vậy, xác suất trong cả hai trường hợp là lớn hơn 50%. Hay nói khác đi, nếu ôn tập 5 tiếng thì khả năng vượt qua bài thi của các sinh viên là khá lớn (>0.5).

9. Kiểm tra giả định hồi quy về sự tuyến tính giữa biến độc lập liên tục và Logit của biến phụ thuộc

Cách 1: Vẽ biểu đồ quan hệ giữa biến độc lập liên tục và xác suất p dự đoán

Bước 1: Chọn Analyze > Regression > Binary Logistic…

Bước 3: Nhấp vào nút Save, đánh dấu vào ô Probabilities (đây là xác suất dự đoán Diemthi). Nhấp Continue và sau đó nhấp OK để chạy kết quả.

Kết quả: Trong file dữ liệu xuất hiện thêm cột PRE-1, đây chính là xác xuất tiên đoán Diemthi của các sinh viên.

Bây giờ, chúng ta tiến hành vẽ đồ thị mối quan hệ giữa biến Diemthi (trục y) với biến độc lập liên tục “Ontap” (trục x). Vui lòng đọc bài vẽ đồ thị phân tán để xem hướng dẫn vẽ đồ thị.

Như vậy, đồ thị thể hiện một đường thẳng xuyên qua đám mây các điểm số. Các điểm số cũng cách đều đường cơ sở cho thấy sự đồng biến. Mặc dù cỡ mẫu là quá nhỏ để nhìn thấy rõ ràng một mối quan hệ tuyến tính giữa biến Ontap và xác suất dự đoán Diemthi của các sinh viên. Nhưng cỡ mẫu lớn hơn sẽ quan sát thấy rõ sự tuyến tính. Do đó, giả định về mối quan hệ tuyến tính giữa biến liên tục ‘Ontap’ và xác suất p dự đoán là được đáp ứng.

Cách 2: Kiểm tra Box-Tidwell

Mặc dù hồi quy logistic thường được coi là không có giả định, chúng ta giả định rằng các mối quan hệ giữa các yếu tố dự đoán liên tục và logit (tỷ lệ cược log) là tuyến tính. Giả định này có thể được kiểm tra bằng cách đưa vào mô hình các tương tác giữa các yếu tố dự đoán liên tục và logarit của chúng. Nếu một tương tác như vậy là đáng kể, thì giả định đã bị vi phạm. Tôi nên lưu ý với bạn rằng kích thước mẫu cũng là một yếu tố ở đây, vì vậy bạn không nên quá quan tâm đến một tương tác đáng kể khi kích thước mẫu lớn. Nếu không có tương tác logarit nào là quan trọng, hãy xóa nó khỏi mô hình, báo cáo rằng không có vấn đề gì với giả định và trình bày kết quả của mô hình mà không có các điều khoản tương tác logarit.

Dưới đây, chúng tôi trình bày cách tạo hàm logarit tự nhiên (Ln) của một biến dự đoán liên tục. Nếu biến dự đoán có các giá trị từ 0 trở xuống, trước tiên hãy thêm vào mỗi điểm số một hằng số sao cho không có giá trị nào bằng 0 hoặc nhỏ hơn. Hình bên dưới là cách nhập các hiệu ứng tương tác. Trong ngăn bên trái, chọn cả hai yếu tố dự đoán sẽ được đưa vào tương tác và sau đó nhấp vào nút >a* b>.

– Bước 1: Chuyển đổi logarit tự nhiên với một biến liên tục ‘Ontap’. Nhấp vào Transform > Compute Variable để mở hộp thoại Compute Variable. Nhập tên biến mới là OntapLN vào ô Target Variable. Sau đó nhập hàm logarit tự nhiên (LN) với giá trị Ontap như hình dưới đây:

– Bước 2: Thêm hiệu ứng giữa biến Ontap và OntapLN vào trong mô hình hồi quy. Trong hộp thoại Logistic Regression, nhấp chon bến Ontap và biến OntapLN, sau đó nhấp nút >a*b> . Cuối cùng, chạy lại mô hình hồi quy.

– Bước 3: Đọc kết quả trong bảng Variables in the Equation

Như vậy, hiệu ứng tương tác ‘OntapLN by Giờ ôn tập’ là không có ý nghĩa (p = 0.204 > 0.05). Nếu một hiệu ứng tương tác là có ý nghĩa, chúng ta sẽ cố gắng thêm vào sức mạnh mô hình của các yếu tố dự báo (có nghĩa là, sẽ đa thức).