Công thức tính hệ số hồi quy chuẩn hóa năm 2024

Trong thống kê, điểm chuẩn là số độ lệch chuẩn, mà theo đó giá trị của điểm thô (Giá trị được quan sát hoặc được ghi nhận trong dữ liệu) cao hơn hoặc thấp hơn giá trị trung bình của những gì đang được quan sát hoặc đo lường. Điểm thô trên trung bình có điểm tiêu chuẩn dương, trong khi những điểm dưới trung bình có điểm tiêu chuẩn âm.

Nó được tính bằng cách lấy điểm thô của từng cá nhân trừ đi giá trị trung bình của mẫu và sau đó chia hiệu đó cho độ lệch chuẩn của mẫu. Quá trình chuyển đổi điểm thô thành điểm tiêu chuẩn này được gọi là chuẩn hóa.

Điểm tiêu chuẩn thường được gọi là điểm z (Z-score); hai thuật ngữ có thể được sử dụng thay thế cho nhau. Các thuật ngữ tương đương khác được sử dụng bao gồm giá trị z (z-values), điểm số bình thường (normal scores), biến tiêu chuẩn hóa (standardized variables).

Việc tính toán điểm số z yêu cầu kiến thức về giá trị trung bình và độ lệch chuẩn của tổng thể hoàn chỉnh mà điểm dữ liệu thuộc về; nếu một người chỉ có một mẫu quan sát từ dân số, thì phép tính tương tự sử dụng giá trị trung bình mẫu và độ lệch chuẩn mẫu sẽ sinh ra thống kê t.

Công thức:

Nếu biết giá trị trung bình của tổng thể và độ lệch chuẩn của tổng thể, điểm thô x được chuyển đổi thành điểm chuẩn bởi công thức sau:

$z={x-\mu \over \sigma }$

Trong đó:

$\mu$ là giá trị trung bình của mẫu,

$\sigma$ là độ lệch chuẩn của tổng thể.

Giá trị tuyệt đối của z biểu thị khoảng cách giữa thô x và trung bình của mẫu theo đơn vị của độ lệch chuẩn. z âm khi điểm thô thấp hơn giá trị trung bình, dương khi cao hơn.

Việc tính z bằng công thức này yêu cầu sử dụng giá trị trung bình tổng thể và độ lệch chuẩn tổng thể, chứ không phải giá trị trung bình của mẫu nhỏ, cũng như độ lệch của mẫu nhỏ. Tuy nhiên, việc biết giá trị trung bình thực và độ lệch chuẩn của tổng thể thường là một kỳ vọng không thực tế, ngoại trừ các trường hợp như thử nghiệm tiêu chuẩn hóa, trong đó toàn bộ tổng thể được đo lường.

Trong thực tế, khi chưa biết giá trị trung bình của tổng thể và độ lệch chuẩn của tổng thể, điểm chuẩn có thể được ước tính bằng cách sử dụng giá trị trung bình mẫu và độ lệch chuẩn mẫu làm ước tính của các giá trị tổng thể.

Trong những trường hợp này, điểm số z được xác định bởi

${\displaystyle z={x-{\bar {x}} \over S}}$

Trong đó:

${\bar {x}}$ là giá trị trung bình của mẫu,

S là độ lệch chuẩn của mẫu.

Mặc dù điều này phải luôn được nêu rõ, nhưng sự khác biệt giữa việc sử dụng thống kê mẫu thường không được thực hiện. Trong cả hai trường hợp, tử số và mẫu số của các phương trình có cùng đơn vị đo sao cho các đơn vị triệt tiêu nhau qua phép chia và z được để lại dưới dạng đại lượng không thứ nguyên.

Các ứng dụng của chuẩn hóa Z-score

1. Z-test

Thử nghiệm Z (z-test) là bất kỳ thử nghiệm thống kê nào mà phân phối của thống kê thử nghiệm theo giả thuyết không, có thể được xấp xỉ bằng phân phối chuẩn. Z-test kiểm tra giá trị trung bình của một phân phối. Đối với mỗi mức ý nghĩa trong khoảng tin cậy, Z-test có một giá trị tới hạn duy nhất (ví dụ: 1,96 cho 5% hai đuôi), Z-test giúp xác định tầm quan trọng của một tập hợp dữ liệu. Tuy nhiên, z-test ít được sử dụng trong thực tế vì khó xác định được độ lệch trên toàn tập tổng thể.

2. Khoảng dự đoán

z-score có thể được sử dụng để tính khoảng dự đoán. Khoảng dự đoán [L,U], bao gồm điểm cuối thấp hơn được chỉ định là L và điểm cuối cao hơn được chỉ định là U, là một khoảng sao cho quan sát trong tương lai X sẽ nằm trong khoảng có xác suất cao $\gamma$, tức là

$P(L<X<U)=\gamma$,

Đối với tiêu chuẩn Z-score của X nó cho kết quả:

$P\left({\frac {L-\mu }{\sigma }}<Z<{\frac {U-\mu }{\sigma }}\right)=\gamma$.

Bằng cách xác định phần tử z sao cho

$P\left(-z<Z<z\right)=\gamma$

điều đó dẫn tới:

${\displaystyle L=\mu -z\sigma ,\ U=\mu +z\sigma }$

3. Kiểm soát quá trình

Trong các ứng dụng kiểm soát quy trình, giá trị Z cung cấp đánh giá về mức độ mà một quy trình đang hoạt động ngoài mục tiêu.

So sánh điểm được đo trên các thang điểm khác nhau: ACT và SAT

Khi điểm được đo trên các thang đo khác nhau, chúng có thể được chuyển đổi thành z-score để hỗ trợ so sánh. Ví dụ về so sánh điểm số của học sinh trong các bài kiểm tra SAT (thang 2400) và ACT (cũ) ở trường trung học như sau.

Bảng dưới đây cho thấy giá trị trung bình và độ lệch chuẩn của tổng điểm trong kỳ thi SAT và ACT. Giả sử rằng học sinh A đạt 1800 điểm trong kỳ thi SAT và học sinh B đạt 24 điểm trong ACT. Học sinh nào thể hiện tốt hơn so với những người làm bài kiểm tra khác?

SAT

ACT

Giá trị trung bình

1500

21

Độ lệch chuẩn

300

5

Ta tính được, z-score cho học sinh A là 1, z-score cho học sinh B là 0.6.

Bởi vì học sinh A có điểm z cao hơn học sinh B, ta có thể kết luận rằng học sinh A đã thể hiện tốt hơn so với những người làm bài kiểm tra khác so với học sinh B.

Tỷ lệ quan sát dưới z-score.

Tiếp tục ví dụ về điểm ACT và SAT, nếu có thể giả định thêm rằng cả điểm ACT và SAT đều có phân phối chuẩn (gần đúng), thì điểm z có thể được sử dụng để tính tỷ lệ phần trăm thí sinh nhận điểm thấp hơn. điểm hơn học sinh A và B.

Phân tích cụm và nhân rộng đa chiều

"Đối với một số kỹ thuật đa biến như chia tỷ lệ đa chiều và phân tích cụm, khái niệm khoảng cách giữa các đơn vị trong dữ liệu thường được quan tâm và có tầm quan trọng đáng kể... Khi các biến trong tập dữ liệu đa biến ở các tỷ lệ khác nhau, việc tính toán sẽ có ý nghĩa hơn khoảng cách sau một số hình thức tiêu chuẩn hóa."

Tầm quan trọng tương đối của các biến trong hồi quy bội: Hệ số hồi quy chuẩn hóa

"Độ dốc hồi quy được chuẩn hóa là độ dốc trong phương trình hồi quy nếu X và Y được chuẩn hóa... Việc chuẩn hóa X và Y được thực hiện bằng cách trừ các giá trị trung bình tương ứng từ mỗi bộ quan sát và chia cho độ lệch chuẩn tương ứng... Trong hồi quy bội, một số biến X được sử dụng, các hệ số hồi quy chuẩn hóa sẽ định lượng đóng góp tương đối của từng biến X."

Tuy nhiên, Kutner và cộng sự đưa ra lời cảnh báo sau: "…Người ta phải thận trọng khi diễn giải bất kỳ hệ số hồi quy nào, cho dù đã được tiêu chuẩn hóa hay chưa. Lý do là khi các biến dự đoán tương quan với nhau,… thì các hệ số hồi quy bị ảnh hưởng bởi các biến dự đoán khác trong mô hình… Độ lớn của các hệ số hồi quy chuẩn hóa bị ảnh hưởng không chỉ bởi sự hiện diện của các mối tương quan giữa các biến dự báo mà còn bởi khoảng cách của các quan sát trên mỗi biến này. Đôi khi những khoảng cách này có thể khá tùy ý. Do đó, thông thường sẽ không khôn ngoan khi giải thích độ lớn của các hệ số hồi quy chuẩn hóa khi phản ánh tầm quan trọng so sánh của các biến dự báo."

Chuẩn hóa trong thống kê toán học

Trong thống kê toán học, một biến ngẫu nhiên X được chuẩn hóa bằng cách trừ đi giá trị kỳ vọng của nó và chia hiệu số cho độ lệch chuẩn của nó

$Z={X-\operatorname{E} [X] \over \sigma (X)}$

Nếu biến ngẫu nhiên đang xét là trung bình mẫu của một mẫu ngẫu nhiên $\ X_{1},\dots ,X_{n}$ của X:

${\bar {X}}={1 \over n}\sum _{i=1}^{n}X_{i}$

sau đó phiên bản chuẩn hóa sẽ là

${\displaystyle Z={\frac {{\bar {X}}-\operatorname {E} [{\bar {X}}]}{\sigma (X)/{\sqrt {n}}}}.}$

Trong đầu tư và giao dịch, Z-score là thước đo mức độ biến động của một công cụ và có thể được các nhà giao dịch sử dụng để giúp xác định mức độ biến động. Z-score đôi khi bị nhầm lẫn với điểm Altman Z, được tính toán bằng cách sử dụng các yếu tố lấy từ báo cáo tài chính của công ty. Altman Z-score được sử dụng để tính toán khả năng một doanh nghiệp sẽ phá sản trong hai năm tới, trong khi Z-score có thể được sử dụng để xác định mức độ chênh lệch giữa lợi nhuận của một cổ phiếu so với lợi nhuận trung bình của nó.