Kích thước mẫu có ảnh hưởng như thế nào đến kích thước của khoảng ước lượng

Bất cứ khi nào chúng ta tiến hành kiểm tra thống kê của một giả thuyết vô hiệu, chúng ta sẽ có nguy cơ mắc phải lỗi Loại I, α (xác suất đạt được ý nghĩa thống kê giả dối) hoặc lỗi loại II, β, (xác suất không tìm thấy sự khác biệt về dân số khi nó tồn tại). Trong bài này, chúng ta sẽ xem xét cách nào để ảnh hưởng gián tiếp đến xác suất mắc lỗi Loại II và do đó, kiểm soát sức mạnh thống kê của một bài kiểm tra. Sức mạnh của kiểm định thống kê, 1 − β, là xác suất mà ý nghĩa thống kê sẽ đạt được (chúng ta bác bỏ giả thuyết vô hiệu) khi có sự khác biệt hoặc mối quan hệ đáng kể để phát hiện (nghĩa là H0 là bác bỏ). Nói một cách đơn giản, sức mạnh thống kê là khả năng phát hiện một mối quan hệ hoặc một sự khác biệt thực sự tồn tại.

1. Độ nhạy (Sensitivity) và độ chính xác (Precision)

Khi lập kế hoạch cho một nghiên cứu, chúng ta thường đề cập đến ‘độ nhạy’ (Sensitivity) của thiết kế thử nghiệm hoặc ‘độ chính xác’ (Precision) của thiết kế khảo sát. Độ nhạy đề cập đến khả năng phát hiện ra hiệu ứng điều trị thực sự. Chúng ta thường đề cập đến sự khác biệt đáng kể hoặc hiệu ứng điều trị đáng kể có nghĩa là thiết kế thí nghiệm đủ nhạy để phát hiện một sự khác biệt có ý nghĩa thống kê giữa các phương pháp can thiệp. Trong thiết kế khảo sát, độ chính xác đề cập đến tín đúng đắn có thể xảy ra của một ước tính mẫu. Độ chính xác của ước lượng mẫu, (ước lượng tham số dân số từ dữ liệu mẫu, ví dụ, giá trị trung bình của mẫu) bị ảnh hưởng bởi cỡ mẫu và sự thay đổi trong dân số.

Để đạt được ý nghĩa thống kê, kích thước hiệu ứng hoặc hiệu ứng điều trị và sức mạnh thống kê có liên quan chặt chẽ với nhau. Nói chung, hiệu ứng điều trị lớn hơn là dễ hơn để phát hiện hơn hiệu ứng điều trị nhỏ hơn, những thứ khác tương đương nhau (cào bằng nhau). Phân tích sức mạnh thống kê là một phần quan trọng của lập kế hoạch nghiên cứu.

Mối quan hệ giữa mức ý nghĩa alpha đã chọn (thường là p≤0.05 hoặc p≤0.001), kích thước hiệu ứng, sức mạnh thống kê và kích thước mẫu là phức tạp, nhưng cần phải hiểu để một nghiên cứu hiệu quả được lập kế hoạch tốt. Điều quan trọng là phải xem xét sức mạnh thống kê của bất kỳ các bài kiểm tra suy luận nào trước khi thu thập dữ liệu vì nếu sức mạnh quá thấp thì nhà nghiên cứu có các lựa chọn hạn chế, cụ thể là:

  • tăng kích thước mẫu để đạt được sức mạnh thống kê đầy đủ;
  • tăng mức ý nghĩa alpha xác suất mắc lỗi Loại I (điều này có tác dụng làm giảm β vì α và β có quan hệ nghịch đảo);
  • hoặc thậm chí phải từ bỏ nghiên cứu hoặc sửa đổi hoàn toàn thiết kế (ví dụ, thay đổi từ thiết kế phép đo độc lập sang lặp lại).

Điều gì ảnh hưởng đến độ nhạy của một thiết kế và khả năng để phát hiện một sự khác biệt đáng kể?

Có bốn đặc điểm liên quan đến nhau của một thiết kế nghiên cứu có thể ảnh hưởng đến việc phát hiện các khác biệt đáng kể, bao gồm: cỡ mẫu; sự biến thiên dân số về các phép đo của sự quan tâm; tỷ lệ lỗi Loại I (alpha); và kích thước hiệu ứng (độ lớn của sự khác biệt hoặc mối quan hệ) mà chúng ta đang cố gắng phát hiện.

2. Mối liên quan giữa cỡ mẫu và sức mạnh thống kê

Sự ảnh hưởng của cỡ mẫu liên quan sức mạnh thống kê có thể được minh họa bằng cách xem xét sai số chuẩn của giá trị trung bình. Từ Định lý Giới hạn Trung tâm (Central Limit Theorem), phương sai dân số của một phân phối mẫu của các trung bình là phân phối chuẩn với giá trị trung bình µ và phương sai của σ2/n (sai số chuẩn là σ chia căn bậc hai của n). Khi tính toán nhiều bài thống kê kiểm tra, mẫu số thường là một sai số chuẩn, ví dụ, trong tính toán t-test (độc lập), nó được đánh giá là tỷ số của sự khác biệt giữa hai trung bình mẫu chia cho sai số chuẩn của sự khác biệt giữa các trung bình mẫu. Điều này có nghĩa rằng nếu giá trị sai số chuẩn càng nhỏ thì dữ liệu của bạn sẽ ít “nhiễu” hơn. Khi kích thước mẫu, n, tăng lên, thì giá trị của sai số chuẩn giảm. Giá trị t lớn hơn làm tăng cơ hội đạt được ý nghĩa thống kê đối với một độ lớn của hiệu ứng. Dữ liệu của bạn sẽ bị nhiễu nhiều hơn nếu kích thước mẫu dữ liệu của bạn nhỏ và sẽ ít nhiễu hơn nếu kích thước mẫu dữ liệu của bạn lớn. Cỡ mẫu lớn hơn mang lại bậc tự do lớn hơn được liên kết với các giá trị thống kê kiểm tra tới hạn nhỏ hơn để đạt được mức ý nghĩa thống kê xác định. Ví dụ: giá trị t tới hạn với 10 df, kiểm tra hai đuôi α và p≤0.05 là 2.228 và nếu df tăng lên 25, tất cả các thuộc tính khác vẫn giữ nguyên, thì giá trị t tới hạn chỉ là 2.060.

3. Sự biến thiên của các phép đo dân số và sức mạnh thống kê

Các nhóm càng đồng nhất (ít biến đổi) thì càng dễ phát hiện ra sự khác biệt (mối quan hệ). Ngay cả khi các mẫu ngẫu nhiên được sử dụng, nếu phép đo của sự quan tâm không đồng nhất đối với dân số, thì hiệu ứng điều trị thực sự sẽ khó phát hiện hơn so với trường hợp các phép đo đồng nhất.

Nhà nghiên cứu có quyền kiểm soát trực tiếp kích thước mẫu và do đó có thể tăng sức mạnh thống kê của thiết kế bằng cách tăng kích thước mẫu. Họ cũng có thể làm giảm trực tiếp về sự biến thiên dân số, được biểu thị bằng sigma bình phương (σ2), và giảm sai số chuẩn (σ chia căn bậc hai của n). Khi sự biến thiên dân số là lớn thì sức mạnh thống kê bị giảm. Bằng cách tăng kích thước mẫu, điều này có tác dụng giảm sai số chuẩn và do đó tăng sức mạnh thống kê.

4. Tỷ lệ Lỗi Loại I (alpha) và sức mạnh thống kê

Nói chung trong các thiết kế thử nghiệm và khảo sát, chúng ta nên cố gắng giảm thiểu α. Tuy nhiên, tỷ lệ lỗi Loại I (alpha) là có liên quan nghịch với tỷ lệ lỗi Loại II (beta). Khi chúng ta tăng alpha, đồng thời chúng ta giảm beta và do đó tăng sức mạnh thống kê (1 − β). Giá trị α hoặc mức ý nghĩa được chọn càng lớn, ví dụ, p≤0.10 thay vì p≤0.05 thông thường, thì t-ratio tới hạn cần thiết cho ý nghĩa thống kê càng nhỏ và do đó càng dễ đạt được sự khác biệt đáng kể. Ngoài ra, hướng của bất kỳ sự khác biệt nào được thử nghiệm, chẳng hạn như kiểm tra một phía (one-tailed) hoặc hai phía (two-tailed) ảnh hưởng đến sự đạt được ý nghĩa thống kê. Đối với một alpha đã chọn, kiểm tra một phía (chẳng hạn như H1: hoặc µ1> µ2 hoặc µ1 <µ2) sẽ có ý nghĩa ở giá trị t-ratio tới hạn nhỏ hơn so với thử nghiệm hai phía có thể so sánh.

5. Kích thước hiệu ứng và sức mạnh thống kê

Trong kiểm định giả thuyết thống kê và phân tích sức mạnh, kích thước hiệu ứng (sample size – ES) là kích thước của sự khác biệt có ý nghĩa thống kê. Kích thước hiệu ứng của một sự khác biệt giữa các trung bình mẫu có thể được định nghĩa là tỷ số giữa kích thước của sự khác biệt giữa các trung bình mẫu (can thiệp và đối chứng) chia cho độ lệch chuẩn dân số (σ). Công thức là: ES = (µ1 – µ2)/σ

Khi tính toán một kích thước hiệu ứng từ dữ liệu mẫu, các trung bình mẫu thay thế µ1 và µ2 và độ lệch chuẩn tổng hợp sẽ thay thế độ lệch chuẩn dân số (σ). Độ lệch chuẩn tổng hợp (pooled standard deviation) cho hai mẫu được đánh giá là:

Kích thước mẫu có ảnh hưởng như thế nào đến kích thước của khoảng ước lượng

trong đó S12 và S22 là các phương sai mẫu, và n1 và n2 là các cỡ mẫu tương ứng.

Đối với biến liên tục:

  • Trong trường hợp nghiên cứu chỉ có một nhóm đối tượng, kích thước hiệu ứng (ES) được tính bằng µ/σ.
  • Trong trường hợp nghiên cứu ‘trước – sau’ (phép đo lặp lại), kích thước hiệu ứng được tính: (µ1 – µ2)/Sp .
  • Trong trường hợp nghiên cứu với hai nhóm đối tượng, kích thước hiệu ứng được tính: (µ1 – µ2)/σ1

Sức mạnh của một bài kiểm tra thống kê là liên quan đến kích thước hiệu ứng, hiệu ứng càng lớn thì càng có ý nghĩa thống kê và sức mạnh thống kê càng lớn.

Theo một qui ước, một kích thước hiệu ứng bằng 0.2 được xem là “thấp”, 0.5 là “trung bình”, và > 0.8 là “cao”. (Cohen J. Statistical power analysis for the behavioral science. NY: Academic Press, 1969).

Tóm lại, các đặc trưng thiết kế dưới đây làm tăng sức mạnh thống kê:
  • • kích thước mẫu lớn hơn;
  • • dân số đồng nhất (ít biến động trong các phép đo dân số của sự quan tâm);
  • • Lỗi loại I (alpha) lớn hơn;
  • • kích thước hiệu ứng lớn hơn.

6. Ước lượng cỡ mẫu và/ hoặc sức mạnh cho thiết kế

Để tính toán một kích thước mẫu cho một cuộc điều tra bằng cách sử dụng biểu đồ (cái mà mô tả sức mạnh thống kê cho các giá trị khác nhau của kích thước hiệu ứng, alpha và kích thước mẫu), thủ tục chung là nhập biểu đồ sức mạnh với bất kỳ tham số nào trong ba tham số, chẳng hạn như kích thước hiệu ứng, alpha và sức mạnh thống kê, và tham số thứ tư là cỡ mẫu tương ứng, có thể được xác định. Ngoài ra, bạn có thể nhập biểu đồ sức mạnh thống kê với một kích thước mẫu và xác định sức mạnh thống kê của một thử nghiệm. Người đọc được tham khảo Lipsey (1990) để biết các biểu đồ sức mạnh và các ví dụ minh họa về cách sử dụng chúng.

Kích thước mẫu có ảnh hưởng như thế nào đến kích thước của khoảng ước lượng

Hình 1. Biểu đồ sức mạnh cho alpha = .05 (hai đuôi), hoặc  alpha = .025 (một đuôi)

Kích thước mẫu có ảnh hưởng như thế nào đến kích thước của khoảng ước lượng

Hình 2. Kích thước mẫu gần đúng cho mỗi nhóm cần thiết để đạt được các mức Alpha và Beta khác nhau cho một phạm vi của kích thước hiệu ứng

Kích thước mẫu có ảnh hưởng như thế nào đến kích thước của khoảng ước lượng

Hình 3. Kích thước hiệu ứng tương đương cho tương quan (r), U3 và BESD (binomial effect size display)

Biểu đồ này cho thấy, ví dụ 1, nếu chúng ta có một thử nghiệm với 40 người tham gia trong mỗi nhóm can thiệp và nhóm đối chứng (tổng cộng 80 người), thì khả năng phát hiện kích thước hiệu ứng là 0.80 là khoảng 0.94 sức mạnh (tức là, với một ES = 0.80 và nhóm n = 40, ý nghĩa thống kê sẽ đạt 94% sức mạnh ở mức α = 0.05 với một t-test hoặc one-way ANOVA).

Ví dụ 2, cho sức mạnh yêu cầu là “0.80”, alpha là “0.05”, ES là “0.2”, tham số được ước tính là kích thước mẫu. Kết quả thấy rằng cần 390 đối tượng mỗi nhóm.

Tóm lại, khi sử dụng biểu đồ sức mạnh của Lipsey (1990) để ước tính số đối tượng (cỡ mẫu) cần thiết cho một nhóm, chúng ta cần phải có 3 số liệu: xác suất lỗi loại I và sức mạnh thống kê, và kích thước hiệu ứng.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.
  7. Kim, H. Y. (2013). Statistical notes for clinical researchers: assessing normal distribution (2) using skewness and kurtosis. Restorative dentistry & endodontics, 38(1), 52-54. https://doi.org/10.5395/rde.2013.38.1.52
  8. Lipsey, M. W., & Aiken, L. S. (1990). Design sensitivity: Statistical power for experimental research (Vol. 19). sage.
  9. Lipsey, M. W. i Hurley SM (2009). Design sensitivity: statistical power for applied experimental research. W: L. Bickman i DJ Rog (red.). https://www.semanticscholar.org/paper/Statistical-Power-for-Applied-Experimental-Research-Lipsey-Hurley/68d02153843b7de014aa08a905f11df9042a048b#citing-papers