Mean là gì trong thống kê năm 2024
Summary statistics (thống kê mô tả tóm tắt) là một phần cơ bản trong khoa học thống kê, giúp chúng ta mô tả ngắn gọn dữ liệu thông qua các chỉ số thống kê cơ bản nhất. Đồng thời, chúng ta cũng sử dụng các công cụ visualization trong R để đưa data trở thành 1 biểu đồ mang mục đích tóm tắt. Show
Trong phần này, chúng ta sẽ sử dụng dataset
4 từ package mosaicData.
Dataset này có các cột sau:
Trước tiên, chúng ta cần phân biệt giữa 2 loại dữ liệu:
Tóm lại, khi làm việc với dữ liệu, chúng ta có thể tự đặt câu hỏi: “Liệu có thể chia các giá trị trong dataset này thành các phần nhỏ hơn hay không?”. Nếu có, dữ liệu sẽ thuộc kiểu liên tục. Tóm tắt dữ liệu qua đồ thịMột biến rời rạc (univariate)Chúng ta có thể dùng bar chart để mô tả phân phối của một biến rời rạc (đơn biến - univariate). Các cột (bar) được vẽ thể hiện một giá trị (level) của nhóm factor, và chiều cao của cột (nếu để biểu đồ dọc) thể hiện số quan sát (observation). Ta cũng có thể dùng
4 và
5 để diễn giải bar chart như ở dưới:
Có thể thấy 2 cột có chiều cao tương đương nhau do số observation của mỗi giá trị factor gần bằng nhau (4325 vs. 4311). Như vậy, dữ liệu về người chạy đua trong data rất cân bằng về giới tính. Một biến liên tục (univariate)Đồ thị histogram nhìn khá giống với đồ thị bar chart, nhưng vì được sử dụng với biến liên tục nên các cột sẽ chạm vào nhau.
Chiều cao của mỗi cột trong đồ thị histogram thể hiện tần suất kết quả chạy theo các khoảng (interval), và trong R gọi là các bin (ngăn). Mặc định của hàm
6 là
7, tức là mỗi khoảng cách nhau 30 đơn vị. Ta có thể diễn giải lại biểu đồ trên dưới dạng bảng:
0
2 các interval trong bảng và đồ thị trên đều có mặc định là \((x, y]\), tức là \(x < values <= y\) (right-closed, left-opened). Chú ý: Đồ thị histogram dựa vào diện tích của các cột, không phải chiều cao, tức là bằng \(bin\;width\;*\;count\). Một biến rời rạc và một biến liên tục (bivariate)Chúng ta thường phải so sánh mức độ phản hồi (dữ liệu liên tục) của hai biến rời rạc hoặc nhiều hơn. Biểu đồ boxplot thường để sử dụng để làm việc này. Mỗi observation gắn với một giá trị liên tục và 1 giá trị rời rạc
3 Tron biểu đồ trên, phần rìa (hinge) của hộp được định nghĩa là các khoảng phần tư thứ nhất và thứ 3 (1st quartile, tương đương với 25% quantile, và 3rd quartile, đương tương với 75% quantile). Nói cách khác, 25% dữ liệu nằm dưới hộp, 50% nằm trong hộp, và phần 25% cuối cùng nằm phía trên hộp. Các điểm bên ngoài hộp là các outliers (điểm ngoại lai). Nếu định nghĩa Inter-Quartile Range (IQR) là chiều dài của hộp thì tất các quan sát lớn hơn 1.5*IQR tính từ hộp được coi như là 1 outlier. Ngoài cách trên, chúng ta có thể dùng 2 đồ thị histogram đặt cạnh nhau để so sánh:
4 Trong trường hợp này, đồ thị đặt theo chiều dọc sẽ dễ so sánh hơn:
5 Hai biến liên tục (bivariate)Để biểu diễn mối quan hệ của 2 biến liên tục, ta dùng biểu đô dạng điểm:
6 Xu hướng trung tâmNgoài việc sử dụng các loại biểu đồ và đồ thị, chúng ta còn có thể dùng các 1 số chỉ số cơ bản để miêu tả dữ liệu. Mở đầu là các chỉ số về chiều hướng trung tâm (centrality). Mean (Trung bình cộng)Giá trị trung bình cộng (arithmetic mean, hay còn được gọi là average) là chỉ số cơ bản nhất, được tính theo công thức: \[\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{1}{n}\left(x_{1}+x_{2}+\dots+x_{n}\right)\] Trong R, ta tính mean bằng cách dùng hàm
8:
7
8
9
0 Trimmed meanGiá trị “trimmed mean” là giá trị trung bình sau khi “xén” bớt một số phần trăm nhất định ở 2 đầu phân phối; ví dụ đối với 5% trimmed mean, sau khi sắp xếp dữ liệu theo thứ tự, ta lấy bớt 5% các quan sát đầu tiên và cuối cùng, giữ lại 90% rồi lấy trung bình cộng. Trong R, ta tính trimmed mean bằng hàm
8 kèm theo thông số
0:
1
2 Có thể thấy, sau khi xén bớt 5% quan sát ở 2 đầu phân phối, mean và median của trường
7 trong dataset
4 bằng nhau. Ví dụMột lớp học có 9 người, tuổi của cả lớp là tập hợp \(\{21, 22, 23, 25,26,22, 23,21, 26\}\). Mean của tập hợp là 23.222, median là 23; hai giá trị này hiện đang xấp xỉ nhau. Người thứ 10 nhập học có tuổi là 71, khiến mean của tập hợp trở thành 28.6, median vẫn giữ nguyên là 24. Giá trị mean mới lớn hơn so với median, do chúng ta thêm vào 1 outlier lớn hơn hẳn. Dữ liệu lúc này được gọi là lệch sang bên phải (skewed). Đối với dữ liệu có độ lệch lớn, giá trị median sẽ thể hiện xu hướng trung tâm tốt hơn mean.
3
4
5
6
7
5 Mức độ phân tán (Spread/Dispersion)Câu hỏi thứ 2 khi làm việc với 1 dataset là “Mức độ phân tán của dataset này như thế nào?”. Ví dụ, ta có 2 tập dữ liệu có các tham số trung tâm tương đương nhau, nhưng không có nghĩa là 2 tập này giống nhau, mà dữ liệu có thể phân tán và biến thiên khác nhau. Có nhiều cách để trả lời câu hỏi này: Range (Khoảng biến thiên)Range (khoảng biến thiên) là khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất. \[Range=Max-Min\]
9
0 Inter-Quartile RangeInterquartile range là khoảng cách giữa tứ phân vị thứ 3 (3rd quartile) và thứ phân vị thứ nhất (1st quartile): \[IQR=Q3-Q1\] Trước tiên, cần giải thích định nghĩa của các thuật ngữ -tile:
Dùng hàm
3:
1
2
3
4 Chúng ta có thể dùng argument
4 trong hàm
3 để tìm ra các percentile khác:
5
6 Giá trị mặc định của argument
4 là 0 (min), 0.25 (1st quartile), 0.5 (2nd quartile/median), 0.75 (third quartile) và 1 (max). Để tính IQR, chúng ta hàm
7 (nhớ viết hoa):
7
8
9 Lưu ý: hàm
8 mặc định trả về 5 giá trị, vì vậy sẽ không kết hợp được với
9 do hàm
5 chỉ trả về 1 kết quả. Nếu thay đổi argument
4 thì có thể kết hợp được.
0
1 Variance (Phương sai)Trước tiên, ta xem xét khoảng cách từ một quan sát bất kì đến mean (deviation). Ta định nghĩa deviation thứ \(i_{th}\) là: \[e_{i}=x_{i}-\bar{x}\] Vậy khoảng cách trung bình đến mean là bao nhiêu? Nếu khảo sát mức độ phân tán bằng cách này, ta gặp phải 2 vấn đề:
\[\sum_{i=1}{n}(x_{i}-\bar{x}) = \sum_{i=1}{n}x_{i}-\sum_{i=1}{n}\bar{x} = n\frac{1}{n}\sum_{i=1}{n}x_{i}-n\bar{x} = n\bar{x}-n\bar{x} = 0\]
Nếu đi theo hướng lấy giá trị tuyệt đối, ta dùng chỉ số MAD (Mean Absolute Deviation), được tính là trung bình của tổng giá trị tuyệt đối của khoảng cách từ các observation đến mean: \((1/n)\sum_{i=1}^{n}|x_{i}-\bar{x}|\). Nếu đi theo hướng bình phương kết quả, ta dùng phương sai (variance). Trong thực tế, dữ liệu thường ở dạng một phân phối chuẩn (normal distribution - sẽ nhắc đến ở phần 2), như chiều cao con người, huyết áp, điểm thi, giá cổ phiếu, v.v. Phân phối chuẩn được định nghĩa bởi 2 thông số là mean và variance, và vì mức độ quan trọng của phân phối chuẩn, nên variance được sử dụng nhiều hơn khi tính toán mức độ phân tán.
Dữ liệu thu thập được thường ở dạng một mẫu của cả quần thể. Nếu trong trường hợp có dữ liệu của cả population, ta sẽ dùng công thức 2. Ở cả 2 công thức, ta lấy tổng bình phương của khoảng cách tới mean, sau đó lấy trung bình, tuy nhiên ta chia cho \((n-1)\) để tính sample variance (phương sai mẫu) thay vì chia cho \(n\) để tính population variance (phương sai quần thể). Ta làm điều này để tránh việc (\(\sigma^{2}\)) bị “biased” - có nghĩa là nếu dùng công thức tính population variance cho một sample, kết quả tính ra thường nhỏ hơn bình thường (do ta đang tính \(s^2\), vốn là 1 chỉ số ước lượng (estimator), dựa trên 1 chỉ số ước lượng khác là \(\bar{x}\)). Để tính sample variance trong R, chúng ta sử dụng hàm
2:
2 Standard variation (độ lệch chuẩn)Vấn đề lớn nhất của sample variance là đơn vị ở dạng bình phương, dẫn đến việc gây khó hiểu, khó để dẫn đến kết luận/phân tích. Để giải quyết, ta lấy giá trị căn bậc 2 để có được độ lệch chuẩn mẫu (sample standard deviation). \[s=\sqrt{s^2}\] Để tính độ lệch chuẩn mẫu trong R, ta dùng hàm
3:
3 Về mặt toán học, phương sai quan trọng hơn vì nó được sử dụng làm định nghĩa cho các phân phối xác suất, nhưng độ lệch chuẩn dễ hiểu hơn và vì thế có ích trong thực tế hơn. Hệ số biến thiên (Coefficient of variation)Chúng ta xem xét ví dụ sau: Có 1 nhóm động vật có độ lệch chuẩn mẫu của chiều dài con vật là 15cm. Chỉ với thông tin này, ta gần như không thể đưa ra kết luận gì có ích. Giả sử có thêm thông tin về loài động vật:
Như vậy, nếu có thêm thông tin về loài động vật, hay nói cách khác là thông tin giúp ta ước lượng được chiều dài trung bình của nhóm động vật trên, ta sẽ đưa ra được nhiều kết luận có ích. Để giải quyết vấn đề này, ta có thể dùng hệ số biến thiên: \[CV = \frac{s}{|\bar{x}|}\] Quy tắc thực nghiệmTa có thể sử dụng quy tắc thực nghiệm như sau để áp dụng cho các mẫu dữ liệu tương đối lớn và đối xứng: Mean trong thống kê có nghĩa là gì?Thế nào là Số trung bình hay số bình quân (mean or average)? Số trung bình hay số bình quân là một khái niệm trong toán học và thống kê, đại diện cho tổng của tất cả các giá trị chia cho số lượng các giá trị đó. Nó thường được sử dụng để mô tả mức độ trung bình hoặc trung tâm của một tập hợp các giá trị. Mean ký hiệu là gì?Trong công thức tính Mean thì cả sample mean (thường được ký hiệu ) và population mean (thường được ký hiệu μ) đều được chia cho n (với giả sử n là số lượng quan sát trong sample hoặc trong population). Còn với standard deviation thì không như vậy, mẫu số của sample sd là (n-1) còn của population sd là n. Trung bình trong thống kê là gì?Trong toán học và thống kê, trung bình cộng (và rất ít khi là trung bình số học), hay được gọi ngắn đi là trung bình (khi đã rõ ngữ cảnh), là thương số giữa tổng của một họ các số với số lượng các con số trong họ đó. The mean trong toán học là gì?(Toán học) Giá trị trung bình; số trung bình. |