1. Một số
định nghĩa
Thống kê là phương pháp khoa học
dùng đề thu thập, tóm tắt, trình bày và phân tích số liệu. Phương pháp thống kê
được sử dụng trong nghiên cứu nhằm để so sánh một nhóm đối tượng chứ không nhằm
nghiên cứu từng cá nhân đơn lẻ.
Số liệu: Kết quả có được do việc
quan sát hay thu thập đặc tính hay đại lượng ở các đối tượng khác nhau hay ở
thời gian khác nhau.
Thí dụ: Quan sát giới tính của các học viên trong
lớp, số liệu ghi nhận được là:
Nam, nam, nữ, nữ, nữ, nam, nữ,
v.v
Thí dụ: Một nhà nghiên cứu đo
nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
10.2 13.7 10.4 14.9 11.5 12.0 11.0
13.3 12.9 12.1 9.4 13.2 10.8 11.7
10.6 10.5 13.7 11.8 14.1 10.3 13.6
12.1 12.9 11.4 12.7 10.6 11.4 11.9
9.3 13.5 14.6 11.2 11.7 10.9 10.4
12.0 12.9 11.1 8.8 10.2 11.6 12.5
13.4 12.1 10.9 11.3 14.7 10.8 13.3
11.9 11.4 12.5 13.0 11.6 13.1 9.7
11.2 15.1 10.7 12.9 13.4 12.3 11.0
14.6 11.1 13.5 10.9 13.1 11.8 12.2
và những con số này được gọi là
số liệu.
Cần lưu ý số liệu phải liên kết
với một đặc tính hay đại lượng nhất định. Ghi nhận giới tính ở người này, tuổi
của người khác, quần áo của một người khác nữa thì kết quả này được không phải
là số liệu.
Sử dụng phương pháp thống kê
chúng ta có thể tóm tắt số liệu trên sử dụng nồng độ hemoglobin trung
bình=11,98 và độ lệch chuẩn bằng 1.42. Số liệu được tóm tắt, trình bày hay phân
tích bằng phương pháp thống kê sẽ trở thành thông tin.
2. Biến số và
các loại biến số
Biến số là những đại lượng hay
những đặc tính có thể thay đổi từ người này sang người khác hay từ thời điểm
này sang thời điểm khác.
Như vậy biến số có thể thể hiện
đại lượng hay đặc tính. Nếu nó thể hiện
một đại lượng nó được gọi là biến số định lượng. Nếu nó nhằm thể hiện
một đặc tính no được gọi là biến số định tính.
Biến
số định tính
Biến số định tính còn được chia
làm 3 loại: biến số thứ tự, biến số danh định và biến số nhị giá.
Biến số thứ tự là biến số định
tính với các giá trị có thể sắp xếp thứ tự được.
Thí dụ: tình trạng kinh tế xã hội
(giàu, khá, trung bình, nghèo, rất nghèo) là biến số thứ tự bởi vì người giàu
có điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình, trung
bình hơn nghèo, v.v
Những thí dụ khác là học lực của
học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt, khá, xấu, tử vong).
Theo phân loại tăng huyết áp của
Tổ chức Y tế Thế giới được trình bày như sau, theo phân loại huyết áp với các
giá trị huyết áp bình thường, tăng huyết áp độ 1, tăng huyết áp độ 2, tăng
huyết áp độ 3 là biến số thứ tự
Huyết áp bình thường: HA tâm thu £139 và
HA tâm trương £ 89
Tăng huyết áp độ 1: HA tâm thu £ 179
hay HA tâm trương £ 104
Tăng huyết áp độ 2: HA tâm thu ³ 180
hay HA tâm trương >114
Tăng huyết áp độ 3: HA tâm thu ³180 và
HA tâm trương ³ 115 mmHg
Biến số danh định là biến số định
tính mà giá trị của nó không thể biểu thị bằng số mà phải biểu diễn bằng một
tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự từ
thấp đến cao.
Thí dụ: Biến số dân tộc với các
giá trị: Kinh, Khmer, Hoa, Chăm, là biến số định tính vì chúng ta không thể
sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại.
Một số thí dụ khác của biến số
danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có gia đình, li dị,
góa) nhóm máu (A, B, AB và O).
Đôi khi biến số danh định chỉ có
2 giá trị: thí dụ như sống hay chết; có hút thuốc lá hay không hút thuốc lá; có
suy dinh dưỡng hay không suy dinh dưỡng; nam hay nữ. Những biến số thuộc loại
này được gọi là biến số nhị giá (binary variable)
Mã hoá
Trong phân tích thống kê, để tiện
việc nhập số liệu hay lí giải kết quả, người ta có thể ánh xạ (mapping) các giá
trị của biến định tính vào các con số. Việc này được gọi là mã hóa và cần hiểu
rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng
trong mã hóa không phản ánh bản chất của biến số danh định.
Giới tính là biến số danh định và có hai
giá trị là nam và nữ. Chúng ta có thể mã hóa giới tính và quy ước Nam là 1 và
Nữ là 2. Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể quy
ước Nam là 1 và Nữ là 0. Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí
số liệu trở nên dễ dàng hơn chứ không nhằm phản ánh bản chất của biến số đó.
Biến
số định lượng
Biến số định lượng nhằm thể hiện
một đại lượng và do đó có giá trị là những con số.
Thí dụ: tuổi là biến số liên tục
bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi, v.v.
Những thí dụ khác là đường huyết,
hemoglobin, hematocrite, chiều cao, cân nặng, thu nhập, v.v
3. Phương
pháp trình bày số liệu bảng
Số liệu ghi nhận các đặc tính hay
đại lượng có thể trình bày thành bảng và bảng này được gọi là bảng phân phối
tần suất.
Phân
phối tần suất của biến số định tính
Số liệu của biến số rời rạc có
thể được trình bày dưới dạng một phân phối tần suất. Phân phối tần suất là một
bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số (Bảng 1).
Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến
số và một cột trình bày tần suất tương ứng của các giá trị đó.
Table 1. Phân phối giới tính của 69 học
sinh lớp cơm thường trường mầm non 23 tháng 11, Huyện Hóc môn
Giới
|
Số trẻ
|
Phần trăm
|
Nam
|
45
|
65%
|
Nữ
|
24
|
35%
|
Tổng số
|
69
|
100%
|
Bảng trên là bản phân phối tần
suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ nên ta liệt kê 2
giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá trị
này. Ðôi khi bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ ở
trên. Bảng 2 là một thí dụ khác về bảng phân phối tần suất.
Table 2. Phương pháp đỡ đẻ của 600 trẻ
trong bệnh viện
Phương pháp đỡ đẻ
|
Số
sinh
|
Phần
trăm
|
Sinh thường
|
478
|
79,7
|
Sinh forceps
|
65
|
10,8
|
Sinh mổ
|
57
|
9,5
|
Tổng số
|
600
|
100,0
|
Ðôi khi trong bảng phân phối
người ta không ghi con số thực tế của tần suất mà chỉ ghi nhận phần trăm. Trong
trường hợp hợp này, phải ghi rõ số đối tượng của toàn bộ phân phối (số đối
tượng toàn bộ trong thí dụ trên là 600)
Phân
phối tần suất của biến số định lượng
Nếu biến số là biến số liên tục
chúng ta không thể liệt kê tất cả các giá trị của biến số. Trong trường hợp này
chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.
Cụ thể các bước xây dựng bảng
phân phối tần suất cho biến số định lượng như sau:
1- Tìm phạm vi (giá trị cực tiểu
và giá trị cực đại) của số liệu. Trong thí dụ về hemoglobin của 70 phụ nữ phạm
vi là 8,8 đến 15,1
2. Chia phạm vi số liệu ra làm n
khoảng với độ rộng của mỗi khoảng là d. Cần lưu ý độ rộng mỗi khoảng d nên là
đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng n nên từ 5-12
(trung bình là 7-8). Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng
với chiều rộng khoảng bằng 1 đơn vị. Khi đó các khoảng là: 8-8,9; 9-9,9;
10-10,9; 11-11,9; 12-12,9; 13-13,9; 14-14,9; 15-15,9.
3. Ðếm các giá trị thích hợp vào
khoảng đã định trước
Hemoglobin
(g/100ml)
|
Ðếm
|
8-8,9
|
1
|
9-9,9
|
111
|
10-10,9
|
1111 1111
1111
|
11-11,9
|
1111 1111
1111 1111
|
12-12,9
|
1111 1111
1111
|
13-13,9
|
1111 1111
111
|
14-14,9
|
1111
|
15-15,9
|
1
|
4. Xây dựng bảng phân phối tần
suất với biến số và các khoảng giá trị của biến số và tần suất tương ứng với
các khoảng giá trị đó. Chúng ta cũng có thể thêm vào cột phần trăm và cột phần
trăm tích lũy (nếu thích hợp)
Table 3. Hemoglobin của 70 phụ nữ
Hemoglobin
|
Tần
suất
|
Phần
trăm
|
Phần
trăm tích lũy
|
8-8,9
|
1
|
1.43
|
1.43
|
9-9,9
|
3
|
4.29
|
5.71
|
10-10,9
|
14
|
20.00
|
25.71
|
11-11,9
|
19
|
27.14
|
52.86
|
12-12,9
|
14
|
20.00
|
72.86
|
13-13,9
|
13
|
18.57
|
91.43
|
14-14,9
|
5
|
7.14
|
98.57
|
15-15,9
|
1
|
1.43
|
100.00
|
Thí dụ như nếu biên số là chu vi
vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi vòng cánh tay đến 1 cm.
Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày bảng phân
phối tần suất của biến số (bảng 2).
Table 4. Phân phối số đo vòng cánh tay
của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn.
Vòng cánh tay
|
Tần
suất
|
Phần
trăm
|
Phần
trăm tích lũy
|
13- <14
|
2
|
2.78
|
2.78
|
14- <15
|
31
|
43.06
|
45.83
|
15- <16
|
27
|
37.50
|
83.33
|
16- <17
|
9
|
12.50
|
95.83
|
17- <18
|
0
|
12.50
|
95.83
|
18- <19
|
2
|
2.78
|
98.61
|
19- <20
|
1
|
1.39
|
100.00
|
4. Các số
thống kê mô tả
Việc trình bày số liệu bằng bảng
là thỏa mãn cho các biến số định tính (cả biến số danh định và biến số thứ tự).
Tuy nhiên các số liệu định lượng có thể tóm tắt hơn nữa bằng các số thống kê mô
tả. Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống
kê mô tả tính phân tán.
Thống
kê mô tả khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập
trung có thể là trung bình (mean), trung vị (median) và yếu vị (mode). Những
thống kê này cho biết giá trị tiêu biểu cho số liệu.
Thí dụ: có hai loại thuốc hạ áp A và B.
Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có huyết áp 110 - 115
-120 - 125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết
áp 120 - 125 - 130 - 135 - 140. Con số tiêu biểu nhất để cho biết tác dụng
của thuốc A là huyết áp trung bình sau
khi sử dụng thuốc A và là 120. Con số huyết áp trung bình này thấp hơn huyết áp
trung bình sau khi sử dụng thuốc B cho biết thuốc A có tác dụng mạnh hơn.
Trung bình của số liệu, được kí
hiệu là `x (đọc là x gạch) là tổng các giá trị
của số liệu chia cho số lần quan sát (N).
Thí dụ: Số liệu về huyết áp tâm thu của
5 đối tượng là 120, 125, 130, 135, 150. Huyết áp tâm thu trung bình sẽ là 132
Do không thể thực hiện các phép
toán số học trên các biến số định tính (danh định và thứ tự) chúng ta chỉ có
thể tính trung bình cho số liệu của biến số định lượng.
Nếu chúng ta sắp xếp số liệu theo
thứ tự, giá trị đứng ở giữa được gọi là trung vị. Nếu có hai giá trị cùng đứng
ở giữa, trung bình cộng của hai giá trị này là trung vị.
Thí dụ: Số liệu về huyết áp tâm thu
(mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung vị của huyết áp tâm
thu là giá trị đứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là
153, 155, 160, 162, 165, 161. Ðể tính trung vị, trước tiên chúng ta phải sắp
xếp số liệu này: 153, 155, 160, 161, 162, 165. Do có hai giá trị 160 và 161
cùng ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm
Ðôi khi người ta chọn con số
thống kê tiêu biểu là yếu vị (mode). Yếu vị là giá trị xuất hiện phổ biến nhất
(có tần suất cao nhất).
Thí dụ: Số liệu về huyết áp tâm thu
(mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trong trường hợp này không
có yếu vị.
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9.
Yếu vị của điểm số là 5.
Trong một số liệu cụ thể, có thể
không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều yếu vị. Ðây là khuyết
điểm chính của số thống kê này. Do vậy người ta thường chỉ dùng trong các
trường hợp đặc biệt
Có thể sử dụng trung bình, trung
vị hay yếu vị cho biến số định lượng. Khi biến số định lượng có phân phối bình
thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi đó người ta
thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh. Tuy
nhiên nếu số liệu bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một
cách chính xác hơn.
Thí dụ: Bệnh nhân bị loét dạ dày - tá
tràng được điều trị theo một phác đồ diệt vi khuẩn Helicobacter. Sau điều trị,
bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc đến lúc
bắt đầu cải thiện triệu chứng đau. Ở 10 bệnh nhân thời gian này (ngày ) là như
sau: 1, 2, 2, 2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ lúc điều trị đến
lúc giảm triệu chứng là 30 ngày trên thực chất là bệnh nhân không đáp ứng với
điều trị. Trung vị và trung bình của số liệu là 2 và 5 ngày. Con số trung vị
phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu
trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng
thuốc. Con sôs 30 trong thí dụ trên được gọi là số ngoại lai (outlier) và làm
số liệu bị lệch. Nhìn chung, khi số liệu bị lệch thì con số trung bình sẽ bị
ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con số trung vị.
Thống
kê mô tả tính phân tán:
Thống kê mô tả tính phân tán có
tầm quan trọng thứ hai sau con số mô tả khuynh hướng tập trung.
Thí dụ: Thuốc hạ áp A được sử dụng trên
5 bệnh nhân và huyết áp tâm thu sau khi
dùng thuốc là 110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh
nhân và có huyết áp sau sử dụng thuốc là 100, 110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp
là tương đương (bởi vì trung bình của hai số liệu là bằng nhau) nhưng kết quả của
thuốc B phân tán hơn và điều này làm thuốc B trở nên kém an toàn.
Ðộ lệch chuẩn (standard deviation
- viết tắt là SD hay s) là con số đánh giá mức độ phân tán và được tính theo
công thức:
Như vậy độ lệch chuẩn phản ánh
khoảng cách trung bình của số liệu so với giá trị tiêu biểu. Khái niệm độ lệch
chuẩn chỉ có thể áp dụng cho biến số định lượng bởi vì chúng ta có thể thực
hiện các phép toán số học trên các đại lượng nhưng không thể thực hiện trên các
giá trị của biến số định tính là các đặc tính.
Thí dụ: Số liệu về huyết áp tâm thu
(mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung bình của huyết áp là
132 và độ lệch chuẩn bằng
Phương sai về mặt từ nguyên là
bình phương của sai - bình phương của độ lệch chuẩn. Phương sai (variance) có
thể được kí hiệu và Var hay s2 và được tính theo công thức sau:
Phạm vi của số liệu là tất cả các
giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất.
Thí dụ: Số liệu về huyết áp tâm thu
(mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Phạm vi của biến số huyết áp
là 120 đến 150.
Thí dụ: Thuốc hạ áp A được sử dụng trên
5 bệnh nhân và huyết áp tâm thu sau khi
dùng thuốc là 110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh
nhân và có huyết áp sau sử dụng thuốc là 100, 110, 120, 130, 140. Số liệu của
thuốc B có tính phân tán cao hơn do phạm
vi thay đổi từ 100-140 trong khi đó phạm vị của số liệu thuốc A chỉ từ 110-130.
Khoảng tứ vị (inter-quartile):
Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần đều nhau, khoảng tứ vị là
khoảng cách của trung vị phần trên và trung vị phần dưới. Trung vị của phần trên của số liệu được gọi
là tứ vị trên (upper quartile) và trung
vị của phân dưới số liệu được gọi là trung vị dưới (lower quartile).
Thí dụ: Số liệu về huyết áp tâm thu
(mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Số liệu này được chia làm 2
phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150. Trung vị của
phần trên là 125 - trung vị của phần dưới là 135, do đó phạm tứ vị là 125-135.
Do bản chất của khoảng tứ vị là
trung vị của phần số liệu trên và phần số liệu dưới, cũng giống như trung vị,
khoảng tứ vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong trường hợp
của độ lệch chuẩn. Cũng như trung vị, khoảng tứ vị chỉ có thể áp dụng cho biến
số định lượng hay thứ tự.
Có 3 thống kê mô tả tính phân
tán: độ lệch chuẩn, khoảng tứ vị và phạm vi của số liệu. Việc lựa chọn thống kê
mô tả tính phân tán được trình bày trong bảng 2.
Bảng 6. Chọn lựa các thống kê mô tả tính
phân tán cho các loại biến số.
Trường hợp
|
Thống kê tóm tắt giá trị tiêu
biểu
|
Thống kê mức độ phân tác
|
Phân phối cân đối
|
Trung bình (mean)
|
Ðộ lệch chuẩn (standard
deviation)
|
Thống kê bị lệch
|
Trung vị (median)
|
Khoảng tứ vị (inter-quartile)
Phạm vi (Range)
|
Câu hỏi: Phân tích trên máy tính
về biến số hemoglobin cho kết quả sau. Hãy thử đọc và lí giải kết quả:
Variable |
Obs Mean Std. Dev. Min Max
-----------+-----------------------------------------------------
hemoglobin
| 70 11.98429
1.416122 8.8 15.1
Thí dụ về số liệu bị lệch: Thời
gian nằm viện của 17 đối tượng sau khi phẫu thuật (được sắp xếp từ nhỏ đến lớn)
là:
3
4 4 6 8 8
8 10 10
12 14 14 17 25
27 37 42
Phân phối này bị lệch nên con số
thời gian nằm viện trung bình là 14,6 không phải con số phù hợp đo lường trung
tâm. Ðể đánh giá Từ phân phối này ta nhận thấy trung vị là 10; tứ vị trên là 17
và tứ vị dưới là 8.
Logarithm
Một cách khác để đối phó với số
lệch bị lệch, trong trường hợp bị lệch
dương là sử dụng logarithm (hay gọi tắt là log) của giá trị số liệu thay vì
dùng bản thân giá trị.
Có nhiều loại logarithms khác
nhau. Logarithm cơ số 10 là loại thường được sử dụng trong quá khứ để nhân hay
chia các con số một cách nhanh chóng. Gần đây do sự phát triển của các máy vi tính và máy tính
cầm tay, việc sử dụng logarithms cơ số 10 trở nên bị phôi pha. Hiện này người
ta thường chỉ dùng logarithms cơ số e (e=2,71) hay còn gọi là logarithms tự
nhiên do loại logarithms này có một số đặc tính toán học đáng quý.
Logarithms tự nhiên của một số x thường
được kí hiệu ln(x).
Logarithms tự nhiên có các đặc
tính toán học chính như sau:
ln(xy)=ln(x)
+ ln(y)
ln(x/y)=ln(x)-ln(y)
ln(xn)=ln(xx...x)=ln(x)+ln(x)+...+ln(x)=nln(x)
ln(1+x)(x
(với x nhỏ)
Nếu chúng ta đã biết ln(x) và
muốn biết x bằng bao nhiêu chúng ta sử dụng hàm antilog(x) hay còn gọi là hàm
exp(x).
Trong trường hợp số liệu bị lệch
dương, người ta lấy log của số liệu và tính trung bình của log số liệu. Sau đó
tính giá trị thời gian nằm viện tiêu biểu (con số này được gọi là trung bình
nhân - geometric mean) bằng cách lấy antilog của trung bình của log số liệu.
Trở lại thí dụ về thời gian nằm
viện của 17 bệnh nhân. Sau khi lấy log chúng ta có trung bình của log thời gian
nằm viện bằng 2,41 và lấy antilog của số này chúng ta có trung bình nhân của thời gian nằm viện là 11,13. Con số
này gần với giá trị trung vị là 10 hơn con số trung bình cộng là 14,6
Biểu
đồ và đồ thị
Số liệu cũng có thể được trình
bày dưới dạng đồ thị hoặc biểu đồ. Mặc dù không có ranh giới tuyệt đối hoàn
toàn rõ rệt, nói chung đồ thị (graph) có tính chất toán học nhiều hơn,
trong đó có trục hoành và trục tung còn biểu đồ (chart) là hình ảnh mang tính
chất tượng trưng.
Nếu biến số là biến rời rạc, có thể
trình bày dưới dạng biểu đồ hình thanh (bar chart - hình 1) hoặc biểu đồ hình
bánh (pie chart). Nếu biến số là biến liên tục, thì phân phối của biến số có
thể trình bày dưới dạng tổ chức đồ (histogram - hình 2) hoặc đa giác tần suất.
Biểu đồ
hình thanh
Biểu đồ hình thang là biểu đồ
nhằm mô tả sự phân bố của biến số rời rạc. Biểu đồ hình thanh gồm có trục hoành
trên đó xác định những giá trị của biến số. Ứng với từng giá trị của biến số
người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị đó. Cần lưu ý
luôn luôn có khoảng trống giữa các thanh.
Figure 2. Biểu đồ hình thanh (bar chart)
mô tả phân bố giới tính của những học sinh trong trường mầm non 23/11, Hóc môn
Chúng ta cũng có thể xây dựng các
thanh theo chiều ngang như trong ví dụ sau
Figure 3. Phương pháp sinh của 600 trẻ
sanh tại bệnh viện X trong năm 1998
Ðối với biến số thứ tự, điều cần
lưu ý là các giá trị của biến số phải được sẵp xếp thứ tự theo trục hoành.
Figure 4. Trình độ học vấn của các bà mẹ
trong nghiên cứu
Biểu đồ
hình bánh
Biểu đồ hình bánh cũng được dùng
để mô tả sự phân bố của biến số rời rạc. Biểu đô hình bánh là một vòng tròn
được chia làm nhiều cung tương ứng với các giá trị của biến số. Ðộ lớn của cung
tỉ lệ với tần suất của giá trị biến số.
Figure 5. Biểu đồ hình bánh (pie chart)
mô tả phân bố giới tính của những học sinh trong trường mầm non 23/11, Hóc môn
Figure 6. Biểu đồ hình bánh thể
hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện X
Tổ chức
đồ, đa giác tần suất, sơ đồ hộp.
Tổ chức đồ (histogram) và đa giác
tần suất (polyline) được dùng trong mô tả phân bố của biến số liên tục. Ðể vẽ
tổ chức đồ, người ta chia biên độ của giá trị làm nhiều khoảng giá trị và tính
tần suất của những khoảng giá trị đó. Những khoảng giá trị này được biểu thị ở
trên trục hoành. Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suất của
khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên trục hoành,
các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau.
Figure 7. Ða giác tuần suất của
hemoglobin của 70 phụ nữ.
Ðể vẽ đa giác tần suất, người ta
thường vẽ tổ chức đồ và nối các trung điểm của các cạnh trên của các hình chữ
nhật. Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng nó có ưu điểm
là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các phân
phối của chúng.
Figure 8. Ða giác tần suất hemoglobin
của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ nữ trung bình và khá (đường xanh)
Figure 9. Sơ đồ hình hộp của hemoglobin
ở 70 phụ nữ.
Ngoài ra còn có sơ đồ hộp
(boxplot) cũng được sử dụng để mô tả sự phân phối của biến số định lượng (xem
hình 8). Sơ đồ hộp gồm một hình chữ nhật và 2 đoạn thẳng đứng. Hình hộp có cạnh trên là tứ vị trên,
cạnh dưới là tứ vị dưới. Ðường nằm trong hình hộp là đường đi qua trung vị. Hai
thanh dọc của sơ đồ hộp nối liền giá trị tứ vị trên với giá trị cực đại va tứ
vị dưới với giá trị cực tiểu.
5. So sánh
các nhóm
Mặc dù trên kinh điển, biểu đồ
hình thanh nhằm trình bày số liệu định tính, nó cũng được sử dụng để so sánh sự
khác biệt về đặc tính (chủ yếu là biến
số nhị giá) hay trung bình đại lượng (biến số định lượng) của các nhóm. Bảng cũng có thể được sử dụng cho mục đích
này. Việc so sánh sử dụng biểu đồ hay
bảng được trình bày trong
Table 5. Chọn lựa sơ đồ thanh hay bảng
để trình bày số liệu
Số biến số phân loại
|
Biến số cần so sánh
|
Danh định
|
Thứ tự
|
Nhị giá
|
Ðịnh lượng
|
1
|
Bảng 2 chiều
Biểu đồ thanh chùm, thanh phần
trăm
|
Bảng 2 chiều
Biểu đồ thanh chồng
|
Bảng 1 chiều
Biểu đồ thanh đơn
|
Bảng 1 chiều
Biểu đồ thanh đơn
|
2
|
Bảng 3 chiều
|
Bảng 3 chiều
|
Bảng 2 chiều
Biểu đồ thanh chùm
|
Bảng 2 chiều
Biểu đồ thanh chùm
|
Một số thí dụ sau minh họa về
cách trình bày số liệu để so sánh giữa
các nhóm:
Table 6. Nghiên cứu thực nghiệm
ngẫu nhiên về cách đỡ đẻ và tỉ suất lây truyền HIV trong thời kì chu sinh
(n=370) (Nguồn: The European Mode of Delivery Collaboration, Lancet, 27/3/1999)
- Ðây là bảng 2 chiều so sánh biến số nguy cơ lây nhiễm (biến nhị giá) theo hai
biến số phân loại: cách đỡ đẻ và việc sử dụng thuốc phòng.
Cách đỡ đẻ
|
Dùng ZDV1
|
Không dùng ZDV
|
Ðường âm đạo
|
0.043
|
0.195
|
Mổ lấy thai
|
0.008
|
0.039
|
1 ZDV:
Zidovudin 300 mg uống ngày 2 lần từ 36 tuần thai cho đến lúc chuyển dạ và 300 mg mỗi 3 giờ trong lúc chuyển dạ
Figure 10. Nghiên cứu thực nghiệm
ngẫu nhiên về cách đỡ đẻ và tỉ suất lây truyền HIV trong thời kì chu sinh
(n=370). Biểu đồ hình thanh chùm (clustered bar)
Figure 11. Tỉ lệ suy dinh dưỡng ở
trẻ em Thái lan nông thôn và thành thị theo tuổi và độ trầm trọng - Biểu đồ
hình thanh chồng (stacked bar) so sánh biến số tình trạng dinh dưỡng (biến số
thứ tự) theo một biến số phân loại nhóm tuổi.
Figure 12. Biểu đồ thanh phần
trăm (percent bar chart) cơ cấu tử vong trong từng nhóm tuổi. - Biểu đồ so sánh
cơ cầu tử vong (biến số danh định) theo một biến số phân loại là lứa tuổi.
Table 7. Tình trạng dinh dưỡng
trẻ em ở xã chứng và xã can thiệp trước và sau thực hiện dự án (Bảng 3 chiều so
sánh biến số tình trạng dinh dưỡng theo
hai biến số phân loại: biến số xã và biến số thời gian)
Tình trạng dinh dưỡng
|
1997
|
2000
|
Xã chứng
|
Xã can thiệp
|
Xã chứng
|
Xã can thiệp
|
Suy dinh dưỡng độ 3
|
4 (2%)
|
0 (0%)
|
2 (3%)
|
1 (1%)
|
Suy dinh dưỡng độ 2
|
21 (9%)
|
7 (7%)
|
5 (7%)
|
1 (1%)
|
Suy dinh dưỡng độ 1
|
60 (25%)
|
26 (28%)
|
22 (31%)
|
24 (34%)
|
Bình thường
|
153 (64%)
|
61 (65%)
|
43 (60%)
|
45 (63%)
|
Tổng số
|
238 (100%)
|
94 (100%)
|
72 (100%)
|
71 (100%)
|