Thống kê so sánh là gì

Phương pháp so sánh điểm tương đồng là một tập hợp các kĩ thuật thống kê. Các phương pháp so sánh tập hợp điểm tương đồng có thể được áp dụng trong hầu hết trường hợp gần như không có các quy tắc phân bổ can thiệp chính sách, miễn là có một nhóm không tham gia can thiệp chính sách. Thông thường, các phương pháp so sánh điểm tương đồng dựa vào các đặc điểm quan sát được để xây dựng nhóm so sánh và do đó, chúng đòi hỏi giả định tốt về những khác biệt không quan sát được trong nhóm can thiệp và nhóm so sánh mà cũng gắn liền với các kết quả đầu ra quan tâm. Do giả định tốt, nên phương pháp so sánh điểm tương đồng thường hữu ích nhất khi kết hợp với một phương pháp khác.

Về cơ bản, phương pháp so sánh điểm tương đồng sử dụng các kỹ thuật thống kê để xây dựng một nhóm so sánh giả bằng việc xác định đối với mọi quan sát đang can thiệp một quan sát không can thiệp (hoặc tập hợp các quan sát không can thiệp) mà có hầu hết các đặc điểm như các quan sát đang can thiệp. Phương pháp so sánh điểm tương đồng sử dụng các tệp dữ liệu lớn và các kỹ thuật thống kê để xây dựng nhóm so sánh giả tốt nhất đối với một nhóm can thiệp xác định. Xem xét một trường hợp đánh giá tác động của một can thiệp chính sách và có một tệp dữ liệu bao gồm cả các hộ gia đình tham gia can thiệp chính sách và các hộ không tham gia, ví dụ như tệp dữ liệu khảo sát sức khỏe và nhân khẩu. Can thiệp chính sách chúng ta muốn đánh giá không có quy tắc phân bổ rõ ràng (như phân bổ ngẫu nhiên) hoặc thước đo đủ điều kiện để giải thích lý do tại sao một số hộ tham gia can thiệp chính sách và một số hộ không tham gia can thiệp chính sách. Trong những trường hợp này, dựa vào các đặc điểm có sẵn trong tệp dữ liệu, phương pháp so sánh điểm tương đồng sẽ cho phép xác định rõ tập hợp các hộ gia đình không tham gia mà hầu như giống với các hộ gia đình tham gia. Sau đó những hộ gia đình không tham gia “điểm tương đồng này” trở thành nhóm so sánh để ước lượng phản thực.

Việc tìm ra điểm tương đồng tốt đối với từng người tham gia can thiệp chính sách đòi hỏi các biến giải thích việc quyết định tham gia của các cá nhân càng giống nhau càng tốt. Nếu danh mục các đặc điểm quan sát được phù hợp là rất lớn, hoặc nếu từng đặc điểm nhận nhiều giá trị, thì có thể khó để xác định rõ một sự tương đồng đối với từng đơn vị trong các đơn vị trong nhóm can thiệp. Khi tăng số lượng các đặc điểm hoặc phương diện tương phản mà chúng ta muốn tương đồng với các đơn vị tham gia can thiệp chính sách, thì chúng ta có thể rơi vào cái gọi là tai họa của tính đa chiều”. Ví dụ, nếu chúng ta chỉ sử dụng 3 đặc điểm quan trọng để xác định nhóm so sánh tương đồng như tuổi, giới tính và nơi sinh, thì chúng ta sẽ có thể tìm ra những điểm tương đồng đối với tất cả những người tham gia can thiệp chính sách trong tập hợp những người không tham gia.; đồng thời, chúng ta kiểm soát được rủi ro của việc bỏ sót những đặc điểm quan trọng khác. Tuy nhiên, nếu chúng ta tăng danh mục các biến, ví dụ như số con, số năm giáo dục, tuổi của mẹ, tuổi của cha, v.v… thì cơ sở dữ liệu của chúng ta có thể không bao gồm sự tương đồng tốt đối với hầu hết những người tham gia can thiệp chính sách, trừ phi nó bao gồm số lượng rất lớn các quan sát.

Vấn đề của tính đa chiều có thể được giải quyết dễ dàng bằng việc sử dụng phương pháp so sánh điểm tương đồng. Trong phương pháp này, chúng ta không còn phải cố gắng so sánh từng đơn vị tham gia với một đơn vị không tham gia có cùng giá trị đối với tất cả các đặc điểm quan sát được. Thay vào đó, đối với từng đơn vị trong nhóm can thiệp và trong tập hợp những đơn vị không tham gia, chúng ta tính toán xác suất một đơn vị sẽ tham gia vào can thiệp chính sách căn cứ vào các giá trị quan sát được của các đặc điểm của nó, được gọi là điểm tương đồng. Điểm này là từ một con số 0 đến 1, thâu tóm được tất cả các giá trị của các đặc điểm quan sát được của những đơn vị khi chúng tác động đến khả năng tham gia vào can thiệp chính sách.

Sau khi điểm tương đồng được tính toán cho tất cả các đơn vị, thì trong nhóm can thiệp có thể so sánh các đơn vị trong tập hợp những người không tham gia có điểm tương đồng gần nhất. Các đơn vị gần nhất này trở thành nhóm so sánh và được sử dụng để tạo ra mức ước lượng về phản thực. Phương pháp so sánh điểm tương đồng bắt chước phân bổ ngẫu nhiên vào nhóm can thiệp và nhóm so sánh bằng việc lựa chọn vào nhóm so sánh các đơn vị trong nhóm can thiệp. Do phương pháp so sánh điểm tương đồng không phải là phương pháp phân bổ ngẫu nhiên thực sự, mà cố gắng bắt chước nó, nên nó được phân loại vào các phương pháp bán thực nghiệm. Sự khác biệt trong kết quả đầu ra (Y) giữa các đơn vị can thiệp hoặc tham gia vào các đơn vị so sánh điểm tương đồng tạo ra tác động ước lượng của can thiệp chính sách.

Tóm lại, tác động của can thiệp chính sách được ước lượng bằng việc so sánh các kết quả đầu ra trung bình của một nhóm can thiệp hoặc tham gia và kết quả đầu ra trung bình của một nhóm nhỏ các đơn vị tương đồng về thống kê, sự tương đồng được dựa vào quan sát có sẵn trong dữ liệu. Như vậy, phương pháp so sánh điểm tương đồng là phương pháp đánh giá phi thực nghiệm mà sử dụng các tệp dữ liệu lớn và các kỹ thuật thống kê phức tạp để xây dựng nhóm can thiệp xác định.

2. Tiến hành phương pháp so sánh điểm tương đồng

Sử dụng phương pháp so sánh điểm tương đồng để tạo ra ước lượng hợp lệ ngoại tại về tác động của can thiệp chính sách đòi hỏi phải so sánh thành công tất cả các đơn vị can thiệp hoặc tham gia đối với một đơn vị không tham gia. Một vấn đề là để có thể xảy ra đối với một số đơn vị tham gia là không có đơn vị nào trong tập hợp những đơn vị không tham gia có cùng thời điểm tương đồng với chúng. Về phương diện kỹ thuật, có thể do “thiếu trụ đỡ chung”, hoặc “thiếu sự chồng lấn nhau” giữa các điểm tương đồng của nhóm can thiệp hoặc nhóm tham gia và các điểm tương đồng của tập hợp các đơn vị không tham gia.

Phân tích về sự thiếu trụ đỡ của vấn đề: Trước tiên, căn cứ vào các đặc điểm quan sát được của từng đơn vị trong mẫu tham gia trong can thiệp chính sách. Căn cứ vào khả năng đó, từng đơn vị được phân bổ một điểm tương đồng được gọi là xác suất. Sự phân bổ các điểm tương đồng được tách biệt riêng cho những đơn vị tham gia và những đơn vị không tham gia. Điểm quan trọng là những phân bổ này không chồng lấn nhau hoàn toàn. Ở giữa của phân bố chúng ta dễ dàng tìm được các điểm tương đồng bởi vì những đơn vị tham gia và những đơn vị không tham gia có những đặc điểm giống nhau. Tuy nhiên, các đơn vị có điểm tương đồng với dự đoán gần bằng một điểm không thể được so sánh với mọi đơn vị không tham gia có cùng điểm tương đồng. Các đơn vị có xác suất tham gia vào can thiệp chính sách cao lại quá khác các đơn vị không tham gia nên chúng ta không thể tìm được một điểm tương đồng với chúng. Do đó, việc thiếu trụ đỡ chung xuất hiện tại những thái cực, hoặc đuôi của phân bố các điểm tương đồng.

Thực hiện phương pháp so sánh điểm tương đồng gồm các bước dưới đây:

Bước 1: Tiến hành các khảo sát có khả năng so sánh và đại diện để xác định các đơn vị tham gia và các đơn vị không tham gia can thiệp chính sách.

Bước 2: Phân chí thành hai mẫu và ước lượng xác suất của từng đơn vị tham gia vào can thiệp chính sách, căn cứ vào các đặc điểm của đơn vị quan sát được trong khảo sát. Kết thúc bước này, chúng ta thu được điểm tương đồng.

Bước 3: Giới hạn mẫu vào các đơn vị mà trụ đỡ chung xuất hiện trong phân bố điểm tương đồng.

Bước 4: đối với từng đơn vị tham gia, định vị một phân nhóm các đơn vị không tham gia có nhiều điểm tương đồng.

Bước 5: So sánh các kết quả đầu ra của các đơn vị can thiệp hoặc tham gia và kết quả đầu ra của các đơn vị so sánh phù hợp hoặc không tham gia. Sự khác biệt trong các kết quả đầu ra trung bình của hai phân nhóm này là thước đo tác động mà có thể quy cho can thiệp chính sách đối với quan sát can thiệp cụ thể đó.

Bước 6: tính trung bình của các tác động này, chúng ta có được tác động can thiệp trung bình ước lượng.

Tóm lại, cần nhớ hai vấn đề sống còn về phương pháp so sánh điểm tương đồng là:

- Thứ nhất, phương pháp này phải được thực hiện trên cơ sở sử dụng các đặc điểm cơ sở.

- Thứ hai, phương pháp này chỉ tốt khi có các đặc điểm được sử dụng để so sánh, nên cần phải có một lượng lớn các đặc điểm cơ sở.

3. Hạn chế của phương pháp so sánh điểm tương đồng

Cho dù phương pháp so sánh điểm tương đồng có thể được áp dụng trong nhiều trường hợp mà không cần các quy tắc phân bổ của can thiệp chính sách, tuy nhiên phương pháp này có một số hạn chế:

Thứ nhất, nó đòi hỏi các tệp dữ liệu rất lớn về các mẫu lớn các đơn vị, và ngay cả khi có các tệp dữ liệu này, thì có thẻ thiếu một trụ đỡ chung giữa nhóm can thiệp hay nhóm tham gia và nhóm những người không tham gia.

Thứ hai, việc so sánh chỉ có thể được thực hiện dựa vào các đặc điểm quan sát được, và chúng ta không thể kết hợp các đặc điểm không quan sát được vào tính toán điểm tương đồng. Do đó, đối với thủ tục so sánh để xác định nhóm so sánh hợp lệ, chúng ta phải bảo đảm là không có những khác biệt có tính hệ thống trong các đặc điểm không quan sát được giữa các đơn vị so sánh phù hợp mà có thể tác động đến kết quả đầu ra (Y). Do chúng ta không thể chứng minh được là các đặc điểm không quan sát được như thế tác động kết quả đầu ra (Y). Do chúng ta không thể chứng minh được là các đặc điểm không quan sát được như thế tác động đến cả sự tham gia và kết quả đầu ra không tồn tại, nên chúng ta phải giả định chúng không tồn tại – đây luôn là giả định bắt buộc. Cho dù so sánh điểm tương đồng cho phép kiểm soát đối với các đặc điểm cơ bản quan sát được, nhưng chúng ta không thể không loại bỏ được sai số bắt nguồn từ những đặc điểm không quan sát được. Tóm lại, giả định là không có sai số lựa chọn từ các đặc điểm không quan sát được rất mạnh, và là giả định có vấn đề nhất không thể kiểm tra được.

Nói chung, phương pháp so sánh điểm tương đồng không mạnh bằng các phương pháp đánh giá khác. Ví dụ, các phương pháp lựa chọn ngẫu nhiên không đòi hỏi giả định không thể kiểm tra được và không có các biến không quan sát được giải thích cả sự tham gia vào can thiệp chính sách và kết quả đầu ra; chúng cũng không đòi hỏi các mẫu lớn hoặc các đặc điểm cơ bản nhiều như phương pháp so sánh điểm tương đồng.

Trong thực tế, phương pháp so sánh điểm tương đồng thường được sử dụng khi không thể áp dụng các phương pháp lựa chọn ngẫu nhiên, thiết kế gián đoạn hồi quy và sai biệt kép. Một số đánh giá tác động sử dụng phương pháp so sánh điểm tương đồng hồi cứu khi không có dữ liệu cơ sở về kết quả đầu ra quan tâm hoặc các đặc điểm cơ bản. Các đánh giá này sử dụng một khảo sát được tiến hành sau khi bắt đầu can thiệp chính sách (nghĩa là hồi cứu) để luận ra những đặc điểm cơ sở của những đơn vị tại điểm cơ sở (ví dụ, tuổi, tình trạng hôn nhân), và sau đó so sánh nhóm can thiệp đối với nhóm so sánh sử dụng các đặc điểm suy luận đó. Tất nhiên, cách thực hiện này có rủi ro là có thể tình cờ so sánh trên cơ sở những đặc điểm cũng bị tác động của can thiệp chính sách và trong trường hợp đó, các kết quả ước lượng về tác động sẽ không hợp lệ.

Trái lại, khi có sẵn dữ liệu cơ sở, thì phương pháp so sánh điểm tương dồng dựa vào các cơ sở có thể rất hữu ích khi được kết hợp với các phương pháp khác, ví dụ như sai biệt kép, để tính toán tính không đồng nhất không quan sát được và không thay đổi hữu ích theo thời gian. Phương pháp so sánh điểm tương đồng cũng hữu ích hơn khi quy tắc phân bổ can thiệp chính sách được biết rõ,trong trường hợp so sánh có thể được thực hiện theo quy tắc đó.