Các lựa chọn để kiểm soát gây nhiễu trong nghiên cứu quan sát
by Kinh Nguyen
Có nhiều phương pháp để kiểm soát gây nhiễu, có cả phòng tránh hoặc hiệu chỉnh trong phân tích
-
Hạn chế trong thiết kế nghiên cứu
Cách tiếp cận này để kiểm soát này đơn giản bằng cách định ra một khoảng giá trị hạn chế cho một hoặc nhiều biến số bên ngoài khi quyết định nhận vào nghiên cứu (v.d. giới hạn chỉ trong nhóm nam da trắng, hoặc chỉ trong độ tuổi 40-50). Việc hạn chế áp dụng cho cả nhóm nghiên cứu và nhóm so sánh (bệnh và chứng hoặc phơi nhiễm và không phơi nhiễm). Điều này có tác dụng loại bỏ biến số gây nhiễu và giữ được một nhóm tương đối đồng nhất để so sánh. Hạn chế của cách tiếp cận này là việc việc khái quát hóa của nghiên cứu chỉ giới hạn trong nhóm hạn chế được đưa vào trong nghiên cứu. Mặc dù nghiên cứu sẽ có tính giá trị bên ngoài đối với một dân số hạn chế nhất định, nghiên cứu sẽ không có nhiều hữu ích trong toàn dân số.
-
Bắt cặp
Bắt cặp dùng những ràng buộc khi lựa chọn nhóm so sánh để nhóm nghiên cứu và nhóm so sánh có cùng phân bố về một biến số gây nhiễu tiềm tàng.
Một ví dụ phổ biến là khi các ca chứng được chọn để khớp với các ca bệnh theo tuổi và giới. Bằng việc này tuổi và giới sẽ không còn là biến số gây nhiễu (mặc dù các biến số này có thể có mối liên quan với bệnh, mối liên quan giữa phơi nhiễm và bệnh không bị gây nhiễu bởi các biến số này). Dù cách này ít bị giới hạn hơn so với việc lựa chọn một dân số hạn chế, nó cũng gây ra hạn chế là dân số quan tâm sẽ bị giới hạn trong nhóm những gì đã được quan sát trong nhóm nghiên cứu (bệnh/phơi nhiễm/can thiệp).
Phân tích kết quả từ các nghiên cứu bắt cặp sẽ cần kết hợp vào thiết kế bắt cặp này (do hai nhóm không độc lập về mặt thống kê) và thường tính chính xác bị giảm. Ví dụ, nếu 100 ca bệnh và 100 ca chứng được sử dụng trong một nghiên cứu bắt cặp, điều này sẽ giống như chỉ có 100 quan sát (100 cặp) và năng lực thống kê là xấp xỉ 60% so với một nghiên cứu không bắt cặp có 100 ca bệnh và 100 ca chứng. Do đó, việc bắt cặp phải được thực hiện một cách thận trọng. Thêm vào đó, bắt cặp cho quá nhiều biến số cùng lúc có thể đưa đến “bắt cặp quá mức” mà trong đó mọi mối liên quan tiềm tàng bị loại trừ và sẽ không tìm thấy kết quả nào có ý nghĩa thống kê.
-
Phân tầng trong phân tích không bắt cặp
Lựa chọn này cơ bản gồm việc hạn chế phân tích (thay vì kế hoạch chọn mẫu) vào những khoảng giá trị hạn chế (tầng) của biến số thứ ba. Có thể tổng hợp kết quả từ nhiều tầng lại với nhau nếu không có tương tác giữa hai yếu tố. Một ví dụ được trình bày trong Bảng [tab:nmct].
-
Mô hình toán học trong phân tích
Cách tiếp cận này dùng các mô hình toán học nâng cao trong phân tích, như hồi quy tuyến tính đa biến, hồi quy logistic, v.v. Đây là một dạng của phân tầng trong phân tích và tổng hợp thông tin ngoại trừ là sự phân tầng và tổng hợp được thực hiện theo các giả định về mối liên quan dưới dạng toán học. Những dạng mối liên quan cụ thể có thể được khám phá bằng các phương pháp này và có năng lực hơn đáng kể so với phân tích phân tầng theo từng yếu tố. Chi tiết được trình bày tron Kleinbaum, Kupper and Morganstern, hoặc Hosmer and Lemeshow.