Mẫu cần lớn đến mức nào?
by Kinh Nguyen
Một trong những quyết định khó khăn nhất người nghiên cứu phải đối mặt là mẫu cần lớn bao nhiêu. Hai cách tiếp cận phổ biến được sử dụng trong các nghiên cứu là: thực nghiệm và phân tích. Cách tiếp cận thực nghiệm liên quan đến việc sử dụng cỡ mẫu đã từng được dùng trong các nghiên cứu tương tự. Việc này không có cơ sở khoa học và chỉ thỏa nếu nghiên cứu trước đó có mức sai số trong khái quát hóa chấp nhận được và nghiên cứu hiện tại là rất giống về phạm vi (mục tiêu, thiết kế, dân số nghiên cứu, …). Phương pháp này không được khuyên dùng và sẽ không được thảo luận thêm.
Cách tiếp cận phân tích (khoa học) để xác định cỡ mẫu phù hợp cần đưa vào nghiên cứu phụ thuộc vào việc đánh giá các sai lầm trong suy diễn và mức giảm thiểu “sai số chọn mẫu” mong muốn. Sai số chọn mẫu đo lường mức biến thiên giữa các kết quả mẫu (được coi là số đo gián tiếp cho tính chính xác với tình trạng thực tế của dân số và sự tái lập được của kết quả mẫu); các kết quả mẫu càng ít biến thiên, kết quả mẫu càng gần hơn với kết quả từ dân số.
Do đó, yếu tố xác định chủ yếu của cỡ mẫu là mức chính xác cần thiết của kết quả là bao nhiêu. Điều này tùy vào mục đích của nghiên cứu (nghiên cứu mô tả để xác định một số đo tóm tắt về đặc tính hay một nghiên cứu phân tích mà các giả thuyết nhất định đang được kiểm định).
Cỡ mẫu cho các nghiên cứu mô tả
Trong các nghiên cứu mô tả, thường mục tiêu là ghi nhận một ước lượng về một tham số trong dân số. Ví dụ, trong các điều tra dư luận, các nhà nghiên cứu thị trường có thể quan tâm trong việc tìm ra tỷ lệ người thích một nhãn hiệu nhất định nào đó hơn. Một nhà dinh dưỡng sẽ có thể quan tâm về trung bình calo ăn vào hàng ngày của dân số. Một nhà nghiên cứu y tế có thể quan tâm về tỷ lệ người hút thuốc lá, hoặc trung vị thời gian sống sau khi trãi qua phẫu thuật mạch vành. Việc xác định cỡ mẫu cần thiết để trả lời các câu hỏi này tùy thuộc vào nhiều yếu tố:
-
Số đo quan tâm là gì? Điều này cần được xác định trong mục tiêu nghiên cứu. Việc xác định các đặc tính quan trọng chủ yếu quyết định các bước tiếp theo trong quá trình xác định cỡ mẫu. Ví dụ, nếu tỷ suất hiện mắc trong dân số được ước lượng qua cách quan sát một mẫu trong dân số, số đo là tỷ lệ người trong mẫu có bệnh.
-
Phân phối xác suất của đặc tính quan tâm là gì? Hầu hết các câu hỏi nghiên cứu rơi vào một trong hai trường hợp: phân phối nhị thức (khi muốn ước lượng tỷ lệ của một sự kiện nhất định), và phân phối bình thường (khi muốn ước lượng một giá trị trung bình). Ví dụ các nhà nghiên cứu thị trường ở trên có sự ưa thích một nhãn hiệu là một đặc tính có thể có hai kết cuộc. Nếu giả định là có một tỷ lệ cố định (π) người ưa thích một nhãn hiệu, thì số người bày tỏ điều này trong bất kỳ nhóm người cố định nào sẽ có phân phối nhị thức với tỷ lệ (p) người bày tỏ sự ưa thích là một ước lượng tốt của tỷ lệ trong dân số. Với nhà dinh dưỡng, lượng calo ăn vào hàng ngày của mỗi người sẽ có phân phối bình thường với một trung bình nhất định (μ), và trung bình lượng calo ăn vào hàng ngày trong mẫu nghiên cứu (x) quan sát được sẽ là ước lượng tốt cho giá trị này trong dân số.
-
Phân phối chọn mẫu của đo lường là gì? Rút ra suy diễn từ mẫu ra cho dân số liên quan đến các sai lầm vốn có được đo lường qua phân phối chọn mẫu. Nếu ta quan sát nhiều mẫu với cùng phương pháp chọn mẫu, đo lường từ mỗi mẫu này sẽ biến thiên cho ra một “phân phối xác suất” của số đo mẫu. Phân phối này được gọi là phân phối chọn mẫu, và phụ thuộc vào loại thiết kế nghiên cứu và cỡ mẫu được chọn như thế nào.Trong tính toán cỡ mẫu, thường việc chọn mẫu được giả định có liên quan đến chọn mẫu ngẫu nhiên đơn (trình bày trong phần sau của chương này). Đôi khi thiết kế chọn mẫu là phức tạp hơn nhiều (v.d. các kỹ thuật chọn mẫu cụm nhiều bậc) và các công thức phức tạp hơn sẽ phải sử dụng để tính cỡ mẫu phù hợp.
-
Cần kết quả chính xác đến mức nào? Về cơ bản ta muốn thu thập được các ước lượng càng gần với giá trị của dân số càng tốt. Do đó, cần xem xét thêm số đo sự khác biệt giữa ước lượng và giá trị dân số. Hầu hết các trường hợp giá trị được sử dụng trung bình sai số bình phương (MSE) (trung bình của độ lệch bình phương giữa giá trị từ mẫu và từ dân số). Một cách chính xác để diễn tả sai số này là sử dụng “sai số chuẩn của ước lượng”. Sai số chuẩn có từ phân phối chọn mẫu của ước lượng. Nếu việc chọn mẫu được thực hiện thích đáng (với các phương pháp xác suất phù hợp) ta có thể dự đoán được phân phối là gì và dựa trên điều này ta có thể ước lượng giá trị dân số sẽ gần với ước lượng mẫu như như thế nào:
Ví dụ khi ước lượng tỷ lệ dân số, phân phối chọn mẫu của tỷ lệ mẫu p xấp xỉ phân phối bình thường với trung bình π và phương sai π(1 − π)/n với n là cỡ mẫu. Phân phối này sẽ cho khoảng tin cậy (1 − α) của π là \(p\pm z_{1-\alpha/2}\sqrt{p(1-p)/n}\) với z1 − α/2 là một điểm cắt thích hợp trên phân phối chuẩn. (Ví dụ, với khoảng tin cậy 95%, z1 − α/2 = 1.96.)
Độ chính xác của ước lượng do đó tùy thuộc vào hai đại lượng: khoảng này sẽ hẹp đến mức nào (độ rộng của khoảng) và mức tin cậy là bao nhiêu (v.d. 95%).
Sự tính toán cỡ mẫu trong nghiên cứu mô tả do đó phụ thuộc vào hai tham số - độ rộng khoảng tin cậy và hệ số tin cậy. Nhiều chương trình máy tính để tính toán đã có sẵn (v.d. R có những gói dữ kiện cho phép tính toán cỡ mẫu). Hai trường hợp thường gặp là ước lượng tỷ lệ dân số và ước lượng trung bình dân số được minh họa sau đây:
-
Ước lượng một tỷ lệ dân số (p). Giả sử ta muốn tiến hành một khảo sát để xác định số hiện mắc (π) của một bệnh tương đối phổ biến trong cộng đồng. Ta muốn xác định bao nhiêu người cần được quan sát để có thể thu được một bức tranh đủ chính xác về hiện mắc. Cần phải thực hiện các bước sau đây:
-
Xác định các tham số của sai số:
Hệ số tin cậy (1 − α): 95%
Độ rộng khoảng tin cậy (δ): 10%
-
Cho một dự đoán về giá trị quan tâm: 30%
Vấn đề là tính cỡ mẫu cần thiết để ước lượng hiện mắc bệnh nằm trong ± 5% giá trị thật, với mức tin cậy 95%. Do khoảng tin cậy thực sự phụ thuộc vào giá trị thật p ta phải đưa ra một dự đoán về giá trị có thể có của tỷ lệ này. Điều này dựa trên các kinh nghiệm trước đó; nếu không thể đưa ra dự đoán nào ta có thể sử dụng giá trị 50% để cho cỡ mẫu lớn nhất. Với tỷ lệ mẫu (p) có khoảng tin cậy như trên, cỡ mẫu (n) có thể tính theo công thức: n = (z1 − α/δ)2p(1 − p) Do đó trong ví dụ trên n = (1.96/5)2(30 × 70)=323; ta cần tối thiểu 323 đối tượng để đảm bảo rằng khoảng tin cậy 95% của ước lượng tỷ lệ sẽ nằm trong 5% của hiện mắc thật. Nếu hiện mắc thật sự là ít hơn 30%, khoảng tin cậy sẽ hẹp hơn. Cỡ mẫu đòi hỏi lớn nhất sẽ là khi hiện mắc thật 50%, trong trường hợp này n = 385.
Cách tính toán trên giả định chọn ra một mẫu ngẫu nhiên đơn từ một dân số tương đối lớn. Trong thực tế dân số để chọn mẫu ra có thể cố định và nhỏ, khi đó sẽ cần phải có những hiệu chỉnh cho công thức trên.
-
-
Ước lượng trung bình dân số (μ). Giả sử ta muốn ước lượng trung bình lượng calo ăn vào hàng ngày của người trong một cộng đồng. Lượng calo ăn vào hàng ngày giả định có phân phối bình thường quanh trung bình μ, với độ lệch chuẩn (σ). Số đo mẫu sử dụng để ước lượng μ là trung bình mẫu. Phân phối chọn mẫu của trung bình mẫu cũng là phân phối bình thường với cùng trung bình μ và độ lệch chuẩn $ \sigma/\sqrt{n} $ (sai số chuẩn của trung bình). Lưu ý là ta cần biết giá trị của σ để có tiếp tục tính toán. Giá trị này có thể lấy từ các nghiên cứu tương tự hoặc bằng cách thực sự lấy từ một nhóm nhỏ các đối tượng ngẫu nhiên trong một nghiên cứu thử. Nếu cả hai đều không thực hiện được, có thể cho một dự đoán phù hợp bằng cách chọn khoảng giá trị (giá trị lớn nhất có thể - giá trị nhỏ nhất có thể) và chia khoảng này cho 4. (Dùng giả định là với một phân phối bình thường, 95% giá trị sẽ nằm trong ± 2 độ lệch chuẩn từ trung bình, và trung bình sẽ là giá trị trung tâm.) Sau đó những bước sau sẽ giúp tính toán cỡ mẫu:
-
Xác định các tham số sai số
Hệ số tin cậy (1 − α): 95%
Độ rộng khoảng tin cậy (δ): 50 cal.
-
Thu thập độ lệch (σ): 150 cal.
-
Khoảng tin cậy 95% cho trung bình mẫu là \(\bar{x} \pm z_{1-\alpha/2}\sigma/\sqrt{n}\)
-
Do đó cỡ mẫu cần thiết trong mẫu là: n = (1.96 × 150/50)2 = 35.
-
-
Ước lượng nguy cơ tương đối hoặc tỷ số số chênh. Công thức để tính cỡ mẫu cho những trường hợp này phức tạp hơn rất nhiều, do phân phối chọn mẫu của ước lượng nguy cơ tương đối và tỷ số số chênh là không đơn giản. Nhiều chương trình máy tính có cung cấp cách tính được cỡ mẫu thích hợp. Những nguyên tắc cơ bản là vẫn giống như trên: xác định công thức tính khoảng tin cậy, xác định hai tham số và tính cỡ mẫu từ công thức này.
Cỡ mẫu cho các nghiên cứu phân tích
Do mục đích cơ bản của nghiên cứu phân tích là đề kiểm định (một hoặc nhiều) giả thuyết không, việc xác định cỡ mẫu đòi hỏi việc xác định mức giới hạn của các sai lầm mà người nghiên cứu sẵn sàng để chấp nhận hoặc bác bỏ giả thuyết không (sai lầm loại I và loại II). Giống như trong các nghiên cứu mô tả, cần phải xác định số đo mẫu nào được dùng (tỷ lệ, trung bình mẫu, ước lượng RR hay OR, v.v.) và phân phối chọn mẫu của đo lường (trên cơ sở đó, một quyết định chấp nhận hoặc bác bỏ giả thuyết không được đưa ra). Bằng cách cân bằng hai loại sai lầm dựa vào phân phối chọn mẫu với những giới hạn định trước về những sai lầm này ta có thể tính được cỡ mẫu.
Ví dụ, giả sử ta quyết định chấp nhận sai lầm loại I, hay α (xác suất cho một kết luận sai là hai tỷ lệ không bằng nhau trong dân số, trong khi thực sự là bằng nhau). Việc tính toán sai lầm loại II, hay β (xây dựng đưa ra một kết luận sai là hai tỷ lệ là bằng nhau trong khi thực sự là không bằng) tùy thuộc vào định nghĩa chính xác về “giả thuyết không là không đúng”. Cách đơn giản nhất để thực hiện việc này là định nghĩa một sự khác biệt tối thiểu (δ) giữa hai tỷ lệ mà ta coi là có ý nghĩa (sự khác biệt có ý nghĩa lâm sàng) và tính β theo giả thuyết này. Đương nhiên nếu sự khác biệt là lớn hơn δ, xác suất sai lầm loại II sẽ ít hơn. Các công thức tính cỡ mẫu bắt nguồn từ cách tiếp cận này đã được phát triển cho nhiều loại kiểm định thống kê. [Lưu ý: trong các kiểm định thống kê, việc thảo luận về sai lầm loại II có thể được nói tới dưới thuật ngữ “năng lực thống kê”, chính là 1 − β: cụ thể là có 5% sai lầm loại II là tương tự với một nghiên cứu có 95% “năng lực”.] Các trường hợp phổ biến được tóm tắt sau đây. (Tương tự như trước, các chương trình máy tính là có sẵn cho hầu hết các trường hợp này và việc tính toán được giới thiệu chỉ đơn giản để minh họa.)
-
Kiểm định sự bằng nhau của hai tỷ lệ: π1 = π2
Số đo mẫu được sử dụng là tỷ lệ mẫu, và phân phối chọn mẫu sử dụng trong kiểm định giả thuyết không này có thể là phân phối chuẩn (z), hoặc tương đương lại phân phối chi bình phương (χ2).
-
Đặt sai lầm loại I: α;
-
xác định “sự khác biệt có ý nghĩa lâm sàng tối thiểu”: δ
-
Đưa một dự đoán về tỷ lệ trong một nhóm (thường là nhóm “chứng”): 1;
-
Xác định năng lực cần thiết để phát hiện khác biệt này: (1 − β).
Cỡ mẫu cần thiết là: \(n = \left[\dfrac{z_{1-\alpha}\sqrt{2\bar{\pi}(1-\bar{\pi})} - z_{\beta}\sqrt{\pi_1(1-\pi_1)+\pi_2(1-\pi_2)}}{\delta}\right]^2\) với $ \bar{\pi} = (\pi_1+\pi_2)/2 $
Ví dụ, giả sử ta muốn xác định cỡ mẫu cần thiết trong một thử nghiệm lâm sàng một thuốc mới với mong đợi sẽ cải thiện thời gian sống. Giả sử tỷ suất sống trước giờ là 40%, cụ thể là π1 = 0.4. Ta muốn phát hiện liệu thuốc mới có cải thiện thời gian sống ít nhất 10%, cụ thể là là δ = 0.10, do đó π2 = 0.50. Giả sử ta muốn sai lầm loại I là 5%, cụ thể là α = 0.05, do đó z1 − α = 1.96; ta cũng muốn sai lầm loại II (β) là 5%, hay ta muốn phát hiện một sự khác biệt 10% hoặc hơn với xác suất 95%: do đó zβ = −1.645.
Thay những giá trị này vào công thức trên cho n = 640. Do vậy nghiên cứu sẽ cần 640 đối tượng trong mỗi nhóm để đảm bảo xác suất phát hiện sự gia tăng tỷ suất sống 10% hoặc hơn với chắc chắn 95%, nếu kiểm định thống kê sử dụng mức ý nghĩa thống kê 5%.
-
-
Cỡ mẫu cho nghiên cứu bệnh-chứng
Giả sử việc sử dụng thuốc uống tránh thai (OC) lâu dài gia tăng nguy cơ bệnh mạch vành (CHD) và nhà nghiên cứu muốn phát hiện sự gia tăng nguy cơ tương đối ít nhất 30% (hay tương ứng với O__R > 1.3) thông qua một nghiên cứu bệnh-chứng. Cỡ mẫu phù hợp sẽ là bao nhiêu?
Kiểm định giả thuyết trong nghiên cứu này sẽ tương ứng với kiểm định xem tỷ lệ phụ nữ sử dụng OC là như nhau trong nhóm có CHD và phụ nữ không CHD. Ta cần xác định tỷ lệ phụ nữ không có CHD (chứng) sử dụng OC; ví dụ 20%. Sau đó ta xác định sự khác biệt tối thiểu cần được phát hiện bởi kiểm định thống kê. Do ta cần phát hiện một O__R > 1.3, tương đương với một sự gia tăng sử dụng (24.5%) trong nhóm bệnh nhân CHD, để một sự khác biệt 4.5% có thể phát hiện được. Chọn α, β đều là 5%, cỡ mẫu sử dụng công thức trên sẽ là 2220, cụ thể là ta cần nghiên cứu 2220 ca bệnh và 2220 ca chứng.
Đôi khi tỷ số ca bệnh và chứng có thể không phải là 1:1, v.d. khi bệnh là hiếm, số ca bệnh có thể có cho nghiên cứu sẽ rất giới hạn và ta có thể thể gia tăng số chứng (1:2, 1:3 v.v.) để bù vào. Trong trường hợp này, việc tính toán cỡ mẫu sẽ cần đưa vào sự khác biệt này. Các chương trình máy tính như R cho phép tính toán cho các biến thể này.
-
So sánh trung bình hai dân số
Khi nghiên cứu liên quan đến việc so sánh trung bình hai mẫu, số đo mẫu được sử dụng là sự khác biệt các trung bình mẫu. Số đo này có phân phối xấp xỉ bình thường. Sai số chuẩn của khác biệt tùy thuộc vào độ lệch chuẩn của đo lường trong mỗi dân số và tùy vào việc các độ lệch chuẩn này giống hay khác nhau mà cần sử dụng các công thức khác nhau. Trong trường hợp đơn giản nhất (và được sử dụng nhiều nhất) hai độ lệch chuẩn này sẽ được coi là như nhau. Ta sẽ minh họa quá trình này sau đây.
Tương tự như các ví dụ trên, ta cần xác định như khác biệt tối thiểu (δ) của các trung bình mà ta đang quan tâm cần được phát hiện qua các kiểm định thống kê: hai loại sai lầm thống kê (α, β) và độ lệch chuẩn (σ). Sau đó cỡ cỡ mẫu cần thiết được tính sử dụng công thức sau: \(n = \left[\dfrac{(z_{1-\alpha} - z_{\beta})\sigma}{\delta}\right]^2\) Ví dụ, giả sử ta muốn kiểm tra một thuốc hạ huyết áp. Ta muốn nói rằng thuốc là hiệu quả nếu giảm huyết áp 5mmHg hoặc hơn so với nhóm giả dược. Giả sử ta biết rằng huyết áp tâm thu trong dân số có phân phối bình thường, với độ lệch chuẩn 8mmHg. Nếu ta chọn α = 0.05 và β = 0.05, cỡ mẫu cần thiết trong nghiên cứu này sẽ là: n = [(1.96 + 1.645)8/3]2 = 34 đối tượng trong mỗi nhóm.
Nếu thiết kế nghiên cứu có dạng hai nhóm là không độc lập (v.d. các nghiên cứu hoặc thử nghiệm bắt cặp) hoặc nếu độ lệch chuẩn là khác biệt giữa hai nhóm thì công thức cần được hiệu chỉnh tương ứng.
-
So sánh nhiều hơn hai nhóm và các phương pháp đa biến
Khi xem xét tính toán cỡ mẫu cho các nghiên cứu liên quan đến việc so sánh nhiều hơn hai nhóm, dù là so sánh tỷ lệ hay trung bình, rất nhiều vấn đề khác (v.d. so sánh nào là quan trọng hơn: liệu sai số của so sánh cặp hay của toàn nghiên cứu là quan trọng hơn, v.v.) cần được đưa vào xem xét. Công thức cho mỗi trường hợp tương ứng cũng sẽ được trở nên phức tạp hơn.
Trong các phân tích đa biến, như những phân tích sử dụng hồi quy tuyến tính đa biến, hồi quy logistic hoặc so sánh các đường cong sống, các công thức đơn giản để tính toán cỡ mẫu là không có. Một số tác giả đã đề xuất sử dụng ước lượng cỡ mẫu sử dụng đồ thị toán học hoặc dùng các thử nghiệm mô phỏng trong các tạp chí thống kê, những vấn đề này sẽ không được trình bày trong tài liệu này. Khi lên kế hoạch cho một thử nghiệm, một bước quyết định là xác định cỡ mẫu nghiên cứu là bao nhiêu và điều này cần có những hướng dẫn từ những chuyên gia trong lĩnh vực.