1. Trang chủ >
  2. Giáo Dục - Đào Tạo >
  3. Cao đẳng - Đại học >

Lấy mẫu nhiều bậc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.93 MB, 167 trang )


cho toàn dân số. Cần danh sách các đơn vị bậc một nhưng chỉ cần danh sách các đơn vị bậc hai

của các đơn vị bậc một được chọn. Khuyết điểm là ước lượng chung kém chính xác hơn khi dựa

trên lấy mẫu ngẫu nhiên đớn có cùng một cỡ mẫu. Nói cách khác, để đạt được cùng độ chính xác

như lấy mẫu ngẫu nhiên đơn cần một cỡ mẫu lớn hơn.

Lấy mẫu ở bậc hai gồm lấy các mẫu ngẫu nhiên đơn có cùng kích thước từ các các đơn vị bậc

một. Phương pháp lấy mẫu bậc một phụ thuộc vào chúng có cùng số các đơn vị lấy mẫu bậc hai

hay không. Nếu có, có thể lấy mẫu ngẫu nhiên đơn. Nếu chúng có cỡ mẫu khác nhau, có thể đạt

được lược đồ epsem, bằng cách lấy mẫu xác suất tỉ lệ với kích thước (probability proportional to

size _ PPS). Thí dụ, nếu một trường học có nhiều gấp đôi học sinh so với trường kia thì nó có cơ

hội được chọn gấp đôi. Lấy mẫu PPS được tiến hành bằng cách thay thế (with replacement), có

nghĩa là sau khi một đơn vị bậc một được chọn nó vần còn được rút chọn và có thể được chọn

lần nữa. Khi một đơn vị bậc một được chọn hai lần, chọn mẫu đơn vị bậc hai nhiều gấp đôi. Tác

dụng chung là cho mỗi đơn vị bậc hai trong dân số một cơ hội được chọn bằng nhau.

Các bước tiến hành để lấy mẫu PPS được minh hạo trong ví dụ sau:

Giả sử chúng ta có 10 bệnh viện với số hồ sơ trong mỗi bệnh viện được trình bày trong bảng

sau:

Cụm



Số hồ sơ



Số hồ sơ tích Số ngãu nhiên tương ứng

lũy



1



4288



4288



1-4288



2



5036



9324



4289-9324



3



1178



10502



9325-10502



4



638



11140



10503-11140



5



27010



38150



11141-38150



6



1122



39272



38151-39272



7



2134



41406



39273-41406



8



1824



43230



41407-43230



9



4672



47902



43231-47902



10



2154



50056



47903-50056



Tổng số



50056



50056



Ðể chọn 4 cụm và điều tra 100 hồ sơ trong mỗi cụm (như vậy tổng cỡ mẫu là 400 hồ sơ) có thể

tuân theo các sau:

- Tính số hồ sơ lũy tích

- Gán một cụm cho các số ngẫu nhiên từ số hồ sơ lũy tích của cụm trước đó +1 đến số

hồ sơ lũy tích của cụm đó.

- Rút chọn ngẫu nhiên 4 số từ 1 đến 50056: thí dụ như 36699; 35700; 11883; 4285 và

ứng với mỗi số chọn 100 hồ sơ từ cụm tương ứng với các số này. Trong trường hợp này

chúng ta sẽ điều tra 300 hồ sơ của bệnh viện 5 và 100 hồ sơ từ cụm số 1.

Cũng cần lưu ý chúng ta có thể chọn các số ngẫu nhiên bằng phương pháp lấy mẫu hệ thống như

thường được thực hiện trong chương trình tiêm chủng mở rộng (EPI program).

Có thể có lược đồ lấy mẫu có nhiều bậc hơn, thí dụ như chọn tỉnh, quận, đường phố và cuối

cùng là nhà. Phương pháp lấy mẫu này được gọi là lấy mẫu nhiều bậc (multi-stage sampling).

77



Lấy mẫu ngẫu nhiên đơn



Lấy mẫu hệ thống



Lấy mẫu cụm



Lấy mẫu phân tầng



Thí dụ 2

Lấy mẫu phân tầng được đề nghị trong thí dụ 1 để ước lượng tỉ suất hiện mắc toàn bộ trong một

quốc gia với 3 vùng chính có thể được cải tiến thành cộng đồng thứ nhất (thành phố, làng, ấp) và

các nhà trong vùng, khám tất cả các thành viên trong nhà. Lược đồ sẽ là sự kết hợp giữa lấy mẫu

phần tầng (khu vực) lấy mẫu hai bậc (cộng đồng và nhà) và lấy mẫu cụm (tất cả các thành viên

trong nhà).



78



Cách tính cỡ mẫu

Mục tiêu

Sau khi nghiên cứu bài này, hội thảo viên có khả năng:

(i) Hiểu được hai cách tiếp cận trong cách tính cỡ mẫu, bao gồm khái niệm về năng lực nghiên

cứu

(ii) Biết được những yếu tố nào ảnh hưởng đến việc tính toán cỡ mẫu và ảnh hưởng như thế nào

(iiI) Biết được cách tính cỡ mẫu cho những tình huống khác nhau

(iv) Biết được ảnh hưởng của cỡ mẫu lên những khía cạnh thiết kế khác.

(v) Ðánh giá được những vấn đề khác của cỡ mẫu



Giới thiệu

Cỡ mẫu sẽ có ảnh hưởng lớn đến độ chính xác của ước lượng thống kê. Từ định lí giới hạn trung

tâm chúng ta hi vọng rằng con số trung bình được ước lượng từ một mẫu sẽ tập trung tại trung

bình của dân số đó. Tuy vậy chúng ta cũng biết rằng con số ước lượng sẽ không chính xác bằng

trung bình của dân số đó mà mức độ phân tán phụ thuộc vào cỡ mẫu: Nếu cỡ mẫu nhỏ độ phân

tán lớn, nếu cỡ mấu lớn thì độ phân tán nhỏ và ta hi vọng số trung bình của mẫu sẽ bằng trung

bình của dân số. Người ta có thể trình bày mức độ phân tán theo khoảng tin cậy 95%. Nếu độ

phân tán lớn thì khoảng tin cậy 95% sẽ rộng và chúng ta khó lòng thực sự biết được trung bình

của dân số sẽ nằm ở đâu trong khoảng này. Nói rộng ra, nếu cỡ mẫu nhỏ chúng ta không thể ước

lượng một cách chính xác, chúng ta không thể chứng minh sự khác biệt giữa hai nhóm là không

có ý nghĩa.

Vấn đề xác định cỡ mẫu trong nghiên cứu khoa học là một vấn đề quan trọng. Nếu chúng ta lấy

mẫu quá nhỏ, đến giai đoạn phân tích ta có thể thấy được điều đó qua sự không chính xác của

uớc lượng, sự thất bại trong chứng minh giả thuyết. Tuy vậy khi chúng ta đã đi vào giai đoạn

phân tích số liệu thì lúc đó là quá chậm trễ để có thể thay đổi được cỡ mẫu. Ngược lại nếu

chúng ta lấy một cỡ mẫu quá lớn thì chúng ta rõ ràng lãng phì tiền bạc và thời gian.



Hai cách tiếp cận trong tính cỡ mẫu

Trên cơ bản có hai cách tiếp cận trong tính cỡ mẫu:

(a) dựa tên sự ước lượng của một tỉ lệ, một trung bình, hiệu số, nguy cơ tương đối với

một mức độ chính xác nhất định. Thí dụ, để ước lượng tỉ leẹ trẻ em trong lứa từ 12-23

tháng tuổi được tiêm chủng đầy đủ (với độ chính xác) trong vòng 10%. Câu hỏi chìa

khóa của cách tiếp cận này là khoảng tin cậy sẽ là bao nhiêu?

(b) Dựa trên kiểm định giả thuyết. Thí dụ,so sánh thời gian bú sữa mẹ hoàn toàn ở 2

nhóm có giáo dục sức khỏe và nhóm chứng.Câu hỏi chìa khóa trong cách tiếp cận này là

xác suất kết luận sai lầm trong kiểm định giả thuyết là bao nhiêu?



Ước lượng một hậu quả với một độ chính xác nhất định

Ðộ chính xác của một ước lượng (với khoảng tin cậy 95%) = d có nghĩa là sai số tối đa của ước

lượng là d (với độ tin cậy 95% hay xác suất điều trên không bị sai là 95%)

Công thức tính cỡ mẫu để ước lượng khoảng tin cậy (1-α) của một tỉ lệ p với sai số d là như

sau:

z12−α / 2 p (1 − p )

d2

Một thắc mắc hay nẩy sinh trong khi nghiên cứu công thức này là trong khi chúng ta muốn

n=



79



nghiên cứu ước lượng p nhưng trong khi tính toán để tính cỡ mẫu chúng ta phải có giá trị của tỉ

lệ p! Toàn bộ logic của vấn đề là ở chỗ chúng ta có thể ước lượng p trước lúc nghiên cứu một

cách không chính xác, sau nghiên cứu chúng ta có thể ước lượng p một cách chính xác hơn

nhiều. Ta có thể ước lượng p sử dụng phán đoán của chúng ta, sử dụng những nghiên cứu trước

đó, có thể tiến hành nghiên cứu dẫn đường. Trong trường hợp chúng ta không thể ước đoán p, ta

có thể ước đoán p =0,5, một ước đoán an toàn nhất và sẽ cho một cỡ mẫu an toàn nhất (lớn

nhất).

Không có quy tắc cứng nhắc độ chính xác d, điều này phụ thuộc vào mục đích của nghiên cứu

và vào tài nguyên hiện có.

Lưu ý:

- Công thức được trình bày là dành cho phép lấy mẫu ngẫu nhiên đơn. Nếu nghiên cứu sử dụng

phương pháp lấy mẫu cụm cần phải hiệu chỉnh tác động làm giảm độ chính xác của việc chọn

cụm bằng cách tăng cỡ mẫu. Cỡ mẫu trong nghiên cứu lấy mẫu cụm thường được nhân lên với

một hệ số (được gọi là hệ số thiết kế) có giá trị từ 2 đến 4. Hệ số thiết kế có thể tính được từ việc

nghiên cứu thử. Nếu không có điều kiện tính hệ số thiết kế có thể chọn hệ số thiết kế là 3.

- Công thức tính cỡ mẫu trên là dành lấy mẫu từ một dân số vô hạn hay khá lớn. Nếu cỡ mẫu

vào khoảng từ 10% dân số trở lên, ta có thể điều chỉnh để có cỡ mẫu nhỏ hơn.

N×P

N hc =

N+P

Với N là cỡ mẫu chưa hiệu chỉnh, P là kích thước của dân số đích và N hc là cỡ mẫu sau

khi đã hiệu chỉnh.

- Chúng ta cũng nên phải trù liệu cho những số liệu bị mất, những trường hợp từ chối nghiên

cứư bằng cách tăng cỡ mẫu.



Kiểm định một giả thuyết, so sánh 2 nhóm

Giả sử chúng ta muốn so sánh hai tỉ lệ (thí dụ tỉ lệ trẻ em được bú sữa non trong hai nhóm bà

mẹ: một nhóm được giáo dục sức khỏe và một nhóm không). Chúng ta có thể kiểm định xem hai

tỉ lệnày có khác nhau đáng kể hay không, nói cách khác kiểm định xem hiệu số của hai tỉ lệ này

có khác một cách có ý nghĩa với zero khay không. Sau khi tiến hành phân tích chúng ta có thể

bác bỏ hay không bác bỏ giả thuyết này. Về phương diện thống kê, dù khi chúng ta bác bỏ hay

không bác bỏ, chúng ta đều có khả năng bị sai lầm: sai lầm mà chúng ta mắc phải khi bác bỏ giả

thuyết được gọi là sai lầm loại I, sai lầm chúng ta mắc phải khi không bác bỏ được gọi là sai

lầm loại II.

Khi kiểm định H0: Không có sự khác biệt (p1=p2; OR=1 ; RR=1 ; β=0)

Chân lí là Ho đúng

(Không có sự khác biệt)

Bác bỏ giả thuyết H0



Sai

lầm

loại

(Xác suất = α)



Không bác bỏ giả thuyết H0



Kết

luận

(Xác suất = 1-α)



Chân lí là Ha đúng

(Không có sự khác biệt)

1 Kết

luận

đúng

(Xác suất = 1-β =

Power của nghiên cứu)



đúng Sai

lầm

(Xác suất = β)



loại



II



Lí tưởng, chúng ta muốn giảm thiểu cả hai loại sai lầm trong nghiên cứu. Lưu ý rằng chúng ta đã

định nghĩa cái gọi là năng lực (power) của nghiên cứu=1-sai lầm loại II. Năng lực là xác suất

đạt được kết quả có ý nghĩa thống kê nếu thực sự có sự khác biệt giữa p 1 và p2. Mục tiêu của

chúng ta khi chọn cỡ mẫu là nếu có sự khác biệt về lâm sàng quan trọng giữa hai nhóm, chúng ta

có cơ hội tốt để tìm thấy sự khác biệt có ý nghĩa thống kê trong 2 nhóm. Ðiều này là một ý niệm

hết sức quan trọng trong thiết kế nghiên cứu và lí giải. Nếu trong giai đoạn phân tích nếu kết quả

80



là có ý nghĩa thống kê, thì hầu hết mọi người đều thỏa mãn. Mặt khác nếu kết quả không có ý

nghĩa thông kê thì điều này có thể xảy ra do (a) không có sự khác biệt thực sự giữa hai nhóm và

(b) có sự khác biệt nhưng mẫu của chúng ta không cho thấy sự khác biệt bởi vì năng lực của

mẫu thấp (cỡ mẫu nhỏ) do đó chúng ta không có kết luận rõ ràng. Do đó, nếu chúng ta chọn

mẫu để có năng lực cao và kết quả không có ý nghĩa thống kê thì chúng ta có thể chắc hơn về sự

khác biệt.

Ðể chọn cỡ mẫu (trong trường hợp cỡ mẫu của 2 nhóm so sánh bằng nhau), chúng ta phải có 4

tham số

- Sai lầm loại I hay còn gọi là mức ý nghĩa mà chúng ta muốn có trong nghiên cứu (thường là

5%)

- Sai lầm loại II chúng ta muốn có trong nghiên cứu (Sai lầm loại hai khoảng 10-20% tương ứng

với năng lực từ 80-90%)

- Tỉ lệ trong một nhóm cơ bản (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm chứng của

một nghiên cứu bệnh chứng)

- Tỉ lệ trong một nhóm khác (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm bệnh của một

nghiên cứu bệnh chứng). Đôi khi chúng ta không trình bày tỉ lệ của nhóm này một cách cụ thể

mà trình bày nguy cơ tương đối hay tỉ số số chênh mà chúng ta mong muốn phát hiện trong một

nghiên cứu đoàn hệ hay nghiên cứu bệnh chứng.

Công thức tính cỡ mẫu (cho mỗi nhóm) để so sánh hai tỉ lệ π1 và π2 của hai nhóm:

n=



{z1− β π 1 (1 − π 1 ) + π 2 (1 − π 2 ) + z1−α / 2 2π (1 − π )}2

(π 1 − π 2 ) 2



Các điểm cần lưu ý trong tính cỡ mẫu

- Như đã nói ở trên, cách tính cỡ mẫu chỉ cho chúng ta một ước lượng thô của cõ mẫu cần thiết

bởi vì nó dựa trên sự ước đoán về giá trị của thông số, quyết định chủ quan của chúng ta về hậu

quả mà chúng ta muốn phát hiện và công thức được sử dụng là công thức gần đúng. Do đó con

số tính ra giúp chúng ta phân biệt giữa cỡ mẫu 50 và 100 chứ không phân biệt cỡ mẫu 50 và 53.

- Chúng ta phải cân đối giữa điều chúng ta mong muốn và tính khả thi. Ðôi khi có thể dùng

công thức tính cỡ mẫu để đi ngược lại năng lực của nghiên cứu. Thí dụ nếu chúng ta có một kinh

phí hạn chế để thực hiện một nghiên cứu nên chỉ có một cỡ mẫu nhất định. Chúng ta có thể tính

ngược lại từ cỡ mẫu để biết năng lực của nghiên cứu. Nếu hóa ra năng lực của nghiên cứu rất

thấp (thí dụ như 20%) tốt nhất chung ta không nên tiến hành nghiên cứu vì chúng ta đã nắm

chắc kết quả thất bại.

- Nếu một nghiên cứu có nhiều mục tiêu thì cỡ mẫu đủ cho một mục tiêu này có thể không đủ

cho mục tiêu khác. Ðể tính cỡ mẫu, tốt nhất phải chú trọng vào biến số (hoặc những biến số

quan trọng nhất).

- Tính cỡ mẫu không khó, cái khó là phải cung cấp những giả định của nghiên cứu: sai lầm loại

một, năng lực, sự khác biệt mà chúng ta muốn phát hiện.



Tính cỡ mẫu bằng phần mềm Epi Info:

Ðầu tiên ta vào phần mềm Epitable bằng 1 trong 2 cách (giả sử thư mục chứa Epi Info trong là

c:\epi6)

- Vào trực tiếp:

c:\>c:\epi6\epitable



- Thông qua trình đơn chính của epi6

c:\>c:\epi6\epi6



Khi đã vào trình đơn chính của Epi6 chọn program Epitable trong trình đơn Programs bằng cách

81



dùng chuột hoặc nhấn Alt-P rồi kéo con trỏ xuống EPITABLE Calculator rồi nhấn

_ Describe Compare Study Sample Probability Setup

_____________________________ +----------------------+ _________________________

_____________________________ ¦ Sample size

> ¦ _________________________

_____________________________ ¦ Power calculation > ¦ _________________________

_____________________________ ¦ Random number table ¦ _________________________

_____________________________ ¦ Random number list

¦ _________________________

_________+------------------- +----------------------+ -------------+___________

_________¦

¦___________

_________¦

_____¦





__¦

__¦

¦___________

_________¦









¦___________

_________¦



_¦___¦ __¦ ____¦ ___¦





___¦

¦___________

_________¦

___¦

_¦ _¦ _¦





____¦

_¦ _¦ _¦ ¦___________

_________¦



_¦ _¦ _¦



____¦

_¦ _¦ _¦ _____¦ ¦___________

_________¦



____¦



_¦_¦ _¦ _¦

_¦ _¦ _¦ _¦

¦___________

_________¦

_____¦ _¦

___¦



___¦_¦ _¦___¦ ___¦ ___¦

¦___________

_________¦

___¦

¦___________

_________¦

¦___________

_________+----------------------------------------------------------+___________

________________________________________________________________________________

________________________________________________________________________________

____________________________________________________________________¦¦__________

___________________________________________________________________¦¦¦¦_________

__________________________________________________________________¦¦¦¦¦¦________

_________________________________________________________________¦¦¦¦¦¦¦¦_______

F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit

Mem:228552



Sau đó chọn Samle size bằng cách dùng chuột hay nhấn Alt-S rồi di chuyển con trỏ vào sample

size rổi nhấn .

Chương trình Epi Info cho phép tính cỡ mẫu trong 4 trường hợp: Ước lượng một tỉ lệ (single

proportion); So sánh 2 tỉ lệ trong hai nhóm (Two proportions); Nghiên cứu đoàn hệ (cohort

study) và nghiên cứu bệnh chứng (Case-control study). Chọn loại thích hợp bằng cách di chuyển

trỏ rồi nhấn . Khi đó màn hình sẽ hiện lên một cửa số có nhiều trường. Trong cửa số này

chúng ta có thể di chuyển con trỏ giữa các trường bằng cách nhấn phím hoặc phím

. Nhập các giả định cần thiết vào các trường thích hợp. Di chuyển con trỏ đến ô

Calculate, nhấn để xem kết quả tính toán.

Lưu ý: Trong cách tính cỡ mẫu ước lượng một tỉ lệ, chúng ta thấy có một tham số Design effect.

Tham số dùng để điều chỉnh nếu chúng ta lấy mẫu theo cụm. Do đó nếu ta lấy mẫu ngẫu nhiên

đơn thì Design effect=1. Nếu chúng ta lấy mẫu theo cụm thì tham số này sẽ lớn hơn 1 và độ lớn

cụ thể thì phụ thuộc vào mức độ không đồng nhất giữa các cụm.

Nếu chúng ta lấy mẫu theo cụm thì chọn Design effect là bao nhiêu? Thông thường chúng ta có

thể tham khảo các nghiên cứu trước hoặc làm nghiên cứu pilot để xác định mức độ không đồng

nhất. Nếu chúng ta có kinh nghiệm chúng ta có thể dùng trực giác để phán đoán design effect.

Nếu chúng ta không có kinh nghiệm, không tìm được tài liệu tham khảo và không thể tiến hành

nghiên cứu pilot, chúng ta chọn Design effect = 2 để có cỡ mẫu đảm bảo an toàn (Design effect

hiếm khi nào lớn hơn 2).



82



Thí dụ

Thí dụ 1: Cho một nghiên cứu bệnh chứng, sử dụng những giả định sau để tính cỡ mẫu

cho từng trường hợp

Năng lực của nghiên cứu = 90%; mức ý nghĩa = 5%; 1 bệnh cho một chứng

% chứng tiếp xúc với yếu tố nguy cơ

OR



5%



1.5



2346



2



20%



50%



70%



90%



244



5



46



10



50



1. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu bệnh chứng

và khi nào không.

2. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%, mức ý nghĩa =5%

OR= 2 và tỉ lệ tiếp xúc với yếu tố nguy cơ là 30%. Hãy tính cỡ mẫu khi có 1 chứng: 1 bệnh; 2

chứng: 1 bệnh; 3 chứng: 1 bệnh.

Thí dụ 2: Cho một nghiên cứu đoàn hệ, sử dụng những giả định sau để tính cỡ mẫu cho

từng trường hợp

Năng lực của nghiên cứu = 90%; mức ý nghĩa = 5%; nhóm có tiếp xúc= nhóm không tiếp xúc

tỉ suất mắc bệnh trong nhóm không tiếp xúc với yếu tố nguy cơ

RR



0,1%



1.5



108,904



2



1%



5%



15%



30%



3300



3



207



5



15



1. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu đoàn hệ và

khi nào không.

2. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%, mức ý nghĩa =5%

OR= 2 và tỉ suất mắc bệnh là 5%. Hãy tính cỡ mẫu khi có nhóm không tiếp xúc = nhóm tiếp

xúc; nhóm không tiếp xúc = 2 nhóm tiếp xúc; nhóm không tiếp xúc = 3 nhóm tiếp xúc

Thí dụ 3: Phòng y tế huyện A. muốn kiểm tra báo cáo về tỉ lệ tiêm chủng của một xã là

80% bằng cách tiến hành một cuộc điều tra (với sai số tuyệt đối dưới 5%, độ tin cậy = 95%).

Nếu phòng y tế quyết định chọn mẫu bằng phương pháp chọn mẫu ngẫu nhiên thì cỡ mẫu cần

thiết là bao nhiêu? Nếu chọn theo cụm thì cỡ mẫu cần thiết là bao nhiêu?



83



Chiến lược phân tích số liệu

1. Giới thiệu

Chúng ta đã biết qua những kĩ thuật thống kê chuyên biệt cho các tình huống dịch tễ nhất đinh.

Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu của rất nhiều các biến số, rất

khó quyết định thao tác nào được áp dụng và áp dụng theo trình tự như thế nào. Trong phần này,

chúng ta sẽ trình bày một số nguyên tắc chiến lược để phân tích số liệu từ nghiên cứu dịch tễ.



2. Biên tập số liệu

Kiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân tích thống kê.

Bước đầu tiên là xem sự phân phối của từng biến số để phát hiện các sai lầm có thể. Đối với

biến số phân loại, điều này thực hiện bằng bảng phân phối tần suất để xem rằng các bản ghi đều

ở trong các nhóm đã được xác định và tần suất của mỗi nhóm là hợp lí. Đối với biến số định

lượng, kiểm tra phạm vi cần được tiến hành để phát hiện những giá trị nằm ngoài phạm vi mong

đợi. Tổ chức đồ cũng có thể dùng để tìm kiếm các giá trị bất thường (outliers) không phù hợp

với phần số liệu còn lại.

Bước tiếp theo là tiến hành kiểm tra tính hàng định, để tìm kiếm những trường hợp mà 2 hay

nhiều biến số là không hằng định. Thí dụ, nếu có 2 biến số giới tính và số lần mang thai trong bộ

số liệu, chúng ta có thể sử dụng bảng chéo để chắc rằng không có người nam giới nào có số lần

mang thai là một hay nhiều hơn. Phân tán đồ cũng có thể được sử dụng để kiểm tra tính hằng

định của số liệu số; thí dụ chúng ta có thể vẽ phân tán đồ của trọng lượng theo tuổi, trọng lượng

theo chiều cao, dung tích sống theo chiều cao. Những giá trị bất thường cũng có thể được phát

hiện bằng cách này.

Những sai sót có thể được kiểm tra so với tài liệu gốc. Trong một số trường hợp cần phải điều

chỉnh lại số liệu. Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value) nếu

chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi sinh là 45 kg và đã tăng

cân 35kg trong thời gian có thai). Trong trường hợp còn chưa rõ, khi số liệu là bất thường nhưng

không bị xem là không thể xảy ra, tốt nhất là để số liệu giữ nguyên. Một cách chặt chẽ, việc

phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá mức vì giá

trị cực đoan này. Trên thực tiễn, giá trị bằng số thường được chia thành các nhóm trước khi

phân tích và do đó một hay hai giá trị bất thường khó có thể có ảnh hưởng đáng kể đến kết quả.

Việc kiểm tra cần phải được tiến hành riêng biệt cho nhóm mắc bệnh và nhóm không mắc bệnh

bởi vì phân phối của 2 nhóm này có thể hoàn toàn khác nhau.



3. Mô tả số liệu

Sau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát lại. Điều này

được thực hiện cho 2 mục đích. Thứ nhất, để đảm bảo rằng tất cả các số liệu đều đã được sắp

xếp phù hợp và thứ hai để có một cảm giác về số liệu. Cảm giác vế số liệu là sự hiểu biét về đặc

tính của dân số đối với biến số phơi nhiễm và các giá trị khác cần đo lường. Khi thực hiện

nghiên cứu bệnh chứng, chúng ta cần phải xem xét số liệu một cách riêng biệt.



4. Phân loại biến số

Nói chung sẽ rất hữu ích nếu chúng ta phân biệt các loại biến số "kết cuộc", "phơi nhiễm", "gây

nhiễu" và "thay đổi tác động". Biến số kết cuộc và biến số phơi nhiễm là các biến số trung tâm

của nghiên cứu trong đó biến số kết cuộc mô tả vấn đề nghiên cứu và biến số phơi nhiễm là biến

số mà chúng ta muốn xem xét và ước lượng tác động của nó lên biến số kết cuộc.

Biến số gây nhiễu là biến số làm biến dạng quan hệ giữa biến số phơi nhiễm và két cuộc. Chúng

ta thu thập số liệu của các biến số gây nhiễu để loại bỏ tác động của yếu tố gây nhiễu trong khi

phân tích. Biến số thay đổi tác động là biến số thay đổi tác động của biến số phơi nhiễm lên

84



nguy cơ. Chúng ta thu thập số liệu của các biến số thay đổi tác động để xem xét tác động của

biến số phơi nhiễm lên nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác

động.

Trên thực tiễn, mối liên hệ giữa các biến số có thể phức tạp hơn. Thí dụ một biến số có thể gây

nhiễu tác động của một yếu tố phơi nhiễm cần quan tâm nhung bản thân nó có thể là biến số

phơi nhiễm quan tâm. Một biến số khác có thể gây nhiễu cho một biến sô phơi nhiễm này nhưng

làm thay đổi tác động cho một biến số phơi nhiễm khác.

Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò, số liệu của biến số này có thể trở thành

biến số phơi nhiễm quan trọng hoặc nếu nó không trở thành biến số phơi nhiễm quan trọng, nó

có thể được xem là biến số gây nhiễu hay thay đổi tác động.



5. Rút gọn số liệu

Trước khi bắt đầu phân tích chính thức, có thể vần phân nhóm giá trị của các biến số. Bởi vì

phương pháp "cổ điển" dựa trên việc phân tầng là cần thiết cho giai đoạn đầu của nghiên cứu,

việc phân nhóm là quan trọng cho các biến số liên tục. Việc phân nhóm cũng cần thiết cho biến

số phân loại hay biến số rời rạc nếu các biến số này có chứa một số lớn các nhóm (thí dụ như

nghề nghiệp, số lần mang thai). Số nhóm được phân chia phụ thuộc vào từng loại biến số: đối

với biến số phơi nhiễm cần phân chia thành nhiều nhóm hơn đối với biến số gây nhiễu hay biến

số thay đổi tác động.

Đối với biến số phơi nhiễm, khi chúng ta muốn xem xét sự phụ thuộc của nguy cơ vào mức độ

phơi nhiễm (quan hệ liều lượng – đáp ứng), chúng ta sẽ mắc sai lầm nếu chúng ta sử dụng quá ít

nhóm. Nguyên tắc chung là nhóm không phơi nhiễm nên đặt riêng (thí dụ nhóm không hút

thuốc) và nhóm phơi nhiễm nên chia thành nhiều nhóm (thường là 4 hay 5 nhóm là đủ để có thể

xem xét mối quan hệ liều lượng đáp ứng). Đối với biến số liên tục như tăng huyết áp, có thể chia

các giá trị của biến số làm 5 nhóm có tần suất bằng nhau (được gọi là quintiles – ngũ vị). Điều

này giúp cho độ chính xác của ước lượng tác động lên mỗi nhóm nhưng đôi khi có thể sai lầm

do nếu có một ít đối tượng có mức phơi nhiễm rất cao bị ghép chung với các đối tượng có độ

phơi nhiễm vừa phải. Một cách khác là chọn các điểm cắt dựa trên nền tảng của các nghiên cứu

trước đó, mục đích là xác định các nhóm mà nguy cơ tương đối ít thay đổi trong từng nhóm.

Đối với biến sô gây nhiễu, hai hay ba nhóm là đủ đối với phần lớn các yếu tố gây nhiễu. Dù vậy

nếu biến số gây nhiễu mạnh (thí dụ như tuổi) thì có thể phân thành nhiều nhóm hơn. Trước khi

quyết định số nhóm cần dùng trong phân tích, chúng ta có thể đánh giá sức mạnh quan hệ giữa

biến số gây nhiễu và biến số kết cuộc. Nếu sự quan hệ này là yếu thì chúng ta có thể kết hợp

nhiều nhóm lại với nhau.



6. Đo lường tác động

Có các lựa chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Các lựa chọn bao

gồm:

Thiết kế nghiên cứu



Đo lường tần suất bệnh



Đo lường tác động



Đoàn hệ (người thời gian)



Tỉ suất



Tỉ số tỉ suất

Hiệu số tỉ suất



Đoàn hệ (không có số liệu Nguy cơ

người thời gian)



Tỉ số nguy cơ

Hiệu số nguy cơ

Tỉ số số chênh



Số chênh

Hiện mắc



Tỉ lệ hiện mắc



Tỉ số nguy cơ (hiện mắc)

Hiệu số nguy cơ

Tỉ số số chênh



Số chênh

85



Xem Thêm
Tải bản đầy đủ (.doc) (167 trang)

×