Những bài cùng tác giả

Con
số thống kê có thể kết tội và bỏ tù
một người, bất kể người đó thuộc
thành phần xã hội nào. Trong những
phiên tòa mà chứng cứ bằng hiện vật
không đầy đủ, các công tố viên có
khi sử dụng con số xác suất để như
là một chứng cứ để tác động đến bồi
thẩm đoàn rằng khả năng bị báo vô
tội là rất thấp. Một khi công tố
viên “chứng minh” khả năng vô tội
quá thấp, thì việc kết tội bị cáo
quá dễ dàng. Nhưng trong thực tế,
rất ít công tố viên và bồi thẩm đoàn
am hiểu xác suất, hoặc hiểu nhưng
diễn giải sai. Ngay cả các chuyên
gia làm chứng (expert witness) cũng
có khi tính toán sai. Vì những sai
lầm sơ đẳng về cách hiểu và tính
toán, nhiều người vô tội đã bị kết
án, và đôi khi hệ quả rất bi thảm
cho người bị kết án sai.
Trường hợp Sally Clark
Một trong những kết cục bi thảm
do hiểu sai thống kê và kết án sai
là trường hợp của bà Sally Clark. Bà
là một luật sư, xuất thân từ một gia
đình trung lưu ở Anh. Bà hạ sinh
hai người con trai, nhưng cả hai đều
chết một cách đột ngột sau khi
sinh. Đứa con đầu lòng chết lúc 11
tuần tuổi (1996). Đứa con thứ hai
chết lúc 8 tuần sau khi sinh
(1997). Cả hai đều không rõ nguyên
nhân. Trong y văn, những trường hợp
này được gọi là “hội chứng đột tử”
(SIDS – sudden infant death
syndrome). Ngay sau khi người con
trai thứ hai chết, bà Clark bị cảnh
sát bắt, hầu tòa, và bị kết tội giết
con, bởi vì theo một chuyên gia y
khoa, xác suất mà hai người con chết
một cách ngẫu nhiên trong một gia
đình trung lưu như thế là chỉ 1 trên
73 triệu. Nói cách khác, theo
chuyên gia này, xác suất hai trẻ
chết trong gia đình không do yếu tố
ngẫu nhiên là rất cao (hàm ý cố sát)
và do đó ông đã thuyết phục bồi thẩm
đoàn kết án bà Clark.
Con số xác suất (1/73 triệu) nổi
tiếng đó là “tác phẩm” của ông Roy
Meadow, người làm nhân chứng chuyên
gia trong phiên tòa kết tội Sally
Clark. Ông Roy Meadow là một giáo
sư nhi khoa, một chuyên gia có nhiều
công trình nghiên cứu về hội chứng
đột tử, và cũng chính là cha đẻ của
hội chứng “Munchausen syndrome by
proxy” (có nghĩa là hội chứng tâm lí
mà cha mẹ có ý gây tổn thương cho
con cái để được chú ý). Ông còn là
một người đấu tranh chống lạm dụng
trẻ em, và là tác giả của cuốn sách
“The ABC of Child Abuse”. Do đó,
“bằng chứng” của ông mang tính
thuyết phục khá cao đối với bồi thẩm
đoàn.

Bà Sally Clark
Cho đến nay, nguyên nhân của đột
tử vẫn chưa rõ ràng, nhưng yếu tố
môi trường và di truyền được xem là
quan trọng. Giới y tế biết được 3
yếu tố nguy cơ có thể làm tăng nguy
cơ đột tử: (i) mẹ dưới 27 tuổi; (ii)
có người hút thuốc lá trong nhà; và
(iii) gia đình thuộc diện nghèo
khó. Nếu gia đình không có bất cứ
yếu tố nguy cơ nào thì xác suất đột
tử là 1 trên 8543; gia đình có một
yếu tố nguy cơ thì xác suất tăng lên
1/1616; 2 yếu tố nguy cơ: 1/596; và
3 yếu tố nguy cơ thì xác suất đột tử
là 1/214.
Gia đình của Sally Clark không có
yếu tố nguy cơ nào. Do đó, Giáo sư
Meadow lí giải rằng xác suất đột tử
trong một gia đình trung lưu như
Clark là khoảng 1 trên 8543. Ông lí
giải tiếp rằng nếu 2 trẻ cùng chết
trong một gia đình thì xác suất là
1/8543 x 1/8543 và kết quả là khoảng
1 trên 73 triệu. Nói cách khác, ông
cho rằng xác suất mà Sally Clark có
tội là 1 trừ cho 1/73.000.000 =
0.99999999999 (tức bằng 1 hay
100%). Khi tòa án hỏi gợi ý tư vấn
một chuyên gia về thống kê, thì cả
công tố viên và Giáo sư Meadow đều
nói rằng đây không phải là “rocket
science” (ý nói vấn đề đơn giản) nên
không cần đến chuyên gia thống kê.
Họ tự tin rằng họ thành thạo về
thống kê và xác suất. Toà án kết án
bà Sally Clark phạm tội giết người,
và phạt tù chung thân.
Khi sự việc được báo chí tường
thuật, các nhà thống kê học bắt đầu
chú ý, và họ chỉ ra hai sai lầm cực
kì sơ đẳng nhưng rất tai hại trong
lí giải của Gs Meadow. Sai lầm thứ
nhất liên quan đến giả định đằng sau
cách tính, và sai lầm thứ hai là sự
nhầm lẫn về ý nghĩa của xác suất.
Sai lầm thứ nhất là ông giả định
rằng xác suất 2 trẻ em chết trong
một gia đình độc lập với nhau (nên
nhân 2 xác suất với nhau). Giả định
này sai, vì đột tử có thể có nguyên
nhân từ môi trường và di truyền, mà
hai em là anh em, tức có thể có cùng
gen và cùng mẹ (cùng môi trường) nên
2 hiện tượng không thể độc lập.
Thật ra, nếu 1 trẻ bị đột tử thì xác
suất trẻ thứ 2 chết bị đột tử rất
cao. Theo phân tích của Giáo sư Ray
Hill (một chuyên gia về thống kê),
nếu gia đình đã có một bé đột tử,
thì xác suất đột tử của bé thứ hai
tăng 10 đến 22 lần. Nói tóm lại,
cách tính của Giáo sư Meadow (nhân 2
xác suất) là hoàn toàn sai lầm.
Sai lầm thứ hai là giáo sư Meadow
lẫn lộn giữa xác suất bà Sally Clark
giết con với xác suất trùng hợp về
đột tử. Xác suất mà Gs Meadow tính
toán là xác suất trùng hợp, tức là
xác suất mà hai ca đột
tử xảy ra một cách ngẫu nhiên. Nhưng câu
trả lời mà người ta cần biết là với
dữ liệu nghiên cứu có được, xác suất
mà bà Clark sát hại con là bao
nhiêu. Tiến sĩ Helen Joyce thì áp
dụng Định lí Bayes với kết quả cho
thấy xác suất đứa trẻ thứ 2 tử vong
vì “nguyên nhân tự nhiên” (không
phải cố sát) là 62.5%.
Ngày 29/1/2003, sau khi luật sư
bà Sally Clark kháng án, với nhân
chứng mới từ một giáo sư thống kê
học, tòa án tuyên bố Sally Clark vô
tội. Tòa án cũng khiển trách Gs
Meadow vì đưa bằng chứng sai. Hội
đồng y khoa Anh kỉ luật giáo sư
Meadow, tước chức danh, và cấm hành
nghề thầy thuốc. Tuy nhiên, sau
này, ông kháng án, và được cho hành
nghề thầy thuốc, nhưng uy tín thì bị
tổn hại nghiêm trọng. Phần bà Sally
Clark, sau khi trả tự do vài năm, bà
qua đời vào tháng 3 năm 2007, thọ 42
tuổi.
Trường hợp Lucia de Berk
Một trường hợp diễn giải sai lầm
ý nghĩa của xác suất cũng dẫn đến án
tù cho một y tá ở Hà Lan. Tháng
3/2003, Lucia de Berk bị cảnh sát Hà
Lan truy tố ra tòa vì tội giết người
và tội cố sát. Thoạt đầu, chứng cứ
trình bày trước tòa có vẻ thuyết
phục. Cảnh sát điều tra cho biết có
7 bệnh nhân trong bệnh viện Juliana
đột ngột tử vong trong thời gian bà
de Berk làm việc (1999-2001), và
những trường hợp tử vong này xảy ra
hoặc là gần, hoặc là ngay tại khu
điều trị de Berk phục vụ. Ngoài ra,
de Berk tại hiện trường trong hầu
hết những trường hợp tử vong xảy
ra. Tuy nhiên, ngoài bối cảnh câu
chuyện, không có thêm chứng cứ bằng
hiện vật nào chứng minh de Berk có
liên can đến các trường hợp tử
vong. Ngay cả khi bốc mộ để phân
tích DNA, người ta cũng không thấy
dấu vết nào liên quan đến de Berk.
Tuy nhiên, dựa vào tính toán của
luật sư và nhà thống kê tài tử, tòa
tuyên kết án de Berk tôi giết người
và cố sát, với án phạt tù chung
thân.
Henk Elffers là một giáo sư luật
và cũng là một nhà thống kê học tài
tử. Ông tính toán rằng xác suất mà
de Berk hiện diện một cách ngẫu
nhiên trong các trường hợp tử vong
như thế là 1 trên 342 triệu. Kết
quả này thật ra là một tích số của
hai trị số P mà ông tính từ
một phương pháp kiểm định thống kê
Fisher (còn gọi là Fisher’s test,
lấy tên của Ronald Fisher, một “cha
đẻ” của thống kê học hiện đại và một
chuyên gia di truyền học nổi tiếng
người Anh). Dựa vào “chứng cứ” này,
tòa án Hà Lan kết tội de Berk là
giết người và cố sát, và phạt tù
chung thân. De Berk bị dư luận công
chúng và báo chí cho là một người
giết người hàng loạt (serial
killer). Riêng de Berk trước sau vẫn
duy trì rằng bà bị oan.
Nhưng nhà toán học Richard Gill
cho rằng tòa án đã phạm phải sai lầm
nghiêm trọng. Con số 1/342 triệu là
hoàn toàn sai, và chẳng liên quan gì
đến trường hợp của de Berk. Vì dữ
liệu tính toán Elffers thu thập là
từ khu điều trị của bệnh viện mà de
Berk phục vụ, chứ không thu thập
thêm dữ liệu ở các bệnh viện khác để
so sánh. Thêm vào đó, cách tính của
Giáo sư Elffers là chẳng những cực
kì vô lí, mà còn … hài hước; không
một ai học thống kê mà nhân hai trị
số P và đi đến một kết
luận. Cách tính của Elffers cho
thấy ông ta chẳng biết gì về thống
kê và xác suất. Qua phân tích lại
dữ liệu, Giáo sư Gill ước tính rằng
“xác suất tình cờ” (trong trường hợp
của de Berk xuất hiện tại hiện
trường) là 1/48, thậm chí 1/5, chứ
nhất định không thể nào 1 trên 342
triệu.

Lucia
de Berk
Một sự kiện quan trọng khác mà
tòa án không xem xét đến là trước
khi de Berk về làm việc tại bệnh
viện Juliana, đã có 7 trường hợp đột
ngột tử vong cũng ngay hoặc gần khu
điều trị mà der Berk làm việc.
Trong thời gian de Berk làm việc
(1999-2001) có thêm 7 ca tử vong.
Sau khi bị các chuyên gia chỉ ra
những sai lầm trong cách tính, một
ủy ban đặc nhiệm đã được tòa án
thành lập để thẩm định lại bản án.
Các chuyên gia gồm các bác sĩ và các
nhà thống kê học cũng vận động để
kháng án cho de Berk. Đến năm 2008,
bà được tạm trả tự do trong khi điều
tra tiếp.
Ngay 14/4/2010 vừa qua, một phiên
tòa phúc thẩm đã xem xét lại bằng
chứng và lí giải của các chuyên gia,
tòa án bác bỏ bản án cũ, và tuyên bố
bà
de Berk vô tội. Công tố viện Hà
Lan phải xin lỗi de Berk. Các luật
sư của bà đang "bận rộn" đòi bồi
thường cho thân chủ họ.
Học xác suất !
(**)
Hai lĩnh vực luật và thống kê có
một số điểm tương đồng, nhưng cũng
có điểm khác nhau quan trọng. Cả
hai chuyên môn đều liên quan đến
việc thu thập dữ liệu hay bằng
chứng, xác định ý nghĩa của dữ liệu,
và đi đến kết luận dựa vào dữ liệu
và logic. Tuy cả hai nhà thống kê
học và luật sư đều có nhiệm vụ cung
cấp tư vấn cho khách hàng, nhưng nhà
thống kê học trình bày thông tin một
cách khách quan không thiên vị ai
(theo nguyên tắc khoa học), còn luật
sư còn có vai trò biện minh cho
khách hàng của mình và do đó họ
trình bày thông tin thiếu tính khách
quan. Trong khi giới luật sư và tòa
án đòi hỏi một câu trả lời "có" hoặc
"không", "đúng" hay "sai", thì giới
khoa học như nhà thống kê học không
bao giờ phát biểu khẳng định. Đối
với khoa học, phương pháp khoa học
và thống kê chẳng chứng minh một giả
thuyết nào cả; mà chỉ có dữ liệu có
nhất quán với giả thuyết hay không
mà thôi, và ngay cả kết luận nhất
quán cũng kèm theo một số điều kiện
và giả định. Thật vậy, bất cứ kết
luận hay câu trả lời nào của giới
khoa học thống kê cũng đều kèm theo
điều kiện và giả định. Mà, trong
thực tế, nhiều khi chúng ta không
biết được giả định đúng hay sai. Do
đó, tuy hai ngành nghề đều thu thập
bằng chứng, nhưng cách trình bày và
diễn giải bằng chứng thì rất khác
nhau.
Đối với khoa học thống kê, bất
định là một qui luật hơn là một
ngoại lệ, và đây chính là điểm mâu
thuẫn với tòa án. Trong bất cứ lĩnh
vực hoạt động nào của xã hội, trong
cái nhìn của khoa học đều có yếu tố
bất định. Mỗi quyết định của con
người, dù là chánh án tối cao, đều
có khả năng sai lầm. Mỗi hành động
dù được thực hiện với ý định tốt
nhưng đều có khả năng gây tác hại.
Ngược lại, đối với tòa án, bất định
là điều khó chấp nhận, bởi vì phán
quyết của tòa án là xác định. Chính
vì do ảo tưởng xác định nên trong
quá khứ tòa án và luật pháp đã phạm
phải nhiều sai lầm, và sai lầm của
họ dẫn đến nhiều tai họa cho nạn
nhân, cho người vô tội. Nnhân vô
thập toàn. Không ai có thể tránh
sai lầm. Vấn đề đặt ra không phải
là tránh sai lầm (vì điều này không
thể), mà là làm sao tối thiểu hóa
sai lầm và sống với bất định một
cách sáng suốt.
Tình trạng bất định được định
lượng hóa bằng con số xác suất. Do
đó, sống một cách sáng suốt với bất
định chính là tối thiểu hóa xác suất
sai lầm. Các phương pháp thống kê
hiện đại giúp cho chúng ta hạn chế
sai lầm đến mức thấp nhất về lâu về
dài. Để hạn chế sai lầm, chúng ta
cần phải hiểu ý nghĩa của con số xác
suất và nhất là giả định đằng sau
cách tính.
Về ý nghĩa của xác suất, có hai
cách hiểu cơ bản. Cách hiểu thứ
nhất là xác suất là một tần số về
lâu về dài. Nói xác suất sai lầm 1%
có thể hiểu rằng trong 100 quyết
định tương tự về lâu về dài sẽ có 1
quyết định sai. Ở đây, cái mâu
thuẫn cơ bản của việc ứng dụng xác
suất trong luật pháp là xác suất là
con số được ước tính từ một quần thể
với tử số nhỏ hơn mẫu số, còn quyết
định của tòa án thường cho một cá
nhân. Một cá nhân thì không có mẫu
số. Do đó, nhìn như thế để thấy
cách hiểu về xác suất theo ý nghĩa
tần số không có giá trị cho tòa án.
Cách hiểu thứ hai về xác suất là
một thước đo về khả năng, về mức độ
tin cậy, hay một thước đo về tình
trạng kiến thức. Nói xác suất ông
Obama thắng cứ 90% có nghĩa là theo
cảm nhận cá nhân rằng ông ấy có khả
năng thắng cứ cao hơn là thất cử.
Trong thực tế, chúng ta chẳng bao
giờ chứng minh được điều gì 100%
(xác định); chúng ta chỉ có thể thu
thập chứng cứ, dữ liệu để tăng khả
năng phán quyết đúng càng cao càng
tốt. Nhưng như trường hợp của Lucia
de Berk và Sally Clark cho thấy,
vấn đề không phải là dữ liệu, mà là
phương pháp thu thập và phân tích dữ
liệu sao cho phù hợp với nguyên lí
khoa học và logic. Do đó, trong thế
giới hiện đại (và luôn luôn bất
định), công dân – kể cả các quan tòa
và bồi thẩm đoán – chẳng những phải
học chữ, mà còn phải học xác suất.
**
Bài
học về Thống Kê Sinh Học (Biostatistics)
nguyenvantuan.net
|