Vietsciences ;Nguyễn Văn Tuấn ; Nguyen Van Tuan ; Ý nghĩa của trị số P trong nghiên cứu y học ;science, khoa hoc, khoahoc, tin hoc, informatique;computer; vat ly; physics, physique, chimie, chemistry, hoa hoc, sinh vat, biologie, biology;biochimie;bioche

Ý nghĩa của trị số P trong nghiên cứu y học

Vietsciences-Nguyễn Văn Tuấn 07/07/2008

Trong một công trình nghiên cứu đánh giá hiệu quả chống gãy xương của thuốc zoledronate, các nhà nghiên cứu điều trị 1065 bệnh nhân bằng zoledronate và 1062 bệnh nhân không được điều trị bằng zoledronate (placebo), và kết quả được trình bày qua một đoạn văn quan trọng sau đây: “The rates of any new fracture were 8,6% in the zoledronic acid group and 13,9% in the placebo group, a 35% risk reduction with zoledronic acid (p = 0,001); the respective rates of new vertebral fracture were 1,7% and 3,8% (p = 0,02)” [1]. Câu văn trên đây gắn liền với trị số p có nghĩa gì?

Khi một câu hỏi tương tự được đem đi hỏi một nhóm bác sĩ chuyên khoa và có kinh nghiệm trong nghiên cứu y học, có đến 85% trả lời sai [2]. Đại đa số những người được hỏi hiểu rằng một kết luận (về sự khác biệt) với trị số p = 0,05 có nghĩa là khả năng mà kết luận đó sai là 5%, hay khả năng mà kết luận đó đúng là 95% (lấy 1 trừ cho 0,05). Nhiều người khác thì hiểu rằng một sự khác biệt với trị số P càng nhỏ thì mức độ ảnh hưởng càng có ý nghĩa và độ tin cậy của kết luận càng cao. Nhưng rất tiếc rằng cả hai cách hiểu này đều sai. Điều đáng ngạc nhiên là không những giới làm nghiên cứu khoa học hiểu sai, mà ngay cả các nhà nghiên cứu có kiến thức thống kê khá như dịch tễ học cũng hiểu sai. Thật ra, một số nhà thống kê chuyên nghiệp cũng hiểu sai ý nghĩa của trị số P bởi vì một số sách giáo khoa giải thích hoặc là sai, hoặc không rõ ràng!

1. Trị số P và triết lí phản nghiệm (falsificationism)

Khi đọc các bài báo khoa học trên các tập san y học, chúng ta thường hay gặp những trị số P. Một sự khác biệt với trị số P < 0,05 thường được hiểu là sự khác biệt đó có ý nghĩa thống kê (statistically significant); ngược lại, khi P > 0,05 chúng ta thường hiểu rằng sự khác biệt không có ý nghĩa thống kê, không đáng kể, hay do ngẫu nhiên. Tuy nhiên, cách hiểu P [là một xác suất phi điều kiện] như thế rất sai lầm. Trị số P là một xác suất có điều kiện. Ý nghĩa của trị số P gắn liền với triết lí phản nghiệm (falsificationism) trong khoa học. Do đó, trước khi bàn về ý nghĩa của trị số P, thiết tưởng chúng ta cần phải hiểu qua về triết lí phản nghiệm.

Một giả thuyết được xem là mang tính “khoa học” nếu giả thuyết đó có khả năng “phản nghiệm”. Theo Karl Popper [3], nhà triết học khoa học, đặc điểm duy nhất để có thể phân biệt giữa một lí thuyết khoa học thực thụ với ngụy khoa học (pseudoscience) là thuyết khoa học luôn có đặc tính có thể “bị bác bỏ” hay “khả năng phản nghiệm” (falsified) bằng những thực nghiệm đơn giản. Ông gọi đó là “khả năng phản nghiệm” (falsifiability) [4]. Phép phản nghiệm là phương cách tiến hành những thực nghiệm không phải để xác minh mà để phê phán các lí thuyết khoa học, và có thể coi đây như là một nền tảng cho khoa học thực thụ. Chẳng hạn như giả thuyết [đơn giản] “Tất cả các quạ đều màu đen” có thể bị bác bỏ nếu chúng ta quan sát được một con quạ màu đỏ. Hay, giả thuyết “vi khuẩn V. cholerae gây bệnh dịch tả” có thể bác bỏ nếu có một bệnh nhân dịch tả không nhiễm vi khuẩn V. cholerae.

Đứng trên phương diện khoa học, có hai mô hình thực tế để tiếp cận lí thuyết phản nghiệm: đó là mô hình kiểm định thống kê và mô hình kiểm định giả thuyết. Rất nhiều sách giáo khoa thống kê và khoa học đã được viết ra, nhưng rất tiếc, nhiều tác giả không giải thích hay không phân biệt được hai mô hình này. Có tác giả thậm chí còn nhầm lẫn khi diễn dịch, và đó cũng chính là một trong những nguyên nhân dẫn đến tình trạng hiểu lầm ý nghĩa của trị số P. Trong phần này, tôi sẽ giải thích ngắn gọn và cung cấp tài liệu tham khảo của hai mô hình để bạn đọc có thể hiểu qua và nghiên cứu thêm.

1.1 Fisher và mô hình kiểm định ý nghĩa thống kê

Triết lí phản nghiệm rất phổ biến và trở thành một mô hình để giải thích sự tiến bộ của khoa học. Chịu ảnh hưởng bởi triết lí này, Ronald A. Fisher (1890 – 1962), một nhà di truyền học người Anh và cũng là “cha đẻ” của nền thống kê học hiện đại, đề xuất một phương pháp định lượng để phản nghiệm một giả thuyết khoa học. Ông gọi phương pháp này là “Test of Significance” [5-6] (tôi tạm dịch là: phương pháp kiểm định ý nghĩa thống kê). Fisher quan niệm rằng thống kê là một bộ phận quan trọng của phương pháp suy luận theo phép qui nạp (inductive inference), tức là phương pháp suy luận dựa vào quan sát từ các mẫu (sample) và khái quát cho một quần thể (population). Phương pháp kiểm định ý nghĩa thống kê được tiến hành theo 3 bước như sau:

Fisher đề nghị báo cáo trị số P một cách chính xác. Tức là không có những cách viết như p < 0,05 hay p > 0,01 mà phải là p = 0,043 hay p = 0,002. Fisher còn đề nghị rằng nếu trị số p thấp hơn 0,05 thì giả thuyết H0 (vô hiệu) không phù hợp với số liệu quan sát được. Đối với Fisher, không có chuyện “bác bỏ giả thuyết” hay “chứng minh giả thuyết” mà chỉ có số liệu có phù hợp, có nhất quán với giả thuyết hay không mà thôi. Quan điểm này chịu ảnh hưởng “đậm” của triết lí phản nghiệm của Popper, vì theo triết lí này, chúng ta không thể chứng minh bất cứ một giả thuyết nào, mà chỉ có thể bác bỏ (disprove) một giả thuyết bằng dữ liệu quan sát được.

Ví dụ 1. Có thể minh họa cho các bước trên bằng một ví dụ như sau: chúng ta có 10 bệnh nhân, mỗi bệnh nhân được điều trị bằng 2 loại thuốc (A và B). Sau khi theo dõi một thời gian, có 8 bệnh nhân mà hiệu quả của thuốc A tốt hơn thuốc B. Kết quả này có phù hợp với giả thuyết thuốc A tốt hơn thuốc B?

Để trả lời câu hỏi và cũng là kiểm định giả thuyết trên, chúng ta phát biểu một giả thuyết vô hiệu: nếu hai loại thuốc này có hiệu quả như nhau, thì sẽ có 5 bệnh nhân với kết quả A tốt hơn B, và 5 bệnh nhân với kết quả B tốt hơn A. Gọi p là xác suất mà kết quả thuốc A tốt hơn thuốc B. Giả thuyết vô hiệu này cũng có nghĩa là p = 0,5. Nếu giả thuyết vô hiệu này đúng (tức p = 0,5), chúng ta có thể tính toán xác suất quan sát k bệnh nhân (k = 0, 1, 2, 3, …, 10) với kết quả A tốt hơn B theo luật phân phối nhị phân như sau:

P(k) | p = 0,5) = (10/k)(0,5)^k (1-0,5) ^10-k

Và kết quả có thể trình bày trong bảng sau đây:

Bảng 1. Xác suất quan sát k bệnh nhân (trong số 10 bệnh nhân) với kết quả A>B nếu giả thuyết vô hiệu (p = 0,5) đúng

k =	Pr(k \| p=0,5)
0	0,0009765625
1	0,009765625
2	0,04394531
3	0,1171875
4	0,2050781
5	0,2460938
6	0,2050781
7	0,1171875
8	0,04394531
9	0,009765625
10	0,0009765625
P(k ≥ 8)	0,054687

Cố nhiên, tổng số xác suất k = 0, 1, 2, …, 10 phải bằng 1. Theo kết quả trên, nếu không có sự khác biệt về hiệu quả của hai thuốc, xác suất mà chúng ta quan sát 8 bệnh nhân với kết quả A>B là khoảng 4,39%. Diễn dịch tương tự, chúng ta ước tính rằng xác suất với 9 bệnh nhân kết quả A>B là 0,97%, và xác suất tất cả 10 bệnh nhân với kết quả A>B là 0,097%. Xác suất mà tối thiểu 8 bệnh nhân với kết quả A>B là 0,055 hay 5,5%. Viết theo kí hiệu toán: P(k ≥ 8) = 0,0547. Đây chính là trị số P.

Sử dụng tiêu chí 0,05, chúng ta có thể nói rằng dù 80% (8 trên 10) bệnh nhân với kết quả A>B, chúng ta vẫn chưa có đầy đủ bằng chứng để khẳng định rằng kết quả này nhất quán với giả thuyết thuốc A tốt hơn B.

1.2 Neyman và Pearson và mô hình Kiểm định giả thuyết

Jerzy Neyman (1894 – 1981) là một nhà toán học xuất sắc gốc Ba Lan và Egon Pearson (1895 – 1980) là một nhà thống kê học (con của giáo sư Karl Pearson, cha đẻ của lí thuyết Chi-square và hệ số tương quan) cùng lúc với Fisher, phát triển một phương pháp rất khác với Fisher, mà hai ông gọi là Test of Hypothesis (Kiểm định giả thuyết) [7]. Neyman và Pearson bác bỏ khái niệm suy luận theo qui nạp; hai ông nghĩ rằng thống kê học là một phương pháp hay cơ chế để hướng dẫn chúng ta đi đến một quyết định đúng về lâu về dài. Nói cách khác, Neyman và Pearson cho rằng phương pháp của Fisher vô nghĩa!

Một cách đơn giản, mô hình kiểm định giả thuyết của Neyman và Pearson có thể thực hiện qua các bước như sau:

Bước 1, phát biểu giả thuyết chính (H1) và giả thuyết vô hiệu (H0).

Bước 2, quyết định mức độ a và b có thể chấp nhận được và ước tính cỡ mẫu cần thuyết. a là xác suất bác bỏ giả thuyết H1 nhưng đó là giả thuyết đúng. b là xác suất bác bỏ H0 trong khi H0 đúng.
Bước 3, thu thập dữ liệu liên quan đến giả thuyết.
Bước 4, nếu dữ liệu nằm trong khoảng bác bỏ giả thuyết H0, thì chấp nhận giả thuyết H1; nếu không thì chấp nhận giả thuyết H0. Chú ý rằng “chấp nhận” một giả thuyết không có nghĩa là chúng ta tin vào giả thuyết đó, mà chỉ có nghĩa là chúng ta hành động với điều kiện đó là giả thuyết đúng.

Nguyên lí của mô hình Neyman và Pearson là chúng ta dựa vào dữ liệu để chọn một giả thuyết sao cho về lâu về dài chúng ta không quá sai. Chính vì thế mà ngày nay chúng ta thường chọn a = 5% và b = 10% đến 20%.

Fisher bác bỏ hoàn toàn mô hình của Neyman và Pearson [8]. Ông cho rằng đó là một mô hình … vô duyên. Fisher nhạo báng rằng các nhà toán học (ám chỉ Neyman và Pearson) “chẳng hiểu gì về thực nghiệm và đề ra một mô hình quá phi thực tế”. Trong những năm sau đó (thập niên 1930s) cộng đồng thống kê học chứng kiến một cuộc tranh luận dai dẵng và đôi khi nóng bỏng giữa Fisher và Neyman-Pearson trên các tập san thống kê học ở Anh. Fisher tuy là một người thông minh tuyệt vời, một nhà tư tưởng với những suy nghĩ trừu tượng, nhưng lại là một người rất khó tính và có khi hẹp hòi. Sự hẹp hòi của Fisher thể hiện ở chỗ ông sử dụng chức quyền khoa bảng của mình để gây khó khăn cho Neyman đến nỗi ông này chịu không nỗi và phải di cư sang Mĩ và sau này trở thành giáo sư tại trường Đại học Berkeley. Sau này, Neyman được lịch sử ghi nhận là một nhà thống kê học xuất sắc có công cực kì to lớn cho khoa học hiện đại, sánh vai cùng các “đại thụ” trong khoa học hiện đại. Nước Mĩ quả thật là môi trường cho ông thi thố tài năng!

1.2 Một mô hình hỗn hợp

Trớ trêu thay, mấy mươi năm sau, hai mô hình của Fisher và Neyman-Pearson được “hun đúc” thành một mô hình tổng hợp mà chúng ta ứng dụng ngày nay trong nghiên cứu y học. Mô hình này sử dụng kết quả kiểm định thống kê của Fisher để đi đến quyết định chấp nhận hay bác bỏ giả thuyết vô hiệu H0 hay giả thuyết chính H1 theo mô hình của Neyman và Pearson. Tiêu biểu cho mô hình này là nghiên cứu lâm sàng đối chứng ngẫu nhiên (randomized controlled clinical trial hay RCT). Theo đó, một nghiên cứu lâm sàng được tiến hành theo các bước như sau:

Bước 1, định nghĩa một giả thuyết vô hiệu và một giả thuyết chính. Thí dụ trong một nghiên cứu lâm sàng, gồm hai nhóm bệnh nhân: một nhóm được điều trị bằng thuốc A, và một nhóm được điều trị bằng placebo, nhà nghiên cứu có thể phát biểu giả thuyết vô hiệu rằng độ hiệu nghiệm thuốc A tương đương với placebo.

Bước 2, xác định xác suất a (còn gọi là sai số loại I) và b (còn gọi là sai số loại II), và ước tính cỡ mẫu dựa vào hai xác suất này.
Bước 3, thu thập dữ liệu liên quan đến giả thuyết. Gọi dữ liệu là D.
Bước 4, sử dụng phương pháp kiểm định ý nghĩa thống kê của Fisher ước tính xác suất P(D | H0). Gọi trị số này là P.
Bước 5, nếu P < 0,05, bác bỏ giả thuyết H0. Chú ý, bác bỏ H0 không có nghĩa là chúng ta chấp nhận giả thuyết H1.

Ví dụ 2. Có thể minh họa cho các bước trên bằng một ví dụ về nghiên cứu hiệu quả của thuốc zoledronate trong việc phòng chống loãng xương [1]. Với giả thuyết rằng thuốc có hiệu nghiệm giảm nguy cơ gãy xương, các nhà nghiên cứu so sánh tỉ lệ gãy xương giữa hai nhóm bệnh nhân: nhóm 1 được điều trị bằng zoledronate và nhóm 2 là nhóm giả được (nhận calcium và vitamin D). Bắt đầu bằng cách xác định a = 0,05 và b = 0,80, các nhà nghiên cứu ước tính số lượng bệnh nhân cần thiết. Sau ba năm thu thập số liệu, kết quả có thể tóm lược trong bảng số liệu sau đây:

Bảng 2. Nguy cơ gãy xương ở bệnh nhân được điều trị bằng zoledronate và placebo

Chỉ số	Zoledronate	Placebo	Trị số P
Số bệnh nhân	1065	1062
Số gãy xương	92	139
Tỉ lệ gãy xương	8,6%	13,9	0,001

Bởi vì trị số P thấp hơn mức a (0,05) mà các nhà nghiên cứu đề ra từ lúc đầu (trước khi thu thập số liệu); cho nên, các nhà nghiên cứu kết luận rằng sự khác biệt về tỉ lệ gãy xương giữa hai nhóm (8,6% vs 13,9%) có ý nghĩa thống kê. Tất nhiên, trị số P trên không có nghĩa là nghiên cứu đã chứng minh rằng thuốc zoledronate có hiệu quả giảm nguy cơ gãy xương. Nó có nghĩa là nếu thật sự thuốc zoledronate không có hiệu quả giảm nguy cơ gãy xương thì xác suất mà các nhà nghiên cứu quan sát các số liệu trên (13,9% so với 8,6%) là 0,001.

2. Vấn đề của trị số P

Có lẽ nói không ngoa rằng trị số P là một con số phổ biến nhất trong khoa học từ khoảng 100 năm qua [9]. Hầu hết các bài báo khoa học đều trình bày trị số P như hàm ý nâng cao tính khoa học và độ tin cậy của bài báo. Tuy nhiên, ngay từ lúc mới “ra đời”, trị số P đã bị phê bình dữ dội. Có người cho rằng việc ứng dụng trị số P trong suy luận khoa học là một bước lùi, là một sự thoái hóa của khoa học, nên đề nghị không sử dụng trị số này trong nghiên cứu khoa học. Nhưng dù chịu nhiều chỉ trích và phê bình, ứng dụng phương pháp kiểm định giả thuyết và trị số P vẫn càng ngày càng phổ biến, đơn giản vì chúng ta chưa có một phương pháp khác tốt hơn, hay hợp lí hơn, hay đơn giản hơn. Trong phần này, tôi sẽ không điểm qua tất cả các phê bình trị số P (vì làm như thế cần một cuốn sách), mà chỉ nêu một số vấn đề chúng ta cần lưu ý khi diễn dịch trị số P.

2.1 Vấn đề logic

Như qua minh họa trên, trị số P không cho chúng ta biết gì về sự khả dĩ của một giả thuyết, bởi vì nó là một xác suất có điều kiện. Trị số P cho chúng ta biết xác suất của dữ liệu (data) nếu một giả thuyết là đúng. Cái khiếm khuyết lớn nhất của trị số P là nó thiếu tính logic. Thật vậy, nếu chúng ta chịu khó xem xét lại ví dụ trên, có thể khái quát tiến trình của một nghiên cứu y học (dựa vào trị số P) như sau:

Đề ra một giả thuyết chính vô hiệu (H0)
Từ giả thuyết vô hiệu, đề ra một giả thuyết chính (H1)
Tiến hành thu thập dữ liệu (D)
Phân tích dữ kiện: tính toán xác suất D xảy ra nếu H0 là thật. Nói theo ngôn ngữ toán xác suất, bước này chính là bước tính toán trị số P hay P(D | H0).

Vì thế, con số P có nghĩa là xác suất của dữ liệu D xảy ra nếu (nhấn mạnh: “nếu”) giả thuyết vô hiệu H0 là đúng. Như vậy, con số P không trực tiếp cho chúng ta một ý niệm gì về sự thật của giả thuyết chính H1; nó chỉ gián tiếp cung cấp bằng chứng để chúng ta chấp nhận giả thuyết chính và bác bỏ giả thuyết vô hiệu.

Logic đằng sau của trị số P có thể được hiểu như là một qui trình chứng minh đảo ngược (proof by contradiction):

Mệnh đề 1: Nếu giả thuyết vô hiệu đúng, thì sự kiện này không thể xảy ra;
Mệnh đề 2: Sự kiện xảy ra;
Mệnh đề 3 (kết luận): Giả thuyết vô hiệu không thể đúng.

Nếu cách lập luận trên khó hiểu, chúng ta thử xem một ví dụ cụ thể như sau:

Nếu ông Tuấn bị cao huyết áp, thì ông không thể có triệu chứng rụng tóc (hai hiện tượng sinh học này không liên quan với nhau, ít ra là theo kiến thức y khoa hiện nay);
Ông Tuấn bị rụng tóc;
Do đó, ông Tuấn không thể bị cao huyết áp.

Trị số P, do đó, gián tiếp phản ánh xác suất của mệnh đề 3. Và đó cũng chính là một khiếm khuyết quan trọng của trị số P, bởi vì nó ước tính mức độ khả dĩ của dữ liệu, chứ không nói cho chúng ta biết mức độ khả dĩ của một giả thuyết. Điều này làm cho việc suy luận dựa vào trị số P rất xa rời với thực tế, xa rời với khoa học thực nghiệm. Trong khoa học thực nghiệm, điều mà nhà nghiên cứu muốn biết là với dữ liệu mà họ có được, xác suất của giả thuyết chính là bao nhiêu, chứ họ không muốn biết nếu giả thuyết đảo là sự thật thì xác suất của dữ liệu là bao nhiêu. Nói cách khác và dùng kí hiệu mô tả trên, nhà nghiên cứu muốn biết P(H1 | D), chứ không muốn biết P(D | H0) hay P(D | H1).

2.2 Ý nghĩa thống kê không tương đương với ý nghĩa lâm sàng

Một sai lầm rất phổ biến trong giới y khoa là xem một khác biệt có “ý nghĩa thống kê” (statistical significance) tương đương với “ý nghĩa lâm sàng” (clinical significance). Có thể xem trị số P được tính toán từ tỉ số của tín hiệu (signal, mức độ khác biệt giữa hai nhóm) và nhiễu (noise hay độ dao động của mẫu). Gọi T là kiểm định thống kê, S là tín hiệu, và E là nhiễu, ý tưởng trên có thể mô tả như sau:

Khi số lượng cỡ mẫu tăng và nếu S bất biến thì T sẽ tăng, tức có cơ hội đạt ý nghĩa thống kê. Điều này có nghĩa là chúng ta có thể giảm E tối đa bằng cách tăng số lượng cỡ mẫu, và nó cũng có nghĩa là một khác biệt rất nhỏ chẳng có ý nghĩa gì trong thực tế nhưng vẫn có thể có ý nghĩa thống kê. Ngược lại, một khác biệt hay ảnh hưởng (effect) lớn, nhưng nếu số lượng cỡ mẫu không đầy đủ không thể đạt được cái chuẩn “có ý nghĩa thống kê” (tức p > 0,05).

Bảng 3 sau đây trình bày 4 nghiên cứu (tưởng tượng) với số cỡ mẫu khác nhau, từ 20 đến 2.000.000 bệnh nhân. Cột “Kết quả” trình bày số bệnh nhân được điều trị dứt bệnh và số trong ngoặc là phần trăm. Giả thuyết vô hiệu là xác suất kết quả 0,5 (tức 50%). Tất cả 4 nghiên cứu đều có trị số P = 0,041. Như có thể thấy qua bảng này, nghiên cứu 1 có tỉ lệ ảnh hưởng cao và có ý nghĩa lâm sàng (75%), và chỉ với 20 bệnh nhân, các nhà nghiên cứu có thể bác bỏ giả thuyết H0. Nhưng nghiên cứu 4, mức độ ảnh hưởng rất thấp (chỉ 50,07%, tức chỉ cao hơn giả thuyết vô hiệu 0,07%) nhưng vẫn có ý nghĩa thống kê vì số cỡ mẫu quá lớn !

Bảng 3. Ảnh hưởng của cỡ mẫu đến trị số P

Nghiên cứu	Số lượng đối tượng	Kết quả điều trị thành công (%)	Trị số P
1	20	15 (75%)	0,041
2	200	114 (57%)	0,041
3	2000	1.046 (52,5%)	0,041
4	2000000	1.001.445 (50,07%)	0,041

Trong thực tế, có rất nhiều nghiên cứu mà độ khác biệt giữa hai nhóm rất nhỏ, nhưng vẫn có ý nghĩa thống kê [10-11]. Điều đáng quan tâm là kết quả có ý nghĩa thống kê như thế được các nhà nghiên cứu diễn dịch với hàm ý có ý nghĩa lâm sàng.

Ngược lại, có những nghiên cứu mà kết quả có ý nghĩa lâm sàng nhưng vì không đạt cái chuẩn p < 0,05, nên các nhà nghiên cứu lại diễn dịch rằng không có ý nghĩa lâm sàng! Chẳng hạn như một nghiên cứu về hiệu quả của bổ sung vitamin C và E ở phụ nữ mang thai [12], các nhà nghiên cứu kết luận rằng “Supplementation with vitamin C and E during pregnancy does not reduce the risk of serious outcomes in their infants” (Bổ sung vitamin E và E không làm giảm các triệu chứng lâm sàng nghiêm trọng). Nhưng khi xét qua số liệu thực tế thì thấy ở trẻ em mà mẹ có bổ sung vitamin C và E, tỉ lệ với triệu chứng lâm sàng giảm đến 21% (p = 0,06). Chỉ vì p = 0,06 mà các nhà nghiên cứu có xu hướng diễn dịch sai kết quả, và sai lầm này rất nghiêm trọng!

2.2 Vấn đề kiểm định nhiều giả thuyết

Như đã nói trên, nghiên cứu y học là một qui trình kiểm định giả thuyết. Trong một nghiên cứu, ít khi nào chúng ta kiểm định chỉ một giả thuyết duy nhất, mà rất nhiều giả thuyết cùng một lúc. Chẳng hạn như trong một nghiên cứu về mối liên hệ giữa vitamin D và nguy cơ gãy cổ xương đùi, các nhà nghiên cứu có thể phân tích mối liên hệ giữa vitamin D và mật độ xương (bone mineral density), giữa vitamin D và nguy cơ gãy xương theo từng giới tính, từng nhóm tuổi, hay phân tích theo các đặc tính lâm sàng của bệnh nhân, v.v… Mỗi một phân tích như thế có thể xem là một kiểm định giả thuyết. Ở đây, chúng ta phải đối diện với vấn đề nhiều giả thuyết (multiple tests of hypothesis hay còn gọi là multiple comparisons).

Vấn đề là như sau: nếu chúng ta kiểm định một giả chúng ta chấp nhận một sai sót 5% (giả dụ chúng ta chấp nhận tiêu chuẩn p = 0,05 để tuyên bố có ý nghĩa hay không có ý nghĩa thống kê). Nói cách khác, sự thật là không thuốc có hiệu quả sai, nhưng kết quả kiểm định thống kê cho ra kết quả có ý nghĩa thống kê, và chúng ta chấp nhận rằng sự kiện này có thể xảy ra với tần số 5%. Vấn đề đặt ra là trong bối cảnh kiểm định nhiều giả thuyết là như sau: nếu trong số n thử nghiệm, chúng ta tuyên bố k thử nghiệm “có ý nghĩa thống kê” (tức là p<0,05), thì xác suất có ít nhất một giả thuyết sai là bao nhiêu?

Để trả lời câu hỏi này chúng ta sẽ bắt đầu bằng một ví dụ đơn giản. Mỗi kiểm định chúng ta chấp nhận một xác suất sai lầm là 0,05. Nói cách khác, chúng ta có xác suất đúng là 0,95. Nếu chúng ta thử nghiệm 3 giả thuyết, xác suất mà chúng ta đúng cả ba [dĩ nhiên] là: 0,95 x 0,95 x 0,95 = 0,8574. Như vậy, xác xuất có ít nhất một sai lầm trong ba tuyên bố “có ý nghĩa thống kê” là: 1 – 0,8574 = 0,1426 (tức khoảng 14%).

Nói chung, nếu chúng ta thử nghiệm n giả thuyết, và mỗi lần thử nghiệm chúng ta chấp nhận một xác suất sai lầm là p, thì xác suất có ít nhất 1 sai lầm trong n lần thử nghiệm đó là . Khi số lần kiểm định là n = 10 và p=0,05 thì xác suất có ít nhất một kết luận sai lầm lên đến 40%!

“Bài học” rút ra từ cách lí giải trên là như sau: nếu chúng ta đọc một bài báo khoa học mà trong đó nhà nghiên cứu tiến hành nhiều thử nghiệm khác nhau với các kết quả trị số p < 0,05, chúng ta có lí do để cho rằng xác suất mà một trong những cái-gọi-là “significant” (hay “có ý nghĩa thống kê”) đó rất cao. Chúng ta cần phải dè dặt với những kết quả phân tích như thế.

Đối với một người làm nghiên cứu, ý nghĩa của vấn đề thử nghiệm nhiều giả thuyết là: không nên “câu cá”. Xin nói thêm về khái niệm “câu cá” trong khoa học. Hãy tưởng tượng, một nhà nghiên cứu muốn tìm hiểu hiệu quả của một thuật điều trị mới cho các bệnh nhân đau khớp. Sau khi xem xét các nghiên cứu đã công bố trong y văn, nhà nghiên cứu quyết định tiến hành một nghiên cứu trên 300 bệnh nhân: phân nửa được điều trị bằng thuật mới, phân nửa chỉ sử dụng giả dược. Sau thời gian theo dõi, thu thập dữ liệu, nhà nghiên cứu phân tích và phát hiện sự khác biệt giữa hai nhóm không có ý nghĩa thống kê. Nói cách khác, thuật điều trị không có hiệu quả. Nhà nghiên cứu không chịu “đầu hàng”, nên tìm cho được một kết quả có ý nghĩa thống kê: chia bệnh nhân thành nhiều nhóm theo độ tuổi (trên 50 hay dưới 50), theo giới tính (nam hay nữ), thành phần kinh tế (có thu nhập cao hay thấp), và thói quen (chơi thể thao hay không). Tính chung, nhà nghiên cứu có 16 nhóm khác nhau, và có thể kiểm định 16 giả thuyết. Nhà nghiên cứu “khám phá” thuật điều trị có ý nghĩa thống kê trong nhóm phụ nữ tuổi trên 50 và có thu nhập cao. Và, kết quả trên được công bố. Đó là một qui trình làm việc mà giới nghiên cứu khoa học gọi là “fishing expedition” (một chuyến đi câu cá). Tất nhiên, một kết quả như thế không có giá trị khoa học và không thể tin được. (Với 16 thử nghiệm khác nhau và với p = 0,05, xác suất mà một thử nghiệm có kết quả “significant” lên đến 55%, do đó chúng ta chẳng ngạc nhiên khi thấy có một “con cá” được bắt!)

Để cho kết quả trị số P có ý nghĩa nguyên thủy của nó trong bối cảnh thử nghiệm nhiều giả thuyết, các nhà nghiên cứu đề nghị sử dụng thuật điều chỉnh Bonferroni (tên của một nhà thống kê học người Ý từng đề nghị cách làm này). Theo đề nghị này, trước khi tiến hành nghiên cứu, nhà nghiên cứu phải xác định rõ giả thuyết nào là chính, và giả thuyết nào là phụ. Ngoài ra, nhà nghiên cứu còn phải đề ra kế hoạch sẽ thử nghiệm bao nhiêu giả thuyết trước khi phân tích dữ liệu. Chẳng hạn như nếu nhà nghiên cứu có kế hoạch thử nghiệm 20 so sánh và muốn giữ cho trị số p ở 0,05, thì thay vì dựa vào 0,05 là tiêu chuẩn để tuyên bố“significant”, nhà nghiên cứu phải dựa vào tiêu chuẩn 0,0025 (tức lấy 0,05 chia cho 20) để tuyên bố “significant”. Nói cách khác, chỉ khi nào một kết quả có trị số p thấp hơn 0,0025 (hay nói chung là p/n) thì nhà nghiên cứu mới có “quyền” tuyên bố kết quả đó có ý nghĩa thống kê.

3. Trị số P và chẩn đoán y khoa

Có một mối tương quan giữa nghiên cứu khoa học và chẩn đoán y khoa, mà tôi thấy giới y học ít khi nào để ý đến để giải thích về ý nghĩa của trị số P:

Hai lĩnh vực đều có cùng mục đích: đi tìm cái chưa được biết. Trong nghiên cứu y học chúng ta tìm một mối liên hệ (hay ước tính / đánh giá hiệu quả của một thuật can thiệp), còn trong chẩn đoán chúng ta muốn biết bệnh nhân có bệnh hay không có bệnh.
Nghiên cứu y học sử dụng thống kê học làm phương pháp kiểm định, còn chẩn đoán y khoa sử dụng xét nghiệm lâm sàng hay sinh hóa để định bệnh. Do đó, phương pháp kiểm định thống kê tương đương với phương pháp xét nghiệm sinh hóa / lâm sàng.
Trong nghiên cứu y học, thuốc thực sự không hiệu quả, nhưng kết quả phân tích thống kê cho rằng có ý nghĩa thống kê. Trong chẩn đoán y khoa, bệnh nhân không có bệnh, nhưng kết quả xét nghiệm là dương tính.
Tương tự, trong nghiên cứu y học, thuốc thực sự có hiệu quả, nhưng kết quả phân tích thống kê cho rằng không có ý nghĩa thống kê. Trong chẩn đoán y khoa, bệnh nhân có bệnh, nhưng kết quả xét nghiệm là âm tính.

Do đó, để hiểu ý nghĩa và cách diễn dịch trị số P, chúng ta cần bàn qua và quán triệt ý nghĩa của một kết quả chẩn đoán y khoa. Tôi sẽ lấy ví dụ chẩn đoán ung thư làm ví dụ. Để biết một phụ nữ bị ung thư vú hay không, cách chính xác nhất là qua giải phẫu, hay trong trường hợp những người đã chết, là qua giảo nghiệm tử thi. Nhưng giải phẫu là một thuật mang tính xâm phạm cao, và tốn kém. Do đó, các nhà khoa học phát triển nhiều phương pháp để có thể chẩn đoán ung thư mà không cần đến giải phẫu để biết bệnh trạng của của bệnh nhân. Trong trường hợp ung thư vú, một phương pháp công nghệ cao là chụp quang tuyến X, hay còn gọi là mammography.

Kết quả của việc xét nghiệm bằng quang tuyến X có thể là dương tính (positive, sẽ viết tắt là +ve), hay âm tính (negative, -ve). Một kết quả dương tính có nghĩa rằng bệnh nhân có thể bị ung thư vú, và một kết quả âm tính cho biết bệnh nhân có thể không bị ung thư vú. (Hai chữ “có thể” ở đây rất quan trọng, vì nó nói lên một sự bất định trong việc chẩn đoán ung thư vú bằng quang tuyến X). Do đó, đối chiếu kết quả thử nghiệm của X-quang tuyến với thực trạng của bệnh nhân, chúng ta có 4 khả năng:

Chẩn đoán ung thư vú	Nghiên cứu y học
K : bệnh nhân thật sự ung thư	H1 : giả thuyết chính là đúng
N : bệnh nhân không bị ung thư	H0 : giả thuyết vô hiệu đúng
+ve : kết quả xét nghiệm dương tính	S (P<0,05) : có ý nghĩa thống kê
-ve : kết quả xét nghiệm âm tính	NS (P>0,05) : không có ý nghĩa thống kê
Khả năng	Khả năng
Bệnh nhân quả thật bị ung thư vú, và kết quả xét nghiệm là dương tính; trong chấn đoán y khoa, trường hợp này được gọi là *dương tính thật* hay *độ nhạy* (danh từ chuyên môn tiếng Anh gọi là *sensitivity*). Phát biểu theo ngôn ngữ xác suất, đây chính P(+ve \| K).	Giả thuyết H1 đúng (chẳng hạn như thuốc có hiệu nghiệm), và kết quả phân tích có ý nghĩa thống kê. Đây là trường hợp mà các nhà nghiên cứu đề cập đến là *power*. Nói theo xác suất: P(H1 \| S) = power, tương đương với dương tính thật.
Bệnh nhân quả thật bị ung thư, nhưng kết quả thử nghiệm lại âm tính; đây là trường hợp còn được gọi ngắn gọn là *âm tính giả* (*false negative*) hay P(-ve \| K).	Giả thuyết H1 đúng, nhưng kết quả phân tích không có ý nghĩa thống kê. Đây là trường hợp mà các nhà nghiên cứu đề cập đến là *type II error* (sai sót loại II). Nói theo xác suất: P(NS \| H1), tương đương với âm tính giả.
Bệnh nhân không bị ung thư, và kết quả thử nghiệm là âm tính; đây là trường hợp của *âm tính thật* hay *độ đặc hiệu* (*specificity*) hay P(-ve \| N)	Giả thuyết H0 đúng (tức thuốc không có hiệu quả), và kết quả phân tích cũng không có ý nghĩa thống kê. Đây là trường hợp mà các nhà nghiên cứu đề cập đến là *confidence level*. Nói theo ngôn ngữ xác suất: P(NS \| H0), tương đương với âm tính thật.
Bệnh nhân quả thật không có ung thư, nhưng kết quả thử nghiệm là dương tính; đây là trường hợp của *dương tính giả* (*false positive*) hay P(+ve \| K).	Giả thuyết H0 đúng, nhưng kết quả phân tích có ý nghĩa thống kê. Đây là trường hợp mà các nhà nghiên cứu đề cập đến là *type I error* (sai sót loại I). Nói theo xác suất: P(S \| H0), tương đương với dương tính giả.

Ý nghĩa của độ nhạy, đặc hiệu, dương tính giả, âm tính giả có thể hiểu qua các giải thích sau đây:

Độ nhạy (hay sensitivity, dương tính thật) có thể diễn giải như sau: nếu 100 bệnh nhân mắc bệnh đều đi xét nghiệm, có bao nhiêu người có kết quả dương tính.

Độ đặc hiệu (specificity, âm tính thật) trả lời câu hỏi sau đây: nếu 100 người không mắc bệnh đều đi xét nghiệm, có bao nhiêu người có kết quả âm tính.

Do đó, dương tính giả (false positive) là số người không mắc bệnh nhưng có kết quả xét nghiệm dương tính.

Tương tự, âm tính giả (false negative) là số người mắc bệnh nhưng có kết quả xét nghiệm âm tính.

Một phương pháp chẩn đoán hoàn hảo là phương pháp có tỉ lệ dương tính thật và âm tính thật 100% (tức tỉ lệ dương tính giả và âm tính giả là 0%). Nhưng trong thực tế, không có phương pháp thử nghiệm nào là hoàn hảo cả. Thực vậy, bất cứ một phương pháp thử nghiệm y khoa nào, kể cả quang tuyến X, cũng đều có, không ít thì nhiều, tỉ lệ dương tính giả và âm tính giả. Hai sai sót này là đầu mối của nhiều vấn đề trong việc khám nghiệm ung thư vú.

Do đó, một kết quả xét nghiệm dương tính không có nghĩa là bệnh nhân mắc bệnh ung thư vú. Điều này đúng, bởi vì kết quả xét nghiệm có phản ảnh sai thực trạng của bệnh. Nên nhớ rằng các chỉ số như độ nhạy, độ đặc hiệu chỉ cho chúng ta biết độ chính xác của phương pháp xét nghiệm, chứ không cho biết khả năng mắc bệnh. Đây là một điều rất quan trọng mà rất tiếc rất nhiều bác sĩ không hay chưa nhận thức được.

Tương tự, trong nghiên cứu y học, một kết quả có ý nghĩa thống kê (p<0,05) không có nghĩa là giả thuyết đúng, bởi vì trị số P chỉ nói lên độ tin cậy của phương pháp kiểm định thống kê, chứ không phản ảnh độ khả dĩ của một giả thuyết khoa học. Vì không phân biệt được hai khái niệm này, nên rất nhiều nhà nghiên cứu diễn dịch sai ý nghĩa của trị số P và kết quả nghiên cứu.

3.1 Cần phân biệt P(+ve | K) và P(K | +ve)

Xin nhắc lại: P(+ve | K) là xác suất có kết quả xét nghiệm dương tính nếu cá nhân thật sự mắc bệnh (hay tỉ lệ những bệnh nhân mắc bệnh ung thư có kết quả dương tính), còn và P(K | +ve) là xác suất một cá nhân mắc bệnh nếu kết quả xét nghiệm dương tính (tức là trong số những người có kết quả dương tính, bao nhiêu người thật sự mắc bệnh).

Cần phải phân biệt hai chỉ số trên!

Vấn đề đặt ra là chúng ta cần biết chỉ số nào? Chúng ta không muốn biết nếu bệnh nhân mắc bệnh, xác suất mà bệnh nhân có kết quả dương tính là bao nhiêu, tức P(+ve | K), tức là độ nhạy. (Nếu bệnh nhân mắc bệnh thì chúng ta điều trị, chứ không cần hỏi câu hỏi ngược về quá khứ như thế!)

Đối với bác sĩ và bệnh nhân, khi nhận được kết quả xét nghiệm [hãy cho là] dương tính, người ta muốn biết xác suất mà cá nhân mắc bệnh là bao nhiêu. Tức là chúng ta muốn biết P(K | +ve). Trong chẩn đoán y khoa, thuật ngữ cho chỉ số này là positive predictive value (PPV), hay giá trị tiên lượng dương tính.

3.2 Ước tính P(K | +ve)

Giá trị tiên lượng dương tính tùy thuộc vào ba thông số: độ nhạy, độ đặc hiệu của phương pháp xét nghiệm, và tần số mắc bệnh trong cộng đồng (còn gọi là tỉ lệ lưu hành – prevalence). Theo thông lệ khoa học quốc tế, gọi độ nhạy là Se, độ đặc hiệu là Sp, và tỉ lệ lưu hành là P. Với ba thông số này, chúng ta có thể ước tính giá trị tiên lượng dương tính:

[1]

Ví dụ: Nữ bệnh nhân người Mĩ, 50 tuổi, đi xét nghiệm ung thư vú và kết quả dương tính. Bệnh nhân muốn biết xác suất mà bà thật sự mắc bệnh là bao nhiêu? Y văn cho biết độ nhạy của phương pháp X quang (mammography) là 90% (tức Se = 0,90), và độ đặc hiệu là 95% (hay Sp = 0,95). Y văn cũng cho biết trong những người ở độu tuổi bệnh nhân, có khoảng 1% (hay P = 0,01). Dựa vào công thức trên, chúng ta có thể ước trả lời câu hỏi của bệnh nhân:

= 0,15

Nói cách khác, xác suất mà bệnh nhân thật sự mắc bệnh nếu kết quả xét nghiệm dương tính là 15%. Nói cụ thể hơn, cứ 100 phụ nữ như bệnh nhân có kết quả xét nghiệm dương tính, khoảng 15 người thật sự mắc bệnh ung thư vú. Tuy nhiên, chúng ta vẫn không biết vị phụ nữ đó nằm trong số 15 bệnh nhân hay không!

3.3 Ước tính P(H1 | S)

Tương tự, trong nghiên cứu y học, chúng ta cũng muốn biết nếu kết quả kiểm định có ý nghĩa thống kê (S) thì xác suất mà giả thuyết chính đúng là bao nhiêu. Nói cách khác, chúng ta muốn biết P(H1 | S).

Cũng như trong chẩn đoán y khoa, P(H1 | S) tùy thuộc vào ba thông số: power hay P(S | H1), sai sót loại I, và xác suất mà giả thuyết H1 đúng là bao nhiêu hay P(H1). Gọi sai sót loại I là a, chúng ta có thể ước tính P(H1 | S) như sau:

[2]

Trong công thức trên, hai thông số đầu (power và sai sót loại I) thường được hoạch định trước khi nghiên cứu được thực hiện. Thông thường, power dao động trong khoảng 0,80 đến 0,90, và sai sót loại I thường a = 0,01 đến 0,05. Nhưng P(H1) có lẽ là thông số khó nhất trong nghiên cứu, vì trong nhiều trường hợp chúng ta không biết xác suất H1 là bao nhiêu. Tuy nhiên, tùy trường hợp cụ thể, chúng ta có thể tiếp cận P(H1) qua tần số của một sự kiện. Chẳng hạn như trong nghiên cứu về mối liên hệ giữa một gien và bệnh, trong số 30.000 gien, xác suất mà một gien có liên hệ đến bệnh có thể là 1/30.000, hoặc cao hơn chút ít nếu có bằng chứng khoa học làm cơ sở.

Ví dụ: Một nghiên cứu về mối liên hệ giữa gien VDR và loãng xương, các nhà nghiên cứu ước tính rằng họ cần 1000 đối tượng để có power 90% và sai sót loại I là 1%. Kết quả phân tích thống kê cho thấy mối liên hệ có ý nghĩa thống kê với trị số P = 0,015. Câu hỏi đặt ra là xác suất mà giả thuyết về mối liên hệ giữa VDR và loãng xương là bao nhiêu? Chúng ta tạm thời cho xác suất P(H1) = 1/30000 = 0,0000333. Áp dụng công thức trên, chúng ta có:

= 0,0006

Nói cách khác, cho dù kết quả có ý nghĩa thống kê, nhưng xác suất mà VDR thật sự có liên quan đến loãng xương chỉ 0,06% -- một mối liên hệ còn quá nhiều bất định.

Công thức (1) và (2) vừa trình bày trên chính là Định lí Bayes (Bayesian theorem) rất nổi tiếng trong xác suất học [13]. Định lí Bayes phát biểu rằng có thể ước tính xác suất một sự kiện sau khi đã có dữ liệu quan sát sát hay đo lường được. Nói một cách thực tế hơn, có thể xem Định lí Bayes là qui trình cập nhật hóa kiến thức. Trong ví dụ về chẩn đoán trên, trước khi xét nghiệm, chúng ta biết rằng xác suất mà người phụ nữ đó mắc bệnh là 1% (tỉ lệ lưu hành). Sau khi kết quả xét nghiệm dương tính, xác suất này tăng lên 15% -- hay 15 lần. Tương tự, trước khi làm nghiên cứu, chúng ta có thể nói rằng xác suất gien VDR liên hệ đến loãng xương là 0,0000333, nhưng sau khi có số liệu “dương tính”, chúng ta có thể nói xác suất của mối liên hệ này lên 0,0006, tức tăng gần 1800 lần, nhưng vẫn còn nhiều bất định.

4. Yếu tố Bayes

Một trong những khó khăn trong việc ước tính P(H1 | S) theo Định lí Bayes như vừa trình bày vẫn là xác định thông số P(H1), hay còn gọi là xác suất tiền định của một giả thuyết (prior probability of a hypthesis). Đây cũng chính là điểm gây ra nhiều tranh luận đậm màu sắc triết học trong suốt 100 năm qua.

Một cách khách quan hơn để đánh giá hai giả thuyết là so sánh trực tiếp khả năng của hai giả thuyết đó. Thay vì ước tính trực tiếp xác suất một giả thuyết, chúng ta có thể ước tính xác suất dữ liệu cho một giả thuyết. Gọi D (viết tắt từ data) là dữ liệu, H0 là giả thuyết vô hiệu, và H1 là giả thuyết chính, chúng ta định nghĩa:

P(D | H0) là xác suất dữ liệu quan sát được nếu giả thuyết H0 đúng; và
P(D | H1) là xác suất dữ liệu quan sát được nếu giả thuyết H0 đúng.

Yếu tố Bayes (Bayes Factor – BF) [14-15] được định nghĩa như là tỉ số của hai xác suất trên:

[3]

Nếu chúng ta xem dữ liệu D là bằng chứng, thì Yếu tố Bayes chính là một đo lường bằng chứng nghiêng về giả thuyết nào. Nhìn qua công thức trên chúng ta có thể thấy:

Nếu BF = 1, bằng chứng không nghiêng về một giả thuyết nào cả (hai giả thuyết có xác suất như nhau);
Nếu BF > 1, bằng chứng nghiêng về (yểm trợ) giả thuyết H1 hơn là H0;
Ngược lại, nếu BF < 1, bằng chứng nghiêng về (yểm trợ) giả thuyết H0 hơn là H1.

Theo một qui ước chung, cách diễn dịch Yếu tố Bayes như sau:

Yếu tố Bayes (BF)	Bằng chứng nghiêng về H1 ở mức độ
BF = 3 đến BF = 10	đáng kể (substantial evidence)
BF = 10 đến BF = 30	thuyết phục (strong evidence)
BF = 30 đến BF = 100	rất thuyết phục (very strong evidence)
BF > 100	gần như xác định

Ví dụ: Trong nạn dịch tiêu chảy vào cuối năm 2007 ở một số tỉnh phía Bắc, một số quan chức y tế cho rằng mắm tôm là nguyên nhân, là nguồn gốc của nạn dịch, vì họ nghi rằng mắm tôm hàm chứa vi khuẩn gây bệnh tả (Vibrio cholerae). Viện vệ sinh dịch tễ trung ương xét nghiệm 75 mẫu mắm tôm được chọn ngẫu nhiên từ Hà Nội, Nghệ An, và Thanh Hóa. Kết quả xét nghiệm tất cả đều âm tính (không có vi khuẩn tả). Chúng ta có thể diễn giải bằng chứng này như thế nào?

Gọi p là xác suất mắm tôm chứa vi khuẩn tả. Chúng ta biết rằng theo luật phân phối nhị phân (binomial distribution), nếu xác suất nhiễm tả là p, và nếu chúng ta xét nghiệm n mẫu, thì xác suất có k mẫu bị nhiễm là:

Gọi H0 là giả thuyết mắm tôm không hàm chứa vi khuẩn tả, do đó, p = 0. Với 75 mẫu mắm tôm được xét nghiệm, chúng ta có k = 0 (không có kết quả dương tính). Do đó, xác suất k = 0 dưới giả thuyết H0 là:

= 1

Nếu H1 là giả thuyết mắm tôm có vi khuẩn tả, chúng ta hãy cho rằng 20% mắm tôm nhiễm khuẩn, và do đó: p = 0,20. Xác suất dữ liệu (k = 0) dưới giả thuyết này là:

Do đó, Yếu tố Bayes, theo định nghĩa (3) là:

= 18.546.031

Nói cách khác, bằng chứng (dữ liệu từ 75/75 âm tính) nghiêng về giả thuyết mắm tôm không nhiễm vi khuẩn tả đến 18,5 triệu lần!

Trên đây là một cách tính tương rất đơn giản để minh hoạ cho ý nghĩa của Yếu tố Bayes. Trong thực tế, các nghiên cứu với các phân tích phức tạp, cách tính Yếu tố Bayes cũng rất phức tạp. Tuy nhiên, chúng ta có thể ước tính giá trị tối thiểu của Yếu tố Bayes có thể ước tính bằng một công thức rất đơn giản, chỉ là hàm số của trị số p, mà Sellke và đồng nghiệp [16-17] phát triển như sau:

BF_min > 1 / (─e p ln(p) ) [4]

Trong đó e = 2,71828. Chẳng hạn như một nghiên cứu với trịo số p = 0,05, Yếu tố Bayes tối thiểu là: 1 / (-2,71828 x 0,05 x log(0,05)) = 2,45. Theo cách hiểu thông thường, khi p <0,05, các nhà nghiên cứu kết luận rằng kết quả “có ý nghĩa thống kê” (significant), nhưng với cách tính khách quan trên, chúng ta thấy bằng chứng vẫn chưa thuyết phục. Nhưng khi trị số p rất thấp như ví dụ trên với p = 0,0009, thì giá trị tối thiểu của BF là 1/(-2,71828 x 0,0009 x log(0,0009)) = 58,3. Nói cách khác, bằng chứng có vẻ nghiêng về giả thuyết H1 nhiều hơn là giả thuyết H0.

Qua định lí Bayes [xem chú thích 3], chúng ta biết rằng

. Dùng định lí này và qua vài thao tác đại số, chúng ta có thể diễn tả xác suất tối đa của P(H+ | s) như là hàm số của BF như sau:

Do đó, theo ví dụ trên, với giá trị tối thiểu BF là 58,3, và P(H1) = 0,5, chúng ta có thể ước tính xác suất tối đa của P(H1 | S) là 0,983. Nếu chúng ta chấp nhận xác suất >0,95 để kết luận, thì qua cách tính này, chúng ta có bằng chứng (p =0,0009) để kết luận rằng giả thuyết H1 có xác suất đúng lên đến 98%.

Hãy lấy một ví dụ khác: mới đây báo chí khá quan tâm về một nghiên cứu mà trong đó các nhà nghiên cứu phát hiện rằng tỉ lệ bị ung thư vú trong các phụ nữ dùng thuốc aspirin (giảm đau) cao hơn các phụ nữ không dùng aspirin khoảng 20% [6]. Kết luận này chỉ đơn thuần dựa vào trị số p = 0,022, tức “có ý nghĩa”. Các nhà nghiên cứu không giải thích được hiện tượng này, và phát hiện cũng nằm ngoài dự đoán sinh học của họ. Nói cách khác, ở đây xác suất giả thuyết H1 rất thấp, có thể chỉ 0,01 (tức 1%). Và nếu P(H1) = 0,01, và giá trị tối thiểu BF là 1/[-2,71828 x 0,022 x log(0.022)] = 4,38, xác suất tối đa của P(H1 | S) chỉ 0,042 hay 4,2%.

Cho dù P(H1) = 0,1 đi nữa, xác suất tối đa của P(H1 | S) cũng chỉ 0,33. Vì xác suất P(H1 | S) thấp hơn 0,95, chúng ta có thể phát biểu rằng giả thuyết vế mối liên hệ giữa aspirin và ung thư vú chưa có bằng chứng thuyết phục, hay bằng chứng hiện có không nhất quán với giả thuyết đó. Nói cách khác, các nhà nghiên cứu có thể đã đi đến một kết luận sai và phát hiện của họ có thể là một phát hiện dương tính giả!

5. Vài nhận xét và kết luận

Trị số p là một số có ảnh hưởng cực kì lớn đến hoạt động khoa học. Nhiều tập san và nhà khoa học xem một nghiên cứu khoa học với trị số p cao hơn 0,05 là một “kết quả tiêu cực” (“negative result”) và bài báo có thể bị từ chối cho công bố. Chính vì thế mà đối với đại đa số nhà khoa học, con số “P < 0,05” đã trở thành một cái “giấy thông hành” để công bố kết quả nghiên cứu. Nếu kết quả với P < 0,05, bài báo có cơ may xuất hiện trên một tập san nào đó và tác giả có thể sẽ nổi tiếng; nếu kết quả P > 0,05, số phận bài báo và công trình nghiên cứu có cơ may đi vào lãng quên!

Nhưng cần phải nhấn mạnh một lần nữa để hiểu ý nghĩa của trị số P như sau: Mục đích của trị số p là nhằm trả lời câu hỏi: nếu giả thuyết vô hiệu H0 đúng, thì xác suất mà dữ liệu chúng ta quan sát được là bao nhiêu? Nói cách khác, đó chính là phương pháp chứng minh đảo ngược. Do đó, diễn dịch trị số P phải có điều kiện. Trị số P không cung cấp cho chúng ta một định lượng gì nói đến một giả thuyết.

Trong suốt một thế kỉ qua khoa học thực nghiệm dựa vào trị số p của trường phái thống kê [có khi] gọi là frequentist (trường phái tần số) để suy luận và đi đến kết các luận khoa học. Cách suy luận này hiện vẫn là cách làm việc chuẩn trong khoa học. Thế nhưng cái logic đằng sau trị số p có rất nhiều vấn đề, kể cả sự phản trực giác (counter-intuitive) và rất khó hiểu, có khi ... phi logic. Theo trường phái tần số, xác suất được định nghĩa chỉ qua “thử nghiệm” (experiments) mà trên lí thuyết các thử nghiệm có thể lặp đi lặp lại nhiều lần đến vô tận, trong những điều kiện giống nhau nhưng độc lập với nhau. Nói “độc lập” có nghĩa là thử nghiệm thứ hai không có liên quan gì đến thử nghiệm thứ nhất hay bất cứ thử nghiệm nào sau đó. Ví dụ như một đồng xu được quăng 1 lần, thì đó cũng chính là một “thử nghiệm”, và nếu đồng xu được quăng liên tục 1 triệu lần cũng có nghĩa là 1 triệu thử nghiệm, và các thử nghiệm này độc lập với nhau. Theo cách hiểu này, xác suất có nghĩa là số lần một sự kiện xảy ra trong vô số thử nghiệm đó, và tần số này được diễn đạt qua con số tỉ lệ hay phần trăm. Nói cách khác, xác suất là một tần số tương đối (relative frequency).

Nói cho cùng, xác suất là một cảm nhận cá nhân, là mức độ tin tưởng của một cá nhân về một sự kiện hay hiện tượng nào đó. Nói cách khác, xác suất phản ánh kinh nghiệm cá nhân, hay khả năng của cá nhân đó tích lũy và phân tích thông tin từ các nguồn ngoại tại. Do đó, câu phát biểu “xác suất aspirin gây ra ung thư vú là 0.33” phản ánh mức độ tin tưởng của người phát biểu đối với mối liên hệ giữa aspirin và ung thư vú. Vì là cảm nhận cá nhân, con số đó cũng được cảm nhận khác nhau giữa các cá nhân: đối với ông A, 0,33 có thể là mức độ tin tưởng còn thấp; nhưng đối với chị B, 0.33 có thể là một khả dĩ cao. Vì là cảm nhận cá nhân, con số xác suất không phải là một chỉ số khách quan như cách hiểu của trường phái tần số. Theo trường phái tần số, “xác suất nữ thông minh hơn nam là 0,98” có thể được diễn dịch nhiều cách khác nhau: nó có thể có nghĩa là trong 100 cặp nam nữ được chọn một cách ngẫu nhiên, có 98 cặp mà trong đó chỉ số IQ của nữ cao hơn nam; nó cũng có thể có nghĩa là nếu nghiên cứu được lặp lại 100 lần, mỗi lần với đối tượng khác nhau, có 98 nghiên cứu cho thấy số trung bình IQ của phái nữ cao hơn phái nam. Tất nhiên, trong thực tế ít ai – nếu không muốn nói là chẳng ai – chịu khó lặp lại nghiên cứu 100 lần hay 1000 lần; do đó, cách diễn dịch của trường phái tần số rất ư là phi thực tế.

Trong suy luận khoa học, có thể nói không ngoa rằng chỉ có suy luận dựa vào Định lí Bayes là logic nhất. Tuy trị số p = P(D | H0) và trị số P(H1 | D) hay P(H1 | S)đều là xác suất, nhưng trị số p theo trường phái tần số cho chúng ta biết nhiều về tính chính xác của nghiệm toán thống kê, hơn là về mức độ khả dĩ của một giả thuyết nghiên cứu. Đối với nhà nghiên cứu chỉ có P(H1 | S) là có ý nghĩa, cũng như đối với bệnh nhân chỉ có P(K | +ve) là có ý nghĩa. Muốn ước tính mức độ khả dĩ của một giả thuyết nghiên cứu, chúng ta cần phải ứng dụng Định lí Bayes và các phương pháp liên quan đến Định lí Bayes. Qua bài viết mang tính giới thiệu này, tác giả hi vọng thuyết phục bạn đọc, nhất là các nhà nghiên cứu thực nghiệm, nên tìm hiểu và tiếp cận các phương pháp thống kê thuộc trường phái Bayes, hiện đang rất thịnh hành trong lĩnh vực y sinh học, vật lí học, và ngay cả tin học. Hi vọng bạn đọc sẽ có dịp đóng góp vào sự phát triển của các phương pháp Bayes trong tương lai và làm cho suy luận khoa học hoàn hảo hơn và logic hơn.

Chú thích và tài liệu tham khảo:

[1] Lyles KW, et al. Zoledronic acid and clinical fractures and mortality after hip fracture. N Engl J Med 2007 Nov 1;357(18):1799-809.

[2] Wulff HR, Andersen B, Brandenhoff P, Guttler F. What do doctors know about statistics? Statistics in Medicine 1987; 6:3-10.

[3] Karl Popper (28/07/1902- 17/09/1994), người Áo, Ông được coi là một triết gia khoa học hàng đầu của thế kỉ XX. Tác phẩm chính đầu tiên, Logik der Forschung (The Logic of Reseach), xuất bản năm 1934, được coi như là một tác phẩm kinh điển của phép phản nghiệm, một trường phái phổ biến của chủ nghĩa thực chứng logic (logical positivism), rồi tiếp cận đến khoa học được gọi là “chủ nghĩa phản nghiệm” (falsificationism), mà cơ sở dựa trên phép phê phán hơn là xác minh. Từ đó mà ông đã được thỉnh giảng ở Anh quốc, mà sau này trở thành quê hương thứ hai của ông. Từ lí thuyết phản nghiệm của ông mà sau này người ta có thể phân định sự khác biệt giũa khoa học với nguỵ khoa học. Ông nhận được rất nhiều giải thưởng vinh dự của cả Hiệp hội Khoa học Chính trị Mĩ, Viện Hàn lâm Anh v.v.. Ông đã được Nữ hoàng Elisabeth II phong tước hiệp sĩ năm 1965, và Huân chương Danh dự năm 1982. Ngoài tác phẩm nổi tiếng nêu trên ông đã công hiến cho khoa học thế giới nhiều tác phẩm vô giá về triết lí khoa học.

[4] Để biết triết lí phản nghiệm trong nghiên cứu lâm sàng, có thể đọc bài của Senn SJ. Falsificationism and clinical trials. Stat Med 1991 Nov;10(11):1679-92.

[6] Fisher RA. On the interpretation of χ² from contingency tables, and the calculation of P. Journal of the Royal Statistical Society 1922; 85(1):87-94.

[6] Fisher RA. Statistical Methods for research workers. Oliver and Boyd, 1954.

[7] Neyman J, Pearson E. On the Problem of the Most Efficient Tests of Statistical Hypotheses. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character 1933; 231: 289-337.

[8] Xem thêm chi tiết về những tranh luận liên quan đến kiểm định ý nghĩa thống kê và kiểm định giả thuyết trong sách The Significance Test Controversy, do DE Morrison và RE Henkel biên tập, Nhà xuất bản Aldine, Chicago: 1970.

[9] Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Kruger L. The Empire of Chace: How Probability Changed Science and Everyday Life. Cambridge University Press, 1989.

[10] Barnard GA. Must clinical trials be large? The interpretation of P-values and the combinati

[11] Barnard GA. On alleged gains in power from lower P-values. Stat Med 1989;8(12):1469-77.

[12] Rumbold AR, Crowther CA, Haslam RR, Dekker GA, Robinson JS; ACTS Study Group. Vitamins C and E and the risks of preeclampsia and perinatal complications. N Engl J Med 2006;354(17):1796-806.

[13] Thomas Bayes (1702 – 1761) là một linh mục sống ở Anh vào thế kỉ 18. Ngoài công việc giảng giáo lí, ông còn là nhà toán học có hạng. Năm 1763 (tức sau khi ông qua đời), một người đồng nghiệp của ông công bố một công thức xác suất mà ngày nay được biết đến là Định lí Bayes (Bayesian theorem) do ông viết lúc còn sống như vì quá cẩn thận nên ông không cho xuất bản. Định lí này có một ảnh hưởng cực kì to lớn trong nghiên cứu khoa học và chẩn đoán y khoa, nhưng cũng là một định lí gây ra nhiều tranh cãi gay gắt trong khoa học suốt 2 thế kỉ qua (mà tôi sẽ đề cập đến trong một dịp khác). Để giải thích định lí này ngắn gọn, có lẽ chúng ta cần phải điểm qua vài sự thật cơ bản về xác suất có điều kiện (conditional probability).

Để tiện theo dõi lí giải, tôi sẽ dùng kí hiệu H là giả thuyết và D là dữ kiện như đế cập trong phần đầu của bài viết. Như chúng ta biết, nếu hai hiện tượng H và D độc lập, thì xác suất có điều kiện phát biểu rằng:

P(D ∩ H) = P(D|H) x P(H) [A1]

Nói cách khác, P(D|H)= P(D∩H) / P(H), với điều kiện dĩ nhiên là P(H) không phải 0. Đến đây bạn đọc đã thấy P(D|H)chính là sai sót loại I mà tôi đã đề cập. Hay nói cụ thể hơn P(D|H)chính là P(S|H0) sau khi nghiên cứu dữ kiện đã được phân tích bằng một kiểm định thống kê.

Nhưng vấn đề là chúng ta muốn ước tính P(H|D). Một vài sắp xếp công thức [A1] chúng ta sẽ đi đến định lí Bayes:

P(H|D) = P(D|H) x P(H) / P(D) [A2]

Ý nghĩa của định lí Bayes trên đây là muốn ước tính xác suất một giả thuyết H sau khi đã quan sát dữ kiện D, thì chúng ta phải biết xác suất của dữ kiện hay P(D), và quan trọng hơn hết là xác suất của giả thuyết, tức P(H).

Muốn tìm hiểu thêm về lí thuyết và ứng dụng thống kê theo trường phái Bayes (Bayesian Statistics) có thể tham khảo các sách mang tính nhập môn sau đây: (1) sách về lí thuyết: Peter M. Lee, Bayesian Statistics, 2nd Edition, London: Arnold, 1997; (2) sách về ứng dụng: Donald A. Berry, Statistics: A Bayesian Perspective, Belmont: Duxbury Press, 1996; (3) hay sách cho các nhà vật lí học: Giulio D’Agistini, Bayesian Reasoning in Data Analysis, World Scientific, 2003.

[14] Jeffreys H. The Theory of Probability (3e), Oxford (1961); trang 432.

[15] Goodman SN. Toward evidence-based medical statistics. 2: The Bayes factor. Ann Intern Med 1999;130 (12): 1005-13.

[16] Sellke T, Bayarri MJ, Berger JO. Calibration of p-values for testing precise null hypothesis. The American Statistician 2001.

[17] Berger JO, Sellke T. Testing a point null hypothesis: the irreconcilability of P-values and evidence. Journal of the American Statistical Association 1987; 82:112-20.