Чому більшість опублікованих результатів досліджень є помилковими

Резюме

Зростає занепокоєння тим, що більшість опублікованих в даний час результатів досліджень є хибними. Імовірність того, що твердження дослідження відповідає дійсності, може залежати від потужності та упередженості дослідження, кількості інших досліджень з того самого питання та, що важливо, співвідношення істинних та відсутніх зв'язків між зв'язками, що досліджуються у кожній науковій галузі. У цьому контексті результати дослідження менш вірогідні, коли дослідження, проведені в галузі, менші; коли розміри ефекту менші; коли існує більша кількість і менший попередній вибір перевірених відносин; де є більша гнучкість у конструкціях, визначеннях, результатах та аналітичних режимах; коли є більший фінансовий та інший інтерес та упередження; і коли більше команд бере участь у науковій галузі в погоні за статистичною значимістю. Моделювання показує, що для більшості конструкцій та налаштувань дослідження, швидше за все, твердження дослідження є хибним, ніж істинним. Більше того, для багатьох сучасних наукових галузей заявлені результати досліджень часто можуть бути просто точними вимірами переважаючого упередження. У цьому нарисі я обговорюю наслідки цих проблем для проведення та інтерпретації досліджень.

Опубліковані результати досліджень іноді спростовуються наступними доказами, що викликає розгубленість і розчарування. Спростування та суперечки спостерігаються у цілому ряді дослідницьких проектів, від клінічних випробувань та традиційних епідеміологічних досліджень [1–3] до найсучасніших молекулярних досліджень [4,5]. Зростає занепокоєння тим, що в сучасних дослідженнях хибні висновки можуть становити більшість або навіть переважну більшість опублікованих тверджень про дослідження [6–8]. Однак це не повинно дивувати. Можна довести, що більшість заявлених результатів досліджень є хибними. Тут я розгляну ключові фактори, що впливають на цю проблему, та деякі наслідки з неї.

Моделювання основи для помилково позитивних висновків

Кілька методологів зазначали [9–11], що високий рівень неповторення (відсутність підтвердження) дослідницьких відкриттів є наслідком зручної, але необґрунтованої стратегії висунення остаточних результатів дослідження виключно на основі одного оціненого дослідження за офіційною статистичною значимістю, як правило, для р-значення менше 0,05. Дослідження не є найбільш належним чином представленими та узагальненими за значеннями p, але, на жаль, широко поширене уявлення про те, що статті медичних досліджень слід тлумачити лише на основі p-значень. Результати досліджень тут визначаються як будь-які відносини, що досягають офіційної статистичної значущості, наприклад, ефективні втручання, інформативні прогностичні фактори, фактори ризику або асоціації. “Негативні” дослідження також дуже корисні. "Негатив" насправді є неправильним терміном, і неправильне тлумачення широко поширене. Однак тут ми будемо націлювати стосунки, які, на думку слідчих, існують, а не на нульові висновки.

Можна довести, що більшість заявлених результатів досліджень є хибними

Таблиця 1

Менш добре оцінюється те, що упередженість та ступінь неодноразових незалежних випробувань різними групами слідчих по всьому світу можуть ще більше спотворити цю картину і можуть призвести до ще менших ймовірностей того, що результати досліджень справді відповідають дійсності. Ми спробуємо змоделювати ці два фактори в контексті подібних таблиць 2 × 2.

Панелі відповідають потужності 0,20, 0,50 та 0,80.

Таблиця 2

Тестування кількома незалежними командами

Панелі відповідають потужності 0,20, 0,50 та 0,80.

Таблиця 3

Висновки

Практичний приклад наведено у вставці 1. На підставі вищезазначених міркувань можна вивести кілька цікавих наслідків щодо ймовірності того, що результати дослідження справді відповідають дійсності.

Вставка 1. Приклад: Наука з низькими коефіцієнтами перед дослідженням

Припустимо, що група дослідників проводить ціле дослідження асоціації геномів, щоб перевірити, чи пов'язаний якийсь із 100 000 генних поліморфізмів із сприйнятливістю до шизофренії. Виходячи з того, що ми знаємо про ступінь спадковості хвороби, можна розумно сподіватися, що, мабуть, близько десяти генних поліморфізмів серед випробуваних справді були б асоційовані з шизофренією, з відносно подібними коефіцієнтами шансів близько 1,3 для десяти або близько того поліморфізмів досить схожа сила ідентифікувати будь-якого з них. Тоді R = 10/100 000 = 10 −4, і ймовірність попереднього вивчення будь-якого поліморфізму, пов’язаного з шизофренією, також є R/(R + 1) = 10 −4. Припустимо також, що дослідження має 60% потужності, щоб знайти асоціацію із співвідношенням шансів 1,3 при α = 0,05. Тоді можна підрахувати, що якщо виявлено статистично значущу асоціацію зі значенням р, яке ледве переходить поріг 0,05, ймовірність того, що це правда після дослідження, зростає приблизно в 12 разів порівняно з імовірністю перед дослідженням, але вона все ще лише 12 × 10 −4 .