I2b2 Проблема ожиріння Немає необхідності машинного навчання; Блог LingPipe

У вихідні дні я відвідав семінар із виклику ожиріння i2b2, де найефективніші системи за всіма показниками були в основному власноруч побудовані на основі правил. Папери дали мені відчуття дежавю; вони були не тільки побудовані так само, як експертні системи 1970-х (наприклад, Mycin), вони були спонукані бажанням пояснити висновки. Тобто, клініцисту потрібно буде переглянути висновки машини, і правила легко зрозуміти.

Завданням було класифікувати (анонімізоване) резюме виписки пацієнтів із Центру ваги загальної лікарні Массачусетсу для пацієнтів із ризиком ожиріння або діабету щодо того, чи справді вони страждають ожирінням і чи є у них 15 інших супутніх захворювань, таких як діабет, ішемічна хвороба серця, застійна хвороба серцева недостатність, подагра та апное сну. Ці виписки містять сотні речень і обговорюють все, від сімейної історії та історії хвороби пацієнтів до лабораторних випробувань та списків рецептів.

Найефективніші системи машинного навчання, які розглядали документи як прості мішки слів, були тими, хто вивчав правила, такими як Ripper та дерева рішень. Найкраще працюють лінійні класифікатори, використовуючи декілька верхніх ознак (зазвичай витягуються шляхом вимірювання посилення інформації, що є ентропією класифікації мінус умовна ентропія з урахуванням ознаки).

Що стосується вилучення об’єктів та аналізу документів, зонування дійсно допомогло. Розділ сімейної історії (досить легко витягнутий за цими даними) був загальним джерелом помилково спрацьованих захворювань для наївних систем. Другим важливим кроком було імпортування словників синонімів та абревіатур для наркотиків та хвороб. Для цього ми бачили велике використання таких ресурсів, як UMLS та RxNorm. З огляду на те, що завдання мали категорії так/ні/невідомо, усі очікували, що підходи, такі як NegEx Чепмена, матимуть більший вплив, ніж вони (хоча одна команда отримала більше пробігу, налаштувавши NegEx спеціальним словником для завдання ожиріння).

Усі вони вказують на різницю між цим завданням та іншими завданнями класифікації, такими як загальні настрої, тема, ідентифікація мови - це скоріше проблема вилучення інформації, ніж проблема класифікації повного тексту. У цьому це схоже на орієнтоване на аспекти вилучення настроїв.