Проблеми в клінічній обробці природних мов для автоматизованої нормалізації розладів -

Додати до Менділі

Основні моменти

Нормалізація розладів у клінічному тексті має широке застосування.

Клінічні нормалізатори повинні мати спеціальне форматування, жаргонізм та неоднозначні скорочення.

Лексика розладів багатіша на клінічний текст, ніж біомедичні тези.

Нормалізація з попарним навчанням ранжуванню обробляє багатий словниковий запас.

Подальші вдосконалення нормалізації вимагають вдосконаленого розпізнавання іменованих сутностей.

Анотація

Передумови

Визначення ключових змінних, таких як розлади в клінічних переказах в електронних медичних картах, має широке застосування в клінічній практиці та біомедичних дослідженнях. Попередні дослідження продемонстрували зниження ефективності розпізнавання розладів із назвою сутності (NER) та нормалізації (або обґрунтування) у клінічних оповіданнях, ніж у біомедичних публікаціях. У цій роботі ми прагнемо виявити причину такої різниці в ефективності та представити загальні рішення.

Методи

Ми використовуємо властивості закриття для порівняння багатства словникового запасу в клінічному оповідальному тексті з біомедичними публікаціями. Ми підходимо як до NER розладів, так і до нормалізації, використовуючи методології машинного навчання. Наша методологія NER базується на умовно-випадкових полях з лінійним ланцюжком із розширеним функціональним підходом, і ми вводимо декілька вдосконалень для покращення лексичних знань системи NER. Наш метод нормалізації - ніколи раніше не застосовувався до клінічних даних - використовує попарне навчання для ранжування для автоматичного вивчення варіації термінів безпосередньо з навчальних даних.

Результати

Ми виявили, що, хоча розмір загального словника схожий між клінічними наративними та біомедичними публікаціями, клінічний наратив використовує більш багату термінологію для опису розладів, ніж публікації. Ми застосовуємо нашу систему, DNorm-C, для виявлення згадувань про розлади та в клінічних переказах з нещодавнього завдання e-Health ShARe/CLEF. Для NER (лише строгий інтервал) наша система досягає точності = 0,797, відкликання = 0,713, f-оцінки = 0,753. Для завдання нормалізації (строгий інтервал + концепція) воно досягає точності = 0,712, відкликання = 0,637, f-балу = 0,672. Поліпшення, описані в цій статті, збільшують коефіцієнт NER f на 0,039 та коефіцієнт нормалізації f на 0,036. Ми також описуємо версію NER з високим викликом, яка збільшує виклик нормалізації до 0,744, хоча і зі зниженою точністю.