Корпус FoodBase - новий ресурс коментованих підприємств харчування База даних Oxford Academic
Горжан Поповський, Барбара Корушич Селяк, Томе Єфтімов, Корпус FoodBase: новий ресурс анотованих харчових підприємств, База даних, том 2019, 2019, baz121, https://doi.org/10.1093/database/baz121

Анотація
Вступ
У біомедичному видобутку тексту автоматизація вилучення інформації (IE), спрямована на виявлення будь-яких відносин з наукової літератури, стала дуже важливим завданням. Один із перших кроків в IE виконується за допомогою розпізнавання іменованих сутностей (NER), яке визначає іменовані сутності в тексті, щоб класифікувати їх за попередньо визначеними категоріями. Найефективніші методи NER, як правило, засновані на корпусі (1–3), для яких потрібні корпуси анотованих об’єктів інтересу. Різні анотовані корпуси вже створені спільними завданнями, такими як BioNLP (4–8) та BioCreative (9–13), де основною метою є виклик та заохочення дослідницьких груп з проблем обробки природних мов (NLP). Ці анотовані корпуси можуть бути використані для різних цілей дослідження, таких як екстракція генних подій, генетика раку, курація шляхів, анотація корпусу з онтологією генної регуляції, мережі генної регуляції у бактерій, біотопи бактерій, вилучення регуляції розвитку насіння у рослин, хвороби - і пов'язані з симптомами суб'єкти, відносини, що існують між хімічними/лікарськими суб'єктами та суб'єктами хвороб, методи анотацій, такі як хвороби, фенотип та побічні реакції в літературі з різних текстових джерел, витяг інформації про сімейну історію та клінічна семантична подібність тексту.
Однак у 2019 році Lancer Planetary Health опублікував, що 2019 рік є роком харчування, де основна увага повинна бути приділена виявленню взаємозв’язків між системами харчування, здоров’ям людини та навколишнім середовищем. На відміну від великої кількості наявних коментованих корпусів із суб’єктами з біомедичної сфери, у харчовій області існує обмежена кількість ресурсів, які можна використовувати для досліджень.
Сьогодні в Інтернеті опубліковано величезну кількість рецептів, які містять цінну інформацію про їжу та харчування. Однак, наскільки нам відомо, існує лише два корпуси коментованих рецептів: (i) корпус r-FG (графік руху рецептів) (14) та (ii) корпус CURD (База даних рецептів університету Карнегі Меллона) ( 15). Корпус r-FG складається з 266 японських рецептів, анотованих з використанням восьми тегів, що стосуються їжі, інструменту, тривалості, кількості, дії шеф-кухаря, дії продуктів, стану продуктів та стану інструментів. Корпус CURD складається з 300 коментованих рецептів та 350 коментованих, для яких для анотації використовується Мінімальна мова вказівок для мови на кухні (МОЛОК) (15).
Згадаймо систему семантичного аналізу UCREL (USAS), яка є основою для автоматизованого семантичного аналізу тексту. У ній розмежовується 21 основна категорія, одна з яких - також „продовольство та фермерство” (F) (16). Крім того, він надає додаткову інформацію про семантичні теги, яка використовується в корпусі Гансарда (17). Корпус Гансара нещодавно був створений в рамках проекту SAMUELS (Семантична анотація та націнка для покращення лексичних пошуків) (18), метою якої було вилучити промови (тобто оцифровані дебати), проголошені в британському парламенті з 1803 по 2005 рік.
В рамках нашої попередньої роботи (19–20) ми розробили drNER, систему, що базується на правилах, і застосовується для ІЕ на основі фактично обґрунтованих дієтичних рекомендацій, де крім суб’єктів, пов’язаних з харчуванням та дієтичними рекомендаціями, суб’єкти харчування були також нашими інтерес. Однак drNER працює з неструктурованими даними. У drNER харчові суб'єкти витягуються за допомогою семантичних тегів харчових продуктів, отриманих семантичним аналізом UCREL на рівні лексеми в поєднанні з правилами булевої алгебри, щоб визначити фрази з тексту, які є харчовими суб'єктами.
Незважаючи на те, що згадані вище рецептурні корпуси існують, вони обмежені. Корпус r-FG складається лише з японських рецептів їжі, і корпус r-FG, і корпус CURD використовують схеми анотацій, які недостатньо деталізовані, забезпечуючи лише загальну харчову сутність; без різниці між групами страв (наприклад, супи, зернові страви, страви з яєць, чай, кава). Крім того, drNER надає лише загальну харчову сутність, оскільки вона була розроблена для розмежування їжі, поживних речовин та кількості/одиниці. USAS може надати додаткову інформацію про обрану харчову організацію, але її обмеження полягає в тому, що вона працює на символічному рівні. Маркер, визначений як проблема в NLP, - це рядок суміжних символів між заздалегідь визначеними роздільниками (наприклад, пробіли, пунктуація). Найчастіше, одна лексема - це одне слово, цифра або абревіатура. Наприклад, якщо ми маємо «курку на грилі» як одну харчову сутність, яку потрібно обробити для її взаємозв’язків, то суб’єкти «гриль» та «курка» отримають окремі семантичні теги. З цих причин ми вирішили створити FoodBase, що є новим корпусом, який може використовуватися для автоматизованого вилучення їжі з іменами, що включає харчові об'єкти, анотовані семантичними тегами з корпусу Hansard.
Методи та матеріали
У цьому розділі ми представляємо, як було обрано ресурс рецептів, які будуть використані для IE. Потім докладніше описаний корпус семантичних тегів Гансарда. Ми продовжуємо, представляючи FoodIE, тобто NER на основі правил (21), який використовується для структурування рецептів. Спочатку ми коротко описуємо основні кроки, а потім зосереджуємось на його оцінці та впровадженні нового кроку, який був доданий до FoodIE з метою семантичної анотації видобутих харчових суб’єктів.
Вибір рецепта
Щоб розпочати створення корпусу FoodBase з коментованими харчовими продуктами, ми обрали 1000 різноманітних рецептів від Allrecipes (22), яка є найбільшою соціальною мережею, орієнтованою на їжу, де кожен відіграє важливу роль у допомозі кухарям відкрити та поділитися домашньою кухнею. Ми вибрали цю мережу, оскільки кожен може публікувати рецепти на Allrecipes, тому ми маємо різну позицію у вираженні користувачів. Рецепти були обрані з п’яти категорій рецептів: «Закуски/закуски», «Сніданок/обід», «Десерт», «Вечеря» та «Напої», включаючи 200 рецептів для кожної категорії рецептів. Для кожного рецепта ми зібрали інформацію про англійську назву рецепту, його перелік інгредієнтів та інструкції з приготування англійською мовою. Список інгредієнтів складався з англійських назв інгредієнтів та їх кількості в нестандартних одиницях та побутових заходів, поданих англійською мовою (наприклад, «1 великий баклажан, навпіл уздовж», «1 упаковка розсипаного сиру фета»).