Як USDA пов’язав федеральні та комерційні дані з пролиттям світла на харчову цінність роздрібної їжі
Американці витрачають близько половини свого продовольчого бюджету, щоб придбати близько двох третин продуктів у магазинах. Міністерство сільського господарства США (USDA) купує власні дані побутових та роздрібних сканерів для проведення досліджень щодо поведінки споживачів, цін на продукти харчування, доступних нових продуктів та для розуміння того, наскільки здоровим є вибір споживчих продуктів харчування. Ці дані можуть бути використані для аналізу продажів у доларових або придбаних кількостях, але не можуть дати повну картину харчової якості. Незважаючи на те, що дані містять інформацію про етикетку харчових фактів, перераховану на деяких упакованих харчових продуктах, немає інформації про поживні речовини та харчовий профіль нерозфасованої їжі, як-от продуктів. Крім того, дані не дозволяють проводити більш детальний аналіз, такий як визначення кількості овочів у замороженій піці або кількості яловичини в тефтелях.
Служба економічних досліджень (ERS) Служби економіки США (ERS) - Служба харчування та харчування - Центр харчової політики та просування (FNS-CNPP) та Служба сільськогосподарських досліджень (ARS) нещодавно створили пішохідний перехід Purchase to Plate (PPC), який розширює використання комерційних дані для дослідження вибору американської їжі. Цей пішохідний перехід пов'язує понад 359 000 харчових продуктів у базі даних комерційних компаній з декількома тисячами продуктів харчування у низці баз даних про харчування USDA. Оскільки між двома структурами даних немає спільних ідентифікаторів, команда використовувала імовірнісний та семантичний методи для зменшення ручних зусиль, необхідних для зв’язку даних.
Уроки для інших агентств
Пов’язавши існуючі ресурси даних, USDA зміг збагатити та розширити можливості аналізу обох наборів даних. Інші відомства можуть навчитися підходу USDA до зв’язування даних, щоб отримати нові уявлення з уже наявних даних. Працюючи як із внутрішніми, так і із зовнішніми зацікавленими сторонами, USDA визначило чіткі цілі проекту, зв’язавши критерії та методи оцінки. Команда шукала підрядника, який мав би досвід у галузі автоматизованих стратегій узгодження даних. Крім того, незалежна група вчених з питань даних проводить аудит даних, який передбачає огляд методів, а також обговорення з поточними та потенційними зацікавленими сторонами щодо майбутнього використання та використання даних.
Проблема
Без цих пов’язаних даних директори та дослідники обмежились у своїх можливостях вирішувати деякі важливі питання. Наприклад, протягом більше десяти років ERS купував та аналізував власні дані про закупівлю харчових продуктів для домашніх господарств та роздрібні продажі продуктів харчування у компанії IRI, що займається дослідженням ринку, але ці дані дають обмежену інформацію про харчову цінність покупок. Щоб краще зрозуміти, як вибір продуктів харчування покупців порівнюється з рекомендаціями, що містяться в Дієтичних рекомендаціях для американців, запатентовані дані потрібно було пов’язати з базами даних про харчування США. Бази даних USDA кількісно визначають кількість поживних речовин (за винятком позначення "Факти харчування") та кількість порцій основних груп продуктів харчування, що містяться приблизно в 15 000 продуктах харчування. Крім того, зв’язування наборів даних дозволить USDA оцінити ціни на продукти харчування для наступного оновлення ринкового кошика для Економного продовольчого плану, що є основою щорічного оновлення максимального розміру для переваг Додаткової програми допомоги в харчуванні (SNAP).
Проблеми зв’язування даних
Будь-яка проблема зіставлення вимагає набору критеріїв відповідності, щоб визначити, які збіги є прийнятними. Цей проект мав два критерії: харчування та ціна. Тобто база даних зв’язку використовується як для інтеграції даних про харчування у дані сканера, так і для надання оцінок цін на продукти харчування в Продовольчих планах USDA. Ці критерії подвійної відповідності додали складності проблеми зіставлення та призвели до більш неперевершених Універсальних товарних кодів (UPC), ніж якщо команда просто вибрала одну.