Використання соціальних медіа, пошукових запитів та демографічних даних для оцінки поширеності ожиріння в
Предмети
Анотація
Передумови
Рівень ожиріння як у дітей, так і у дорослих у США значно зріс з 1980-х років (Dwyer-Lindgren et al., 2013; Fryar et al., 2016; Segal et al., 2017). У 2017 році за проектом "Стан ожиріння" поширеність ожиріння серед дорослих серед штатів США коливалася від 22,3 до 37,7 відсотка (Segal et al., 2017). Це збільшення поширеності ожиріння зумовлене складною взаємодією біологічних, структурних та окремих факторів (Hill and Peters, 1998; Nelson et al., 2006; Papas et al., 2007; Ogden et al., 2010). Такі фактори, як громадська безпека, соціально-економічний статус та навколишнє оточення, можуть впливати на доступ до рекреаційних закладів та свіжої здорової їжі (Freedman et al., 2002; Giles-Corti et al., 2003; Hill et al., 2003; Ellaway et al. 2005; Gordon-Larsen et al., 2006; Lopez-Zetina et al., 2006; Mobley et al., 2006; Bennett et al., 2007; Papas et al., 2007; Casagrande et al., 2009; Maharana and Nsoesie, 2018). Соціальне середовище людини також може впливати на поведінку в галузі здоров'я (наприклад, погане харчування та фізична неактивність), які вважаються факторами ризику ожиріння (Christakis and Fowler, 2007; McFerran et al., 2009; Yakusheva et al., 2011).

У цьому дослідженні ми мали на меті оцінити зв'язок між поширеністю ожиріння, яку оцінюють Центри контролю та профілактики захворювань (CDC), та різними змінними продуктів харчування та фізичних вправ із соціальних мереж (тобто Twitter) та пошуковими запитами (тобто Google Search Trends) для самці та самки окремо. Ми також продемонстрували, що інтеграція даних із вищезазначених Інтернет-джерел із демографічними показниками та змінними змінного середовища може бути корисною для оцінки поширеності ожиріння в округах США за статтю.
Методи
Оцінки ожиріння на рівні статі на рівні округу
Оцінки ожиріння з урахуванням віку для графств США були завантажені з CDC. Ці оцінки були отримані шляхом застосування методу оцінки невеликої площі до даних Системи поведінкових факторів ризику та нагляду (BRFSS) - телефонного опитування щодо поведінки здоров’я, пов’язаної з хронічними захворюваннями, травмами та запобіжними інфекційними захворюваннями для неінституційованого дорослого населення США. (Malec та ін., 1997; Центри контролю та профілактики захворювань, 2018а).
Останні оцінки ожиріння на рівні округу за статтю, проведені CDC, базуються на опитуванні BRFSS 2013 року. Для узгодження даних CDC з даними Twitter, які були зібрані між квітнем 2015 року та березнем 2016 року, ми використовували лінійні авторегресивні моделі для прогнозування поширеності ожиріння у 2015 році. Наша модель використовувала оцінки попередніх років для оцінки поширеності ожиріння у 2015 році. Модель Р. 2 (тобто коефіцієнт детермінації) становив 82,73% та 82,73% для чоловіків та жінок, відповідно. У той час як за проектом «Держава ожиріння» повідомлялося про збільшення поширеності ожиріння у всіх штатах, крім семи, між 2013 і 2016 роками, це збільшення було значним лише для трьох штатів: Алабама, Мічиган та Небраска (див. SI Рис. 1) (Segal et al., 2017 ). У своєму аналізі ми використовували як оцінки ожиріння 2013 року, так і прогнози 2015 року.
Дані соціальних мереж
Обробка даних у соціальних мережах
Дані були очищені, щоб виключити дублікати, викиди (тобто користувачів, твіти яких становили більше 1% твітів), оголошення про роботу та твіти, що потрапляють за межі сусідніх Сполучених Штатів. Класифікатор тексту максимальної ентропії в Наборі інструментів машинного навчання для мови (MALLET) (McCallum, 2002) був використаний для класифікації настроїв твітів від нуля до одиниці, причому один вказував найсильніші позитивні настрої. Ця класифікація була проведена з більш широкими цілями проекту - оцінити щастя в округах США та оцінити його зв'язок з різними наслідками для здоров'я, включаючи передчасну смертність, діабет та ожиріння. Класифікатор пройшов ретельну підготовку з використанням існуючих та загальнодоступних наборів даних від Sentiment140 (Sentiment140, 2009), Sanders Analytics (Sanders Analytics, 2011) та Kaggle (Kaggle. Sentiment класифікація, 2011). Хоча MALLET - не єдиний доступний набір інструментів настроїв, ми виявили, що він перевершив підхід "міркувань слів", Sentiment140, та стандартні класифіковані класифікатори машинного навчання. Порівняно з 500 твітами, позначеними вручну, точність наших оцінок настроїв становила 77%.