Метод глибокої оцінки харчових калорій на основі навчання при оцінці дієти шляхом синхронізованого синхронізованого огляду

Через покращення рівня життя людей рівень ожиріння зростає з тривожною швидкістю, і це відображає ризики для здоров’я людей. Людям потрібно контролювати своє щоденне споживання калорій, вживаючи здорову їжу, що є найосновнішим методом уникнення ожиріння. Однак, незважаючи на те, що на упаковці харчових продуктів є етикетки про харчування (і калорійність), людям все одно не дуже зручно посилатися на них. Таким чином, вчені почали використовувати алгоритми машинного навчання в комп'ютерному зорі, щоб допомогти людям визначити калорійність їжі, яку вони їдять. Під час 2015 року в Бостоні Remit Deep Learning Summit вчений Google Кевін Мерфі представив алгоритм глибокого навчання, який використовувався для аналізу статичного зображення їжі. Аналізуючи склад їжі на зображенні, алгоритм може підрахувати, скільки калорій має страва.

Цей документ намагається надати більш ефективний спосіб оцінки калорій. По-перше, йому потрібні вигляд зверху та зображення збоку їжі, що аналізується. Потім він буде використовувати швидший R-CNN для виявлення їжі та об'єкта калібрування, після чого для визначення контуру їжі використовується алгоритм GrabCur. Оцінивши обсяг їжі, автори можуть остаточно оцінити кількість калорій.

Коли індекс маси тіла (ІМТ) людей перевищує 30 (кг/м2), вони, як правило, вважаються ожирінням. Високий ІМТ може збільшити ризик таких захворювань, як хвороби серця [1]. Основна причина ожиріння пов’язана з дисбалансом між кількістю споживаних калорій (споживання) та енерговитратами (витратами). Через небажання реєструвати та відстежувати, відсутність відповідної харчової інформації чи інші причини, пацієнти часто відчувають проблеми з контролем кількості споживаних калорій. Існує безліч запропонованих методів оцінки калорій на основі комп’ютерного зору [2, 3, 4, 5], але після аналізу авторами, точність виявлення та оцінку об’єму все ще потрібно вдосконалити. У цій роботі головна відмінність від інших подібних підходів полягає в тому, що для цього потрібно ввести два зображення, а також використовувати швидший R-CNN для виявлення об’єкта та алгоритм GrabCut для отримання контуру кожної їжі. Після цього автори можуть оцінити обсяг та калорії кожної їжі.

Цей метод показаний на малюнку 1. Як вже згадувалося раніше, для оцінки калорій потрібно два зображення зверху та збоку, і кожне зображення повинно включати об'єкт калібрування. Тут автори обирають швидкі згорткові нейронні мережі на основі регіону (Faster R-CNN) [5] для виявлення об’єктів та алгоритм GrabCut [6] як алгоритм сегментації.

Автори обрали швидший R-CNN замість того, щоб використовувати метод семантичної сегментації, такий як Fully Convolutional Networks (FCN). Тут, після введення зображень у вигляді RGB-каналів, автори можуть отримати ряд обмежувальних рам, що означає клас, якщо оцінювати.

Цей процес використовує підхід до обробки зображень для сегментації кожного обмежувального поля. Як уже згадувалося вище, обмежувальні рамки навколо об'єкта, які потрібні GrabCut, можуть бути надані Faster R-CNN. Після сегментації ми можемо отримати серію зображень їжі, що зберігаються в матриці, але при цьому значення фонових пікселів замінюються нулями. При цьому залишаться лише пікселі переднього плану.

Для оцінки обсягу автори розраховують масштабні коефіцієнти на основі об'єктів калібрування. Автори використовують монету розміром 1 китайський юань, щоб показати конкретний процес розрахунку обсягу. Діаметр монети становить 2,5 см, а коефіцієнт масштабу вигляду збоку розраховували за рівнянням 1.

У цьому рівнянні Ws - ширина обмежувальної коробки, Hs - висота обмежувальної коробки. Подібним чином шкалу вигляду зверху можна обчислити за рівнянням 2.