GitHub - openfoodfactsoff-diet-table-extractor

Це сховище - накопичення всієї роботи, виконаної протягом Google Summer of Code 2018.

Студент: Сагар Панчал
Github: sgrpanchal31
Організація: Відкриті факти про їжу
Проект: Таблиця OCR щодо харчових фактів

Конвеєр складається з трьох основних частин, а саме виявлення таблиці, виявлення тексту та OCR з подальшою обробкою.

Для виявлення таблиць на зображенні ми використовуємо модель виявлення об’єкта Single Shot Detector (SSD). Модель навчається на API виявлення об’єктів Tensorflow. Наданий блокнот Jupyter показує, як ми використовуємо попередньо навчений графік для виявлення таблиць на зображеннях товару. Перед запуском блокнота встановіть модель виявлення об’єктів із сховища Github Tensorflow.

Виявлення та вилучення тексту

Виявлення тексту здійснюється за допомогою text-detection-ctpn, який використовує fast-rcnn для вилучення текстових областей на зображенні. У майбутньому ми плануємо оновити його до більш швидкої та точної моделі розпізнавання тексту.

OCR та подальша обробка

Для розпізнавання тексту ми використовуємо Tesseract OCR. Кожне текстове поле, виявлене на етапі виявлення тексту, буде передано через OCR і повернуто необроблений рядок, який потім буде пройдений через багато етапів обробки, які очищають рядок (за допомогою регулярних виразів) і виправляють будь-які орфографічні помилки в рядку ( алгоритм виправлення орфографії орфографії).