Стажировка по проекту «Система распознавания документов»
TERRA AI UNIVERSITY
Компания: ООО «ОТР 2000»
Задача
Распознавание данных паспортов, СНИЛС, ИНН по фотографии
База изображений (заказчиком не предоставлялась)
300
ПАСПОРТОВ
320
СНИЛС
150
ИНН
Поля для распознавания
Паспорт
Фамилия
Имя
Отчество
Дата рождения
Пол
Дата выдачи
Кем выдан
Место рождения
Серия и номер
Код подразделения
СНИЛС
Фамилия
Имя
Отчество
Номер СНИЛС
ИНН
Фамилия
Имя
Отчество
Номер ИНН
Принцип работы:
Поворот документа (на основе YOLOV5)
Автоматический поворот необходим, так как документы не всегда присылают в формате чтения текста слева направо, а для детекции полей это важное условие.
Детекция необходимых полей (на основе YOLOV5)
На этом этапе формируются отдельные картинки каждого поля.
Распознавание данных внутри полей
Текстовые данные и все поля паспорта распознаются при помощи фреймворка EasyOCR, а числовые данные СНИЛС и ИНН распознаются при помощи YOLOV5.
Желаемая точность распознавания
95% новых пользователей платформы должны без ошибок загрузить свои документы (комплект из 3 видов документов: паспорт, СНИЛС, ИНН).
Точность распознавания, которая была достигнута
60%
ПАСПОРТ
85%
СНИЛС
85%
ИНН
*Для увеличения точности распознавания всех видов документов нужно большее количество примеров обучающей выборки
Самым сложным в проекте было распознавание таких полей паспорта, как «Паспорт выдан» и «Место рождения». Эти поля могут быть напечатаны от 1 до 3 строк, следовательно, много символов. Была идея вытягивать информацию о подразделении выдачи паспорта по коду подразделения (есть база кодов и их расшифровки), но даже один код может иметь несколько разных написаний, поэтому от такого решения отказались. Так как обучающая выборка была довольно маленькая, было принято решение сделать синтетические снимки похожего шрифта на похожем фоне. Такой подход дал небольшой прирост точности распознавания. Развитие этой идеи в будущем является перспективным.
Иван Хабаров
Тимлид проекта
Демонстрация нейронной сети
Распознавание паспорта
Распознавание СНИЛС
Распознавание ИНН
Участники команды и их задачи
Глебов Павел
Наладчик технологического оборудования
Обучение моделей YOLOV5;
Формирование синтетических данных;
Анализ данных/поиск материалов;
Разметка данных.
Ламыкина Анна
Работала в сфере импорта и экспорта для проекта Газпрома
Обучение моделей YOLOV5;
Анализ данных/поиск материалов;
Разработка механизма автоматического поворота документов;
Разметка данных.
Белкина Эльвира
Специалист биллинговых систем операторов связи
Обучение моделей YOLOV5;
Анализ данных/поиск материалов;
Разработка механизма автоматического поворота документов;
Разметка данных.
Ивченко Андрей
Инженер АСУ ТП Работал в проектах на Северном потоке и в Сирии
Обучение моделей YOLOV5;
Анализ данных/поиск материалов;
Разработка механизма автоматического поворота документов;
Рразметка данных.
Носов Дмитрий
Программист VBA (Excel)
Сборка итогового модуля;
Обучение моделей YOLOV5, EasyOCR;
Разработка механизма автоматического поворота документов;
Формирование синтетических данных;
Разметка данных.
Шубин Илья
Инженер-комплектовщик в Спортмастере
Обучение моделей YOLOV5, EasyOCR;
Анализ данных/поиск материалов;
Разработка механизма автоматического поворота документов;
Разметка данных.
Макаров Алексей
Руководитель направления по развитию ИИ в компании (в прошлом коммерческий директор)
Обучение моделей YOLOV5, EasyOCR;
Разработка механизма автоматического поворота документов;
Формирование синтетических данных;
Анализ данных/поиск материалов;
Разметка данных.
За время стажировки участники изучили новые для себя темы: