Программа для распознавания терминов в PDF-документах
Задача
Разработать решение для определения терминов в PDF-файлах
Решение
Мы с нуля разработали механизм, который позволяет распознавать стиль шрифта (курсив, жирный, с подчеркиванием) и границы термина, отделяя его от следующего предложения и указывая точное расположение в документе. Наиболее сложной задачей было распознать распределение текста в таблицах, так как стандартные алгоритмы с этим не справляются.
Решение было реализовано на основе Artificial Intelligence и методов Machine Learning
Результат
Клиент получил полезный инструмент, который экономит время на поиск необходимых данных в документах
Технологии
Python, OCR, Tesseract 3,4, OpenCV, Pandas, PostgreSQL, Django, DRF, AWS
Состав команды
2 человека: разработчики
Работа над алгоритмами искусственного интеллекта – это всегда интересно. Требуется рассчитать и проанализировать все варианты данных, направить на решение задачи по поиску термина. Наша система постоянно самообучается и это делает ее уникальной