Программа для распознавания терминов в PDF документах.

Задача

Разработать решение для определения терминов в PDF-файлах

Решение

Мы с нуля разработали механизм, который позволяет распознавать стиль шрифта (курсив, жирный, с подчеркиванием) и границы термина, отделяя его от следующего предложения и указывая точное расположение в документе. Наиболее сложной задачей было распознать распределение текста в таблицах, так как стандартные алгоритмы с этим не справляются.

Решение было реализовано на основе Artificial Intelligence и методов Machine Learning

Результат

Клиент получил полезный инструмент, который экономит время на поиск необходимых данных в документах

Технологии

Python, OCR, Tesseract 3,4, OpenCV, Pandas, PostgreSQL, Django, DRF, AWS

Состав команды

2 человека: разработчики

Отзыв сотрудника

Работа над алгоритмами искусственного интеллекта – это всегда интересно. Требуется рассчитать и проанализировать все варианты данных, направить на решение задачи по поиску термина. Наша система постоянно самообучается и это делает ее уникальной

Программа для распознавания терминов в PDF-документах

Задача

Решение

Результат

Технологии

Состав команды

Отзыв сотрудника

Другие проекты