
Program do rozpoznawania terminów w dokumentach PDF
Zadanie
Opracowanie rozwiązania do definiowania terminów w plikach PDF
Decyzja
Opracowaliśmy od podstaw mechanizm, który pozwala rozpoznać styl czcionki (kursywa, pogrubienie, podkreślenie) i granice terminu, oddzielając go od następnego zdania i wskazując dokładną lokalizację w dokumencie. Najtrudniejszym zadaniem było rozpoznanie rozkładu tekstu w tabelach, ponieważ standardowe algorytmy nie radzą sobie z tym.
Rozwiązanie zostało zaimplementowane w oparciu o Artificial Intelligence i metody Machine Learning
Wynik
Klient otrzymał przydatne narzędzie, które oszczędza czas na wyszukiwanie niezbędnych danych w dokumentach
Technologia
Python, OCR, Tesseract 3,4, OpenCV, Pandas, PostgreSQL, Django, DRF, AWS
Skład zespołu
2 osoby: programiści
Praca nad algorytmami sztucznej inteligencji jest zawsze interesująca. Konieczne jest obliczenie i przeanalizowanie wszystkich opcji danych, skierowanie do rozwiązania problemu wyszukiwania terminu. Nasz system jest stale samokształcony, co czyni go wyjątkowym