loader
image
back arrow Wszystkie projekty

Program do rozpoznawania terminów w dokumentach PDF

Zadanie

Opracowanie rozwiązania do definiowania terminów w plikach PDF

Decyzja

Opracowaliśmy od podstaw mechanizm, który pozwala rozpoznać styl czcionki (kursywa, pogrubienie, podkreślenie) i granice terminu, oddzielając go od następnego zdania i wskazując dokładną lokalizację w dokumencie. Najtrudniejszym zadaniem było rozpoznanie rozkładu tekstu w tabelach, ponieważ standardowe algorytmy nie radzą sobie z tym.

Rozwiązanie zostało zaimplementowane w oparciu o Artificial Intelligence i metody Machine Learning

Wynik

Klient otrzymał przydatne narzędzie, które oszczędza czas na wyszukiwanie niezbędnych danych w dokumentach

Technologia

Python, OCR, Tesseract 3,4, OpenCV, Pandas, PostgreSQL, Django, DRF, AWS

Skład zespołu

2 osoby: programiści

Odwołanie pracownika

Praca nad algorytmami sztucznej inteligencji jest zawsze interesująca. Konieczne jest obliczenie i przeanalizowanie wszystkich opcji danych, skierowanie do rozwiązania problemu wyszukiwania terminu. Nasz system jest stale samokształcony, co czyni go wyjątkowym

Inne projekty