Project Description

L’objet de ce projet était de réaliser la conception d’une chaîne de traitement semi-automatique de fichiers PDF hétérogène pour permettre la recherche de texte dans le contenu même des fichiers.

La conception de la chaîne a été scindée en plusieurs chantiers :

  • Pré-qualifications des PDF fonctions de leur contenu initial (Scan Pur, Présence annotations, Signets, couches, texte vrai ou OCRisés,….) réalisées sur la base de contrôles Adobe DC Pro
  • Mise en œuvre de pré-traitements et de traitements d’OCRisation discriminés suivant les résultats de la pré-qualification (ADOBE DC PRo, ABBYY Fine Reader)
  • Identification des fichiers nécessitant un post-traitement manuel fonction des exigences qualité.
  • Contrôle qualité en sortie