Project Description
L’objet de ce projet était de réaliser la conception d’une chaîne de traitement semi-automatique de fichiers PDF hétérogène pour permettre la recherche de texte dans le contenu même des fichiers.
La conception de la chaîne a été scindée en plusieurs chantiers :
- Pré-qualifications des PDF fonctions de leur contenu initial (Scan Pur, Présence annotations, Signets, couches, texte vrai ou OCRisés,….) réalisées sur la base de contrôles Adobe DC Pro
- Mise en œuvre de pré-traitements et de traitements d’OCRisation discriminés suivant les résultats de la pré-qualification (ADOBE DC PRo, ABBYY Fine Reader)
- Identification des fichiers nécessitant un post-traitement manuel fonction des exigences qualité.
- Contrôle qualité en sortie