Pourquoi l’analyse des pièces jointes des emails nécessite un OCR ?

Analyse de codes barres, vérification de passeports, validation de documents juridiques… Les cas d’usages d’analyses d’images sont déjà dans notre quotidien et se multiplient. Aussi appelé Computer Vision, cette branche de l’intelligence artificielle traite des images et vidéos et certains usages nécessitent d’en récupérer du texte. L’OCR (optical character recognition) désigne ce procédé, notamment très utile dans le traitement des pièces jointes des messages entrants. Pour en comprendre ses utilités, nous avons interviewé notre partenaire PLANET AI.

Une interview avec Jesper Kleinjohann Chief Operating Officer chez PLANET AI menée par Thomas Leduc Marketing Manager chez Golem.ai.

Qu’est ce qu’un OCR et quels sont les cas d’usages ?

L’OCR (logiciel de reconnaissance de caractères) est aujourd’hui synonyme de capture de texte à partir de documents numérisés et d’images, ce qui signifie qu’il s’agit de données de pixels brutes. Il s’agit d’un élément crucial de tout processus basé sur des documents, que le canal d’entrée soit des e-mails, des applications ou du papier numérisé. La qualité du processus de lecture impacte toutes les tâches ultérieures dans l’automatisation du processus documentaire.

Quels sont les challenges technologiques ?

Les approches OCR classiques reposent sur des étapes de prétraitement telles que la binarisation et la segmentation des caractères pour lire chaque caractère. La performance reste limitée si la qualité de la numérisation ou de l’image est faible, en particulier pour les textes manuscrits. Notre approche traite le texte comme une séquence de la même façon que nous, les humains, en évitant tous les inconvénients négatifs des approches OCR classiques. Nous conservons toutes les informations offrant une compréhension approfondie du texte capturé pour les tâches ultérieures.

Pourquoi l’analyse des pièces jointes est-elle essentielle pour automatiser le traitement des messages ?

Le corps de l’email réel ne contient souvent qu’une introduction textuelles aux pièces jointes comme « veuillez trouver dans cet email les documents 1 2 3 » et très peu d’informations sur leurs contenus. La majorité des informations nécessaires pour mettre en œuvre une automatisation complète des processus sont cachées dans la pièce jointe. Ces documents sont des images numérisées ou des photos prises avec un smartphone. Rendre ces informations accessibles dans la meilleure qualité possible est la clé de toute automatisation ultérieure des processus.

PLANET AI a également interviewé notre CEO & Co-fondateur Killian Vermersch à propos de l’usage d’un OCR pour parfaire l’analyse des messages entrants.

Jesper Kleinjohann
Chief Operating Officer chez PLANET AI


PLANET AI : Fondée en 2015 en tant qu’entreprise axée sur la recherche, PLANET AI développe des produits logiciels pour la reconnaissance de texte, de parole et d’image.