Platform:

Reconnaissance de texte : OCR ou reconnaissance optique de caractères

Admettons que vous vouliez numériser un article de journal ou un contrat sur papier. Deux solutions se présentent a vous : soit vous passez un temps incalculable à le ressaisir et à corriger les erreurs de frappe, soit vous transformez ces mêmes documents en format numérique en une fraction de secondes en utilisant un scanner (ou un appareil photo numérique) et la technologie OCR de reconnaissance optique de caractères.

Qu’est-ce que l’OCR au juste ?

Le mot OCR (en anglais : optical character recognition) signifie reconnaissance optique de caractères ou reconnaissance de texte, une technologie qui vous permet de convertir différents types de documents tels que les documents papiers scannés, les fichiers PDF ou les photos numériques, vers des formats modifiables et exploitables.

Le rôle d’un scanner est avant tout de numériser, c’est-à-dire, en vous restituant une image fidèle ou en N&B vos documents papiers mais ne pourra pas vous les convertir en formats modifiables et exploitables types Word ou Excel. De ce fait, il est nécessaire de posséder un logiciel OCR pour extraire et retravailler les données à partir de ces images ou de PDF d’images seulement voire d’appareils photos numériques, car ce logiciel vous restituera chaque caractère de l’image, pour vous reconstituer le mot entier, puis les phrases puis les textes pour enfin vous permettre de le retravailler. 

Quelle technologie se cache derrière l’OCR?

Le mécanisme permettant à l’être humain de reconnaître les objets sont encore méconnus, mais les 3 principes de base qui le sous-tendent sont bien maîtrisés par les scientitfiques : intégrité, la détermination et l'adaptabilité (IPA*). Ces principes constituent le coeur de la technologies OCR d’ABBYY FineReader lui permettant de reproduire le processus de reconnaissance des êtres-vivants et des êtres humains.

Ce qui nous amène à nous intéresser de plus près à la façon dont l’OCR d’ABBYY FineReader reconnaît les textes. Avant toute chose, le programme analyse la structure de l’image du document, dont il divise la page en éléments distincts tels que les textes, les tableaux, les images... Les lignes sont définies en mots puis en caractères. Une fois que le caractère aura été isolé, le programme les compare avec un groupe de modèles d’images grâce auxquels des hypothèses sont avancées sur ce que représente le caractère. C’est sur cette base d’hypothèses que le programme analyse les différentes variantes des courbures des lignes en mots et de mots en caractères. Apres avoir procède passe en revu toutes ces hypothèses, le programme prend la décision de vous livrer un texte qu’il pensera être conforme à l’image reconnue.

En complément, ABBYY FineReader dispose de dictionnaie prenant en charge 38 langues. Cette option permet d'affiner l'analyse d'un niveau texte à un niveau mot. Grâce à la prise en charge du dictionnaire, le programme améliore la précision de la reconnaissance des documents et facilite les vérifications ultérieures de résultats.

OCR pour photos numeriques

Les photos numeriques different des documents ou de PDF d’images seulement. Souvent elles presentent des defauts tels que des distorsions aux angles, une faible exposition, rendant les textes difficiles a reconnaitre par la plupart des applications OCR. La derniere version d’ABBYY Fine Reader met a disposition une technologie specialement concue pour traiter des specificites des images d’appariles photos numeriques. Il propose une panoplie de fonctions pour ameliorer la qualite de ces images et par la meme occasion d’utiliser au mieux les capacites de votre appareil photo numerique.

Cliquez ici pour obtenir plus d’information sur l’OCR pour photos numériques >

Comment utiliser un logiciel OCR ?

Utiliser la technologie OCR d’ABBYY FineReader est simple : le processus se decompose en 3 etapes : "ouvrir" (numeriser) le document, le "reconnaitre" puis le "sauvegarder" dans un format courant (DOC, RTF, XLS, PDF, HTML, TXT etc.) ou exporter les donnees directement vers une application de Microsoft Office telle que Microsoft Word, Excel ou Adobe Acrobat.

De plus, la toute derniere version d’ABBYY FineReader propose un mode automatique pour automatiser les taches recurrentes.

Quels bénéfices pouvez-vous tirer de l’OCR ?

L’OCR d’ABBYY FineReader reproduit vos documents a l’identique. Cet OCR puissant et evolue vous fait gagner un temps considerable dans le traitement et la reutilisation de documents varies. Avec l’OCR d’ABBYY FineReader, vous allez pouvoir numeriser et retravailler ainsi que mettre a disposition des documents papiers a tous vos collegues.  A travers cet outil, vous allez pouvoir extraire des textes de citations de livres, de magazines et creer vos propres documents sans devoir les ressaisir manuellement. Avec l’appareil photo numerique, vous pouvez capturer des donnees sur les affiches, posters, panneaux de signalisation et tout type de documents rencontres en chemin pour vos besoins particuliers. De la meme maniere, vous pouvez photographier des livres ou des documents si vous n’avez pas de scanner sous la main - typiquement en bibliotheque ou il est interdit de photocopier certains livres ou documents fragiles. Par la suite, convertissez l’image a l’un des nombreux formats modifiables offert par ABBYY FineReader ou vers PDF interrogeable pour vos archives.
Au final, il ce processus ne vous prendra que quelques minutes et le tour est joue, ce pour des resultats identiques a l’original !

Cliquez ici pour découvrir comment fonctionne le logiciel OCR ABBYY FineReader >