Reconnaissance optique de caractères (OCR)

Vous voulez créer une version numérique d'un document imprimé ou manuscrit que les ordinateurs peuvent lire sans taper ou saisir le texte? Le logiciel OCR vient à votre sécour.

Reconnaissance Optique de Caractères (OCR)

Qu'est-ce que l'OCR
À quoi sert l'OCR?
Pourquoi utiliser l'OCR?
Histoire de l'OCR

La reconnaissance optique de caractères (OCR) fait référence à un logiciel qui crée une version numérique d'un document imprimé, dactylographié ou manuscrit que les ordinateurs peuvent lire sans qu'il soit nécessaire de taper ou de saisir manuellement le texte. L'OCR est généralement utilisé sur les documents numérisés au format PDF, mais peut également créer une version lisible par ordinateur du texte dans un fichier image.

Qu'est-ce que l'OCR

L'OCR, également appelé reconnaissance de texte, est une technologie logicielle qui transforme des caractères tels que des chiffres, des lettres et des signes de ponctuation (également appelés glyphes) à partir de documents imprimés ou écrits en une forme électronique plus facilement reconnaissable et lisible par les ordinateurs et autres logiciels. Certains programmes OCR procèdent ainsi lorsqu'un document est numérisé ou photographié avec un appareil photo numérique et d'autres peuvent appliquer ce processus à des documents qui ont été précédemment numérisés ou photographiés sans OCR. L'OCR permet aux utilisateurs de rechercher dans des documents PDF, de modifier du texte et de reformater des documents.

À quoi sert l'OCR?

Pour les besoins de numérisation rapides et quotidiens, l'OCR peut ne pas être un gros problème. Si vous effectuez une grande quantité de numérisation, être en mesure de rechercher dans les fichiers PDF pour trouver celui dont vous avez besoin peut gagner beaucoup de temps et rend la fonctionnalité OCR dans votre programme de numérisation plus importante. Voici d'autres choses que l'OCR aide à:

Traitement automatisé des données et saisie des données (exemple: systèmes de suivi des candidats pour les CV).
Rendre les livres numérisés consultables.
Conversion de numérisations manuscrites en texte lisible par ordinateur.
Rendre les documents plus utilisables par les programmes de lecture qui aident les utilisateurs malvoyants.
Préserver les documents historiques et les journaux, tout en les rendant consultables.
Extraction et transfert de données vers des programmes comptables (exemple: reçus et factures).
Indexation des documents à utiliser par les moteurs de recherche.
Reconnaissance des plaques d'immatriculation du conducteur par un radar et un logiciel de caméra aux feux rouges.
Synthétiseurs vocaux pour les personnes qui ne peuvent pas parler - le physicien théoricien, Stephen Hawking, est peut-être l'utilisateur le plus connu d'un programme de synthétiseur vocal.

Pourquoi utiliser l'OCR?

Pourquoi ne pas simplement prendre une photo, non? Parce que vous ne seriez pas en mesure de modifier quoi que ce soit ou de rechercher le texte car ce ne serait qu'une image. La numérisation du document et l'exécution du logiciel OCR peuvent transformer ce fichier en quelque chose que vous pouvez modifier et pouvoir rechercher.

Histoire de l'OCR

Alors que la toute première utilisation de la reconnaissance de texte remonte à 1914, le développement et l'utilisation généralisés des technologies liées à l'OCR ont véritablement commencé dans les années 1950, en particulier avec la création de polices très simplifiées qui étaient plus faciles à convertir en texte lisible numériquement. La première de ces polices simplifiées a été créée par David Shepard et communément appelée OCR-7B. OCR-7B est toujours utilisé aujourd'hui dans l'industrie financière pour la police standard utilisée sur les cartes de crédit et les cartes de débit. Dans les années 1960, les services postaux de plusieurs pays ont commencé à utiliser la technologie OCR pour accélérer considérablement le tri du courrier, notamment aux États-Unis, en Grande-Bretagne, au Canada et en Allemagne. L'OCR reste la technologie de base utilisée pour trier le courrier des services postaux du monde entier. En 2000, une connaissance clé des limites et des capacités de la technologie OCR a été utilisée pour développer les programmes CAPTCHA utilisés pour arrêter les robots et les spammeurs.

Au fil des décennies, l'OCR est devenu plus précis et plus sophistiqué grâce aux progrès réalisés dans des domaines technologiques connexes tels que l'intelligence artificielle, l'apprentissage automatique et la vision par ordinateur. Aujourd'hui, le logiciel OCR utilise la reconnaissance des formes, la détection des fonctionnalités et l'exploration de texte pour transformer les documents plus rapidement et plus précisément que jamais.

Fonctionnement de la reconnaissance optique de caractères (OCR)