Définition
L'OCR (reconnaissance optique de caractères) lit le texte présent sur l'image d'un document scanné et le convertit en texte réellement exploitable par l'ordinateur. Sans OCR, un scan n'est qu'une photo ; avec OCR, c'est un document interrogeable.
Avant l'OCR, un scan est une photo de page : illisible pour la machine. Après l'OCR, c'est comme si quelqu'un avait retapé tout le texte — recherchable, copiable, analysable.
Ce que l'OCR permet
- Rechercher à l'intérieur des documents scannés.
- Extraire automatiquement des informations (numéro, montant, date).
- Pré-remplir les métadonnées de classement.
- Rendre des archives papier numérisées pleinement exploitables.
Cas d'usage
Lecture automatique des factures
L'OCR extrait fournisseur, montant et date ; la facture se classe presque toute seule.
Numérisation d'un fonds papier
Des cartons d'archives deviennent une base recherchable, sans ressaisie manuelle.