OCR et extraction automatique de CNI : fonctionnement et avantages pour les professionnels

Mis a jour le 12 janvier 20268 min de lecture

L'extraction automatique des donnees de cartes d'identite est une technologie cle pour l'automatisation des formalites de creation d'entreprise. Ce guide explique le fonctionnement de l'OCR (Optical Character Recognition) applique aux documents d'identite francais et ses avantages pour les cabinets comptables et mandataires.

1. Qu'est-ce que l'OCR ?

L'OCR (Optical Character Recognition) est une technologie qui permet de convertir des images contenant du texte en donnees textuelles exploitables. Appliquee aux documents d'identite, elle permet d'extraire automatiquement les informations sans saisie manuelle.

Evolution de l'OCR

1990s
OCR a base de regles - Reconnaissance caractere par caractere, sensible a la qualite d'image
2010s
OCR machine learning - Apprentissage sur corpus de documents, meilleure tolerance aux variations
2020s
OCR vision IA - Modeles multimodaux (texte + image), comprehension contextuelle du document

Les solutions modernes d'OCR pour documents d'identite combinent plusieurs techniques : reconnaissance de caracteres, detection de zones, validation de checksums MRZ et comprehension contextuelle du document.

2. Structure d'une carte d'identite francaise

La carte nationale d'identite francaise existe en deux formats principaux, tous deux exploitables par OCR :

Ancien format (avant 2021)

  • Format : Carte plastifiee bleue
  • Recto : Photo, nom, prenoms, date naissance, adresse
  • Verso : MRZ (2 lignes de 36 caracteres)
  • Validite : 15 ans (majeurs), 10 ans (mineurs)

Nouveau format (depuis 2021)

  • Format : Carte format carte bancaire avec puce
  • Recto : Photo, nom, prenoms, date naissance (sans adresse)
  • Verso : MRZ (3 lignes de 30 caracteres)
  • Validite : 10 ans

L'absence d'adresse sur la nouvelle CNI necessite un justificatif de domicile pour toute formalite de creation d'entreprise. L'OCR doit donc traiter deux documents : la CNI et le justificatif.

3. La zone MRZ : source de verite

La MRZ (Machine Readable Zone) est la bande de caracteres situee en bas du document. Elle constitue la source de donnees la plus fiable car :

  • Format standardise internationalement (norme ICAO 9303)
  • Police de caracteres specifique (OCR-B) optimisee pour la lecture automatique
  • Checksums integres permettant de valider l'integrite des donnees
  • Espacement et alignement constants

# Exemple de MRZ (ancien format, 2 lignes)

IDFRADUPONT<<JEAN<PIERRE<<<<<<<<<<<

1234567890FRA8501011M2501011<<<<<<06

Ligne 1: Type doc + Pays + Nom + Prenoms
Ligne 2: N° doc + Nationalite + Date naissance + Sexe + Date expiration + Checksum

Validation par checksums

Chaque bloc de donnees de la MRZ est accompagne d'un chiffre de controle (checksum) calcule selon l'algorithme defini par l'ICAO. Cela permet de detecter les erreurs de lecture.

DonneePosition MRZChecksum
Numero de documentL2, pos 1-9L2, pos 10
Date de naissanceL2, pos 14-19L2, pos 20
Date d'expirationL2, pos 22-27L2, pos 28
Checksum global-L2, pos 36

Un OCR professionnel valide systematiquement ces checksums. Si la validation echoue, les donnees sont marquees comme incertaines et une verification manuelle est requise.

4. OCR traditionnel vs OCR base sur l'intelligence artificielle

Les approches modernes d'OCR pour documents d'identite reposent sur des modeles d'intelligence artificielle qui depassent largement les capacites de l'OCR traditionnel.

CritereOCR traditionnelOCR base IA
Tolerance aux defauts d'imageFaibleElevee
Comprehension du contexteAucuneOui (noms, dates, adresses)
Gestion des formats multiplesConfiguration manuelleAutomatique
Precision sur CNI85-90%95-99%
Extraction d'adresseDifficileFiable

Les modeles de vision par IA (comme ceux utilises par ialaboite) sont entraines specifiquement sur des documents francais, ce qui leur permet de comprendre les particularites des adresses, noms composes et formats de date francais.

5. Donnees extractibles automatiquement

Voici l'ensemble des donnees pouvant etre extraites d'une CNI francaise par OCR :

Depuis la zone MRZ

  • Nom de naissance
  • Prenoms (tous)
  • Date de naissance
  • Sexe
  • Nationalite
  • Numero de document
  • Date d'expiration

Depuis la zone visuelle

  • Lieu de naissance
  • Adresse (ancien format)
  • Date de delivrance
  • Autorite de delivrance
  • Taille (si presente)

A noter : Le lieu de naissance n'est pas present dans la MRZ. Il doit etre extrait de la zone visuelle, ce qui le rend legerement moins fiable. Une validation contre le referentiel INSEE est recommandee.

6. Precision et fiabilite

La precision de l'OCR depend de plusieurs facteurs. Voici les taux constates sur des documents reels :

ChampPrecisionSource
Nom de naissance99%+MRZ
Prenoms99%+MRZ
Date de naissance99%+MRZ (avec checksum)
Lieu de naissance95%Zone visuelle
Adresse (ancien format)92%Zone visuelle
Numero de document99%+MRZ (avec checksum)

Facteurs impactant la precision

  • Qualite de l'image : Resolution minimum 300 DPI recommandee
  • Eclairage : Eviter les reflets sur les zones plastifiees
  • Cadrage : Document entier visible, pas de coupure
  • Etat du document : Usure, pliures, rayures impactent la lecture
  • Format numerique : PDF ou images non compressees preferees

7. Avantages pour les professionnels

L'adoption de l'OCR pour l'extraction de donnees CNI presente plusieurs avantages majeurs pour les cabinets comptables et mandataires :

8 min

gagnees par extraction (vs saisie manuelle)

0%

erreur de transcription (vs 5-10% manuel)

99%

precision sur les donnees MRZ

Benefices operationnels

  • 1
    Reduction du temps de traitement - L'extraction prend quelques secondes au lieu de plusieurs minutes de saisie manuelle.
  • 2
    Elimination des erreurs humaines - Plus de fautes de frappe, d'inversions de caracteres ou d'oublis d'accents.
  • 3
    Reduction des rejets INPI - Les erreurs de transcription sont une cause majeure de rejet. L'OCR les elimine a la source.
  • 4
    Scalabilite - Le volume de dossiers traites peut augmenter sans augmenter proportionnellement les ressources humaines.

Conclusion

L'OCR base sur l'intelligence artificielle a atteint un niveau de maturite qui le rend indispensable pour les professionnels traitant des volumes significatifs de creations d'entreprises. La precision sur les donnees MRZ depasse 99%, et meme les champs extraits de la zone visuelle atteignent 92-95% de fiabilite.

Pour les cabinets comptables et mandataires, l'adoption de cette technologie permet de reduire significativement le temps de traitement tout en ameliorant la qualite des dossiers soumis a l'INPI.

Testez gratuitement l'extraction OCR sur une CNI pour constater par vous-meme la precision et la rapidite de la technologie.

Pret a automatiser vos creations de micro-entreprises ?

Testez gratuitement l'extraction automatique de donnees CNI et la soumission directe a l'INPI.