© Adobe Stock/448182392
Optische tekenherkenning (OCR)
De transformatie van analoog naar digitaal!
OCR, of Optical Character Recognition, beschrijft een technologie die tekstbestanden uit raster-/beeldbestanden zoals PDF’s, GPG’s enz. kan aanmaken. De omzetting maakt het mogelijk de verkregen gegevens te gebruiken voor verdere verwerking of om processen zoals factuurverwerking te automatiseren.
De huidige status
OCR is een basistechnologie voor veel programma’s die betrekking hebben op de verwerking van documenten. Deze technologie maakt het mogelijk documenten die op papier beschikbaar zijn, te digitaliseren en voor te bereiden. Hierdoor is een analoge transmissie overbodig door relevante documenten te typeren. Papieren stukken die uitsluitend uit machinaal printen bestaan, kunnen reeds met een zeer hoge mate van betrouwbaarheid volledig worden gedigitaliseerd. De VOC wordt onder meer gebruikt als basis voor documentbeheersystemen om de verdere verwerking en automatisering van papieren documenten, zoals facturen of leveringsfacturen, mogelijk te maken.
Hoe werkt de VOC?
OCR-technologie wordt vooral gekenmerkt door patroonherkenning. Zij verdeelt het beeldbestand in verschillende categorieën. Hier wordt onderscheid gemaakt tussen cijfers, tabellen en tekstblokken. Zodra het programma een tekstblok heeft gevonden, is de volgende stap de analyse van de afzonderlijke letters. Voor de computer zijn deze letters slechts een combinatie van pixels waarmee het nog niet kan werken. Het programma erkent deze groepen (OCR) en vergelijkt ze met een bestaande databank en zet ze om in tekens. Om de herkenning van handgeschreven teksten te verbeteren, worden de groepen daarom in de volgende stap vergeleken op tekenniveau (ICR) en woordniveau (IWR) uit een andere databank.
“Smart Character Recognition”
Intelligent Character Recognition (ICR) beschreven foutcorrectie op tekenniveau. Daarbij wordt nagegaan of het erkende karakter in de context van het woord zinvol is. Voorbeelden hiervan zijn de gemakkelijk te verwarren tekens “O” en “0” (nul) of “B” en “8”. Het nummer 0 kan worden herkend in het woord “Or” en vervangen door ICR met de juiste letter “O”.
Intelligente wereldherkenning
Intelligente Word Recognition (IWR) beschreven foutcorrectie op woordniveau. Met name met handgeschreven doorlopende tekst kan het gebeuren dat de individuele tekens niet door de OCR-technologie kunnen worden herkend. IWR vergelijkt de algemene kenmerken van het woord met een woorddatabank om het correcte herkenningspercentage te verhogen.
Stapsgewijze inleiding
STEP1 Technische infrastructuur
Salarisstap 2: Papieren documenten sorteren
Salarisstap 3: Scan documenten
Salarisstap 4: Softwareondersteunde omzetting van de bestanden
Kansen voor het MKB
Contact opnemen
Houd met onze technologische radar de belangrijkste voor kmo’s relevante technologieën in de gaten!