Optische tekenherkenning (OCR)
De transformatie van analoog naar digitaal!
OCR of Optical Character Recognition beschrijft een technologie die kan worden aangemaakt uit raster-/beeldbestanden zoals PDF’s, JPG’s enz. De verwerking maakt het mogelijk de verkregen gegevens te gebruiken voor de verdere verwerking of automatisering van processen, zoals factuurverwerking.
Stand van zaken
OCR is een basistechnologie voor veel programma’s die betrekking hebben op de verwerking van documenten. Deze technologie maakt het mogelijk papieren documenten te digitaliseren en te verwerken. Als gevolg daarvan wordt analoge transmissie niet uitgevoerd door relevante documenten te onderdompelen. Papieren documenten die uitsluitend machineleesbaar zijn, kunnen al met een zeer hoge mate van betrouwbaarheid volledig worden gedigitaliseerd. De VOC wordt onder meer gebruikt als basis voor documentbeheersystemen om de verdere verwerking en automatisering van papieren documenten, zoals facturen of leveringsbonnen, mogelijk te maken.
Hoe werkt de VOC?
OCR-technologie wordt voornamelijk gekenmerkt door patroonherkenning. Zo deelt zij het beeldbestand in verschillende categorieën in. Figuren, tabellen en tekstblokken worden hier onderscheiden. Zodra het programma een tekstblok heeft gevonden, zal de volgende stap erin bestaan de afzonderlijke brieven te analyseren. Voor de computer zijn deze letters simpelweg groepen pixels waarmee het nog niet kan werken. Het programma identificeert deze groepen (OCR’s) en vergelijkt ze met een bestaande databank en zet ze om in tekens. Om de detectie van handgeschreven teksten te verbeteren, worden de groepen in de volgende stap ook getoetst op tekenniveau (ICR) en woordniveau (IMR) uit een andere databank.
“Smart Character Recognition”
Intelligent Character Recognition (ICR) beschrijft de correctie van de fout op tekenniveau. Derhalve wordt nagegaan of het geïdentificeerde teken in de context van het woord zinvol is. Voorbeelden zijn de gemakkelijk te verwarren tekens “O” en “0” (nul) of “B” en “8”. Figuur 0 kan worden gedetecteerd in het woord “Oder” en vervangen door ICR met de juiste letter “O”.
Intelligente wereldherkenning
Intelligente Word Recognition (IWR) beschrijft de correctie van fouten op woordniveau. Met name in het geval van met de hand geschreven bloemen zijn individuele tekens mogelijk niet herkenbaar met OCR-technologie. Zo vergelijkt IWR de algemene kenmerken van het woord met een woorddatabank om het correcte detectiepercentage te verhogen.
Geleidelijke invoering
Salarisstap 1: Technische infrastructuur
Salarisstap 2: Papieren documenten sorteren
Salarisstap 3: Scan documenten
Vierde stap: Softwareondersteunde bestandsconversie
Kansen voor het MKB
Contact
Gebruik onze technologieradar om de belangrijkste technologieën die van belang zijn voor kleine en middelgrote ondernemingen te blijven bekijken!