Zum Inhalt springen
YouTube page opens in new windowFacebook page opens in new windowLinkedin page opens in new windowInstagram page opens in new windowRSS page opens in new window
European Digital Innovation Hub Saarland
European Digital Innovation Hub SaarlandEuropean Digital Innovation Hub Saarland
  • Termine & Veranstaltungen
  • Angebote
    • Schulungen
    • Förderprogramme
    • Best Practice
    • Webinar
    • Technologieradar
  • News
  • Über uns
  • de_DEDeutsch
    • en_GBEnglish (UK)
    • fr_FRFrançais
  • Termine & Veranstaltungen
  • Angebote
    • Schulungen
    • Förderprogramme
    • Best Practice
    • Webinar
    • Technologieradar
  • News
  • Über uns
  • de_DEDeutsch
    • en_GBEnglish (UK)
    • fr_FRFrançais

Optical Character Recognition (OCR)

Die Transformation von Analog zu Digital!

OCR bzw. Optical Character Recognition (deutsch optische Zeichenerkennung) beschreibt eine Technologie, die aus Raster- / Bilddateien wie PDFs, JPGs etc. Textdateien erstellen kann. Durch die Umwandlung ist es möglich die gewonnenen Daten zur Weiterverarbeitung oder zur Automatisierung von Prozessen, wie der Rechnungsverarbeitung, zu nutzen.

Prototypen und Demonstratoren vorhanden
Branchenübergreifender Einsatz
KMU geeignet?

Zum aktuellen Stand

OCR stellt eine Basistechnologie für viele Programme dar, die sich mit der Verarbeitung von Dokumenten beschäftigen. Diese Technologie erlaubt es Schriftstücke, die in Papierform vorhanden sind zu digitalisieren und aufzubereiten. Dadurch entfällt die analoge Übertragung durch abtippen von relevanten Dokumenten. Papierstücke die ausschließlich aus Maschinenschrift bestehen, können bereits mit einer sehr hohen Zuverlässigkeit vollständig digitalisiert werden. OCR wird unter anderen, als Grundlage für Dokumentenmanagementsysteme genutzt, um eine Weiterverarbeitung und Automatisierung von Papierschriftstücken, wie zum Beispiel Rechnungen oder Lieferscheine, zu ermöglichen.

Wie funktioniert OCR?

Die OCR-Technologie zeichnet sich vor allem durch die Mustererkennung aus. So unterteilt sie die Bilddatei in verschiedene Kategorien. Hier werden Abbildungen, Tabellen und Textblöcke unterschieden. Wenn das Programm einen Textblock identifiziert hat, werden im nächsten Schritt die einzelnen Buchstaben analysiert. Für den Computer sind diese Buchstaben lediglich Gruppierungen von Pixeln, mit denen er noch nicht arbeiten kann. Das Programm erkennt diese Gruppierungen (OCR) und gleicht sie mit einer vorhanden Datenbanken ab und wandelt diese in Zeichen um. Um die Erkennung von handschriftlichen Texten zu verbessern, werden die Gruppierungen im nächsten Schritt auch auf Zeichenebene (ICR) und auf Wortebene (IWR) aus einer weiteren Datenbank abgeglichen.

Intelligent Character Recognition

Intelligent Character Recognition (ICR) beschreibt die Fehlerkorrektur auf Zeichenebene. So wird überprüft, ob das erkannte Zeichen im Kontext des Wortes Sinn ergibt. Beispiele hierfür wären die leicht zu verwechselnde Zeichen “O” und “0” (Null) oder “B” und “8”. Die Zahl 0 könnte beim Wort “Oder” erkannt und durch ICR durch den richtigen Buchstaben “O” ersetzt werden.

Intelligent Word Recognition

Intelligent Word Recognition (IWR) beschreibt die Fehlerkorrektur auf Wörterebene. Vor allem bei handschriftlich verfassten Fließtexten, kann es dazu kommen, dass die einzelnen Zeichen von der OCR-Technologie nicht erkannt werden können. So vergleicht IWR globale Charakteristiken des Wortes mit einer Wörterdatenbank, um die korrekte Erkennungsrate zu erhöhen.

Schrittweise Einführung

Schritt 1: Technische Infrastruktur

Die OCR-Technologie kann aus einem Papierstück eine digitale Textdatei erstellen. Zuvor muss aber eine Raster- bzw. Bilddatei aus dem Dokument erstellt werden. Dies geschieht mittels eines Scanners. Scanner können als alleinstehende Geräte erworben werden, oft sind moderne Drucker aber bereits mit einem Scanner ausgestattet. Dazu benötigt man einen Computer und ein Speichermedium auf dem die Datei gespeichert werden kann. Das kann entweder die Festplatte des Computers oder auch ein online Cloud-Speicher sein.

Schritt 2: Papierdokumente sortieren

Um eine effiziente Verarbeitung zu ermöglichen, müssen die zu digitalisierenden Schriftstücken sinnvoll sortiert werden. Hier sollte Wert auf den danach folgenden Arbeitsschritt gelegt werden, um die weitere Arbeit einfacher zu gestalten.

Schritt 3: Dokumente scannen

In diesem Schritt wird mittels des Scanners das Dokument eingescannt und eine Raster-/Bilddatei erstellt, die lokal auf dem Rechner gespeichert wird.

Schritt 4: Softwareunterstützte Umwandlung der Dateien

Ist die Bilddatei erzeugt, kann die Datei umgewandelt werden. Dazu wird eines von vielen OCR-Tools benötigt, die mit wenigen Klicks aus der Raster-Datei eine Textdatei in bekannten Formaten wie .docx oder .txt erstellt und somit von bekannten Schreibprogrammen bearbeitet werden kann.

Chancen für KMU

Umwandlung von Analogen Medien zu Digitalen

Erster Schritt zur Automatisierung von Prozessen

Vereinfachte Dokumentenverwaltung

Vermeidung von Übertragungsfehlern

Kontakt

Sie brauchen Unterstützung bei der Einführung in Ihrem Unternehmen?

Kontaktieren Sie uns!

Behalten Sie mit unserem Technologieradar die wichtigsten KMU relevanten Technologien im Blick!

Zurück zum Technologieradar

Optical Character Recognition (OCR)

The transformation from analog to digital!

OCR, or Optical Character Recognition, describes a technology that can create text files from raster / image files such as PDFs, JPGs, etc. can create text files. The conversion makes it possible to use the data obtained for further processing or to automate processes such as invoice processing.

Prototypen und Demonstratoren vorhanden
Branchenübergreifender Einsatz
KMU geeignet?

The current status

OCR is a basic technology for many programs that deal with the processing of documents. This technology makes it possible to digitize and prepare documents that are available in paper form. This eliminates the need for analog transmission by typing out relevant documents. Pieces of paper consisting exclusively of machine print can already be completely digitized with a very high degree of reliability. OCR is used, among other things, as the basis for document management systems to enable further processing and automation of paper documents, such as invoices or delivery bills.

How does OCR work?

OCR technology is characterized above all by pattern recognition. It divides the image file into different categories. A distinction is made here between figures, tables and text blocks. Once the program has identified a text block, the next step is to analyze the individual letters. For the computer, these letters are merely groupings of pixels that it cannot yet work with. The program recognizes these groupings (OCR) and compares them with an existing database and converts them into characters. In order to improve the recognition of handwritten texts, the groupings are also compared at character level (ICR) and word level (IWR) from another database in the next step.

Intelligent Character Recognition

Intelligent Character Recognition (ICR) describes error correction at character level. This checks whether the recognized character makes sense in the context of the word. Examples of this would be the easily confused characters „O“ and „0“ (zero) or „B“ and „8“. The number 0 could be recognized in the word „Or“ and replaced by ICR with the correct letter „O“.

Intelligent Word Recognition

Intelligent Word Recognition (IWR) describes error correction at word level. Particularly with handwritten continuous text, it can happen that the individual characters cannot be recognized by the OCR technology. IWR compares global characteristics of the word with a word database in order to increase the correct recognition rate.

Step-by-step introduction

Step 1: Technical infrastructure

OCR technology can create a digital text file from a piece of paper. However, a raster or image file must first be created from the document. This is done using a scanner. Scanners can be purchased as stand-alone devices, but modern printers are often already equipped with a scanner. This requires a computer and a storage medium on which the file can be saved. This can either be the computer’s hard disk or an online cloud storage.

Step 2: Sort paper documents

To enable efficient processing, the documents to be digitized must be sorted sensibly. Here, emphasis should be placed on the subsequent work step in order to make further work easier.

Step 3: Scan documents

In this step, the scanner is used to scan the document and create a raster/image file that is saved locally on the computer.

Step 4: Software-assisted conversion of the files

Once the image file has been created, the file can be converted. This requires one of many OCR tools that can create a text file from the raster file in familiar formats such as .docx or .txt with just a few clicks and can therefore be processed by familiar writing programs.

Opportunities for SMEs

Conversion from analog media to digital

First step towards process automation

Simplified document management

Avoidance of transmission errors

Contact us

Do you need support with the introduction in your company?

Get in touch with us!

Keep an eye on the most important SME-relevant technologies with our technology radar!

Back to the technology radar
European Digital Innovation Hub Saarland
  • Adresse
    c/o ZeMA, Eschberger Weg 46, D-66121 Saarbrücken
  • Telefon
    +49 (0) 681 85787 – 300
  • E-Mail
    info@edih-saarland.de

Der European Digital Innovation Hub Saarland (EDIH Saarland) wird mit bis zu 50% aus EU-Mitteln gefördert (GA 101083337) sowie vom saarländischen Ministerium für Wirtschaft, Innovation, Digitales und Energie. Der EDIH Saarland bietet den KMUs in der Region einen kostenlosen One-Stop-Shop für Digitalisierung und Anwendung von Künstlicher Intelligenz (KI). In den nächsten drei Jahren (2023-2025) wird maßgebliche Expertise für den Praxistransfer von industrieller KI im Saarland, der Großregion (Saar-Lor-Lux) und in Europa bereitgestellt.

Das ZeMA ist hier federführend, neben den beteiligten Projektpartnern AWSi, DFKI, saaris und East Side Fab.

European Digital Innovation Hub Saarland
  • Impressum
  • Datenschutz
  • Privatsphäre-Einstellungen ändern
  • Historie der Privatsphäre-Einstellungen
  • Einwilligungen widerrufen
Rechtliche Hinweise & Cookie-Einstellungen

© European Digital Innovation Hub Saarland

Go to Top
Cookie Consent mit Real Cookie Banner