Was ist digitale Dokumentenerfassung?
Bei der digitalen Dokumentenerfassung handelt es sich um das Funktionsprinzip einer Software zum sogenannten Document Capture: Also zur Digitalisierung, zur elektronischen Dokumentenerkennung und zur vollautomatischen Postverarbeitung bei großen Mengen von Unterlagen. Hierbei spricht man auch vom sogenannten Input Management. Der Begriff Dokumentenerfassung, machmal auch einfach nur Erkennung genannt, wird oft mit dem Scannen verwechselt, jedoch handelt es sich hierbei nicht um dasselbe: Die Erfassung geht über das Scannen hinaus und im Gegensatz zum Scannen können auch digitale Dokumente erfasst und verarbeitet werden. Damit eignet sich eine Capture-Software ideal für den digitalen Posteingang und zur digitalen Belegverarbeitung.
Formen von Capture
Es existieren verschiedene Formen des Capturings:
- Document Capture zur digitalen Dokumentenerfassung.
- Video Capture zum Capturing von Videomaterial.
- Screen Capture zur Erstellung von Printscreens.
Diese Seite befasst sich mit dem Thema Document Capture als Chance für den digitalen Posteingang und Möglichkeit der elektronischen Dokumentenerfassung und digitalen Belegverarbeitung, in der Praxis aber oft einfach Capture oder allgemein Input Management genannt.
Document Capture vs. Scanning
Wie oben beschrieben, sind Capture und Scannen von Dokumenten nicht das Gleiche. Es gibt zwar eine Überlappung, jedoch geht die digitale Dokumentenerfassung geht weit über die Dokumentendigitalisierung bzw. das Scannen von Papierdokumenten hinaus.
Scanning
Wenn Sie ein Dokument scannen, wird das digitale Dokument normalerweise als .jpg- oder .pdf-Datei auf einem Computer gespeichert. Dort stoppt der Prozess. Die Datei ist digitalisiert, aber Sie können nicht viel mit den im Dokument enthaltenen Informationen anfangen. Darüber hinaus muss die Datei manuell an einer logisch nachvollziehbaren Stelle abgelegt werden, damit sie später wieder abgerufen werden kann.
Für kleine Mengen von Dokumenten ist das möglicherweise noch eine praktikable Situation, jedoch nicht mehr bei großen Mengen zu digitalisierender Dokumente. Hier kommt mit Capture eine professionelle Software zur elektronischen Dokumentenerfassung und zur digitalen Belegverarbeitung zum Einsatz.
Capture-Software
Eine Capture-Software sorgt dafür, dass große Mengen von Dokumenten digital und effizient digitalisiert werden können. Diese Software zur Dokumentenerfassung wird verwendet, um bestehende Archive zu digitalisieren, aber auch um z. B. kontinuierlich eingehende Dokumentenströme kontinuierlich und strukturell zu digitalisieren und so als digitale Posteingangsverarbeitung die Kommunikation im Unternehmen zu optimieren. In diesem Zusammenhang spricht man oft auch von einem elektronischen oder digitalen Posteingang bzw. von einer automatisierten Posteingangsbearbeitung.
Die digitale Dokumentenerfassung mit einer Capture-Software geht in Bezug auf die nachfolgenden Aspekte über das Scannen hinaus:
- Seitentrennung
- Bildoptimierung
- OCR
- Dokumentenklassifizierung
- Datenextraktion
- Formularerkennung
- Metadaten hinzufügen
Erfassung digitaler Dokumente
Ein weiterer wichtiger Unterschied zwischen Scanning und Document Capture besteht darin, dass auch digitale Dokumente „erfasst“ werden können. Es handelt sich hierbei um Unterlagen, die nie als Papierdokumente existiert haben, sondern digital erstellt wurden („born digital“). Denken Sie beispielsweise an ein PDF-Dokument, ein Word-Dokument oder ein Excel-Dokument.
Mehrere Punkte in der obigen Zusammenfassung können auf „digital geborene“ Dokumente angewendet werden und bieten dann genau dieselben Vorteile wie bei der Anwendung auf digitalisierte Dokumente. Insbesondere die letzten vier Punkte – Dokumentenklassifizierung, Datenextraktion, Formularerkennung und das Hinzufügen von Metadaten – können auch auf solche Dokumente angewendet werden. Die Vorteile dessen erfahren Sie auf dieser Seite.
Seitentrennung
Das Scannen von Dokumenten kann nur in sog. Batches (Bulk) erfolgen, wenn die Software eine effiziente Möglichkeit zur Bestimmung bietet, wo neue Dokumente im Papierstapel beginnen. Man spricht hier auch von der sogenannten Dokumententrennung. Eine Software zur digitalen Dokumentenerfassung ermöglicht dies mittels leerer Seiten (normalerweise in Pastellfarben) oder Barcodes. Die Software führt dann den Rest durch und trennt die Dokumente automatisch und entfernt anschließend die leeren Seiten.
Bildoptimierung
Ein gescanntes Bild kann an verschiedenen Stellen durch eine Software zur elektronischen Dokumentenerfassung verbessert werden. Das Verbessern eines via Document Capture gescannten Bildes hat den Vorteil, dass das Dokument leichter zu lesen ist, aber es verringert auch die OCR-Fehlergrenze.
- Seiten begradigen
Papiergebundene Dokumente werden nicht immer korrekt durch den Vorlageneinzug des Scanners gezogen. Das Ergebnis ist dann ein mehr oder weniger schiefes digitales Dokument. Eine Capture-Software kann dies automatisch korrigieren oder eine manuelle Korrektur anbieten. - Drehung von Seiten
In einem Papierdokument werden Seiten öfters um ein Viertel oder zur Hälfte gedreht. Manchmal geschieht das zufällig, aber die Textrichtung der betroffenen Seiten unterscheidet sich dann natürlich vom Rest des Dokuments. Auch dies kann von einer Software zur Dokumenenerfassung automatisch korrigiert werden. Basierend auf der erkannten Textrichtung bestimmt die Input-Management-Software die Seitenrotation. - Entfernung von Linien
Wenn ein Papierdokument Zeilen enthält (denken Sie an einen Notizblock), dann können diese Zeilen softwareseitig für ein besseres Endergebnis entfernt werden. - Entfernung von Perforationen
Perforationslöcher können ebenfalls automatisch entfernt werden. - Entfernung leerer Seiten
Leere Seiten in einem Dokument können genauso automatisch gelöscht werden.
OCR
Die optische Zeichenerkennung (Optical Character Recognition, kurz OCR) konvertiert ein gescanntes Bild (Foto) in einen für Computer lesbaren Text. Dies bietet viele Möglichkeiten, um mit der Dokumentenerfassung mehr zu tun als nur Dokumente zu digitalisieren:
- OCR macht das Dokument im Volltext durchsuchbar. Das macht das Auffinden benötigter Dokumente deutlich effizienter.
- OCR ermöglicht (erweiterte) automatische Dokumentenklassifizierung.
- OCR ermöglicht (erweiterte) automatische Datenerkennung / -extraktion.
- OCR ermöglicht Formularerkennung.
Dokumentenklassifizierung
Mittels Dokumentenklassifizierung wird bestimmt, zu welchem Dokumenttyp (oder zu welcher Art) ein Dokument gehört. Der einfachste Weg dies zu tun ist mit einem Barcode auf einem Dokument. Die Information über den Dokumenttyp wird dann aus dem Barcode gelesen. Ein solcher Barcode kann manuell beim Eingang des Dokuments in das Unternehmen platziert werden. Für Dokumente, die im eigenen Unternehmen erstellt wurden, kann der Barcode standardmäßig verwendet werden (z. B. mit einem Tool zur Dokumentenerstellung).
Die Dokumentenklassifizierung bietet jedoch den größten Mehrwert, wenn durch die Software zur Dokumentenerfassung automatisch festgelegt werden kann, zu welchem Dokumenttyp ein Dokument gehört. Das wird durch Texterkennung (OCR) im Dokument erreicht. Anhand von Beispieldokumenten wird die Software trainiert, um zu „lernen“, zu welchem Dokumenttyp bestimmte Dokumente gehören: Rechnungen, Bestellungen, Formulare und andere Dokumente können so automatisch klassifiziert werden.
Die automatische Klassifizierung von Dokumenten bietet verschiedene Möglichkeiten:
- Dokumente eines bestimmten Typs / einer bestimmten Art können automatisch in einen vordefinierten digitalen Prozess eingebaut werden.
- Dokumente eines bestimmten Typs / einer bestimmten Art können automatisch mit einem Set von Metadaten bereitgestellt werden.
- Dokumente können (semi-) automatisch an der korrekten Stelle archiviert werden. Eine Akte wird oft in Unterakten unterteilt, die Dokumente bestimmter Dokumentarten enthalten.
Das bedeutet, dass durch die automatische Dokumentenklassifizierung Möglichkeiten entstehen, die zu weniger manuellen Tätigkeiten und einer besseren Auffindbarkeit von Dokumenten führen. Die Klassifizierung von Dokumenten kann auch genutzt werden, um die Informationssicherheit zu einem späteren Zeitpunkt zu erhöhen. Beispielsweise kann eine Sicherheitsklassifikation (in Form von Metadaten) an einen bestimmten Dokumenttyp gehängt werden, wodurch dem Dokument im DMS eine spezielle Sicherheitsstufe zugewiesen wird.
Datenextraktion
Wo die automatische Dokumentenklassifizierung ein Dokument einer bestimmten Kategorie zuordnet, holt die Datenextraktion exakt bestimmte Informationen aus einem Dokument heraus, daher der Begriff. In der Chemie bedeutet Extraktion, dass eine bestimmte Substanz aus einem bestimmten Material isoliert und dann in eine nächste Phase überführt wird. Das ist genau das, was die Datenextraktion mit Dokumenten und Informationen macht, die in diesen Dokumenten enthalten sind. Die Information wird aus dem Dokument herausgezogen, um sie dann an ein bestimmtes System und / oder einen bestimmten Prozess weiterzuleiten.
Eingangsrechnungsverarbeitung
Ein Prozess, bei dem die Datenextraktion häufig verwendet wird, ist die elektronische Eingangsrechnungsverarbeitung. Rechnungen enthalten Informationen, die zu ihrer Bearbeitung im Finanzbuchhaltungssystem benötigt werden. Das können beispielsweise Rechnungsnummer, Rechnungsbetrag, Lieferant usw. sein. In diesem Zusammenhang spricht man häufig auch von automatischer Rechnungserkennung (oder allgemein von elektronischer Belegerkennung), jedoch ist die bloße Erkennung eines Dokuments als Rechnung nicht das Ende der Möglichkeiten. Vielmehr geht es darum, einzelne Bestandteile einer Rechnung als relevante Informationen zu erkennen. Bei der Datenextraktion kann die Capture-Software also selbst herausfinden, wo sich diese Informationen auf einer Rechnung befinden. So können die korrekten Informationen automatisch aus gescannten (oder digitalen) Rechnungen extrahiert werden. In oben erwähnten Beispiel erfolgt die digitale Eingangsrechnungsverarbeitung dadurch also vollständig automatisch.
Auch die Datenextraktion kann mittels eines Barcodes oder auf Basis von OCR (Texterkennung) stattfinden. Bei einem Barcode werden die Informationen – wie bei der Dokumentenklassifizierung – aus dem Barcode abgerufen. Wenn die Texterkennung genutzt wird, werden die erforderlichen Daten identifiziert, indem die Software zur Dokumentenerfassung nach Wörtern (oder Zahlen) sucht, die sich in der Nähe anderer spezifischer Wörter befinden. Zum Beispiel findet man eine Rechnungsnummer normalerweise relativ nah beim Wort „Rechnungsnummer“ auf einer Rechnung, meistens rechts daneben oder darunter. Bei der Rechnungserfassung wird die Software pro Lieferant „trainiert“, um die erforderlichen Informationen korrekt aus der Rechnung zu extrahieren und so für eine automatisierte Rechnungsverarbeitung zu sorgen.
Formularerkennung
Die Formularerkennung ist nicht viel mehr als eine Form der Datenextraktion, da Informationen aus einem Formular zur Verwendung in einem Prozess und / oder einem System extrahiert werden. Der Unterschied besteht jedoch darin, dass ein Formular ein zu 100 % strukturiertes Dokument ist. In der Regel sind alle Daten im Formular für den Prozess relevant (ansonsten werden zu viele Informationen im Formular abgefragt). Darüber hinaus ist die Formularerkennung in der Lage, im Formular enthaltene Boxen zu erkennen und in einen bestimmten Wert zu konvertieren, den ein digitaler Prozess verarbeiten kann.
Metadaten hinzufügen
Metadaten erfassen Informationen zu einem Dokument und sind mit dem Dokument verknüpft. Eine Software zur elektronischen Dokumentenerfassung kann in vielen Fällen dazu beitragen, diese Daten automatisch mit den Dokumenten zu verknüpfen. Beispielsweise kann der Dokumenttyp (in Verbindung mit der Dokumentenklassifizierung) mit einem Dokument verknüpft werden, oder weil bestimmte Informationen (z. B. eine Personalnummer oder ein Lieferanten- oder Kundenname) im Dokument erkannt wurden.
Es gibt verschiedene Gründe, Metadaten anzuwenden. Metadaten helfen dabei:
- Informationen besser auffindbar machen.
- Informationen schneller zu interpretieren oder einen Kontext zu bieten.
- Den Informationsaustausch (innerhalb oder außerhalb der Organisation) zu erleichtern.
- Die Zugänglichkeit von Informationen zu erhöhen.
- Die Informationen besser zu verwalten.
Capture, die BCT-Software zur digitalen Dokumentenerfassung
BCT bietet mit der Essentials Plattform eine professionelle Software zur elektronischen Dokumentenerfassung und digitaler Posteingangsverarbeitung auf serverbasierter Input-Management-Technologie an. Unsere spezifische Lösung zur digitalen Eingangsrechnungsverwaltung beispielsweise beherrscht die Erfassung papiergebundener und digitaler Belege, inkl. Übergabe an Folgesysteme wie ECM und ERP.