cancel
Showing results for 
Search instead for 
Did you mean: 

OCR Integration mit Dokumentindizierung

marcus2012
Champ in-the-making
Champ in-the-making
Hallo,

ich arbeite zurzeit daran, eine auf OCR basierende Sortierlösung für hochgeladene eingescannte Dokumente einzurichten.

Die Erkennung des Dokument-Inhalts funktioniert mit Tesseract und läuft auch soweit. Im zweiten Schritt suche ich nun eine Möglichkeit, den Text des gescannten Dokuments als Eigenschaft im Dokument selber zu hinterlegen.

Ziel des Ganzen ist es, dass ich dann über diesen hinterlegten Text die Dokumente über die Suche finden und - wenn benötigt - auch über die Regeln sortieren kann. Mein erster Gedanke war, dass ich die Eigenschaften des Dokuments erweitere (so wie es das tagging-sample aus dem SDK vorgibt).

Darum meine Frage: Wäre eine Implementierung ähnlich der des tagging-samples aus dem SDK sinnvoll oder gibt es noch einfachere und vor allem effektivere Wege dies zu tun? Mir geht es erstmal nur darum den besten Weg dafür zu finden.

MfG,
Marcus
11 REPLIES 11

afaust
Legendary Innovator
Legendary Innovator

Also Ephesoft gibt es auch als eine Community Edition, wobei ich mir die noch nicht näher angeschaut habe.

Im Endeffekt gibt es zwei Fragen: Wie kommen die Daten für eine Filterung / Sortierung ins System, und wie kann das in der Ansicht dargestellt werden. Für letzteres gibt es in Alfresco schon ausreichend Mittel per Facettierte Suche, Smart Folders oder einfach auch Regelwerke, die Dokumente nach bestimmten Metadaten ablegen.

Es bleibt in der Regel also nur die Frage nach dem Umfang / Art der Datenerfassung. Hier kommt es auf den Durchsatz an. Bis zu einer handvoll Dokumente am Tag bin ich ehrlich gesagt der Meinung dass die manuelle Erfassung zumutbar ist und der Aufwand einer technischen Lösung (Extraktion + automat. Klassifikation) i.d.R. in keinem Verhältnis zum geringen Mehrwert steht. Ein-Platz Lösungen von Scan/OCR Herstellern liegen i.d.R. <= 1.000,- € und sind daher meist günstiger als selbstgebaute Lösungen, zumindest wenn man seine eigene Freizeit sauber fakturiert.

Mit ein paar sauber konfigurierten Masken in Alfresco, sinnvoller Metadaten-Definition (Wertelisten) und ein paar kleinen Regelwerken lässt sich viel erreichen und auch eine größere Menge an rein privaten Dokumenten recht effektiv verwalten.

res44
Champ in-the-making
Champ in-the-making

Hallo Jürgen und Marcus

warum lasst Ihr eure Scan-& OCR-Software nicht das Dokument als PDF/A abspeichern: Dann sieht man im Vordergrund das gescannte Bild und dahinter ist der OCR-te Text hinterlegt.

Ich denke, dass alfresco dieses PDF ganz einfach nach Upload indiziert und auf Wunsch wiederfindet.

oder braucht Ihr was besonderes?

Gruss

Andreas