WCM Forum - ocr + pdf ?

WCM Forum (http://www.wcm.at/forum/index.php)

- Software (http://www.wcm.at/forum/forumdisplay.php?f=5)

- - ocr + pdf ? (http://www.wcm.at/forum/showthread.php?t=195597)

hy, wenn ich ein ocr programm mit pdf ausgabe hab krieg ich dann ein pdf in dem ich text markieren kann oder krieg ich eins in dem ich entweder den scan oder den erkannten text anzeigen lassen kann?
welches proggie taugt denn für automatische scans von a4 briefen ?

Zitat:

hy, wenn ich ein ocr programm mit pdf ausgabe hab krieg ich dann ein pdf in dem ich text markieren kann oder krieg ich eins in dem ich entweder den scan oder den erkannten text anzeigen lassen kann?

Wenn das PDF direkt vom Programmm erzeugt wird (nicht über Umweg durch drucken des Dokuments) sollte eigentlich ein PDF mit markier/durchsuchbarem Text erzeugt werden.

Gewöhnlich ist das vom OCR-Proggi erstellte PDF Text durchsuchbar/markierbar wenn das Programm Text auch als Text erkennt.

Probleme können nur schlecht lesbare Texte (kleine Schrift, Schrift über Bilder, ...) bereiten, weil hier die OCR manchmal nichts erkennt und daher das nicht-erkannte Objekt als Grafik in den Text reinsetzt. Bei ReadIris kannst dann auch vor dem Erstellen des PDFs Objekte aus der Erkennung ausschliessen (z.B. Flecken, von denen er glaubt dass sei Text).

Wobei wenn Du A4-Briefe einscannst (ich nehme an Geschäftskorrespondenz), dürften die oben beschriebenen Dinge eher selten auftreten und die Erkennung einigermassen funktionieren.

thx! ist das bei "bild im text" auch so, dass man im bild markiert und der text in die zwischenablage kopiert wird?

Was verstehst Du denn unter "bild im text", ein Bild wo Text drüber gelegt ist?

weiß ich eben nicht, hab das wo gelesen und aus dem text ging nicht hervor ob dieses feature bedeutet, dass der text mit der grafik direkt gekoppelt is oder angefügt

Ich schätz mal das heißt, dass du im PDF-Dokument das gescannte Bild siehst, im Hintergrund aber der markierbare Text liegt.
Im Extremfall sieht man eine Handgeschriebene Notiz wo man den OCR gescannten Text aber trotzdem markieren und kopieren kann.

jo, hab jetzt die trial von fine reader, tatsache es is so, ziemlich gut

Stimmt, diese Funktion gibt's auch noch, nur funktioniert das bei meiner (alten) ReadIris-Version 7.0 nur sehr schlecht. Haben die neueren Versionen das schon besser im Griff?

ich hab 4 dokus probiert und das funkt 1a. durcheinander kommt er an stellen mit stempeln oder unterschriften. sogar die funktion text ohne grafik sieht genau wie der scan aus. nur leider is die ocr-geschwindigkeit auf einem pentium 3ghz immer noch ziemlich zäh

Na dann, muss ich vielleicht doch mal einen neue Version in Erwägung ziehen... ich find halt OCR-Proggies immer so unverschämt teuer.

danke mr. red auf jeden Fall für die Info.

Okay, nur zu eurer Info. Bei meinem Scanner war Omnipage SE dabei - freudig installiert aber... :( ... die SE Version kann keine PDFs herstellen, das kann nur die Professional-Version.
Sollten bei besseren Scannern auch bessere Software beilegen *grummel*

die omnipage und fine reader "normal" versionen kosten max 200€.

die "coporate" oder ähnlich gennanten so um die € 900 !

ich frag mich, ob die
-genau dasselbe sind nur mit mehr lizenzen
-genau dasselbs sind nur ohne künstliche kastrierung
-viel besser sind

???

@Mr.Red
Habe das gefunden:

Zitat:

FineReader Corporate Edition bietet neben den Funktionen, die auch die FineReader Professional Edition beinhaltet, wichtige Features speziell für Unternehmensumgebungen:
* Hot Folder & Scheduling: Eine leistungsstarke Applikation für die automatisierte Verarbeitung von Bilddateien, die durch zuvor festgelegte Regeln von Multifunktionsgeräten oder Fax-Servern in einem speziellen Ordner abgelegt werden.
* Automatisierte Netzwerkinstallation: ABBYY FineReader kann von einem Server aus auf die einzelnen Workstations mittels Active Directory, Microsoft Systems Management Server oder der Befehlszeile installiert werden.
* Flexibles Lizenzmanagement: Mit diesem Utility werden die Lizenzen in einem Netzwerk zentral verwaltet und der Einsatz von ABBYY FineReader Corporate Edition auf den Workstations überwacht. Die kosteneffizienten Concurrent Lizenzen ermöglichen die Installation des Programms auf allen Workstations. Das Standardpaket beinhaltet drei Concurrent Lizenzen und ermöglicht es somit bis zu drei Anwendern, OCR gleichzeitig durchzuführen.
* Unterstützung von Netzwerk-Scannern: Durch FineReader Corporate Edition können Sie Ihre Multifunktionsgeräte (MFP), digitalen Kopierer oder All-In-One-Geräte mit OCR-Funktionalität erweitern.
* Zusammenarbeit in einem Netzwerk: Das Programm ermöglicht die gemeinsame Nutzung von eigenen Benutzersprachen, Wörterbüchern und sofort einsetzbaren automatisierten Aufgaben innerhalb einer Gruppe.

Dürfte sich vorwiegend um die Netzwerkfähigkeit und das Lizenzmodell handeln (alle Rechner im Netzwerk dürfen installieren, bis zu 3 Anwender gleichzeitig damit arbeiten).

also office hat ein ocr tool dabei...

einfach das pdf mittels screenshot in ein word dokument.
das word dokument mit Microsoft Office Image Writer drucken
und wenn du dieses *.mdi file dann öffnest gibts unter Tools
ocr

hab mir so viel ärger erspart
den text musst halt noch nachbearbeiten weil bei manchen Zeichen das Ocr versagt :D

hat aber recht gut funktioniert...

@Mr.Red

Mir ist ein Unterschied "im Betrieb" aufgefallen. Die Office-Version des Fine Readers hat eine Zusatzfunktion namens "Spracheditor". Damit hast Du die Möglichkeit wenn Du z.B. immer Artikellisten einscannst eine Art Datenstrukturmaske vorzugeben. Z.B. kannst Du vorgeben dass der zuerkennende Text nur die Zeichen .0123456789BDFGLRW- enthält und die ersten 3 Zeichen der 2ten Spalte der Tabelle lauten immer DRG gefolgt von einer 2 stelligen Zahl etc...

Diese Funktion ist bei der normalen Vollversion nicht dabei.

cool das mit office, werd ich gleich probieren! die funktion mit automatisch ocr und netzwerkfolder is leider genau das was ich gebraucht hätt, is ja sonst spasslos wenn der kopierer schon ins netzwerk scannt.