Horst Felder
2019-01-23 15:34:29 UTC
Hallo!
Ich habe mehrere hundert Texte gescannt. Nach dem OCR der Scans mit
tesseract-ocr möchte ich noch automatisch die Zeilenumbrüche (LF)
entfernen und getrennte Wörter zusammenfügen (und natürlich den
Trennungsstrich entfernen). Die Absätze sollen aber bestehen bleiben.
Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
behebt sie nicht automatisch) und das Gnome-Programm gimagereader
zutage gefördert. Letzteres macht bei der Nachbearbeitung des
OCR-Textes genau das was ich will, es kann u.a. die Umbrüche entfernen
(Absätze bleiben bestehen) und die getrennten Wörter wieder
zusammenfügen. Leider kann man das nicht automatisieren.
Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?
Ich habe mehrere hundert Texte gescannt. Nach dem OCR der Scans mit
tesseract-ocr möchte ich noch automatisch die Zeilenumbrüche (LF)
entfernen und getrennte Wörter zusammenfügen (und natürlich den
Trennungsstrich entfernen). Die Absätze sollen aber bestehen bleiben.
Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
behebt sie nicht automatisch) und das Gnome-Programm gimagereader
zutage gefördert. Letzteres macht bei der Nachbearbeitung des
OCR-Textes genau das was ich will, es kann u.a. die Umbrüche entfernen
(Absätze bleiben bestehen) und die getrennten Wörter wieder
zusammenfügen. Leider kann man das nicht automatisieren.
Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?
--
Mit freundlichen Grüßen
Horst Felder - www.flohheim.de
GNU/Linux; damit ich auch morgen noch vernünftig arbeiten kann!
Mit freundlichen Grüßen
Horst Felder - www.flohheim.de
GNU/Linux; damit ich auch morgen noch vernünftig arbeiten kann!