Discussion:
OT: Komandozeilenprogramm/Script zur Nachbearbeitung von OCR
(zu alt für eine Antwort)
Horst Felder
2019-01-23 15:34:29 UTC
Permalink
Hallo!

Ich habe mehrere hundert Texte gescannt. Nach dem OCR der Scans mit
tesseract-ocr möchte ich noch automatisch die Zeilenumbrüche (LF)
entfernen und getrennte Wörter zusammenfügen (und natürlich den
Trennungsstrich entfernen). Die Absätze sollen aber bestehen bleiben.

Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
behebt sie nicht automatisch) und das Gnome-Programm gimagereader
zutage gefördert. Letzteres macht bei der Nachbearbeitung des
OCR-Textes genau das was ich will, es kann u.a. die Umbrüche entfernen
(Absätze bleiben bestehen) und die getrennten Wörter wieder
zusammenfügen. Leider kann man das nicht automatisieren.

Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?
--
Mit freundlichen Grüßen
Horst Felder - www.flohheim.de
GNU/Linux; damit ich auch morgen noch vernünftig arbeiten kann!
Axel Berger
2019-01-23 16:17:48 UTC
Permalink
Post by Horst Felder
Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?
Jeder gescheite Editor sollte das können. Mit Kommandozeile aufgerufen
läßt der sich auch in den Ablauf eines Shellscriptes integrieren oder,
oft besser, Du realisierst gleich alles als Editorscript.
--
/¯\ No | Dipl.-Ing. F. Axel Berger Tel: +49/ 221/ 7771 8067
\ / HTML | Roald-Amundsen-Straße 2a Fax: +49/ 221/ 7771 8069
 X in | D-50829 Köln-Ossendorf http://berger-odenthal.de
/ \ Mail | -- No unannounced, large, binary attachments, please! --
Horst Felder
2019-01-24 10:42:41 UTC
Permalink
Hallo Axel!
Post by Axel Berger
Post by Horst Felder
Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?
Jeder gescheite Editor sollte das können.
Was nennst du einen »gescheiten Editor«?
Post by Axel Berger
Mit Kommandozeile aufgerufen läßt der sich auch in den Ablauf eines
Shellscriptes integrieren oder, oft besser, Du realisierst gleich
alles als Editorscript.
Gibt es ein fertiges Script für diese Aufgabe? Ich möchte nicht in
eine Editorscriptsprache eintauchen, nur um dieses eine Aufgabe zu
lösen…

Gibt es für dieses Problem echt keine fertige Lösung? Ich bin doch
bestimmt nicht der Erste, der gescannte Texte automatisch nach
bearbeiten will…
--
Mit freundlichen Grüßen
Horst Felder - www.flohheim.de
GNU/Linux; damit ich auch morgen noch vernünftig arbeiten kann!
Axel Berger
2019-01-24 23:28:23 UTC
Permalink
Was nennst du einen »gescheiten Editor«?
Für mich ist das NoteTab pro von http://www.fookes.com/notetab/index.php

Aber jeder Editor, der den Namen verdient, ist makrofähig, deshalb
möchte ich in solchen Kommentaren niemandem eine Vorgabe machen.
Ich möchte nicht in
eine Editorscriptsprache eintauchen, nur um dieses eine Aufgabe zu
lösen…
Du mußt es selbst wissen, aber für mich ist gerade das der
entscheidenden Hauptvorteil von TeX, daß ich mit meinem Editor arbeiten
und sehr vieles automatisieren kann, was ich in Officeprogrammen
mühsamst und einzeln zusammenklicken müßte.

Für ein Exemplar von was auch immer ist es fast immer mühsamer, auf der
Tastatur so lange Parameter zu ändern, bis es paßt, als die Sache mit
der Maus hinzuschieben. Der Vorteil entsteht dann, wenn ich sagen kann
"so, daß ist jetzt optimal -- die nächsten 783 bitte ganz ganz genau so"
und mich entspannt zurücklehen, wenn der Rechner lösrödelt und ins
Schwitzen kommt.

Ich lebe mit meinem Editor, benutze ihn für fast alles und habe die
Mächtigkeit seiner Makrosprachen lieben und verehren gelernt.
Ich bin doch
bestimmt nicht der Erste, der gescannte Texte automatisch nach
bearbeiten will…
Nö, ich mache das mindestens jede Woche. Und ich hasse mich einengende
Fertiglösungen außer als Beispiel, mit dem ich anfangen und das ich nach
meinen Bedürfnissen bearbeiten kann. Mein Editor hat auch eine aktive
und sehr hilfsbereite Usergemeinschaft.
--
/¯\ No | Dipl.-Ing. F. Axel Berger Tel: +49/ 221/ 7771 8067
\ / HTML | Roald-Amundsen-Straße 2a Fax: +49/ 221/ 7771 8069
 X in | D-50829 Köln-Ossendorf http://berger-odenthal.de
/ \ Mail | -- No unannounced, large, binary attachments, please! --
Horst Felder
2019-01-26 12:20:27 UTC
Permalink
Hallo Axel!
Post by Axel Berger
Was nennst du einen »gescheiten Editor«?
Für mich ist das NoteTab pro von
http://www.fookes.com/notetab/index.php
Aber jeder Editor, der den Namen verdient, ist makrofähig, deshalb
möchte ich in solchen Kommentaren niemandem eine Vorgabe machen.
Mein bevorzugter grafischen Editor ist Geany… und der kann mit einem
Plugin auch Makros… ich schau mir das mal an… wenn die Lernkurve
nicht zu steil ist…

Danke für den Tipp!
--
Mit freundlichen Grüßen
Horst Felder - www.flohheim.de
GNU/Linux; damit ich auch morgen noch vernünftig arbeiten kann!
Rolf Niepraschk
2019-01-26 11:36:31 UTC
Permalink
Post by Horst Felder
Hallo!
Ich habe mehrere hundert Texte gescannt. Nach dem OCR der Scans mit
tesseract-ocr möchte ich noch automatisch die Zeilenumbrüche (LF)
entfernen und getrennte Wörter zusammenfügen (und natürlich den
Trennungsstrich entfernen). Die Absätze sollen aber bestehen bleiben.
Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
behebt sie nicht automatisch) und das Gnome-Programm gimagereader
zutage gefördert. Letzteres macht bei der Nachbearbeitung des
OCR-Textes genau das was ich will, es kann u.a. die Umbrüche entfernen
(Absätze bleiben bestehen) und die getrennten Wörter wieder
zusammenfügen. Leider kann man das nicht automatisieren.
Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?
Das ist sicher eine leichte Aufgabe für »sed«
(https://www.gnu.org/software/sed/). Wenn Du einen kurzen Beispieltext
hier bieten würdest, würde vielleicht jemand, der gerade nichts besseres
zu tun hat, probieren können.

...Rolf
Horst Felder
2019-01-26 12:01:23 UTC
Permalink
Hallo Rolf!
Post by Rolf Niepraschk
Post by Horst Felder
Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?
Das ist sicher eine leichte Aufgabe für »sed«
(https://www.gnu.org/software/sed/). Wenn Du einen kurzen
Beispieltext hier bieten würdest, würde vielleicht jemand, der
gerade nichts besseres zu tun hat, probieren können.
Ich wollte das Rad nicht neu erfinden… ich war sicher, das es da
schon eine mehr oder fertige Lösung geben würde… war wohl ein Irrtum.
Post by Rolf Niepraschk
Wenn Du einen kurzen Beispieltext hier bieten würdest, würde
vielleicht jemand, der gerade nichts besseres zu tun hat, probieren
können.
Die Frage habe ich zuerst in de.comp.os.unix.shell gestellt und habe
damit eine Lawine ausgelöst… die diskutieren sich gerade die Köpfe
heiß, wie das zu lösen wäre…

Wenn ich noch etwas warte, kann ich vielleicht dort eine Lösung
abschöpfen…

Trotzdem Danke für das Angebot!

Einen schönen Tag noch!
Post by Rolf Niepraschk
...Rolf
--
Mit freundlichen Grüßen
Horst Felder - www.flohheim.de
GNU/Linux; damit ich auch morgen noch vernünftig arbeiten kann!
Axel Berger
2019-01-26 16:05:39 UTC
Permalink
Ich wollte das Rad nicht neu erfinden… ich war sicher, das es da
schon eine mehr oder fertige Lösung geben würde
der kann mit einem Plugin auch Makros… ich schau mir das mal
an… wenn die Lernkurve nicht zu steil ist…
Es lohnt sich auf jeden Fall und Du mußt es ja nur einmal machen. Wenn
man einmal ein kleines Bißchen drinsteckt, dann ist so ein simpler
Dreizeiler für eine bestimmte konkrete Aufgabe um viele Größernordnugen
schneller und müheloser selbst geschrieben, als hunderte irgendwo
verstreut abgelegte Skripte nach dem einen genau passenden zu
durchsuchen -- ganz abgesehen von der Aufgabe dann auch noch dessen
Syntax und Parameter lernen zu müssen. Gute Beschreibungen sind seltener
als Goldstaub.
--
/¯\ No | Dipl.-Ing. F. Axel Berger Tel: +49/ 221/ 7771 8067
\ / HTML | Roald-Amundsen-Straße 2a Fax: +49/ 221/ 7771 8069
 X in | D-50829 Köln-Ossendorf http://berger-odenthal.de
/ \ Mail | -- No unannounced, large, binary attachments, please! --
Loading...