Page 1 of 1

OCR,Xsane, Spalten, wer hat Erfahrung?

Posted: Sat 02 Apr 2016, 16:05
by oui
Hallo,

OCR,Xsane, Spalten, wer hat Erfahrung? Die Ergebnisse mit gocr sind miserable. Gescannt habe ich nach Linien, Einstellung 300 (CanoScan N1240U). Gepeichert als Text und jpeg. Die Texterkennung ist eher miserable. Ausserdem handelt es sich um ein Buch. Jede Seite 2-spaltig. Musste hintereinander jede Spalte dran nehmen. Gäbe es ein anderer Weg?

Gruß

Puppyocr with Puppy Linux

Posted: Sun 03 Apr 2016, 01:12
by Pelo
Tesseract, with Lubuntu Puppyocr with Puppy Linux

Posted: Mon 04 Apr 2016, 19:41
by HoerMirAuf
Nachdem michs interessiert hat, hab ich mir mal ein wenig arbeit gemacht.

Raus gekommen ist OCRGui-2.2. Tesseract-3.04 mit den Sprachdateien deutsch, englisch, französisch an Bord. Der Rest ist aber nachladbar auf der Tesseract Seite. Datenverzeichniss ist /opt/tesseract-ocr/share/tessdata.
Hunspell Rechtschreibprüfung gibts auch inOCRGui, braucht man halt die Wörterbücher.

Ebenso ist gocr on Board (ohne Datenbanken).

Eine deutsche Übersetzung hab ich auf die Schnelle, so gut ich konnte auch noch für OCRGui gebastelt.

Erstellt wurde das ganze unterm alten Slacko-5.6 müsste also bei vielen puppys laufen.


OCRGui-2.2.pet 33MB

Viel Spaß beim testen. :)

Posted: Sun 10 Apr 2016, 19:32
by Karl Godt
HoerMirAuf wrote: Erstellt wurde das ganze unterm alten Slacko-5.6 müsste also bei vielen puppys laufen.


OCRGui-2.2.pet 33MB

Viel Spaß beim testen. :)
Na, dann werd ich mir das einmal mit wget -c --limit-rate=5k heranschmeissen .
Bei 2-G Verbindung .
Damit habe ich mich auch schon beschaeftigt , lange 2 oder mehr Jahre her .
War nicht so berauschend damals .

Darf ich fragen , ob es compilliert wurde oder aus Schlackenware-Packeten zusammengesetzt wurde ?

Posted: Sun 10 Apr 2016, 19:40
by Karl Godt
Wurstkeks , super bescheiden mit wget ..
Gerade firefox dran und der DL-Hantierer ist im Gegensatz zu Seamonkey fuer den Ars*h .

Posted: Sun 10 Apr 2016, 22:02
by Karl Godt
DL ist wider erwarten komplett geglueckt .
Entpackt mit pet2tgz .
Scheint vollstaendig zu sein .

Auf meiner Macpup-511 (Puppy-511) installation scheint es zu fungunieren .
GLIBC-2.11.1 .

Aber morgen ersteinmal in sfs umwandeln .

Posted: Mon 11 Apr 2016, 06:17
by HoerMirAuf
Morsche Karl.

freut mich das der Download geklappt hat... bei ner 2G Verbindung 33MB zu ziehen macht bestimmt Spaß ;)

Alles im pet ist selbst aus den sourcen gebacken, öhm compiliert, nix von anderen Paketen geklaut ;)
Edit: .... ach doch !! convert aus ImageMagic hab ich von debian/wheezy geklaut. Das von Slacko wollte leider nicht.

Bei tesseract musste ich mich allerdings auf die 3.04 Version beschränken. die aktuelle Development verabreitet OCR Gui nicht. Der C-Code ist da nicht sauber geschrieben der die tesseract Versionen auswertet und kann mit der bezeichnung "dev" in der tesseract Versionsbezeichnung nix anfangen. Hab mir das zwar angeschaut (ocr-preferences.h) aber wegen mangelenden C Kentnissen dann lieber die tesseract Version gewählt die OCR Gui auch nimmt. Ist möglicherweise eine interessante Info sollt jemand versuchen die tesseract version für OCRGui zu aktuallisieren.

Just practice to get an accurate idea.

Posted: Wed 13 Apr 2016, 21:43
by Pelo
peasyscan includes Tesseract OCR rcnsr 51 topic here.
Puppy Ocr pets are not a bargain OCR, there are an improvement of existing ones.
Just practice to get an accurate idea. Succes is due a lot to the document to OCRize.