OCR,Xsane, Spalten, wer hat Erfahrung?

Post Reply
Message
Author
oui

OCR,Xsane, Spalten, wer hat Erfahrung?

#1 Post by oui »

Hallo,

OCR,Xsane, Spalten, wer hat Erfahrung? Die Ergebnisse mit gocr sind miserable. Gescannt habe ich nach Linien, Einstellung 300 (CanoScan N1240U). Gepeichert als Text und jpeg. Die Texterkennung ist eher miserable. Ausserdem handelt es sich um ein Buch. Jede Seite 2-spaltig. Musste hintereinander jede Spalte dran nehmen. Gäbe es ein anderer Weg?

Gruß

Pelo

Puppyocr with Puppy Linux

#2 Post by Pelo »

Tesseract, with Lubuntu Puppyocr with Puppy Linux

User avatar
HoerMirAuf
Posts: 255
Joined: Tue 22 Jan 2008, 12:11
Location: Würzburg

#3 Post by HoerMirAuf »

Nachdem michs interessiert hat, hab ich mir mal ein wenig arbeit gemacht.

Raus gekommen ist OCRGui-2.2. Tesseract-3.04 mit den Sprachdateien deutsch, englisch, französisch an Bord. Der Rest ist aber nachladbar auf der Tesseract Seite. Datenverzeichniss ist /opt/tesseract-ocr/share/tessdata.
Hunspell Rechtschreibprüfung gibts auch inOCRGui, braucht man halt die Wörterbücher.

Ebenso ist gocr on Board (ohne Datenbanken).

Eine deutsche Übersetzung hab ich auf die Schnelle, so gut ich konnte auch noch für OCRGui gebastelt.

Erstellt wurde das ganze unterm alten Slacko-5.6 müsste also bei vielen puppys laufen.


OCRGui-2.2.pet 33MB

Viel Spaß beim testen. :)
[size=75][color=blue]Bionic64[/color][/size]

User avatar
Karl Godt
Posts: 4199
Joined: Sun 20 Jun 2010, 13:52
Location: Kiel,Germany

#4 Post by Karl Godt »

HoerMirAuf wrote: Erstellt wurde das ganze unterm alten Slacko-5.6 müsste also bei vielen puppys laufen.


OCRGui-2.2.pet 33MB

Viel Spaß beim testen. :)
Na, dann werd ich mir das einmal mit wget -c --limit-rate=5k heranschmeissen .
Bei 2-G Verbindung .
Damit habe ich mich auch schon beschaeftigt , lange 2 oder mehr Jahre her .
War nicht so berauschend damals .

Darf ich fragen , ob es compilliert wurde oder aus Schlackenware-Packeten zusammengesetzt wurde ?
«Give me GUI or Death» -- I give you [[Xx]term[inal]] [[Cc]on[s][ole]] .
Macpup user since 2010 on full installations.
People who want problems with Puppy boot frugal :P

User avatar
Karl Godt
Posts: 4199
Joined: Sun 20 Jun 2010, 13:52
Location: Kiel,Germany

#5 Post by Karl Godt »

Wurstkeks , super bescheiden mit wget ..
Gerade firefox dran und der DL-Hantierer ist im Gegensatz zu Seamonkey fuer den Ars*h .
«Give me GUI or Death» -- I give you [[Xx]term[inal]] [[Cc]on[s][ole]] .
Macpup user since 2010 on full installations.
People who want problems with Puppy boot frugal :P

User avatar
Karl Godt
Posts: 4199
Joined: Sun 20 Jun 2010, 13:52
Location: Kiel,Germany

#6 Post by Karl Godt »

DL ist wider erwarten komplett geglueckt .
Entpackt mit pet2tgz .
Scheint vollstaendig zu sein .

Auf meiner Macpup-511 (Puppy-511) installation scheint es zu fungunieren .
GLIBC-2.11.1 .

Aber morgen ersteinmal in sfs umwandeln .
«Give me GUI or Death» -- I give you [[Xx]term[inal]] [[Cc]on[s][ole]] .
Macpup user since 2010 on full installations.
People who want problems with Puppy boot frugal :P

User avatar
HoerMirAuf
Posts: 255
Joined: Tue 22 Jan 2008, 12:11
Location: Würzburg

#7 Post by HoerMirAuf »

Morsche Karl.

freut mich das der Download geklappt hat... bei ner 2G Verbindung 33MB zu ziehen macht bestimmt Spaß ;)

Alles im pet ist selbst aus den sourcen gebacken, öhm compiliert, nix von anderen Paketen geklaut ;)
Edit: .... ach doch !! convert aus ImageMagic hab ich von debian/wheezy geklaut. Das von Slacko wollte leider nicht.

Bei tesseract musste ich mich allerdings auf die 3.04 Version beschränken. die aktuelle Development verabreitet OCR Gui nicht. Der C-Code ist da nicht sauber geschrieben der die tesseract Versionen auswertet und kann mit der bezeichnung "dev" in der tesseract Versionsbezeichnung nix anfangen. Hab mir das zwar angeschaut (ocr-preferences.h) aber wegen mangelenden C Kentnissen dann lieber die tesseract Version gewählt die OCR Gui auch nimmt. Ist möglicherweise eine interessante Info sollt jemand versuchen die tesseract version für OCRGui zu aktuallisieren.
[size=75][color=blue]Bionic64[/color][/size]

Pelo

Just practice to get an accurate idea.

#8 Post by Pelo »

peasyscan includes Tesseract OCR rcnsr 51 topic here.
Puppy Ocr pets are not a bargain OCR, there are an improvement of existing ones.
Just practice to get an accurate idea. Succes is due a lot to the document to OCRize.

Post Reply