OCR

Message
Author
Pelo

mes travaux avec Puppy OCR.

#16 Post by Pelo »

mes travaux avec Puppy OCR.
ROC : à voir, c'est une suggestion.
quel est le but : eviter de retaper un texte photographié pour gagner du temps. Si océriser va plus vite OK, si Océriser vous oblige à retaper les caractères bancales, vous allez vite renoncer.
Le plus rapide ? lire le texte à haute voix et vous enregistrer avec pRecord. et faites une video sur le sujet, avec des belles images.
Les pets sont fournis page 1. là j'ai des soucis avec la Puppy, plus de souris. Je vous laisse.
Attachments
puppyocr.jpg
Textes anciens.
(104.07 KiB) Downloaded 269 times

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#17 Post by Dorothée »

Pelo, merci pour toutes tes recherches, tu es une mine d'infos!

J'ai corrigé une petite erreur dans mon post plus haut. Le nom du fichier langue en anglais est eng.traineddata et non en.traineddata. Je continue mes essais.

Comme je l'ai écrit, la différence entre lepic2txt-batch et le pic2txt.pet (ou sfs) est que le premier permet de scanner d'un coup toutes les images d'un dossier, alors que le deuxième est une interface (gui) qui scanne les images une par une. Mais l'interface a un gros avantage, c'est que l'on peut changer le pourcentage - mais il ne faut pas oublier pour ça de monter imagechanger - et donc faire des essais (et ensuite modifier la taille de toutes les images en conséquence pour utiliser le batch?)

L'idéal serait d'inclure dans le script du batch la possibilité de changer la taille. Mais ça, je ne sais pas faire.

Tesseract a aussi une interface (gui), mais chez moi, pour une question que je n'ai pas résolue, ça ne marche pas.

PS: au fait, Pelo, puppyOCR est intéressant, mais il est basé sur.... tesseract.

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#18 Post by Dorothée »

Continuant mes recherches, j'ai trouvé comment redimensionner toutes les images d'un même dossier.

C'est avec imagemagick.

Voici la marche à suivre:

1) Monter imagemagick (en sfs ou le pet)

2) Mettre toutes les images dans un dossier

3) Ouvrir un terminal dans ce dossier (clic droit fenêtre terminal ici)

4) taper

Code: Select all

mogrify -resize %requis *.tif (selon le format d'image)
exemple:

Code: Select all

mogrify -resize 50% *.tif
ATTENTION: Si l'on s'arrête là, les images SONT REMPLACÉES PAR LES NOUVELLES.

Il faut donc donner le chemin d'un dossier de destination

exemple:

Code: Select all

mogrify -resize 50% *.tif -path /root/images50pc/
(il y a aussi "convert" - voir la page ubuntu citée plus bas)
Cela m'a permis de résoudre mon problème. Je teste d'abord quel est le meilleur pourcentage de mes images pour la reconnaissance de caractère (avec Tesseract et l'interface pic2txt), ensuite je redimensionne les images avec imagemagick, et enfin je scanne le tout avec le batch pic2txt-batch (voir mon post au-dessus)

Un peu fastidieux certes, il y a sûrement mieux, mais efficace.

J'en profite pour faire la pub d'imagemagick, dont vous trouverez toutes les fonctions (impressionnantes!) ici: https://doc.ubuntu-fr.org/imagemagick
Tout est en ligne de commande, mais pour les anciens ouindozeurs comme moi, c'est un bon exercice.

À bientôt.

Pelo

PuppyOCR est basé sur Tesseract

#19 Post by Pelo »

Comme pas mal d'appications Puppy, PuppyOCR est basé sur Tesseract certes, mais en l'améliorant, en l'allégeant et en le rendant convivial.
Vous allez devoir linuxer pour adapter vos logiciels à votre Puppy. Alors que de braves gens l'ont déjà fait pour vous, avec Puppy OCR, dans le temps, quand ils étaient patients.
Mais ce sont des mots. Si vous voulez pas l'essayer, vous saurez jamais.
Pas mal de linuxiens ne veulent pas de Puppy, trop petit, pas assez cher, mon fils. Mais vous , Mais toi, DOOroothée ?

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#20 Post by Dorothée »

Tu as raison Pelo, c'est mieux quand on trouve des applications clé en main. Mais en matière de Puppy, ou linux, ça ne marche pas toujours comme sur des roulettes. En ce qui me concerne, j'ai des applications-phares, qui tournent toutes seules, et puis de temps en temps, je bidouille. Ça aiguise ma curiosité, me fait apprendre un peu, c'est sympa.

Quant à Puppy, l'essayer, c'est l'adopter!

augras
Posts: 1487
Joined: Mon 11 Nov 2013, 17:37
Location: france

#21 Post by augras »

Dorothée wrote:Continuant mes recherches, j'ai trouvé comment redimensionner toutes les images d'un même dossier.
Bonjour Dorothée,
Il y a beaucoup plus simple en utilisant Peasyscale de l'ami rcrsn51 : http://www.murga-linux.com/puppy/viewtopic.php?p=617584
C'est tout simplement... hyper simple et efficace, image par image ou bien dossier complet.
Pour l'ocr je n'y connais rien.
Philippe

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#22 Post by Dorothée »

Augras, merci pour le tuyau, d'autant que peasyscale est déjà installé sur Precise (ou en tout cas Triton).

C'est très pratique, c'est vrai. Le seul hic, c'est que la version que j'ai n'a l'air de traiter que les jpg, et que l'ocr se fait avec des images au format tif. Il faut que je l'actualise.

On avance, on avance...

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#23 Post by Dorothée »

Dans un post plus haut, j'ai commenté comment j'avais dribblé la restriction de langue du patch pic2txt-batch proposé par rscrnnn, en changeant fra.traineddata en eng.traineddata.

C'était évidemment du malabarisme, il y a plus simple et qui prête moins à confusion.

Si vous souhaitez utiliser pic2txt-batch en français (en mettant le fra.traineddata dans /usr/share/tessdata), il faut, après avoir décompacté pic2txt-batch.tar.gz dans /usr/bin/, ouvrir ce script et modifier la ligne 28 en remplaçant eng par fra.

Par contre, je ne sais pas comment faire pour gérer plusieurs langues.

À bientôt,

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#24 Post by Argolance »


User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#25 Post by Dorothée »

Merci,

je vais y faire un tour et rendre compte de mes expériences.

À bientôt,

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#26 Post by Dorothée »

Après plusieurs tentatives, j'ai décidément du mal avec les interfaces graphiques (gui), auxquelles il manque toujours des librairies.

Mais je commence à m'en sortir assez bien avec la ligne de commande, et pour mon travail actuel, cela me convient.

En changeant un peu de sujet, quelqu'un peut-il me dire comment lister les librairies manquantes d'un logiciel dans la console? J'ai noté cela quelque part, mais je ne sais plus où.

Merci d'avance, à bientôt,

Pelo

ldd /usr/bin/osmo

#27 Post by Pelo »

ldd le chemin du binaire
ldd /usr/bin/osmo
# ldd /usr/bin/osmo
linux-gate.so.1 => (0xffffe000)
libgtk-x11-2.0.so.0 => /usr/lib/libgtk-x11-2.0.so.0 (0xb731a000)
libgdk-x11-2.0.so.0 => /usr/lib/libgdk-x11-2.0.so.0 (0xb726b000)
libpangocairo-1.0.so.0 => /usr/lib/libpangocairo-1.0.so.0 (0xb725d000)
libgdk_pixbuf-2.0.so.0 => /usr/lib/libgdk_pixbuf-2.0.so.0 (0xb723c000)
libcairo.so.2 => /usr/lib/libcairo.so.2 (0xb7171000)
libpango-1.0.so.0 => /usr/lib/libpango-1.0.so.0 (0xb7127000)
libgobject-2.0.so.0 => /usr/lib/libgobject-2.0.so.0 (0xb70d9000)
.....

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#28 Post by Dorothée »

Merci Pelo,

au moins maintenant, je saurai ce qui manque. L'étape suivante sera de trouver ce qui manque...

À bientôt,

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#29 Post by Argolance »

Bonjour,
Je viens de compiler "ocrgui" (lien donné plus haut) et fait un fichier SFS, installé ImageMagick et tesseract ainsi que ses dépendances via le PPM (ToOpPy basée, comme Triton 5.0, sur Puppy Precise 5.7.1).
Et ça marche nickel! :D
Reste que l'interface est en anglais et que la seule langue disponible est l'italien, langue du concepteur Emanuele Sicchiero. Je vais donc faire la traduction et reviendrai rendre compte du résultat quand ce sera au point, car il y a des modifications à apporter ici et là pour que ça fonctionne, notamment le fichier desktop, sans quoi le programme n'apparait pas dans le MENU.

[EDIT]: Traduction effectuée!.

Cordialement.
Attachments
170930_165938_866x697_easyshot.jpg
(77.56 KiB) Downloaded 96 times
170930_115609_804x686_easyshot.jpg
(94.94 KiB) Downloaded 107 times

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#30 Post by Dorothée »

Argolance, tu es top!

J'attends ton sfs avec impatience. Une interface graphique qui marche, quel luxe!

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#31 Post by Argolance »

Bonjour,
Voici le SFS de OcrGui 2.2, compilé sur ToOpPy (Puppy Precise 5.7.1) à tester et qui devrait également fonctionner sur Triton 5.0...
Langues disponibles: en, fr, it
-------------------------------------------------------------------------------------------------------------------------------------------
:idea: Pour ceux qui seraient tentés de compiler directement à partir des sources s'ils utilisent une autre version de Puppy, elles se trouvent dans le même répertoire. Le fichier d'origine modifié pour que le programme s'affiche correctement dans le menu a été renommé en "/data/ocrgui.desktop.in.ori".

:arrow: Fichier SFS <<<
:arrow: Paquet pet <<<

:arrow: Répertoire distant des sources à compiler <<<

Marche à suivre:
  • Charger le SFS de développement "devx" propre à la version de Puppy.
    Décompresser le fichier source quelque part, par exemple dans /root.
    Se placer dans le dossier décompressé.
    Clic droit sur une partie vide.
    Dans le menu ROX, sélectionner >Fenêtre>Terminal ici, et taper (ou sélectionner/coller avec le bouton gauche):

    Code: Select all

     ./configure --prefix=/usr --localedir=/usr/share/locale
    puis:

    Code: Select all

    make
    puis:

    Code: Select all

    make install
    si on veut l'installer directement dans le système, ou alors (recommandé):

    Code: Select all

    make install DESTDIR=/chemin/du/dossier
    si on veut construire un dossier qui pourra ensuite être transformé en SFS ou en paquet pet (ce chemin peut être, par exemple /root/ocrgui-2.2).
    • Commandes:

      Code: Select all

      dir2sfs /root/ocrgui-2.2
      pour construire un fichier SFS.

      Code: Select all

      dir2pet /root/ocrgui-2.2
      pour construire un paquet pet.
NOTE: le tiret entre "ocrgui" et le numéro de version est important puisqu'il permet à la commande dir2pet de bien libeller le programme dans le fichier "pet.specs" intégré au paquet et utilisé par PPM dans le listage des paquets installés.

Merci de vos retours.

@felixbd
Je me permets, simple suggestion, de te demander s'il ne serait pas judicieux de remplacer l'intitulé de ce fil, "ROC" par "OCR", car je pense que "ROC" (qui n'évoquait rien pour moi au départ!) exclut ce fil des recherches faites sur le terme "OCR" par d'autres utilisateurs non francophones du Forum pouvant être intéressés par son contenu?

Cordialement.
Last edited by Argolance on Thu 19 Oct 2017, 17:07, edited 1 time in total.

felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

#32 Post by felixbd »

@ Argolance, merci pour ta remarque : j'ai modifié en conséquence l'intitulé de ce fil. Mon insistance à vouloir utiliser le français confine parfois au chauvinisme ! Inutile toutefois de persister dans l'erreur puisque le but d'un forum est de se faire comprendre du plus grand nombre.
J'essaierai de tester OCRGui 2.2, merci d'avance pour ton travail.

Je me suis livré, ces temps derniers, à quelques comparaisons concernant la reconnaissance de caractères. Jusque-là, et avant de tester OCRGui, c'est Yagf qui donne les meilleurs résultats, avec une quantité d'erreurs négligeable.

Je n'avais qu'une difficulté : je ne pouvais utiliser Yagf sous Triton... mais la nouvelle version 6 (merci également à Petihar) permet une installation facile de Yagf. Il fonctionne lui aussi avec Tesseract et nécessite donc l'installation des paquets habituels. Seul problème, mais que tu as résolu avec OCRGui : l'interface (très simple) est en anglais.
Cordialement.

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#33 Post by Dorothée »

Argolance,

merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...

Je suis aussi intéressée par la deuxième manière, pour apprendre un peu. Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...

Félix, tu m'intéresse avec Yagf, je vais y regarder de plus près, comme je suis moi aussi plongée dans des travaux d'ocr. Mais quand même, une chose m'intrigue, dans la mesure où tous ces outils sont basés sur Tesseract (n'est-ce pas lui qui fait tout le boulot?), comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?

À bientôt et merci,
Last edited by Dorothée on Sun 01 Oct 2017, 18:28, edited 1 time in total.

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#34 Post by Argolance »

Dorothée wrote:merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...
OcrGui fonctionne soit avec l'un, soit avec l'autre, soit avec les deux s'ils sont installés.
Je suis aussi intéressée par la deuxième manière, pour apprendre un peu.Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...
En suivant la marche à suivre tu ne devrais pas avoir de soucis et ça te mettras le pied à l'étrier, comme on dit!
comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?
Je pense que ce sont les options des moteurs de reconnaissance optique eux-mêmes qui sont configurables de façon plus conviviale via les interfaces de OcrGui ou de Yagf (que je ne connais pas mais qui doit fonctionner de la même façon), et qui permettent d'affiner la façon dont les différents éléments des images sont interprétés.

Cordialement.

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#35 Post by Dorothée »

J'ai compris.

Dans ce cas, vu les options des préférences, avec OcrGui c'est Gocr qui est le plus pointu. Tesseract doit l'être aussi, mais cette interface propose des options avec Gocr mais pas avec Tesseract.

Je vais donc de ce pas à la pêche à Gocr, en espérant ne pas me retrouver à nouveau avec des galères de librairies.

Merci pour ces éclaircissements,

à bientôt,

Post Reply