OCR
mes travaux avec Puppy OCR.
mes travaux avec Puppy OCR.
ROC : à voir, c'est une suggestion.
quel est le but : eviter de retaper un texte photographié pour gagner du temps. Si océriser va plus vite OK, si Océriser vous oblige à retaper les caractères bancales, vous allez vite renoncer.
Le plus rapide ? lire le texte à haute voix et vous enregistrer avec pRecord. et faites une video sur le sujet, avec des belles images.
Les pets sont fournis page 1. là j'ai des soucis avec la Puppy, plus de souris. Je vous laisse.
ROC : à voir, c'est une suggestion.
quel est le but : eviter de retaper un texte photographié pour gagner du temps. Si océriser va plus vite OK, si Océriser vous oblige à retaper les caractères bancales, vous allez vite renoncer.
Le plus rapide ? lire le texte à haute voix et vous enregistrer avec pRecord. et faites une video sur le sujet, avec des belles images.
Les pets sont fournis page 1. là j'ai des soucis avec la Puppy, plus de souris. Je vous laisse.
- Attachments
-
- puppyocr.jpg
- Textes anciens.
- (104.07 KiB) Downloaded 269 times
Pelo, merci pour toutes tes recherches, tu es une mine d'infos!
J'ai corrigé une petite erreur dans mon post plus haut. Le nom du fichier langue en anglais est eng.traineddata et non en.traineddata. Je continue mes essais.
Comme je l'ai écrit, la différence entre lepic2txt-batch et le pic2txt.pet (ou sfs) est que le premier permet de scanner d'un coup toutes les images d'un dossier, alors que le deuxième est une interface (gui) qui scanne les images une par une. Mais l'interface a un gros avantage, c'est que l'on peut changer le pourcentage - mais il ne faut pas oublier pour ça de monter imagechanger - et donc faire des essais (et ensuite modifier la taille de toutes les images en conséquence pour utiliser le batch?)
L'idéal serait d'inclure dans le script du batch la possibilité de changer la taille. Mais ça, je ne sais pas faire.
Tesseract a aussi une interface (gui), mais chez moi, pour une question que je n'ai pas résolue, ça ne marche pas.
PS: au fait, Pelo, puppyOCR est intéressant, mais il est basé sur.... tesseract.
J'ai corrigé une petite erreur dans mon post plus haut. Le nom du fichier langue en anglais est eng.traineddata et non en.traineddata. Je continue mes essais.
Comme je l'ai écrit, la différence entre lepic2txt-batch et le pic2txt.pet (ou sfs) est que le premier permet de scanner d'un coup toutes les images d'un dossier, alors que le deuxième est une interface (gui) qui scanne les images une par une. Mais l'interface a un gros avantage, c'est que l'on peut changer le pourcentage - mais il ne faut pas oublier pour ça de monter imagechanger - et donc faire des essais (et ensuite modifier la taille de toutes les images en conséquence pour utiliser le batch?)
L'idéal serait d'inclure dans le script du batch la possibilité de changer la taille. Mais ça, je ne sais pas faire.
Tesseract a aussi une interface (gui), mais chez moi, pour une question que je n'ai pas résolue, ça ne marche pas.
PS: au fait, Pelo, puppyOCR est intéressant, mais il est basé sur.... tesseract.
Continuant mes recherches, j'ai trouvé comment redimensionner toutes les images d'un même dossier.
C'est avec imagemagick.
Voici la marche à suivre:
1) Monter imagemagick (en sfs ou le pet)
2) Mettre toutes les images dans un dossier
3) Ouvrir un terminal dans ce dossier (clic droit fenêtre terminal ici)
4) taper
exemple:
ATTENTION: Si l'on s'arrête là, les images SONT REMPLACÉES PAR LES NOUVELLES.
Il faut donc donner le chemin d'un dossier de destination
exemple:
(il y a aussi "convert" - voir la page ubuntu citée plus bas)
Cela m'a permis de résoudre mon problème. Je teste d'abord quel est le meilleur pourcentage de mes images pour la reconnaissance de caractère (avec Tesseract et l'interface pic2txt), ensuite je redimensionne les images avec imagemagick, et enfin je scanne le tout avec le batch pic2txt-batch (voir mon post au-dessus)
Un peu fastidieux certes, il y a sûrement mieux, mais efficace.
J'en profite pour faire la pub d'imagemagick, dont vous trouverez toutes les fonctions (impressionnantes!) ici: https://doc.ubuntu-fr.org/imagemagick
Tout est en ligne de commande, mais pour les anciens ouindozeurs comme moi, c'est un bon exercice.
À bientôt.
C'est avec imagemagick.
Voici la marche à suivre:
1) Monter imagemagick (en sfs ou le pet)
2) Mettre toutes les images dans un dossier
3) Ouvrir un terminal dans ce dossier (clic droit fenêtre terminal ici)
4) taper
Code: Select all
mogrify -resize %requis *.tif (selon le format d'image)
Code: Select all
mogrify -resize 50% *.tif
Il faut donc donner le chemin d'un dossier de destination
exemple:
Code: Select all
mogrify -resize 50% *.tif -path /root/images50pc/
Cela m'a permis de résoudre mon problème. Je teste d'abord quel est le meilleur pourcentage de mes images pour la reconnaissance de caractère (avec Tesseract et l'interface pic2txt), ensuite je redimensionne les images avec imagemagick, et enfin je scanne le tout avec le batch pic2txt-batch (voir mon post au-dessus)
Un peu fastidieux certes, il y a sûrement mieux, mais efficace.
J'en profite pour faire la pub d'imagemagick, dont vous trouverez toutes les fonctions (impressionnantes!) ici: https://doc.ubuntu-fr.org/imagemagick
Tout est en ligne de commande, mais pour les anciens ouindozeurs comme moi, c'est un bon exercice.
À bientôt.
PuppyOCR est basé sur Tesseract
Comme pas mal d'appications Puppy, PuppyOCR est basé sur Tesseract certes, mais en l'améliorant, en l'allégeant et en le rendant convivial.
Vous allez devoir linuxer pour adapter vos logiciels à votre Puppy. Alors que de braves gens l'ont déjà fait pour vous, avec Puppy OCR, dans le temps, quand ils étaient patients.
Mais ce sont des mots. Si vous voulez pas l'essayer, vous saurez jamais.
Pas mal de linuxiens ne veulent pas de Puppy, trop petit, pas assez cher, mon fils. Mais vous , Mais toi, DOOroothée ?
Vous allez devoir linuxer pour adapter vos logiciels à votre Puppy. Alors que de braves gens l'ont déjà fait pour vous, avec Puppy OCR, dans le temps, quand ils étaient patients.
Mais ce sont des mots. Si vous voulez pas l'essayer, vous saurez jamais.
Pas mal de linuxiens ne veulent pas de Puppy, trop petit, pas assez cher, mon fils. Mais vous , Mais toi, DOOroothée ?
Tu as raison Pelo, c'est mieux quand on trouve des applications clé en main. Mais en matière de Puppy, ou linux, ça ne marche pas toujours comme sur des roulettes. En ce qui me concerne, j'ai des applications-phares, qui tournent toutes seules, et puis de temps en temps, je bidouille. Ça aiguise ma curiosité, me fait apprendre un peu, c'est sympa.
Quant à Puppy, l'essayer, c'est l'adopter!
Quant à Puppy, l'essayer, c'est l'adopter!
Bonjour Dorothée,Dorothée wrote:Continuant mes recherches, j'ai trouvé comment redimensionner toutes les images d'un même dossier.
Il y a beaucoup plus simple en utilisant Peasyscale de l'ami rcrsn51 : http://www.murga-linux.com/puppy/viewtopic.php?p=617584
C'est tout simplement... hyper simple et efficace, image par image ou bien dossier complet.
Pour l'ocr je n'y connais rien.
Philippe
Augras, merci pour le tuyau, d'autant que peasyscale est déjà installé sur Precise (ou en tout cas Triton).
C'est très pratique, c'est vrai. Le seul hic, c'est que la version que j'ai n'a l'air de traiter que les jpg, et que l'ocr se fait avec des images au format tif. Il faut que je l'actualise.
On avance, on avance...
C'est très pratique, c'est vrai. Le seul hic, c'est que la version que j'ai n'a l'air de traiter que les jpg, et que l'ocr se fait avec des images au format tif. Il faut que je l'actualise.
On avance, on avance...
Dans un post plus haut, j'ai commenté comment j'avais dribblé la restriction de langue du patch pic2txt-batch proposé par rscrnnn, en changeant fra.traineddata en eng.traineddata.
C'était évidemment du malabarisme, il y a plus simple et qui prête moins à confusion.
Si vous souhaitez utiliser pic2txt-batch en français (en mettant le fra.traineddata dans /usr/share/tessdata), il faut, après avoir décompacté pic2txt-batch.tar.gz dans /usr/bin/, ouvrir ce script et modifier la ligne 28 en remplaçant eng par fra.
Par contre, je ne sais pas comment faire pour gérer plusieurs langues.
À bientôt,
C'était évidemment du malabarisme, il y a plus simple et qui prête moins à confusion.
Si vous souhaitez utiliser pic2txt-batch en français (en mettant le fra.traineddata dans /usr/share/tessdata), il faut, après avoir décompacté pic2txt-batch.tar.gz dans /usr/bin/, ouvrir ce script et modifier la ligne 28 en remplaçant eng par fra.
Par contre, je ne sais pas comment faire pour gérer plusieurs langues.
À bientôt,
Après plusieurs tentatives, j'ai décidément du mal avec les interfaces graphiques (gui), auxquelles il manque toujours des librairies.
Mais je commence à m'en sortir assez bien avec la ligne de commande, et pour mon travail actuel, cela me convient.
En changeant un peu de sujet, quelqu'un peut-il me dire comment lister les librairies manquantes d'un logiciel dans la console? J'ai noté cela quelque part, mais je ne sais plus où.
Merci d'avance, à bientôt,
Mais je commence à m'en sortir assez bien avec la ligne de commande, et pour mon travail actuel, cela me convient.
En changeant un peu de sujet, quelqu'un peut-il me dire comment lister les librairies manquantes d'un logiciel dans la console? J'ai noté cela quelque part, mais je ne sais plus où.
Merci d'avance, à bientôt,
ldd /usr/bin/osmo
ldd le chemin du binaire
ldd /usr/bin/osmo
# ldd /usr/bin/osmo
linux-gate.so.1 => (0xffffe000)
libgtk-x11-2.0.so.0 => /usr/lib/libgtk-x11-2.0.so.0 (0xb731a000)
libgdk-x11-2.0.so.0 => /usr/lib/libgdk-x11-2.0.so.0 (0xb726b000)
libpangocairo-1.0.so.0 => /usr/lib/libpangocairo-1.0.so.0 (0xb725d000)
libgdk_pixbuf-2.0.so.0 => /usr/lib/libgdk_pixbuf-2.0.so.0 (0xb723c000)
libcairo.so.2 => /usr/lib/libcairo.so.2 (0xb7171000)
libpango-1.0.so.0 => /usr/lib/libpango-1.0.so.0 (0xb7127000)
libgobject-2.0.so.0 => /usr/lib/libgobject-2.0.so.0 (0xb70d9000)
.....
ldd /usr/bin/osmo
# ldd /usr/bin/osmo
linux-gate.so.1 => (0xffffe000)
libgtk-x11-2.0.so.0 => /usr/lib/libgtk-x11-2.0.so.0 (0xb731a000)
libgdk-x11-2.0.so.0 => /usr/lib/libgdk-x11-2.0.so.0 (0xb726b000)
libpangocairo-1.0.so.0 => /usr/lib/libpangocairo-1.0.so.0 (0xb725d000)
libgdk_pixbuf-2.0.so.0 => /usr/lib/libgdk_pixbuf-2.0.so.0 (0xb723c000)
libcairo.so.2 => /usr/lib/libcairo.so.2 (0xb7171000)
libpango-1.0.so.0 => /usr/lib/libpango-1.0.so.0 (0xb7127000)
libgobject-2.0.so.0 => /usr/lib/libgobject-2.0.so.0 (0xb70d9000)
.....
- Argolance
- Posts: 3767
- Joined: Sun 06 Jan 2008, 22:57
- Location: PORT-BRILLET (Mayenne - France)
- Contact:
Bonjour,
Je viens de compiler "ocrgui" (lien donné plus haut) et fait un fichier SFS, installé ImageMagick et tesseract ainsi que ses dépendances via le PPM (ToOpPy basée, comme Triton 5.0, sur Puppy Precise 5.7.1).
Et ça marche nickel!
Reste que l'interface est en anglais et que la seule langue disponible est l'italien, langue du concepteur Emanuele Sicchiero. Je vais donc faire la traduction et reviendrai rendre compte du résultat quand ce sera au point, car il y a des modifications à apporter ici et là pour que ça fonctionne, notamment le fichier desktop, sans quoi le programme n'apparait pas dans le MENU.
[EDIT]: Traduction effectuée!.
Cordialement.
Je viens de compiler "ocrgui" (lien donné plus haut) et fait un fichier SFS, installé ImageMagick et tesseract ainsi que ses dépendances via le PPM (ToOpPy basée, comme Triton 5.0, sur Puppy Precise 5.7.1).
Et ça marche nickel!
Reste que l'interface est en anglais et que la seule langue disponible est l'italien, langue du concepteur Emanuele Sicchiero. Je vais donc faire la traduction et reviendrai rendre compte du résultat quand ce sera au point, car il y a des modifications à apporter ici et là pour que ça fonctionne, notamment le fichier desktop, sans quoi le programme n'apparait pas dans le MENU.
[EDIT]: Traduction effectuée!.
Cordialement.
- Attachments
-
- 170930_165938_866x697_easyshot.jpg
- (77.56 KiB) Downloaded 96 times
-
- 170930_115609_804x686_easyshot.jpg
- (94.94 KiB) Downloaded 107 times
- Argolance
- Posts: 3767
- Joined: Sun 06 Jan 2008, 22:57
- Location: PORT-BRILLET (Mayenne - France)
- Contact:
Bonjour,
Voici le SFS de OcrGui 2.2, compilé sur ToOpPy (Puppy Precise 5.7.1) à tester et qui devrait également fonctionner sur Triton 5.0...
Langues disponibles: en, fr, it
-------------------------------------------------------------------------------------------------------------------------------------------
Pour ceux qui seraient tentés de compiler directement à partir des sources s'ils utilisent une autre version de Puppy, elles se trouvent dans le même répertoire. Le fichier d'origine modifié pour que le programme s'affiche correctement dans le menu a été renommé en "/data/ocrgui.desktop.in.ori".
Fichier SFS <<<
Paquet pet <<<
Répertoire distant des sources à compiler <<<
Marche à suivre:
Merci de vos retours.
@felixbd
Je me permets, simple suggestion, de te demander s'il ne serait pas judicieux de remplacer l'intitulé de ce fil, "ROC" par "OCR", car je pense que "ROC" (qui n'évoquait rien pour moi au départ!) exclut ce fil des recherches faites sur le terme "OCR" par d'autres utilisateurs non francophones du Forum pouvant être intéressés par son contenu?
Cordialement.
Voici le SFS de OcrGui 2.2, compilé sur ToOpPy (Puppy Precise 5.7.1) à tester et qui devrait également fonctionner sur Triton 5.0...
Langues disponibles: en, fr, it
-------------------------------------------------------------------------------------------------------------------------------------------
Pour ceux qui seraient tentés de compiler directement à partir des sources s'ils utilisent une autre version de Puppy, elles se trouvent dans le même répertoire. Le fichier d'origine modifié pour que le programme s'affiche correctement dans le menu a été renommé en "/data/ocrgui.desktop.in.ori".
Fichier SFS <<<
Paquet pet <<<
Répertoire distant des sources à compiler <<<
Marche à suivre:
- Charger le SFS de développement "devx" propre à la version de Puppy.
Décompresser le fichier source quelque part, par exemple dans /root.
Se placer dans le dossier décompressé.
Clic droit sur une partie vide.
Dans le menu ROX, sélectionner >Fenêtre>Terminal ici, et taper (ou sélectionner/coller avec le bouton gauche):puis:Code: Select all
./configure --prefix=/usr --localedir=/usr/share/locale
puis:Code: Select all
make
si on veut l'installer directement dans le système, ou alors (recommandé):Code: Select all
make install
si on veut construire un dossier qui pourra ensuite être transformé en SFS ou en paquet pet (ce chemin peut être, par exemple /root/ocrgui-2.2).Code: Select all
make install DESTDIR=/chemin/du/dossier
- Commandes:
pour construire un fichier SFS.
Code: Select all
dir2sfs /root/ocrgui-2.2
pour construire un paquet pet.Code: Select all
dir2pet /root/ocrgui-2.2
- Commandes:
Merci de vos retours.
@felixbd
Je me permets, simple suggestion, de te demander s'il ne serait pas judicieux de remplacer l'intitulé de ce fil, "ROC" par "OCR", car je pense que "ROC" (qui n'évoquait rien pour moi au départ!) exclut ce fil des recherches faites sur le terme "OCR" par d'autres utilisateurs non francophones du Forum pouvant être intéressés par son contenu?
Cordialement.
Last edited by Argolance on Thu 19 Oct 2017, 17:07, edited 1 time in total.
@ Argolance, merci pour ta remarque : j'ai modifié en conséquence l'intitulé de ce fil. Mon insistance à vouloir utiliser le français confine parfois au chauvinisme ! Inutile toutefois de persister dans l'erreur puisque le but d'un forum est de se faire comprendre du plus grand nombre.
J'essaierai de tester OCRGui 2.2, merci d'avance pour ton travail.
Je me suis livré, ces temps derniers, à quelques comparaisons concernant la reconnaissance de caractères. Jusque-là, et avant de tester OCRGui, c'est Yagf qui donne les meilleurs résultats, avec une quantité d'erreurs négligeable.
Je n'avais qu'une difficulté : je ne pouvais utiliser Yagf sous Triton... mais la nouvelle version 6 (merci également à Petihar) permet une installation facile de Yagf. Il fonctionne lui aussi avec Tesseract et nécessite donc l'installation des paquets habituels. Seul problème, mais que tu as résolu avec OCRGui : l'interface (très simple) est en anglais.
Cordialement.
J'essaierai de tester OCRGui 2.2, merci d'avance pour ton travail.
Je me suis livré, ces temps derniers, à quelques comparaisons concernant la reconnaissance de caractères. Jusque-là, et avant de tester OCRGui, c'est Yagf qui donne les meilleurs résultats, avec une quantité d'erreurs négligeable.
Je n'avais qu'une difficulté : je ne pouvais utiliser Yagf sous Triton... mais la nouvelle version 6 (merci également à Petihar) permet une installation facile de Yagf. Il fonctionne lui aussi avec Tesseract et nécessite donc l'installation des paquets habituels. Seul problème, mais que tu as résolu avec OCRGui : l'interface (très simple) est en anglais.
Cordialement.
Argolance,
merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...
Je suis aussi intéressée par la deuxième manière, pour apprendre un peu. Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...
Félix, tu m'intéresse avec Yagf, je vais y regarder de plus près, comme je suis moi aussi plongée dans des travaux d'ocr. Mais quand même, une chose m'intrigue, dans la mesure où tous ces outils sont basés sur Tesseract (n'est-ce pas lui qui fait tout le boulot?), comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?
À bientôt et merci,
merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...
Je suis aussi intéressée par la deuxième manière, pour apprendre un peu. Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...
Félix, tu m'intéresse avec Yagf, je vais y regarder de plus près, comme je suis moi aussi plongée dans des travaux d'ocr. Mais quand même, une chose m'intrigue, dans la mesure où tous ces outils sont basés sur Tesseract (n'est-ce pas lui qui fait tout le boulot?), comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?
À bientôt et merci,
Last edited by Dorothée on Sun 01 Oct 2017, 18:28, edited 1 time in total.
- Argolance
- Posts: 3767
- Joined: Sun 06 Jan 2008, 22:57
- Location: PORT-BRILLET (Mayenne - France)
- Contact:
OcrGui fonctionne soit avec l'un, soit avec l'autre, soit avec les deux s'ils sont installés.Dorothée wrote:merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...
En suivant la marche à suivre tu ne devrais pas avoir de soucis et ça te mettras le pied à l'étrier, comme on dit!Je suis aussi intéressée par la deuxième manière, pour apprendre un peu.Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...
Je pense que ce sont les options des moteurs de reconnaissance optique eux-mêmes qui sont configurables de façon plus conviviale via les interfaces de OcrGui ou de Yagf (que je ne connais pas mais qui doit fonctionner de la même façon), et qui permettent d'affiner la façon dont les différents éléments des images sont interprétés.comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?
Cordialement.
J'ai compris.
Dans ce cas, vu les options des préférences, avec OcrGui c'est Gocr qui est le plus pointu. Tesseract doit l'être aussi, mais cette interface propose des options avec Gocr mais pas avec Tesseract.
Je vais donc de ce pas à la pêche à Gocr, en espérant ne pas me retrouver à nouveau avec des galères de librairies.
Merci pour ces éclaircissements,
à bientôt,
Dans ce cas, vu les options des préférences, avec OcrGui c'est Gocr qui est le plus pointu. Tesseract doit l'être aussi, mais cette interface propose des options avec Gocr mais pas avec Tesseract.
Je vais donc de ce pas à la pêche à Gocr, en espérant ne pas me retrouver à nouveau avec des galères de librairies.
Merci pour ces éclaircissements,
à bientôt,