Puppy Linux Discussion Forum Forum Index Puppy Linux Discussion Forum
Puppy HOME page : puppylinux.com
"THE" alternative forum : puppylinux.info
 
 FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

The time now is Sat 16 Dec 2017, 22:42
All times are UTC - 4
 Forum index » House Training » Users ( For the regulars ) » Pour les francophones
OCR
Moderators: Béèm, darkerror05
Post new topic   Reply to topic View previous topic :: View next topic
Page 1 of 4 [51 Posts]   Goto page: 1, 2, 3, 4 Next
Author Message
felixbd

Joined: 18 Jan 2016
Posts: 31

PostPosted: Sat 17 Jun 2017, 06:04    Post subject:  OCR  

Un peu gêné de ne poser que des questions sans rien apporter, je signale un petit script bien pratique (trouvé jadis sur le forum d'Ubuntu) pour ceux qui ont besoin d'une reconnaissance de caractères simple et rapide :
Code:
#!/bin/bash
convert *.jpg sortie.tif ;
tesseract sortie.tif sortie -l fra > sortie.txt ;
# ou tesseract sortie.tif sortie -lw fra > sortie.txt ;
pluma sortie.txt
# ou leafpad sortie.txt
# ou même libreoffice5.2 --writer sortie.txt
rm sortie.tif


Il suffit :
-- d'installer tesseract, tesseract.fr et imagemagick,
-- de recopier ce script et de le rendre exécutable,
-- de le placer dans un dossier avec un scan du fichier jpg que l'on veut reconnaître,
-- de le lancer (et d'attendre quelques secondes).

Assez peu d'erreurs en général (pensez à utiliser des fichiers jpg scannés en niveau de gris à 300 dpi si vous utilisez Xsane).

J'espère ne pas enfoncer une porte ouverte.

Last edited by felixbd on Sun 01 Oct 2017, 12:09; edited 1 time in total
Back to top
View user's profile Send private message 
Pelo

Joined: 10 Sep 2011
Posts: 12591
Location: Mer méditerrannée (1 kms°)

PostPosted: Sat 17 Jun 2017, 06:36    Post subject: Bon courage :!  

Bon courage Exclamation
retour (succès) cliquer le bleu.
C'est un sujet récurrent sur le forum, qui tourne à 98% autour de comment l'installer (On a un forum de livreurs).
Je crois qu'on est trois à avoir pousser le petit au bout en faisant réellement de la reconnaissance de caractères
Il faut repasser derrière pour corriger les fautes.
On a plus vite fait de taper directement..

_________________
Passenger Pelo ! don't ask him to repair the aircraft. Don't use him as a demining dog .... pleeease.

Last edited by Pelo on Tue 12 Sep 2017, 00:46; edited 1 time in total
Back to top
View user's profile Send private message Yahoo Messenger 
felixbd

Joined: 18 Jan 2016
Posts: 31

PostPosted: Sat 17 Jun 2017, 15:29    Post subject: ROC?  

J'ai donc enfoncé une porte ouverte ! Je dois dire que je n'ai jamais dépassé 140 pages consécutives... et que, bien sûr, une relecture a toujours été nécessaire. Mais existe-t-il des logiciels de ROC gratuits qui ne font aucune erreur ? Quand j'obtiens ce qui suit, je ne suis pas mécontent...

[/url][img][url=http://pix.toile-libre.org/?img=1497710027.jpg][/img]
Back to top
View user's profile Send private message 
Pelo

Joined: 10 Sep 2011
Posts: 12591
Location: Mer méditerrannée (1 kms°)

PostPosted: Sat 17 Jun 2017, 15:55    Post subject: Le cerveau humain devine les lettres, pas l'OCR.  

Ah mais moi c'était un seule page Smile par contre c'est du vieux, des débuts de la machine à écrire (1880 1900 par là). Vendeien d'origine, je potasse les jugements des tribunaux révolutionnaires, ecrits à la plume d'oie, mais retranscrits à la machine par les royalistes, revenus au pouvoir.

Le cerveau humain devine les lettres, pas l'OCR.
Pas facile aussi de photocopier un bouquin sans le désosser,
Mais on n'a pas à juger, tu veux ROC ? on essaiera.

_________________
Passenger Pelo ! don't ask him to repair the aircraft. Don't use him as a demining dog .... pleeease.
Back to top
View user's profile Send private message Yahoo Messenger 
felixbd

Joined: 18 Jan 2016
Posts: 31

PostPosted: Sun 18 Jun 2017, 05:18    Post subject: ROC, suite  

Loin de moi l'idée de "vouloir" quoi que ce soit. Je découvre et j'apprends à me servir d'un nouveau système. J'ai signalé au passage un script qui peut faciliter les choses dans certains cas. Ça m'est arrivé quelquefois. Si ça peut aider quelqu'un, ce sera une satisfaction : nous avons des problèmes communs, nous en avons aussi de très particuliers. À ce sujet, je ne pense pas qu'un tel script puisse t'aider beaucoup pour les pages que tu tentes de récupérer. Bonne journée.
Back to top
View user's profile Send private message 
Pelo

Joined: 10 Sep 2011
Posts: 12591
Location: Mer méditerrannée (1 kms°)

PostPosted: Sun 18 Jun 2017, 05:51    Post subject: ROC sera donc bienvenu, si c'est possible  

Moi les Puppies elles se ressmblent toutes. Plus on aura d'applications à y accrocher, mieux çà sera. ROC sera donc bienvenu, si c'est possible
_________________
Passenger Pelo ! don't ask him to repair the aircraft. Don't use him as a demining dog .... pleeease.
Back to top
View user's profile Send private message Yahoo Messenger 
Dorothée


Joined: 27 Nov 2012
Posts: 171

PostPosted: Sun 18 Jun 2017, 07:44    Post subject:  

Merci pour le script,

je n'ai jamais réussi à me servir de Tesseract, c'est l'occasion.

D'ailleurs, je trouve que le scan et même l'impression sont les points faibles de puppy. Par exemple, avez-vous déjà réussi à imprimer avec la fonction recto-verso? Si vous avez le truc, je suis preneuse.

Ciao,
Back to top
View user's profile Send private message 
felixbd

Joined: 18 Jan 2016
Posts: 31

PostPosted: Mon 19 Jun 2017, 10:10    Post subject: Impression  

Salut, Dorothée,
désolé de ne pouvoir te répondre pour ce qui concerne l'impression recto-verso : je ne l'ai jamais pratiquée et, pour l'instant, sous Puppy, je n'ai pas encore installé mon imprimante.
Dès que ce sera fait j'essaie de voir ce qu'il en est.
Back to top
View user's profile Send private message 
Pelo

Joined: 10 Sep 2011
Posts: 12591
Location: Mer méditerrannée (1 kms°)

PostPosted: Thu 13 Jul 2017, 19:26    Post subject: Vos impressions.  

Je ne veux pas raconter e bêtises, mais sous Puppy c'est le navigateur qui gère l'impression, il me semble. J'avais testé une imprimante, j'ai laissé tomber faute d'assistance. Du temps de mes années d'activité rémunérée, j'imprimais chez le patron les documents Abiword faits à la maison.
Mouais, les retours sont pas nombreux sur le sujet, j'ai l'impression.

_________________
Passenger Pelo ! don't ask him to repair the aircraft. Don't use him as a demining dog .... pleeease.
Back to top
View user's profile Send private message Yahoo Messenger 
Dorothée


Joined: 27 Nov 2012
Posts: 171

PostPosted: Wed 30 Aug 2017, 21:01    Post subject:  

Salut les p'tits loups,

je reviens vers cet agréable forum parce que je me trouve (à nouveau) devant le problème de l'OCR. Cette fois-ci, pour un travail académique, j'ai vraiment besoin de faire une reconnaissance de caractères d'un (long) texte pour pouvoir chercher des mots-clés.

J'ai noté le script de Félix, mais je ne sais quel Tesseract prendre (il y en a beaucoup sur internet), ni où trouver tesseract.fr et imagemagik, ni comment installer tout ça.

Quelqu'un peut-il m'aider?

Pour vous remercier, car je ne fais que demander des conseils ici, je vais faire un sujet sur "Comment enregistrer le bureau avec le son en utilisant VLC". C'est moins compliqué qu'avec screenrecorder (pour le son) mais ça bouffe beaucoup de ram.

Sinon, ça va bien?

Ciaozinho.
Back to top
View user's profile Send private message 
Pelo

Joined: 10 Sep 2011
Posts: 12591
Location: Mer méditerrannée (1 kms°)

PostPosted: Thu 31 Aug 2017, 02:39    Post subject: essaie d'abord Puppy OCR, c'est aussi bien que Tesseract  

essaie d'abord Puppy OCR, c'est aussi bien que Tesseract. Il faut faire des clichés du texte en .tiff..
Bon courage..
S'il y a des images dans la page, c'est même pas la peine.
Toutefois un conseil, n'essayer pas de mettre le texte le plus net possible. L'OCR aime le flou, un peu, mais pas trop.. Bref il faut tâtonner.

_________________
Passenger Pelo ! don't ask him to repair the aircraft. Don't use him as a demining dog .... pleeease.
Back to top
View user's profile Send private message Yahoo Messenger 
felixbd

Joined: 18 Jan 2016
Posts: 31

PostPosted: Sun 10 Sep 2017, 12:47    Post subject: ROC  

@ Dorothée : (Sans doute un peu tard !) les logiciels nécessaires au bon fonctionnement du script sont dans le PPM (je suis sous Triton). Il suffit donc d'installer tesseract, tesseract.fr et imagemagick. Ensuite, fais un essai avec un texte court à partir d'un fichier jpg et vérifie que le pourcentage d'erreurs est soutenable relativement au long texte que tu envisages de saisir... Relire un feuillet 21x29,7 ne pose pas de problèmes ; en relire 10, 20 ou davantage peut devenir lassant.
Mais, depuis ton post, tu as peut-être trouvé une solution plus confortable... En tout cas, bon courage.
Back to top
View user's profile Send private message 
Pelo

Joined: 10 Sep 2011
Posts: 12591
Location: Mer méditerrannée (1 kms°)

PostPosted: Sun 10 Sep 2017, 20:16    Post subject: pour lire pas besoin de ré-écrire  

pour lire pas besoin de ré-écrire. la photo suffit. le cerveau humain va corriger de lui-même. Que la machine comprenne le texte, c'est une autre paire de manches. si vous voulez pas essayer Puppy-OCR faut le dire ! le gars qui a créé çà, c'était pout rendre la vie plus facile, plus Puppy. Tesseract tout le monde connait. Puppy OCR fait mieux, au pire est plus facile à utiliser. sur une Puppy, vu qu'il a été fait pour Puppy.
Moi je fais un retour sur expérience. Vous repartez à zero si vous voulez.
Comme d'hab vous trouverez sur les forums comment installer Tesseract, ce qui est le moins compliqué; Après les gars sont partis installer autre chose. sans se servir de Tesseract.
Sur le forum Ubuntu, lisez les retours sur essais. Les ubuntistes se servent des logiciels, eux

_________________
Passenger Pelo ! don't ask him to repair the aircraft. Don't use him as a demining dog .... pleeease.
Back to top
View user's profile Send private message Yahoo Messenger 
Dorothée


Joined: 27 Nov 2012
Posts: 171

PostPosted: Mon 11 Sep 2017, 23:45    Post subject:  

Chers camarades,

Felix, je te remercie pour ton message. En fait, je n’ai pas trop réussi à utiliser ton script. J’ai monté Tesseract et imagemagic (que j’avais transformé en sfs - je ne fonctionne pratiquement qu’en sfs) mais le résultat n’a pas été très probant.

Quant à puppyOCR, je suis sûre qu’il est formidable, mais j'ai compris qu'il n'y avait pas la fonction en français, ce qui est un peu gênant quand c'est la langue que l'on utilise. Pelo, dis-moi que je me trompe en m'indiquant un lien où je peux résoudre ce problème. Surtout si tu considères qu'il est plus efficace que tesseract.

En attendant, j’ai fini par trouver un résultat très satisfaisant en utilisant Tesseract et le script pict2txt-batch de rcsnr (ou rscnr, ou rnrsc, ou rnsrnc) que j’ai trouvé (avec le mode d’emploi) ici:

http://murga-linux.com/puppy/viewtopic.php?p=463750#463750

1) J’ai donc monté (en sfs) tesseract_32bit-3.00 indiqué par S

2) J’ai été chercher le fra.traineddata

3) J’ai été chercher le pict2txt en mode batch indiqué par S (parce qu’il scanne toutes les images rassemblées dans un dossier au lieu du pet qui le fait une par une) par le lien

«Update: For a batch-mode version of pic2txt, read here» http://www.murga-linux.com/puppy/viewtopic.php?p=906061#906061

4) J’ai décompacté le pic2txt-batch.tar.gz et je l’ai placé dans /usr/bin/

5) J’ai placé le fra.traineddata dans /usr/share/tessdata

6) J’ai mis 2 images tif dans un dossier /root/test

7) J’ai tapé dans la console
Code:
pict2txt-batch /root/test


Qui m’a dit qu’il ne pouvait pas reconnaître les images parce qu’il ne trouvait pas en.traineddata (anglais). Ce qui était normal puisque j’avais fourni fra.traineddata (français).

Alors, comme je ne suis pas contrariante, je lui ai fait croire qu’il parlait anglais en changeant le nom de fra.traineddata en eng.traineddata. Comme ça tout le monde est content. Le script croit qu’il parle anglais alors qu’il parle français et ça marche très bien. Le résultat est tout à fait satisfaisant: 2 fichiers .text ont été créés avec le texte reconnu.

8 ) Afin de rassembler tous les fichiers .txt dans un seul, il faut taper dans la console:

Code:
cat /name_of_image_folder/*.txt > TitreVoulu.txt


Par exemple dans mon cas:
Code:
cat /root/test/*.txt > Chapitre1.txt

Voilà mon expérience. Si ça peut servir à d’autres.

À bientôt, pour de nouvelles aventures... et merci

Last edited by Dorothée on Fri 15 Sep 2017, 14:28; edited 1 time in total
Back to top
View user's profile Send private message 
Pelo

Joined: 10 Sep 2011
Posts: 12591
Location: Mer méditerrannée (1 kms°)

PostPosted: Tue 12 Sep 2017, 00:24    Post subject: bilan là  

99% des topics concernent l'installation. Argolance et moi sommes dans les un pour cent qui utilisent et avons fait un bilan là
Tesseract c'est le logiciel Linux archi connu. Dans les topics sauter toutes les pages sur l'installation pour passer aux résultats en utilisation par nous, users compétants. Il mettent tout ce qui leur passe par la main en vitrine. Nous on sait ce qui tourne. Y'en a pas un qui a réussit à sortir quelque chose de Tesseract avec une Puppy !

Faut que je retrouve le pet de Puppy OCR. aussi petit que les Puppys, il fait aussi bien que les grands. Mieux, pas sûr. En tout cas y'aura pas à linuxer des heures pour ajouter des libs qui manquent. C'est du prêt à porter que nous faisaient nos linuxeurs.
le pet est là.
et sur mon google Drive cliquer le bleu.
Vous etes pas les premiers.jpg
 Description   Regardez les résultats et faites votre choix.
 Filesize   111.55 KB
 Viewed   154 Time(s)

Vous etes pas les premiers.jpg


_________________
Passenger Pelo ! don't ask him to repair the aircraft. Don't use him as a demining dog .... pleeease.
Back to top
View user's profile Send private message Yahoo Messenger 
Display posts from previous:   Sort by:   
Page 1 of 4 [51 Posts]   Goto page: 1, 2, 3, 4 Next
Post new topic   Reply to topic View previous topic :: View next topic
 Forum index » House Training » Users ( For the regulars ) » Pour les francophones
Jump to:  

You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum
You cannot attach files in this forum
You can download files in this forum


Powered by phpBB © 2001, 2005 phpBB Group
[ Time: 0.0547s ][ Queries: 14 (0.0047s) ][ GZIP on ]