Puppy Linux Discussion Forum Forum Index Puppy Linux Discussion Forum
Puppy HOME page : puppylinux.com
"THE" alternative forum : puppylinux.info
 
 FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

The time now is Mon 10 Dec 2018, 16:14
All times are UTC - 4
 Forum index » House Training » Users ( For the regulars ) » Pour les francophones
Kit Ocr
Moderators: Béèm, darkerror05, linuxcbon
Post new topic   Reply to topic View previous topic :: View next topic
Page 1 of 1 [11 Posts]  
Author Message
Dorothée


Joined: 27 Nov 2012
Posts: 247

PostPosted: Fri 07 Dec 2018, 03:44    Post subject:  Kit Ocr  

Bonjour,

comme il m'arrive assez souvent de faire de la reconnaissance de caractères, j'ai fini par concocter un Kit_ocr contenant quelques outils dans ce but. Les langues installées sont le français, le portugais, l'espagnol, l'italien, l'allemand et l'anglais.

Je l'ai testé sur Precise 5.7.1, Tahr et Slacko. Il devrait donc normalement fonctionner sur Triton 5.7.3, Toopy, Triton 6 et Slacko.

Ce kit ocr vous permet de faire de la reconnaissance de caractères (OCR) par trois manières.

- La première est d'ouvrir OcrGui, qui affiche le résultat du scannage. Il y a le choix entre deux "programmes", Tesseract et Gocr, avec quelques réglages possibles. Il est possible d'enregistrer le résultat de plusieurs reconnaissances OCR.

- La seconde est d’ouvrir pic2text / feuille. Une interface gui s’ouvre, qui permet de faire de la reconnaissance de caratères image par image, en choisissant la langue dans un menu déroulant. On peut aussi modifier la taille des images avant de procéder à l’OCR.

- La troisième manière est d'ouvrir le menu voisin pic2txt / dossier, qui permet de faire de la reconnaissance de caratères de plusieurs images d'un dossier. À la fin du processus, une fonction vous propose de rassembler tous les fichiers obtenus en un seul fichier. pic2txt / dossier est très intéressant, à condition d'avoir préparé toutes les images avant de procéder à l'ocr (taille adéquate etc.) Ces manipulations d'images peuvent se faire avec imagemagick, également inclus dans ce kit.

- Un dernier menu vous permet de rassembler des fichiers .txt en un seul, si vous avez scanné des images une par une.

LES APPLICATIONS CONTENUES DANS LE KIT OCR

Outre une entrée menu et un mode d'emploi.

POUR LES INTERFACES:

- tesseract

- ocrgui-0.2.2_all (merci Argolance)

- gocr (de gocr-0.44-i686.pup)

- pic2txt-1.3

- pic2txt-batch (merci rcrsn51) adapté en menus

- image changer 1.2 (pour pouvoir modifier la taille des images dans l'interface de pic2text)

Les langues installées sont: le français, le portugais, l'italien, l'espagnol, l'allemand et l'anglais.

POUR LA CONSOLE:

- imagemagick-6.6.9-5 (dont a aussi besoin ocrgui)

Le sfs (12 Mo) est téléchargeable ici: (actualisé Version 2)

Kit_ocr-all-2.sfs
https://drive.google.com/file/d/1H4mvNyL9qBcIVzm5HQWg43Z75PA4yssC/view
Pres_menu2.jpg
 Description   
 Filesize   55.62 KB
 Viewed   179 Time(s)

Pres_menu2.jpg


Last edited by Dorothée on Yesterday, at 21:52; edited 1 time in total
Back to top
View user's profile Send private message 
did18

Joined: 19 Nov 2014
Posts: 414

PostPosted: Fri 07 Dec 2018, 12:32    Post subject:  

Bonjour

Merci Dorothée pour ce "kit_ocr".

Même s'il peut être amélioré, cela devrait rendre service aux personnes qui font de la récupération de texte... Et c'est déjà un bon début que de proposer cette suite d'utilitaires.

Quelques petites "erreurs" de traduction se sont glissées malgré tout dans cette suite...
Par exemple l'aide de "OcrGui" apparaît en Anglais chez moi alors que l'application "semble" utiliser le Français... Je dit "semble" car les menus sont parfaitement Francisés, mais le texte des boutons est resté lui en Anglais.
Ce n'est pas bien méchant et on s'y retrouve malgré tout...

La reconnaissance de texte est lié au moteur et "Tesseract" (par défaut) semble offrir un meilleur résultat que "Gocr"... Ceci dit, je n'ai fait l'essai que sur la couverture (papier glacé) d'un livre... Peut être que la récupération d'un article sur un journal apporterai un résultat différent.

La sélection de langue (pour "Tesseract" est en contraction sur des boutons radio (deu pour deutch, eng pour Anglais, fra pour France etc.), je pense que cela est plus dû au fait du concepteur, mais un choix UTF-8 ou afficher le nom complet de la langue eut été plus heureux (surtout qu'il y a largement la place dans la boîte de dialogue)...

pic2txt v1.3 apparaît également en Anglais et le "Language" par défaut est le "deu" si on sélectionne le "fra", cette option n'est pas mémorisée à la fermeture (dommage)...

Ces petits désagréments ne nuisent en rien au bon fonctionnement des utilitaires.

J'allais oublier, j'ai conduis ces tests depuis une session Tooppy V2.3, l’installation et l'utilisation du kit_ocr s'est déroulée sans problème.

Bonne journée.
181207_152324_945x711_easyshot.jpg
Description 
jpg

 Download 
Filename  181207_152324_945x711_easyshot.jpg 
Filesize  119.42 KB 
Downloaded  15 Time(s) 
Back to top
View user's profile Send private message 
Dorothée


Joined: 27 Nov 2012
Posts: 247

PostPosted: Fri 07 Dec 2018, 23:28    Post subject:  

Bonsoir Did18,

je te remercie de ton retour.

Il est vrai que ce kit pourrait être amélioré, mais c'est un bon début, comme tu dis.

En ce qui concerne les traductions, j'ai essayé de créer un fichier .mo pour pic2txt, sans succès, car Momanager renvoie toujours à peasyscan (!!!). Si quelqu'un a une idée sur cette fantaisie, je suis preneuse.

Pour l'aide de ocrgui, il faudrait remplacer le fichier .htlm par un autre en français. Je m'y collerai peut-être, avec l'aide d'un traducteur automatique, car je n'ai pas trouvé de mode d'emploi en français sur internet.

Quant au menu dérourant des langues, elles apparaissent par ordre alphabétique (et donc deu - allemand - en premier). Je n'ai aucune idée de comment mettre fra - français - en premier, et que cela puisse rester le choix, et si c'est possible.

Pour Ocrgui, je n'ai pas très bien compris à quoi tu fais allusion quand tu écris que les langues sont "en contradiction" avec des boutons. Pas au point de ne pas correspondre à la langue choisie, heureusement!

Je vais tenter d'améliorer tranquillement ce petit Kit, et je mettrai en ligne la nouvelle version. En attendant, celle-ci en l'état peut bien servir, je pense.

D'ailleurs, si des personnes souhaitent que j'y intègre d'autres langues et leurs dictionnaires, é so mandar! (demandez-le moi, je le ferai avec plaisir).

Ciaozinho,
Back to top
View user's profile Send private message 
rcrsn51


Joined: 05 Sep 2006
Posts: 12361
Location: Stratford, Ontario

PostPosted: Sat 08 Dec 2018, 02:48    Post subject:  

Dorothée wrote:
En ce qui concerne les traductions, j'ai essayé de créer un fichier .mo pour pic2txt, sans succès, car Momanager renvoie toujours à peasyscan (!!!).

Change Line 5 of pic2txt.
Back to top
View user's profile Send private message 
Argolance


Joined: 06 Jan 2008
Posts: 3483
Location: PORT-BRILLET (Mayenne - France)

PostPosted: Sat 08 Dec 2018, 05:24    Post subject:  

Bonjour,
Merci Dorothée pour ce kit.

[EDIT]:supprimé

Cordialement.

Last edited by Argolance on Yesterday, at 20:27; edited 1 time in total
Back to top
View user's profile Send private message Visit poster's website 
did18

Joined: 19 Nov 2014
Posts: 414

PostPosted: Yesterday, at 09:48    Post subject:  

Bonjour

Dorothée wrote:
Pour Ocrgui, je n'ai pas très bien compris à quoi tu fais allusion quand tu écris que les langues sont "en contradiction" avec des boutons. Pas au point de ne pas...


En fait je parlais de la "contraction" des mots indiqués comme étiquette des boutons radio (RadioButton)...

Exemple : Deutch = deu
English = eng
France = fra
etc...

En ce sens peut être aurait il été plus judicieux d'utiliser l'universel UTF-8 comme par exemple :
de_DE German, Germany
en_GB English, GreatBritain
fr_FR French, France
et en récupérant le 2ème item de chaque ligne (sachant que l'item 0 est celui de la variable qui aura été "splitée")
item 0 = de_DE
item 1 = English
item 2 = GreatBritain
et ainsi de suite pour chaque ligne...

Ooops erreur ! En fait il fallait lire :
item 0 = de_DE
item 1 = German
item 2 = Germany
Toutes mes excuses.


Ce qui est bien plus lisible et compréhensible pour tous les utilisateurs Français (qui ne sont pas forcément des programmeurs)...

Ceci peut d'autant plus être fait automatiquement en utilisant cette fameuse variable locale qu'elle est obligatoirement présente sur chaque distribution (pas seulement les puppys) et qu'il y a largement la place pour cet affichage (je met un copie écran pour illustrer cette possibilité).

Bonne journée.
2.jpg
 Description   
 Filesize   38.11 KB
 Viewed   84 Time(s)

2.jpg

Back to top
View user's profile Send private message 
Argolance


Joined: 06 Jan 2008
Posts: 3483
Location: PORT-BRILLET (Mayenne - France)

PostPosted: Yesterday, at 19:33    Post subject:  

Bonsoir,
Je pense que Dorothée n'y peut rien et que c'est le programme Tesseract et ses propres fichiers qui sont fichus comme ça. Voir l'image du PPM ci-jointe.

Cordialement.
181210_002946_654x276_easyshot.jpg
 Description   
 Filesize   54.1 KB
 Viewed   56 Time(s)

181210_002946_654x276_easyshot.jpg


_________________

Back to top
View user's profile Send private message Visit poster's website 
oui

Joined: 20 May 2005
Posts: 3166
Location: near Woof (Germany) :-) Acer Laptop emachines 2 GB RAM AMD64. franco-/germanophone, +/- anglophone

PostPosted: Yesterday, at 20:27    Post subject:  

did, c'est un traès vieux programme PROPRIÉTAIRE fonctionnant vraiment bien et dont l'usage a été permis tel quel dans Linux. le propriétaire avait pensé l'abréviation des langues autrement (les bonnes abréviations hyper-courtes monopolisent la combinaison de lettres qui se trouvent de fait quasi interdites pour d'autres usages... ce n'est pas bon non plus, et, dans ce cas, cela ne sert à rien, il parait que les linuxiens sont trop cons pour mémoriser 2 lettres et les entrer eux-mẽmes au clavier comme on le faisait avant dans xorg.conf: il leur faut maintenant impérativement un menu à couolisseau pour ce faire, pas que quelqu'un prétende habiter sur la lune et y parler martien, ça foutrait la diarrhée aux applications espionnes géopositionnant! il aurait été alors tellement plus logique de mettre langue et géoposition en texte clair: l'humain étant plus fainéant que les animaux que l'on appelle comme ça (désigner un défaut humain par un animal en lui assignant est une insulte et un abus: l'homme est toujours bien pire que l'animal - le vrai cochon, c'est vraiment ce cochon d'être humain, le vrai loup, c'est l'homme, le vrai satyre, ce n'est pas le satyre, il n'y peut rien d'être moitié homme et moitié animal parait-il sexuellement dépravé, la représentation aurait du être inverse, le haut bon aninmal et le bas humais en rage sexuelle, vache n'est jamais aussi vache que les humains, le pauvre âne a une mémoire proverbiale, pourquoi n'apprendrait-il rien, la bique nous donne du lait alors que nos dames ne veulent plus sevrer, et bien sûr que les lapins sont chauds, mais ils en ont besoin, parce qu'on tire dessus et les décimes alors que le pape laisse les humains se reproduire pire que les lapins et envahir et détruire la planète, le crapaud est horrible, et les humains alors!), il aurait crié qu'on lui mette un menu à coulisseau latéral pour chacune des 2 valeurs! Mais, non, il a fallu ajouter les 2 outils de paresse (non, de dictat des programmeurs vendant sans le dire ingénieusement leurs nouvelles variantes à Google et aux services secrets américains, chinois, martiens... Les mises à jour de sécurité, c'est pas pour nous! c'est pour permettre à la pub de nous envahir plus, et à la pub et aux services secrets de mieux nous contrôler plus...))
Back to top
View user's profile Send private message 
Dorothée


Joined: 27 Nov 2012
Posts: 247

PostPosted: Yesterday, at 21:54    Post subject:  

Bonsoir,

après les messages de did18, j'ai procédé à de petites améliorations de ce Kit_ocr, qui consistent en:

- création d'un fichier .mo pour pic2txt (merci rcrsn51, c'était si simple) dont l'interface est dorénavant en français;

- ajouts de messages d'erreur quand, par exemple, il n'y a pas de fichier image à scanner;

- une traduction en français de l'aide de Ocrgui, faite automatiquement par Deepl, qui m'a véritablement bluffée (je n'ai fait qu'une seule correction);

- en ce qui concerne les boutons des langues (deu, fra etc...), j'ai laissé ça tel quel car cela ne me paraît pas une gêne majeure et surtout... parce que je n'ai aucune idée de comment modifier la chose.

Pour ceux qui aiment les logiciels à la découpe, je mets en ligne le fichier .mo de pic2txt et aussi gocr-0.44-i686 en pet qui est introuvable en ligne.

Kit_ocr-all-2.sfs
https://drive.google.com/file/d/1H4mvNyL9qBcIVzm5HQWg43Z75PA4yssC/view

gocr-0.44-i686.pet:
https://drive.google.com/file/d/1flWA10rqSdJS4dLnv_SzkAsydb8JhG_E/view

pic2txt.mo
https://drive.google.com/file/d/1at3AvU3zK42m2GFR1-rny79NEIClk2mv/view

À bientôt pour de nouvelles aventures,
Back to top
View user's profile Send private message 
Argolance


Joined: 06 Jan 2008
Posts: 3483
Location: PORT-BRILLET (Mayenne - France)

PostPosted: Today, at 07:01    Post subject:  

Bonjour,
Merci Dorothée.
Dorothée wrote:
aussi gocr-0.44-i686 en pet qui est introuvable en ligne

Par contre, tout comme d'ailleurs tesseract et ses fichiers de langues (voir image ci-dessus), ainsi que toutes les libs nécessaires examinées/installables automatiquement, la version 0.49, qui doit, en principe, être plus récente que la 0.44, est présente dans le PPM de Puppy Precise:
Code:
# gocr -h
Optical Character Recognition --- gocr 0.49 20100924
Copyright (C) 2001-2010 Joerg Schulenburg  GPG=1024D/53BDFBE3
released under the GNU General Public License

Cordialement.

_________________

Back to top
View user's profile Send private message Visit poster's website 
oui

Joined: 20 May 2005
Posts: 3166
Location: near Woof (Germany) :-) Acer Laptop emachines 2 GB RAM AMD64. franco-/germanophone, +/- anglophone

PostPosted: Today, at 07:49    Post subject:  

bonjour Argolance, ta citation semble concerner gocr? gocr est bon car d'encombrement minimal. par contre sa puissance de déchiffrage est considérablement plus faible que celle de Tesseract-OCR, et il y a beaucoup à contrôler derrière (et à corriger, bien sûr, donc de réel travail). cdlmt
Back to top
View user's profile Send private message 
Display posts from previous:   Sort by:   
Page 1 of 1 [11 Posts]  
Post new topic   Reply to topic View previous topic :: View next topic
 Forum index » House Training » Users ( For the regulars ) » Pour les francophones
Jump to:  

You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum
You cannot attach files in this forum
You can download files in this forum


Powered by phpBB © 2001, 2005 phpBB Group
[ Time: 0.0835s ][ Queries: 13 (0.0080s) ][ GZIP on ]