Résolu : OCR reconnaissance de caractères

Post Reply
Message
Author
Pelo

Résolu : OCR reconnaissance de caractères

#1 Post by Pelo »

Bonne nouvelle. J'ai un pdf d'un vieux bouquin de 1804 sur Charette, le chefs de l'insurrection royaliste pendant la révolution. Le livre a été scanné. Puppy a un logiciel d'OCR qui fonctionne le mieux qu'il peut.
Il faut taper en terminal pour le lancer. Je voudrais le mettre dans le menu documents.
Que dois-je faire ? C'est fait dans la nouvelle Version.
Je crois qu'il il y un Gui pour faire ça, clair, sans passer par le jargon du terminal (sur le forum, ils disent comment faire avec le jargon informatique, mais j'y pige rien)..
Valable pour tout ce qu'on voudrait ajouter au menu.

J'ai trouvé ! menuentry dans la lucid 528 niteflux.
Last edited by Pelo on Tue 26 Mar 2013, 03:52, edited 3 times in total.

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#2 Post by Argolance »

Bonjour,
Intéressant!
Mais, moi qui débarque comme n'importe quel utilisateur "lambda", je trouve ici bien peu de renseignements sur la marche à suivre, le programme à télécharger (car sur la Precise 5.4.3, usr/bin/puppyocr n'est pas présent, ni là ni ailleurs)!

Merci de nous en dire un peu plus... :wink:

Cordialement.

Pelo

Taper PUPPYOCR dans le moteur de recherche du forum

#3 Post by Pelo »

Il y a 3 ou 4 réponses quand tu tapes Puppyocr dans le moteur de recherche là-haut . Le pet est fourni.
La reconnaissance se fait à partir de fichiers .tif. Il faut donc faire une copie d'écran du pdf et taper en console PUPPYOCR.
Il ne faut pas être trop gourmand, un screenshot de la moitié d'une page A4 suffit, plus c'est écrit petit, moins il reconnait les caractères.
Le logiciel est efficace autant que les logiciels pour grand public gratuits.
Après, c'est pas l'Amérique non plus. Je ne passerai pas de journées entières à faire de L'OCR. Mais pour 2 ou 3 passages d'un bouquin, c'est bien utile.
A+
OCR sur Forum Puppy
Attachments
OCRfeeder.png
OCR feeder basé sur Tesseract mais avec un traitement de texte inclus. Donc gros, très gros. Corrigez à la main, Votre cerveau sais très bien voir les fautes et n'encombrera pas votre Ram.
(103.28 KiB) Downloaded 334 times
Last edited by Pelo on Thu 11 Apr 2013, 09:19, edited 1 time in total.

Médor

#4 Post by Médor »

Bonsoir,

Une interface graphique existe pour puppyocr basé sur Tessaract v 2.04.
Cette version est prévue pour la reconnaissance de mots en anglais !
tronkel : tips wrote:Scan your image in with XSANE and save it as PNM file (XANE default). Then open this image in MTPAINT and crop as desired. Then save as a TIFF file type. Before you save your image, rescale it larger if necessary so that Tesseract can process it properly. You can access this feature in MTPAINT under the image -> scale canvas menu item
Voir ce fil au sujet de l'OCR sur le forum ASRI éducation.

Cordialement.,
Médor.

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#5 Post by Argolance »

Bonsoir,
Merci bien pour les renseignements.
... Bon c'est pas vraiment simple tout ça! Je pense surtout à l'utilisateur "ordinaire" qui risque d'être un peu effrayé! M'enfin bon, l'utilisateur "ordinaire" ne se sert pas souvent d'un OCR. :wink:
Je me demande par ailleurs ce qu'il est possible d'obtenir sous WINE: je vais explorer ça.

Cordialement.

Pelo

L'ocr met des lettres bout à bout

#6 Post by Pelo »

Texte du PPM : reconnaissance de caractères brute par PuppyOCR :

The Puppy Package Manager is a tool for installing and
uninstalling packages (applications). There are online
repositories of ubuntu and Puppy packages -- the latter
are known as PEI' packages and are identified by '.pet'
on the end of their filename. Note that apart from the
official ubuntu and PEI' repositories, Puppy enthusiasts
have created many PEI's at other locations, and all you
need to do is download one and click on it to install it.

Il n'y a pratiquement pas de fautes ! Il faut grossir le texte à photographier pour l'aider.

Le PPM sert à installer et désinstaller des applications en ligne (archives ou paquets ou pets) à partir de dépôts Ubuntu, slackware, ou Puppy... et de nombreux autres. Cliquer sur le paquet (.pet) téléchargé pour son déversement automatique dans les bons répertoires. L’application apparait dans le menu, sinon ouvrir usr/share/applications. Sinon, la chercher avec Pfind (extension .desktop)
Last edited by Pelo on Thu 11 Apr 2013, 09:26, edited 1 time in total.

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#7 Post by Argolance »

Hello Pelo,
Merci pour les précisions.
Il faut grossir le texte à photographier pour l'aider.
Il n'y a pas besoin d’agrandir l'image pour grossir le texte. Sa taille dépend de la résolution de numérisation. Plus la résolution est grande et plus l'image l'est. L'idéal c'est 300 dpi.
Il faut taper en terminal pour le lancer. Je voudrais le mettre dans le menu documents.
Que dois-je faire ?
Je crois qu'il il y un Gui pour faire ça, clair, sans passer par le jargon du terminal (sur le forum, ils disent comment faire avec le jargon informatique, mais j'y pige rien)..
Valable pour tout ce qu'on voudrait ajouter au menu.

J'ai trouvé ! menuentry dans la lucid 528 niteflux.
... 2Pmm le fait aussi très bien!

Cordialement!
Attachments
105517_756x602_easyshot.jpg
(64.77 KiB) Downloaded 348 times

Pelo

Puppy ocr : c'est presque enfantin à utiliser

#8 Post by Pelo »

La taille de la police doit être de 14 mini , autrement Puppyocr est bigleux.
Votre texte est à l'écran
1 faites une copie décran, que vous enregistrez en tiff
2 ouvrez avec MTpaint cette image et zoomer là pour arriver à une taille de 14
3 prenez une photo d'écran à nouveau (en .tiff bien sûr) que vous enregistrez en /root
4 lancez PuppyOCR en renseignant le nom du fichier, extension tif comprise.
5 donner un nom au fichier de sortie.

Il bosse, et en 2 secondes il a traduit. Corrigez les bévues.

C'est prêt. A vous de juger de l'intérêt d'utiliser Puppyocr. Il arrive tout de même à prendre en compte une demi-feuille A4 d'un coup. Moi ce sont des photocopies de livres datant de 1800 que je fait. Et il m'aide bien.

Pelo

Puppyocr est à la une des journaux !

#9 Post by Pelo »

Puppyocr est à la une des journaux ! le Gui vient juste de sortir.
Bien sûr Puppyocr n'est pas Abiword, ni un traducteur. Chacun son job.
Bien content qu'on voit du nouveau sur nos lignes. A+
Ci-dessous un exemple où Abiword et son dictionnaire me corrigerait les erreurs.
Il ne me resterait que quelques petits ajustements de rien du tout.
Post-sciptum : j'ai vraiment eu un bon résultat sur ce coup-là. Ca marche rarement aussi bien. Le type de caractères, peut-être...
Attachments
puppyocr.jpg
Voici le genre de bouquins en pdf que je transcris à Puppyocr. Il faut reconnaitre qu'il y a un côté plus fun avec l'ocr qu'à retaper le texte.
(104.07 KiB) Downloaded 335 times
Last edited by Pelo on Sat 30 Mar 2013, 00:40, edited 2 times in total.

Pelo

pdfcube 3D petit pet, grans effets (3d)

#10 Post by Pelo »

Pourtant j'ai essayé Puppyocr avec la distro d'Argolance, j'ai pas fait attention à ce masque de saisie.
Je suis allé sur la 528.
Bien noté, Monsieur Argolance et bon travail.
Vacherie : on est tellement habitué aux termes anglais qu'on est perdu quand c'est décrit en français. bon, maintenant, je vais aller magasiner, faire du shopping, quoi. Mais non, pas à mon âge.
Attachments
pdfcube-0.3.pet
regardez vos PDFs sous toutes les coutures : chouette
(174.95 KiB) Downloaded 199 times
Last edited by Pelo on Sun 13 Jul 2014, 15:05, edited 2 times in total.

linuxcbon
Posts: 1312
Joined: Thu 09 Aug 2007, 22:54

#11 Post by linuxcbon »

Charette ? Non ! Vive la révolution française et la république ! :D

Pelo

Coupons la tête au pape ! PDFs des livres de 1800

#12 Post by Pelo »

Je suis vendéen, je m'interesse à l'histoire de la Vendée, et j'océrise les documents de l'époque avec Puppyocr qui laisse quelques erreurs que le dictionnaire d'Abiword va rectifier. Encore faut-il que j'en trouvât un. Celui sur la version expérimentale 5.5 de notre logiciel français le fait. Yes !
Les républicains de 1793 étaient des extrémistes (guillotinés après la terreur -Robespierre entre autres-), la république d'aujourd'hui reçoit le pape en grandes pompes, et la télé nous barbe avec l'élection du Saint-père. Mes ancêtres avaient raison et sont morts pour rien, les révolutionnaires de 1793 étaient des intégristes, et les vendéens de braves gens.
C'est écrit trop petit sur cette Toutou 5.5 ! mais la configuration d'Abiword est bien faite. Profitons-en.
Pour mes pyppistophiles interressés, j'ai 600 pages à traduire en caractères exploitables par un traitement de textes . Help !
Last edited by Pelo on Thu 11 Apr 2013, 09:30, edited 1 time in total.

linuxcbon
Posts: 1312
Joined: Thu 09 Aug 2007, 22:54

Re: Coupons la tête au pape ! PDFs des livres de 1800

#13 Post by linuxcbon »

Pelo wrote:Je suis vendéen, je m'interesse à l'histoire de la Vendée, ... Les républicains de 1793 étaient des extrémistes, la république d'aujourd'hui reçoit le pape en grandes pompes, et la télé nous barbe avec l'élection du Saint-père. Mes ancêtres avaient raison et sont morts pour rien, les révolutionnaires de 1793 étaient des intégristes, et les vendéens de braves gens.
Les Français en 1793 en avaient marre des "ROYS" de France, qui passaient leur temps à faire des guerres et à ruiner le pays. Guerres contre Allemagne, Angleterre, Italie, Autriche, Prusse, Flandre, Bretagne, Normandie, Portugal, Aquitaine, Espagne, Suède, Norvège, Savoie, Ecosse, Saxe, Bavière, Sicile... Louis XVI avait réduit le peuple à la famine et pendant ce temps il faisait la fete. Peut etre les paysans de Vendée mangeaient à leur faim, mais pas tous les Français.

Et je vois certains (pas tous) Vendéens xenophobes, sans ajouter que les habitants ne sont pas accueillants ni souriants, ne disent pas bonjour, j'y suis allé en vacances, aucune animation, vide... Et ils critiquent Paris et la région parisienne.

Pelo

OCR : éviter de retaper un texte à la main

#14 Post by Pelo »

Argolance wrote:Bonsoir,
Merci bien pour les renseignements.
... Bon c'est pas vraiment simple tout ça! Je pense surtout à l'utilisateur "ordinaire" qui risque d'être un peu effrayé! M'enfin bon, l'utilisateur "ordinaire" ne se sert pas souvent d'un OCR. :wink:
Je me demande par ailleurs ce qu'il est possible d'obtenir sous WINE: je vais explorer ça.

Cordialement.
Quand on ne peut pas faire de copier coller, l'OCR est une solution. Ensuite, on comprend vite si le jeu en vaut la chandelle.

A/ j'aurais plus vite fait de retaper à la main
B/ Je gagne du temps.
Le cerveau humain est capable de lire un texte bancale, mal fichu, un texte qui bave. Pas L'OCR.
Quand l'OCR fonctionne bien pour une page, on garde le réglage, et là il peut en faire 100 de suite en quelques minutes. On lance un correcteur d'ortographe derrière, et là c'est pratiquement fini, il ne reste que quelques retouches à la main à faire.

Mon bouquin de 1800 n'est pas du gâteau à reconnaitre pour un OCR, PuppyOCR s'en sort très bien. Le type de police doit jouer aussi, parce que, hier Puppyocr, c'était de la daube !
Last edited by Pelo on Sat 30 Mar 2013, 00:21, edited 1 time in total.

Pelo

Saluki propose d'autres programmes OCR

#15 Post by Pelo »

Je viens de réussir à installer Saluki sur mon ordi (la version 023). Il propose deux OCRs. Pas encore testés.

Post Reply