Tesseract 4 - Programa OCR (Optical Character Recognition) - (old)Puppy Linux Discussion Forum

Tesseract 4 - Programa OCR (Optical Character Recognition)

1 post • Page 1 of 1

Message

Author

tenochslb

Tesseract 4 - Programa OCR (Optical Character Recognition)

Quote

#1 Post by tenochslb » Tue 30 Jan 2018, 03:56

Este programa identifica texto en archivos .jpeg y lo transcribe a formato .txt

su uso basico es el siguiente:

Code: Select all

tesseract archivo.jpeg nombre -l spa+spa_old

Donde:

archivo.jpeg = el archivo que se quiere transcribir a formato texto
nombre = el nombre que se le desee dar al archivo texto que sera creado
-l = lenguage
spa = diccionario español
spa_old = diccionario español old
+ = para agregar mas de un diccionario

La descarga consiste en tres paquetes:

1. tesseract 4.00.00alpha (front end?)
2. leptonica 1.75.0 (el motor que identifica los caracteres)
3. spa+spa_old (los diccionarios para transcripciones en español)
Enlace de Descarga,
https://app.box.com/s/gqgp7a0aqwee133vgkq3efk4aysphnx1

Nota: los diccionarios para otros idiomas se pueden descargar de https://github.com/tesseract-ocr/langdata. Una vez descargados se colocan en /usr/share

Attachments

sample3.png: Ejemplo de un archivo de texto generado a partir de una imagen por el software tesseract; (235.88 KiB) Downloaded 260 times

1 post • Page 1 of 1

Return to “Usuarios de habla Hispana”