su uso basico es el siguiente:
Code: Select all
tesseract archivo.jpeg nombre -l spa+spa_old
Donde:
- archivo.jpeg = el archivo que se quiere transcribir a formato texto
nombre = el nombre que se le desee dar al archivo texto que sera creado
-l = lenguage
spa = diccionario español
spa_old = diccionario español old
+ = para agregar mas de un diccionario
- 1. tesseract 4.00.00alpha (front end?)
2. leptonica 1.75.0 (el motor que identifica los caracteres)
3. spa+spa_old (los diccionarios para transcripciones en español)
Enlace de Descarga,
https://app.box.com/s/gqgp7a0aqwee133vgkq3efk4aysphnx1
Nota: los diccionarios para otros idiomas se pueden descargar de https://github.com/tesseract-ocr/langdata. Una vez descargados se colocan en /usr/share