Alex (@yo@alex.femto.pub)

1y

@yo eso intenté hacer y ahora el error que tira es: SyntaxError: invalid syntax
Intenté con el comando pip install --user ocrmypdf y el comando python3 -m pip install ocrmypdf. Ambos tiran lo mismo

2 0 0 View Post & Replies See Original

1y

@muchanchoasado para instalar:

py -m pip install ocrmypdf

para ejecutar ocrmypdf:

py -m ocrmypdf

Tendrás que añadir los nombres de los PDF que quieras convertir al comando, ahora intento hacer alguna prueba con un PDF, aunque no sé cómo funciona esta herramienta.

1 1 0 View Post & Replies

1y

@muchanchoasado sí, acabo de probar con uno de los ejemplos que vienen con OCRmyPDF y creo que funciona. (No podía copiar el texto del PDF original, después de pasarlo por OCRmyPDF, puedo copiar texto.)

Curioso programa.

Si tienes alguna dificultad avisa. Si prefieres usar un medio de comunicación que te sea más cómodo, lo que te vaya mejor.

1 1 0 View Post & Replies

1y

@yo @yo intenté escanear un documento y me tiró este error: OCRmyPDF: error: unrecognized arguments: segundo\MANUAL DE CATEDRA _ UNIDADES 6-10.pdf.
¿Podrías pasarme algún ejemplo de un comando que te haya salido exitoso? A lo mejor estoy escribiendo algo mal.

1 0 0 View Post & Replies See Original

1y

@muchanchoasado si los ficheros tienen espacios en el nombre, seguramente tengas que entrecomillarlo.

También para simplificar, mueve los ficheros a la carpeta en la que estés en la línea de comandos, para no tener que pelearte con rutas relativas. De paso les puedes quitar los espacios del nombre.

Sin espacios y sin tener que especificar la carpeta debería ser más fácil.

1 1 0 View Post & Replies

1y

@yo ahora sí pude, muchas gracias por toda la ayuda! Me generó un archivo txt ahislado con el texto. El resultado no fue tan bueno como esperaba, pero supongo que eso ya es por la mala calidad de las imágenes.

1 0 0 View Post & Replies See Original

1y

@muchanchoasado vaya. Yo jugué un poco con Tesseract (que es lo que usa OCRmyPDF) hace años y tampoco era 100% efectivo.

Yo le puedo decir a OCRmyPDF que genere un PDF en vez de un fichero de texto. Eso conservará la disposición del documento, pero la verdad ni idea de si eso te irá mejor o peor con el lector de pantalla.

1 1 0 View Post & Replies

1y

@yo en realidad es mejor que sea PDF porque conserva las páginas, el TXT es una sola cosa enorme y resulta incómoda. ¿Cómo es el comando que usaste? EL mío fue py -m ocrmypdf manualredacciontomoa.pdf output_pdf --skip-text. Tuve que poner eso porque era documento híbrido, había algunos títulos hechos en word.

1 0 0 View Post & Replies See Original

1y

@muchanchoasado huy, con un comando así, el fichero que me produce es un PDF.

En el comando que has pegado, en vez de acabar en punto pdf, acaba en guion bajo (underscore) y luego PDF. prueba a ponerle output punto pdf y abrirlo con el visor de PDF más accesible que tengas.

1 1 0 View Post & Replies

1y

@yo ahora sí que generó un PDF! Esto es bastante útil para documentos de muchas páginas.

1 0 0 View Post & Replies See Original

1y

@muchanchoasado qué curioso. ¿Entonces puedes "pasar por encima" del PDF con el lector de pantalla y te lee el texto por donde pasas?

(Sólo he jugado un poco con VoiceOver y TalkBack en dispositivos con pantalla táctil. Nunca he podido jugar con un lector de pantalla para ordenador tradicional. Me imagino que será bastante distinto a VoiceOver y TalkBack, pero me cuesta adivinar cómo funciona.)

1 1 0 View Post & Replies

1y

@muchanchoasado ah, vale, nada de ratón (al menos en la demo que he visto con NVDA). Supongo que puedes ir navegando por los bloques de texto y te los irá leyendo. Bueno, ¡espero que te sirva el programa!

1 1 0 View Post & Replies

1y

@yo @yo así es, no usamos ratón para nada, los comandos de teclado son el día a día.
En interfaces comunes usamos más que nada las flechas y el tabulador, arriba y abajo leen por línea en un documento, las flechas izquierda y derecha sirven para deletrear y expandir elementos en un árbol, la tecla aplicaciones hace de click derecho. La navegación web se hace con letras. H para encabezados, b para votones, k lara links, e para cuadros de edición.

0 0 0 View Post & Replies See Original