~/copiona /Quemar un libro a la luz del scanner

/libros escane_dos

Scanner house for fun and piracy

Este es mi primer libro escaneado desde 0, si bien ya había editado otros o pasado ocr a algunos pdf de por ahí, nunca había maquetado uno.

Scanner-1

Scanner-1

Scanner-1

  • Usé un scanner Hp Scanjet N8420 (que me encontré en la calle, frente a una oficina cuando compran cosas nuevas y tiran las viejas porque son viejas) y solamente le enchufe el cable usb en casa + el plug 220v para probar si funciona y anda perfecto.

  • luego de escanear página por página, utilice el software ScanTailor que permite hacer ajustes increíbles con lo escaneado:

  1. permite alinear cada página por si no salieron escaneadas en 0°
  2. autodetecta si es una página doble y la corta en items separados
  3. autodetecta la caja y margenes o podés hacerlo manual (me funcionó mejor manual)
  4. limpia errores de escaneo y genera un mejor contraste (en este libro no lo utilicé porque tenía imágenes y me las oscurecia mucho y no encontré una forma rápida (que debe existir) de no procesar esas imágenes y que le pase el contrast a todo el resto del texto )

En una carpeta “out” scantailor te copia el resutado de su proceso y todas las imágenes estan en formato .tif

luego como las cajas que hice a mano era un poco diferentes (por lo tanto el output de las imágenes de scantailor no eran todas iguals) con el siguiente comando las ajuste a todas a 1000px de ancho mogrify -resize 1000 *.tif

con mogrify es posible cambiarle el formato a las imágenes, yo las pasé a .png para que pesen menos.

mogrify -format jpg *.tif

con imagemagick instalado use convert para crear un pdf con todas las imágenes convert *.jpg shanzhai.pdf este comando compila las imagenes segun el orden numerico de los archivos. asique es importante numerar bien para que conserven el orden.

instale ocrmypdf para poder generar una capa con los caractéres y poder seleccionar el texto sudo dnf/apt install ocrmypdf

y luego ejecuté

ocrmypdf ./shanzhai.pdf ./shanzhai-ocr.pdf

Gracias por compartir tu escaneo !