Este es mi primer libro escaneado desde 0, si bien ya había editado otros o pasado ocr a algunos pdf de por ahí, nunca había maquetado uno.
Usé un scanner Hp Scanjet N8420 (que me encontré en la calle, frente a una oficina cuando compran cosas nuevas y tiran las viejas porque son viejas) y solamente le enchufe el cable usb en casa + el plug 220v para probar si funciona y anda perfecto.
luego de escanear página por página, utilice el software ScanTailor que permite hacer ajustes increíbles con lo escaneado:
En una carpeta “out” scantailor te copia el resutado de su proceso y todas las imágenes estan en formato .tif
luego como las cajas que hice a mano era un poco diferentes (por lo tanto el output de las imágenes de scantailor no eran todas iguals) con el siguiente comando las ajuste a todas a 1000px de ancho
mogrify -resize 1000 *.tif
con mogrify es posible cambiarle el formato a las imágenes, yo las pasé a png para que pesen menos.
mogrify -format jpg *.tif
con imagemagick instalado use convert para crear un pdf con todas las imágenes
convert *.jpg shanzhai.pdf
instale ocrmypdf para poder generar una capa con los caractéres y poder seleccionar el texto
sudo dnf/apt install ocrmypdf
y luego ejecuté
ocrmypdf ./shanzhai.pdf ./shanzhai-ocr.pdf
Shanzhai byung-chul han : El arte de la falsificación y la deconstrucción en china