Digitalizzare libri: io faccio così Accolgo, pur con il ritardo di qualche mese, l’invito di un amico a scrivere una breve guida alla digitalizzazione dei testi. Non sono un esperto di informatica ma un semplice autodidatta che ha imparato a fare delle cose, spinto dal desiderio di condividere su Scribd una comune passione per i libri. Quello che di seguito illustrerò è il mio modo di procedere, risultato di sperimentazioni continue, di pratiche di lavoro altrui osservate ed assimilate e di suggerimenti “presi al volo”. Il software di riferimento, segnalatomi da Filosofia_in_Italia, è ScanTailor (open source), programma dai risultati strepitosi. Cosa fa Scantailor ? Caricate tutte le scansioni di un libro, consente l’orientamento delle pagine, la divisione delle singole fotocopie in due parti (due pagine), numerando progressivamente e singolarmente le pagine così ottenute. Riallinea il testo, seleziona il contenuto, imposta i margini e per l’output propone diverse opzioni, dal bianco e nero a colore/scala di grigi, o modalità mista (dipende dai gusti e dalle esigenze di lettura). L’uso di questo programma risponde ad una personale esigenza di potere leggere il testo digitalizzato su un ebook reader o su un tablet. In entrambi i casi la scansione della singola pagina è indispensabile. È vero che con il tablet si possono gestire anche le fotocopie a doppia pagina, ma il passaggio da una pagina all’altra non è fluido e inoltre bisogna riposizionare continuamente l’immagine. 1
Mentre prima procedevo direttamente (in automatico) alla scansione e conversione in PDF, ora ho separato, ottimizzandole, le diverse fasi. 1) Scansione a 300 dpi in modalità “grayscale”. Per la copertina e il retro, colore a 150 dpi. Conviene però ridurre a 100 o a 50 dpi per il colore, perché ho notato che alcune copertine non vengono visualizzate su Scribd. I primi lavori si basavano su scansioni a 100150 dpi, ma mi sono accorto che il risultato migliore si ha con un valore "
#$$%&''()*+,-))-.+,()/'%'0(12$13.)45)06' #$$%&''0(12$13.)4,0)74(+8)4-+,2+$'9:;+2'2)*+'< www.scribd.com/Baruhk
"
di 300 dpi. Un testo di 300 pagine può comportare una cartella delle scansioni superiore a 1 GB, ma poi l’output di ScanTailo r restituisce una cartella di file di 20-30 MB, che con un ulteriore alleggerimento può arrivare a 5 MB. 2) Finita la scansione, apro ScanTailor , carico la cartella delle scansioni (escludendo le pagine a colori), eseguo in automatico i diversi passaggi, controllando poi e aggiustando manualmente (se necessario). Arrivato a “Select Content”, allargo il riquadro di selezione per l’intera pagina, regolandomi sulla pagina (destra o sinistra) che ha la maggiore estensione, in modo che la selezione si sovrapponga all'area della pagina opposta (dopo diverse prove, mi sono convinto che questa è la soluzione migliore). La colonna di destra consente di visualizzare con precisione il risultato. La procedura sopra descritta è consigliabile per scansioni non superiori a 150 dpi . Questo perché il programma ha difficoltà a
riconoscere alcune parti del testo, quindi si rischia di saltare interi pezzi di pagine che il programma non “vede”. Con una scansione a 300 dpi ci si può invece affidare alla selezione automatica del contenuto. Controllare sempre il risultato, perché può capitare che salti qualche numero di pagina o qualche nota. In questo caso, regolare manualmente la singola pagina. 3) A questo punto, avendo già impostato margini piuttosto ampi nella selezione precedente, imposto a zero tutti i valori del riquadro “margins” e applico per tutte le pagine. Segue controllo manuale, perché qualche pagina può rimanere “tagliata”. Quando ciò succede, si ritorna al punto precedente, si regola la selezione del contenuto in modo da comprendere anche la pagina o le pagine tagliate e si ripete la sequenza. Come per sopra, la procedura descritta va bene per scansioni fino a 150 dpi. Per scansioni di 300 dpi, lasciare i margini predefiniti. 4) Arrivati all’output, regolo a 600 dpi la risoluzione e seleziono la modalità “Black and white”. Per le pagine di solo testo è la scelta migliore. Si ha un testo nitido su sfondo bianco, ottimo per i www.scribd.com/Baruhk
=
reader/tablet. Per le pagine a colori e per le immagini o foto in bianco e nero, impostare color/grayscale. Per fotocopie di testo non ben definite, un discreto miglioramento si ha con l’opzione “White margins” ed “equalize illumination”. Provare in questo caso anche “mixed”, valutando il risultato. Finita questa prima parte, passo all’uso del secondo, fondamentale programma, Adobe Acrobat . Ovviamente, si possono usare programmi similari che consentano le stesse operazioni. Apro con “File – Crea – Combina file in un unico Pdf” la cartella di output di Scan Tailor . Inserisco tutti i file e aggiungo la copertina e la quarta di copertina che avevo tralasciato. Ordino, nel riquadro di assemblaggio, la numerazione dei file spostandoli in sequenza (la numerazione di ScanTailor va riordinata nel riquadro). A questo punto comincio a lavorare sul file PDF appena prodotto. 1) Ritaglio la copertina , la quarta e il risvolto di copertina a parte. 2) Poi procedo con il ritaglio dei margini, impostando un valore medio sia per le pagine pari che per quelle dispari. Le due operazioni (pari e dispari) sono separate (non so se altri programmi includono queste due distinte operazioni, ma Acrobat lo fa in modo veloce ed efficace). La procedura descritta vale per le scansioni fino a 150 DPI. Per le scansioni a 300 dpi i contenuti delle pagine sono perfettamente allineati e si può eventualmente ritagliare in altezza o larghezza a seconda delle esigenze. 3) Prima di salvare, controllo singolarmente le pagine, per fare in modo che le stesse siano allineate e che abbiano (approssimativamente) la stessa misura. Se qualche pagina risulta tagliata, annullo l’operazione (l’annullamento è possibile solo prima del salvataggio) e ripeto il ritaglio allargando i margini. Dopo aver proceduto al ritaglio per le pagine pari e dispari, capita di trovare pagine con margini neri (è l’effetto collaterale dell’allargamento, in www.scribd.com/Baruhk
<
, dei margini all’intero riquadro della pagina). In questo caso si può procedere ulteriormente al ritaglio della singola pagina. Scan Tailor
La procedura sopra descritta è superflua per scansioni originarie a 300 dpi .
4) Quando il risultato è soddisfacente, si può salvare. Sottolineo il fatto che è bene salvare alla fine, perché, una volta salvato il ritaglio, non si può tornare indietro e bisogna di nuovo riassemblare i file per creare il Pdf. 5) Per l’alleggerimento del file si procede con il comando “Salva con nome – Pdf con dimensioni ridotte”. L’impostazione predefinita è “rendi compatibile con Acrobat 4.0 o successivo”. Questa impostazione produce risultati modesti (qualche Mb in meno). L’opzione consigliabile è “rendi compatibile con Acrobat 10.0 o successivo”: i risultati sono strabilianti. Quello che si perde in definizione (poco, visibile ingrandendo molto) lo si guadagna in leggerezza. Il “Dizionario” di Abbagnano, che con salvataggio normale è di 111,7 MB, salvato con la modalità sopra descritta, si riduce a 27,6 Mb; o “La storia della filosofia III“ di Abbagnano, da 68,7 passa a 16,6 MB. Il risultato ottenuto è stato sì il frutto di due potenti programmi, ma anche l'esito di lunghe giornate di prove e tentativi per potere realizzare un prodotto apprezzabile. Ma avendo tempo e pazienza, controllando cioè tutte le fasi (con ritagli puliti e simmetrici e pagine con un perfetto allineamento delle righe), si possono raggiungere risultati di gran lunga superiori. Inoltre, per alcuni testi, e solo se “divorati” dal demone del perfezionismo, con Acrobat si possono creare PDF con possibilità di indicizzazione ed inserimento di testo, partendo ovviamente da scansioni di buona definizione (OCR integrato, testato, di ottima qualità). Da un PDF costituito da scansioni a doppia pagina, di buona qualità, si possono ricavare con Acrobat , in formato JPEG, le singole pagine (l’operazione è veloce). Con queste immagini si può procedere con Scan www.scribd.com/Baruhk
>
al miglioramento del file, attraverso la divisione per singola pagina. Poi si ricostituisce il file PDF con Acrobat . Questa operazione riesce a migliorare sensibilmente il testo. Se il file PDF, di partenza, invece è di scarsa definizione, la procedura descritta non è affatto migliorativa. Per questo motivo, d’ora in poi, conserverò in un disco esterno la cartella delle scansioni di ogni testo, in modo da potere costruire file PDF di diversa grandezza in base alle esigenze d’uso. Tailor
Buona condivisione a tutti! ;-) Baruch
www.scribd.com/Baruhk
?