Il blog di Antonio Tombolini

Google Books mette in pericolo il patrimonio librario mondiale, ecco perché

G

[Ne ho parlato anche ieri qua, ma ho bisogno di dare sfogo a un urlo di dolore che mi pare ancora incompreso dai più!].
apt_bookscan_1200_lrg
Google BooksCaro Editore, cara Biblioteca, firma qui, che così io vengo e ti digitalizzo tutto gratuitamente e in poco tempo! In questo modo faccio un servizio enorme alla cultura, preservando per i millenni che verranno un sapere che se affidato alla sola carta rischia di deperire e scomparire. Inoltre consento la circolazione di tutto questo sapere che resta spesso inaccessibile, introvabile, recluso ai più. In cambio ti chiedo solo di consentirmi di usare i testi digitalizzati per alimentare il mio motore di ricerca specializzato sui libri. Certo, io ci metterò su la pubblicità, e magari in futuro venderò quei libri, dando una parte a te, facendoli leggere online o cose del genere. Ma tu in cambio ti ritroverai un intero archivio digitale, per sempre, e gratis, di tutti i tuoi libri presenti e futuri!
EditoreUhm…
BibliotecaUhm…
Google BooksCoraggio, perfino Harvard, e questo e quell’altro, perfino la Bodleian Library di Oxford, e ora perfino quegli sciovinisti della Bibliothèque Nationale de France, hanno tutti aderito, che aspetti?
Editore, BibliotecaMa poi tu diventi troppo forte, ma poi tu ci guadagni tanto e noi poco, ma poi blablabla (continua con una sequela di banalità e idiozie, tanto che, dopo un po’, all’unisono)OKAY, CI HAI CONVINTO, DIGITALIZZACI TUTTI!

Clicca per ingrandire e renderti conto con un esempio a caso
Clicca per ingrandire e renderti conto con un esempio a caso

Morale: tutti discutono del progetto Google Books da tutti i punti di vista (in genere soprattutto da quello dei soldi, chi ci guadagna cosa come e quanto). Nessuno a quanto pare, NESSUNO, si è premurato di dare un’occhiata alla qualità vergognosa delle digitalizzazioni fatte da Google. E questo dovrebbe essere l’archivio del sapere che affidiamo alle generazioni future? Per quanto mi riguarda è un progetto da boicottare.

Add comment

  • E’ vero me lo dice spesso anche mia moglie che le digitalizzazioni di Google books spesso fanno schifo. Pero’ prima volta che ci vediamo ti faccio vedere la qualita’ delle scansioni e delle fotocopie inviate “a pagamento” da grandi biblioteche di tutta europa. Ed in ogni caso non capisco bene tutto questo cosa c’entri con il progetto in se’. Batsera’ digitalizzare meglio no?

  • Mi occupo di archiviazione ottica da quando gli scanner andavano a carbone e posso garantire una cosa: per fare una buona digitalizzazione serve tempo, cura ed attenzione anche utilizzando il top della tecnologia. c’è un solo modo per ridurre drasticamente i costi, ed è ridurre la qualità. chi racconta storie diverse lo fa in malafede.

  • Massimo, certo che basterebbe digitalizzare bene per rendere buono il progetto (tutto il resto sono chiacchiere di retroguardia). Ma il punto è quello illustrato qui sopra da Alessandro: fare una buona digitalizzazione, affidabile a fini archivistici e di tutela del bene, costa, e non è quello che fa Google. Che andrebbe anche bene se fosse un di più, a fini di “consumo” immediato, ma: da un lato Google spaccia la cosa come filantropia (leggi le pelose note che antepone ai file epub in download); dall’altra biblioteche editori e istituzioni fanno finta di crederci, raccontando in giro che hanno digitalizzato il loro archivio, per non affrontare il problema degli investimenti necessari a farlo seriamente.

  • Caro Antonio,
    in questi giorni sono stato a IFLA, dove come immaginerai c’è stato un gran parlare di tutto questo.
    Il discorso con Google è complesso, ci sono pro e contro della situazione e bisognerebbe discuterne tutti i vari aspetti.
    Per quanto mi riguarda, la critica che tu fai forse lascia il tempo che trova perchè (io spero), nel contratto di ogni biblioteca saranno comprese anche le specifiche di risoluzione e qualità dell’immagine. Dato che la tecnologia è abbondantemente presente, e dato che tutti i grossi scanner da “mass digitization” scansionano dai 300 ai 400ppi, con abbondanti mega per ogni pagina, la risoluzione di ogni immagine dovrebbe essere buona di defult. Quello che tu forse lamenti, a ragione, è il discorso dell’OCR. Se capisco bene, bhè, questo non è un problema solo di Google. Anche Internet Archive ha un OCR spesso penoso, e sinceramente l’unica alternativa che io vedo (da qualche anno a questa parte) è una rilettura umana del testo: progetti come Distributed Proofreaders o Wikisource, permettono agli utenti di rileggere i libri e validare la trascrizione. Ovvio che la velocità di una rilettura umana è enormemente basso, rispetto ad una macchina, ma per ora non vedo software rivoluzionari che fanno i miracoli.
    Ad ogni modo, mi sembrano problemi non solo del progetto Google Books, e in un qualche modo possiamo sperare che il software OCR Tesseract di Google riceva una bella botta di finanziamenti e sviluppi.
    Una cosa più importante, di cui si parla poco, è la licenza con cui saranno rilasciate le copie digitali alle biblioteche.
    Che licenze sono, che restrizioni hanno, che diritti si terrà Google? E’ una questione (a me) non chiara, e questa forse farà la differenza.
    Chi vivrà vedrà. Ma non dobbiamo sottovalutare che, con il Google Book Search Settlement (per ora valido solo in America) per la prima volta si parla di regolarizzare il mercato di libri digitali non in pubblico dominio. E’ una svolta epocale, IMHO, e dobbiamo ancora capirne bene tutte le conseguenze.

  • io saro’ anche fesso e credulone ma dal punto di vista dell’utilizzatore finale 😉 la filantropia di una iniziativa del genere la vedo. Se poi applichiamo il tutto ad un paese come il nostro dove le biblioteche non hanno soldi per far nulla (e verosimilmente continueranno a non averne) allora non vedo grandi alternative concretamente percorribili.

  • I colossi come Google dovrebbero scannerizzare a costo bassissimo con i loro macchinari. Il proofreading dovrebbe poi essere a carico delle biblioteche (un lavoraccio!).
    La domanda vera è: vale la candela spendere tutti questi soldi (pubblici per lo più) per preservare ai posteri le rime di una cortigiana spagnola del XVI secolo (esempio inventato)? :-/

  • Hanno sistemato quella pagina della storia della letteratura italiana a tempo di record? Adesso non mi sembra così orribile…

  • Il discorso su quanto sia pericoloso Google vale e, purtroppo, continuerà a valere (non solo per il settore dei libri).
    Nello specifico dell’articolo è vero che la qualità attuale dell’OCR fa schifo ma a) Google ha le immagini originali b) le tecnologie di OCR miglioreranno, sempre, sempre più c) prima o poi Google ci infilerà qualcosa per cui sarà possibile segnalare e correggere gli errori.
    In ogni caso lavorando nell’IT la vedo nera da qui a dieci anni.

  • Due cose: come in qualsiasi contratto c’é una clausola sulla qualitá del prodotto o del servizio fornito, o no ? E poi: i libri di carta non é che spariscono. Se un giorno sparissero e tutto fosse digitalizzato, chiunque
    controllasse le centrali (biblioteche) digitali controllerebbe le possibilitá di informarsi. Vedo magari in questo – preso alla lontana – un pericolo piu´concreto di altri, risolvibili con nuove evntuali tecnologie.

  • Esiste un sistema che consente di digitalizzare in maniera perfetta anche scansioni schifose.
    Questo sistema si chiama Recaptcha, consiste nel farlo fare alle persone che navigano su internet, una parola per volta. Vi consiglio di documentarvi perchè è un progetto interessantissimo (a mio parere).
    Sul potere di google non mi pronuncio perchè è un argomento troppo vasto e troppo soggettivo.

  • penso e spero che google stia archiviando anche le immagini in alta definizione delle pagine dei libri e che le renda disponibili in rete.
    In questo modo altri o google stessa possono effettuare una migliore acquisizione OCR o correggere quelle già fatte.
    Certi libri poi magari hanno dei font arcaici o addirittura sono manoscritti, nel qual caso sarà interessante fruirli proprio come immagine.

  • Avete idea di cosa significhi fare ricerca all’università? Per consultare testi che nella maggior parte dei casi non vanno a prestito ci si deve sbattere da una biblioteca all’altra sottostando a tiranniche esigenze di orario di queste ultime dovute ad una carenza cronica di organico (es: se il libro x si trova nel reparto y, l’addetto vi si reca solo in determinati orari o addirittura in determinati giorni e se l’utente non è ben informato sulle abitudini della biblioteca in questione, rischia di perdere diverse ore o un’ intera giornata). Il ricercatore è spesso costretto a fare copie fuorilegge di testi protetti dal copyright dei quali si potrebbe fotocopiare solo un numero irrisorio di pagine. Farsi inviare volumi da biblioteche esterne verso la biblioteca del proprio dipartimento universitario per mezzo del prestito interbibliotecario ha un costo (non elevato in genere, ma all’università chi fa ricerca guadagna veramente poco), ma la cosa buffa è che nell’era di internet le biblioteche esigono il pagamento in bollettini postali (il che significa fare la fila alle poste spesso per pagare bollettini di quattro euro) e qualche volta addirittura in vaglia postali (sissignori) che hanno un costo più elevato dell’operazione postale stessa (e causano sempre un moto di sorpresa e d’ilarità da parte dell’impiegato delle poste). Quando si richiede la scannerizzazione di un testo (rigorosamente fuori dal copyright) ad una qualsiasi biblioteca, questo arriva dopo tempi biblici, non certo a buon mercato e non necessariamente di buona qualità (ciò vale anche per le fotocopie degli articoli). Per quel che riguarda le biblioteche italiane, va detto che esiste una grande variabilità tra esse nell’erogare tali servizi: alcune sono professionalmente impeccabili, altre, beh…meglio rivolgersi all’estero. Da questa disamina, appare chiaro che il povero ricercatore veda l’opera di Google come una benedizione (chiaramente il lavoro deve essere di qualità, altrimenti inservibile).

  • meno male, certo il secondo è un libro scannerizzato, il primo una schifezza che non ha nessun senso pubblicare, non per altro, ma perché è inutile

  • curioso: ogni pagina di questo libro ha in basso a destra la prima sillaba della pagina successiva. Forse un sistema di controllo per l’impaginazione ?
    Di certo qualcosa che complica non poco la digitalizzazione automatica, bisognerebbe incaricare dei monaci tecnologici 🙂
    Amanuensi con in mano la tastiera.

  • Per adesso, i problemi evidenziati non mi sembrano insormontabili. Io non so come funzioni, ma credo che la difficoltà e il costo principali stiano nella scansione, non nella successiva postelaborazione (OCR, impaginazione, formato PDF ed EPUB). Quanto ci metterebbe Google a far correre i suoi software OCR (probabilmente Tessaract) su tutti i libri? Come già detto, scansione è una cosa, trascrizione è un’altra. E la trascrizione è un problema di tutti, anche di Open Book Alliance, che per ora dice dice ma fa pochino.
    @Francesco Su Wikisource (nelle varie lingue) facciamo esattamente questo, guarda come esempio: http://it.wikisource.org/wiki/Indice:Zibaldone_di_pensieri_I.djvu
    La cosa divertente è che utilizziamo sia i libri di Internet Archive come di Google (quelli in pubblico dominio, ovviamente)
    I progetti human-driven già ci sono, magari Google prima o poi aprirà la possibilità di una trascrizione tipo wiki.
    Ma, IMHO, è fondamentale aver posto le basi legali ed economiche per far partire finalmente un processo di digitalizzazione globale e sostenibile.

  • Per prima cosa a mio parere bisognerebbe distinguere tra i fini dell’operazione.
    Se il fine è snellire la ricerca e rendere il 100% delle informazioni disoponibili a tutti (che è poi la ‘mission’ di Google) allora vanno bene anche pagine non completamente corrette, ma comprensibili, purchè si faccia.
    Se il fine è “tutelare il bene a fini archivistici” come dice Antonio, allora il lavoro di Google è inutile per due ragioni.
    1- Nonostante la sempre più concreta possibilità di un World Wide Computer, la carta è più longeva del digitale.
    2- Archiviare trascrizioni inesatte non serve a nulla. Con una piccola riserva: nessuno è a conoscenza della versione originale della Divina Commedia, mentre ci sono invece pervenute solo copie trascritte e non necessariamente fedeli all’originali. E così sarà sempre (?), almeno credo. O no?

  • Qui sta iniziando a parlare di Google come ente filantropico. Google ha un solo interesse: fare soldi. Ha davvero senso dare ad una entità privata la leadership della ricerca online *e* quella dei video *e* quella tra le notizia *e* quella sui libri? Ai posteri…

  • […] Simplicissimus.(sulla qualità delle digitalizzazioni dei libri da parte di Google) [Ne ho parlato anche ieri qua, ma ho bisogno di dare sfogo a un urlo di dolore che mi pare ancora incompreso dai più!]. […]

  • Scusa Antonio, ma l’alternativa a Google Books quale potrebbe essere? Faccio un esempio, non so quanto calzante. I musei. Ci sono più tesori negli scantinati – preclusi ai non addetti ai lavori – di quanti se ne espongono. Stessa cosa con il patrimonio cartaceo. Certo, la scansione deve essere perfezionata. Certo, i libri pubblici devono restare pubblici (dopo la digitalizzazione) e non diventare proprietà di Google…..o no?

  • La digitalizzazione delle risorse sarà inevitabile ma il tuo post è interessantissimo perchè punta il dito su “come” si sta facendo, non ci avevo mai fatto caso. In altre parole sembra che (al momento) nessuna biblioteca che è stata digitalizzata possa credere di poter recuperare il proprio patrimonio in caso di incendio…

  • dubito fortemente che lo stiano facendo apposta, sanno benissimo che i loro servizi hanno molti utenti perché sono di qualità, non hanno ancora un brand tale da poter far soldi con prodotti scadenti, quindi se questo prodotto sarà scadente nessuno lo userà.

  • L’articolo è approssimativo e non tiene conto di troppi fattori. Possiamo discutere sul fatto che Google sia effettivamente il nostro Grande Fratello Orwelliano, possiamo discutere sugli interessi economici in ballo.
    Ma il signor Antonio Tombolini (che suppongo sia l’autore dell’articolo, se così non fosse mi scuso) da quanto tempo segue Google, l’evoluzione della rete e di tutto quello che gli gravita intorno?
    Google offre una serie di servizi a privati e aziende (attenzione: AZIENDE!) a costo ZERO e di ottima qualità, a cominciare a Gmail e Google Docs (per essere precisi, li offre anche a pagamento ma quelli gratuiti sono parecchio superiori alla media della concorrenza).
    Google Libri non è che un altro tassello dell’enorme puzzle di servizi; dal punto di vista tecnologico, un enorme “work in progress” per far avanzare la tecnologia OCR (come il sistema Re-Captcha). Solo chi possiede i mezzi tecnologici e finanziari può sostenere questo lavoro, e Google, almeno per ora, rende tutto disponibile gratis. Vogliamo discutere sul rischio futuro che Google renda tutto questo a pagamento? Ok, discutiamone, perchè è un problema reale. Ma la breve storia dell’IT ha dimostrato che quando un monopolista calca troppo la mano, alla fine esce fuori un Deus Ex Machina che risolleva le sorti della storia. Vedi Linux, la FSF, la comunità Open Source e altri importanti progetti nati dal nulla. Standard e tecnologie aperte sono la chiave per mantenere un equilibrio stabile fra le aziende e i loro interessi, e la giusta libertà di informazione e azione in rete. Solo questo è da preservare.
    Google vuole digitalizzare libri? Che buon pro gli faccia, e lo fa anche a noi se il servizio resta gratuito.

  • Sono anni che Google sta usando standard e tecnologie aperte per imporre i propri prodotto sul mercato: se qualcosa non gli piace se la crea e la impone (come per esempio farà con il proprio browser).
    Il pericolo di Google è che la percezione delle persone (e quindi delle aziende, essendo fatte di persone) è ancora nella fase “Google, il gigante buono”.

  • Si continua a fare confusione tra copie anastatiche ed ebook.
    — La copia anastatica ha come obiettivo la preservazione dell’interezza del libro, non solo del testo. Quindi immagini, disegni, annotazioni, ma anche la grana della carta, l’ampiezza dei margini, la qualità ed i difetti dei tipi utilizzati.
    — L’ebook invece ha lo scopo di proporre il testo nella sua interezza, preservando il contenuto svincolandolo dal contenitore cartaceo.
    Dagli allegati che ho visto, Google non fa bene nessuna di queste due cose:
    — le copie anastatiche sono a due colori (bianco e nero) e di qualità inferiore ad una brutta fotocopia, perdendo così il valore di conservazione del libro in quanto tale.
    — Il file .epub scaricabile è inutilizzabile come ebook. Il testo è pieno di errori di scansione, con numeri di pagina in mezzo al testo, macchie della carta riconosciute come caratteri. Senza parlare dei metadati completamente fallati.
    A chi serve un simile lavoro? Al ricercatore no, poiché in ogni caso deve far ricorso comunque al cartaceo originale, non potendo accedere né al testo, né può valutare lo stato di conservazione dello stesso. E a me, misero lettore, che caricando l’epub sul mio reader mi ritrovo un’accozzaglia di caratteri a casaccio.
    E non dimentichiamoci della categoria che più potrebbe giovare dalla digitalizzazione: i ciechi.
    Costoro hanno come unico accesso alla cultura gli screen reader, software che traducono in voce quanto viene presentato sul display. Se la qualità dell’epub è quella che ho visto negli esempi, i non vedenti dovranno continuare a leggere sui rari, costosissimi, libri in braille.
    A chi sostiene che Google fa un lavoro meritorio dico semplicemente: leggete 10 libri di Google, dall’inizio alla fine, poi ne riparliamo.
    Luke

Il blog di Antonio Tombolini