Andrea Barbon, Convegno Etica e Digitalizzazione dell'archivio storico, Venezia, 28.10.2019
Trascrizione dell’audio
Sono Andrea Barbon, responsabile del centro di digitalizzazione “ArchiVe” che si trova nell'Isola di San Giorgio, presso la Fondazione Cini. Il centro ArchiVe è un centro di digitalizzazione di patrimoni culturali ed è sorto nel luglio del 2018 grazie a tre partner che sono i costituenti della fondazione Cini, il Politecnico di Losanna e la fondazione Factum Art Foundation di Madrid; il centro è una facility che si compone di circa 1000 metri quadrati di spazi, di laboratori, di spazi per la formazione, di laboratori per la digitalizzazione e di aree per la ricerca, per digitalizzare qualsiasi tipo di materiale che si trova all'interno degli archivi delle istituzioni culturali, con particolare interesse per la città di Venezia ovviamente e per gli archivi storici che sono conservati in molte istituzioni in questa città. I materiali sono dei più vari tipi: dai documenti, alle fotografie, alle opere d'arte, alle sculture e addirittura anche all'architettura, perché ci occupiamo anche della digitalizzazione su grande scala. Questi sono alcuni dei laboratori che noi abbiamo all'interno di ArchiVe; questo è uno scanner per fotografie e per grandi numeri e questo scanner, che si chiama Replica, ha digitalizzato nell'anno 2016/17 circa un milione di fotografie della collezione della “Fototeca della storia dell'arte” della Fondazione Cini. ArchiVe e i suoi partner condividono come visione la convinzione che la conversione digitale rappresenta un punto di svolta epocale per la ricerca e per la formazione; in questo contesto un valore fondamentale è rappresentato dalla ricerca indipendente e dalla condivisione dei risultati a beneficio della società. ArchiVe supporta e promuove lo sviluppo di tecnologie innovative nell'ambito della Culture Heritage; la missione è di essere un luogo di eccellenza in cui si condividono le esperienze e si lavora per la valorizzazione del patrimonio culturale attraverso le tecnologie digitali. In questo caso facciamo largo uso della intelligenza artificiale, che ormai in questi ambiti è uno strumento quotidiano. La stretta collaborazione tra i tre partner, che hanno delle caratteristiche molto diverse, è un fattore vincente: nello stesso luogo e lavorando su materiali reali, che sono i materiali conservati dalla Fondazione Cini. Questa idea della missione è condivisa con il Progetto Venice Time Machine, che è quello di una metafora tra due continenti, quello dei documenti analogici che sono conservati nell'archivio e quelli con i documenti digitali che invece sono in internet. La nostra sensazione è che tutto quello che è in internet esista mentre quello che è negli archivi esista solo per un pubblico molto ristretto. In questa visione dei due continenti che sono alla deriva, ArchiVe si propone di costruire un ponte tra questi due continenti per unirli, per traghettare un mondo analogico all'interno del mondo digitale. Questa è una grandissima sfida perciò bisogna cambiare di scala sulla digitalizzazione, sulla formazione e sulle tecnologie che normalmente vengono impiegate all'interno delle istituzioni culturali non solo italiane ma Europee in genere. Su questi temi ci abbiamo lavorato e ci siamo posti una serie di domande che vedete nelle slide atti a capire come sviluppare una tecnologia di processi tali che permettano a tutti questi patrimoni culturali di essere digitalizzati velocemente, in maniera sicura e di essere resi disponibili in internet. Qui le domande che nascono sono moltissime, come gli standard necessari per digitalizzare materiali tanto diversi. Vi faccio un esempio: all’interno della Fondazione Cini ci sono circa 15 km di documenti e all'interno di questi 15 km ci sono dalle fotografie, ai negativi, alle lastre, ai libri antichi, ai nastri magnetici, alle videocassette, alle audiocassette ed anche cd-rom. Uno dei problemi più grossi che affrontiamo in questi anni, sono i dati i nativi digitali in quanto quei dati nati negli anni 80-90 oggi molto probabilmente non sono più leggibili o perché mal conservati o perché non ci sono più programmi per aprirli. Questo è un tema della conservazione dei dati nativi digitali molto importante, anche al centro centro ArchiVe.
Il modello proposto è quello di affrontare i processi di digitalizzazione non tanto acquistando la tecnologia ma pensando al processo intero, un po' come si fa nella metodologia Lean all'interno dell'Industria, cioè disegnando un processo e raffinandolo finché non si arriva a standardizzare qualsiasi cosa e a semplificarla. In questo ciclo virtuoso si disegna tutto: dal processo di lavoro, ai software, agli scanner che vengono utilizzati. In questo campo qui la sostenibilità è molto importante, perché le istituzioni non possono permettersi di acquistare software o scanner costosi; quindi quello che stiamo tentando di fare è utilizzare strumenti comuni riconfigurati e ridisegnati per un uso molto avanzato, con elevate qualità di riuscita. Questo avviene grazie alla “Ricerca e Sviluppo” all'interno del Centro ArchiVe e alla formazione dei giovani e delle persone che ci lavorano. La nostra formazione non è una formazione universitaria ma è un centro applicato: mettiamo le persone a lavorare nei progetti di digitalizzazione e le coinvolgiamo anche nel design dei progetti di digitalizzazione. Ogni anno ospitiamo circa 12 scholarships ed altrettanti stage di vario tipo. La nostra missione è di rendere il modello riproponibile e ripercorribile anche da altre istituzioni; noi ci poniamo il problema che le altre istituzioni, come la fondazione Cini, più o meno ricche, debbano affrontare progetti di questo tipo senza sapere da che tecnologia iniziare.
ArchiVe quindi si propone di fare anche le formazioni, sia a studenti che a curatori di istituzioni. Il programma di formazione l'anno prossimo inizierà ad aprile e includerà 8 workshop che faremo su vari temi, comprensivi anche di seminari tematici sulla digitalizzazione.
Il tema della giornata è la tecnologia e l'intelligenza artificiale perciò quello che possiamo testimoniare è che la tecnologia funziona molto bene, funziona proprio nell’affrontare problematiche della digitalizzazione di massa per velocizzare la digitalizzazione. Questo approccio del design e della tecnologia ha permesso tra il 2016-2017, con due operatori e con lo scanner rotativo Replica, di digitalizzare un milione di fotografie. Per noi un milione di fotografie significa due milioni di file, perché ogni documento viene scansionato in entrambi i lati; questo apre tutta una serie di problemi di gestione, semplicemente anche solo per lo storage dei file e per tutta la problematica che riguarda la conservazione a medio-lungo termine dei file. In tutto questo devo dire che l'intelligenza artificiale, e più in dettaglio la Computer Vision, la Machine Learning e l’Evolution EuroNetwork, sono sostanzialmente i fattori principali in quanto vengono applicati in vari campi. In questo lo Scanner Replica, di cui parlavo prima, permette di digitalizzare 12 documenti al minuto fronte-retro alla risoluzione di 450 DPI; è un prototipo sviluppato grazie alla partnership tra i tre soggetti di cui parlavo prima e permette in maniera sicura di digitalizzare fotografie, documenti e fogli sciolti. Tutte le tecnologie che sono sotto questo scanner prevedono l'Impiego di intelligenza artificiale: dalla creazione automatica degli inventari, al controllo qualità, alla Post-produzione automatica che avviene nell'immediato appena terminata la sessione. Questi documenti vengono automaticamente ritagliati e salvati nei formati di pubblicazione e questo permette di semplificare molto il processo e di evitare allineamenti strani di documenti con il laser; quindi il documento viene semplicemente appoggiato sul piano e, anche se è leggermente ruotato non è un problema, perché poi il documento in sé viene raddrizzato e post-prodotto in automatico dagli algoritmi.
Per darvi un'idea, un milione di fotografie da post-produrre con una persona comporta più di un anno di lavoro mentre questa post-produzione è stata fatta in due settimane. Questo è un altro scanner realizzato all'interno del centro ArchiVe ed è uno scanner per libri, un prototipo di cui abbiamo sviluppato il modello su schemi noti (che sono i VScanner e Vshape) e per il quale abbiamo sviluppato un software utile alla scansione e alla metadatazione automatica durante la scansione, che è un processo importantissimo al fine di ritrovare i documenti in rete e di inserire informazioni e caratteristiche dei documenti e dei libri. Ultimo esempio riguarda come digitalizzare i grandi formati: questo è un piano aspirato, ovvero un tavolo di 2 metri per 1 con un set fotografico a cui abbiamo collegato un aspirapolvere di casa; la matrice di buchi che è stata fatta nel piano e tutti i layer di tessuti sovrapposti, permettono un'aspirazione ed una depressione sotto il disegno, che tiene il disegno piatto sulla superficie stabile, in modo che possa essere digitalizzato. Materiali come questi ,in alternativa, devono essere restaurati prima di essere digitalizzati e ciò vuol dire renderli piani e poi digitalizzarli. In questo caso il restauro viene evitato per due motivi: primo perché è molto costoso, secondo perché succede che in alcuni materiali il restauro non è necessario e non è quindi un investimento. Qui stiamo parlando di circa 26.000 disegni che abbiamo digitalizzato e ogni restauro costa 100-150€ disegno, quindi non sarebbe praticabile il restauro e la conseguente digitalizzazione. L’intelligenza artificiale quindi funziona molto bene per la gestione dei processi e degli inventari e tipicamente usiamo la Computer Vision, cioè la capacità degli algoritmi di interpretare i contenuti dell'immagine, la post-produzione delle immagini praticamente automatica ( circa 98% dell’attendibilità con solo il 2% processato a mano) e la trascrizione automatica del testo, non solo quello stampato ma anche quello manoscritto (anche non scritto con scrittura usuale e anche in alfabeti non europei, tanto che stiamo lavorando su un progetto in sanscrito) . Qui utilizziamo Machine Learning e Computer Vision, quindi istruiamo dei modelli per imparare a leggere la calligrafia e la scrittura; la trascrizione automatica arriva dal 92 al 97% di attendibilità e ciò vuol dire che ormai è come l’OCR a cui ormai siamo abituati: non è più una ricerca, ma ormai è uno strumento disponibile.
L’intelligenza artificiale poi aiuta molto nel reperimento dei documenti, così come un motore di ricerca basato sul riconoscimento automatico: per il progetto Replica, che è la digitalizzazione della Fototeca della Storia dell’Arte della Fondazione Cini, essendoci prevalentemente immagini, si è sviluppato un motore di ricerca in grado di riconoscere dei pattern grafici su dei modelli precostituiti che sono tipicamente utilizzati dagli storici dell’arte; in questo modo è possibile fare comparazioni, estrarre immagini e fare aggregazioni di immagini grazie al Network e al Machine Learning, ovvero a sistemi di autoapprendimento dell'algoritmo. Il motore di ricerca è on-line da due anni e lo stiamo ancora sperimentando e arricchendo continuamente di fonti ed immagini. Questo è un esempio di come si fa una computer Vision con Machine Learning: il numero 1 è il disegno come arriva dagli scanner, il numero 2 è l’algoritmo che riconosce la scena e per prima cosa estrae il colorchecker (che ci permette di mantenere il controllo qualità e dimensionale del disegno, che viene comparato), nel punto 3 l’algoritmo fa una segmentazione delle parti che ci sono all'interno della scena e nel punto 4 restituisce il disegno calibrato. Stiamo lavorando al fondo Seguso della vetreria Seguso in questi mesi e il Centro Studi della Fondazione Cini, assieme ad ArchiVe, ha digitalizzato circa 24-25.000 disegni fronte-retro e questi 25000 disegni, che sono 50.000 file, li abbiamo processati in due giorni con questo metodo. Quindi abbiamo risparmiato mesi di lavoro. Ultima esempio è un progetto in parte della Fondazione Cini e in parte dell’Humboldt Forum di Berlino ed è il fondo Daniélou, in cui ci sono circa 26.000 manoscritti in sanscrito sulle tradizioni popolari musicali indiane. Il problema è che c'è una quantità di dati incredibile che oggi non è facilmente reperibile nelle biblioteche indiane e questo è un unicum, quindi riuscire a capire quello che è scritto e renderlo ricercabile è un grande risultato. Noi arriviamo al 97% di riconoscimento del testo sulla parte scritta in inglese e tra l’87-92% sul sanscrito; il progetto è partito sei mesi fa e sono state digitalizzate 250.000 pagine: abbiamo fatto quattro modelli di Machine Learning e si è giunti dal primo che dava attendibilità intorno al 20-25% all'ultimo modello che da invece attendibilità variabile tra il 92-97%. Questo è un esempio di come si impiega un intelligenza artificiale in diverse istituzioni europee. Alla fine tutti questi progetti e queste attività sono fatte da borsisti, da dottorandi, da ricercatori insieme al nostro personale e queste persone sono messa a lavorare su progetti reali, che è l'unica cosa che permette poi di far pratica e di saper poi fare le cose. Da questi ragazzi noi riceviamo dei contributi incredibili in termini di idee ed innovazione di nuovi sviluppi. Attualmente ci sono 12 progetti in corso e nell'ultimo anno e mezzo abbiamo digitalizzato circa un milione e seicentomila documenti; questo sicuramente ha creato seri problemi di conservazione digitale. Considerate che abbiamo attualmente mezzo petabyte di dati conservati all'isola di San Giorgio e che ci sono costi incredibili in quanto noi li conserviamo in due località all'interno della Fondazione Cini, più una terza in Germania; questi dati li dobbiamo trasferire via internet ed ogni giorno partono 300-400 GB di dati.
Un altro progetto è “l'Atlante del Mar Mediterraneo”, una ricerca della Cini che vede 32 università coinvolte; questo è un progetto in cui è stata digitalizzata tutta una ricerca fatta negli anni ‘50 ed è un atlante sulle lingue del mare. Questo è un linguaggio perso, perso perché sono cambiate tante cose: la globalizzazione ha distrutto le tradizioni, specialmente nella pesca, e lo stesso lo hanno fatto anche le norme europee, perché hanno cambiato radicalmente le tipologie di pesci e le attrezzature che si possono utilizzare. Quindi all'interno della Fondazione Cini c'è una sorta di Archivio Archeologico della lingua del mediterraneo, fatto negli anni cinquanta, prima della globalizzazione. A questo Archivio è stata ridata vita tramite un database on-line a disposizione di 32 università del bacino del Mediterraneo, che da due anni e mezzo stanno lavorando a questo progetto. Ci sono circa 100 ricercatori che lavorano in questo progetto. Grazie al progetto Replica, le ricerche si possono basare su una ricerca semantica su metadati, su una ricerca basata su un particolare dell'immagine o su posture dell'immagine (per esempio la “Madonna che prega” o la “Madonna col bambino” non necessitano che ci sia scritto “Madonna col bambino” ma semplicemente basta dargli un esempio di come è la postura di una donna con bambino per ricercare tutte quelle forme che si assomigliano e che hanno un attendibilità vicina). Questo era il principale obiettivo del progetto Replica: digitalizzare un milione di foto e renderle disponibili agli Storici dell'Arte. La sfida in conclusione è sviluppare ulteriormente la visione di Archive: divulgare i risultati, le ricerche e le tecnologie. Tutti i nostri materiali sono disponibili, sono Open Source e Open Hardware; la nostra sfida è, oltre la divulgazione, la realizzazione di un network in una prospettiva del progetto Time Machine. Questo è un progetto che vede coinvolti ormai 500 istituzioni europee attorno ad un'idea che è quella di creare un ponte tra il passato e futuro a livello europeo e noi speriamo che, indipendentemente dal numero di ponti che ha Venezia, ArchiVe sia riuscita a crearne uno nuovo.