Tecnologie per la digitalizzazione degli archivi
Come Intelligenza Artificiale e Linked Open Data cambiano il paradigma per gli archivi d’impresa
DIGITALIZZARE GLI ARCHIVI D’IMPRESA
La maggioranza delle persone quando pensa agli archivi immagina dei luoghi polverosi, incolori e spogli dove è scomodo muoversi e difficile orientarsi. Ambienti inospitali che soltanto gli addetti ai lavori sono in grado di apprezzare, comprendendo appieno la loro funzione e il loro valore. Eppure, ogni archivio storico, compreso quello aziendale, custodisce tesori spesso misconosciuti perché di arduo accesso e problematica fruizione.
Oggi, la difficoltà del consueto modello di fruizione dei contenuti degli archivi contrasta con la facilità con la quale accediamo alle informazioni presenti in quel repository di conoscenza universale che si chiama Internet. I nostri stili di vita sono cambiati, si pensi all’utilizzo dei social, oppure alla tematica emergente dell’IOT (Internet Of Things) e alla straordinaria possibilità di collegarsi a tutto e a tutti. Chi possiede uno smartphone sa che sulla rete può trovare qualunque informazione ed è ormai opinione comune che ciò che non si trova online semplicemente non esiste. È evidente che queste trasformazioni tecnologiche e sociali conducono a considerazioni specifiche sulle opportunità offerte da tali innovazioni nei settori dell’informazione, del commercio elettronico, della formazione, del marketing. La conferma è data dall'esplosione dei contenuti Internet, un fenomeno che offre moltissime opportunità ma che allo stesso tempo tende a condannare all’oblio i contenuti, specialmente quelli del ‘passato’ che non lo popolano. La rete è affollata di contenuti relativamente recenti (25-30 anni) che sono, in un certo senso, essi stessi nativi digitali, mentre del passato più remoto (che potremmo definire analogico) emergono solo i fatti eclatanti, quelli che per la loro rilevanza ‘universale’ non possono essere lasciati fuori dalla dimensione digitale. Tutto ciò che è digitalizzato è immediatamente disponibile perché strumenti come gli smartphone ed il cloud aumentano la magnitudo della sua accessibilità. È quindi facile comprendere come sia necessario colmare il ‘vuoto di passato’ che caratterizza Internet, rendendo accessibile l’enorme dote di informazioni celate negli archivi storici (repertori di Big Data analogici), a partire dai documenti dell’azienda, così da arricchire l’universo dei contenuti Internet e alimentare gli algoritmi basati su Intelligenza Artificiale e il Deep Learning, nuovi straordinari generatori di valore informativo.
TECNOLOGIE
Per colmare questo gap è indispensabile eliminare il deficit tecnologico e organizzativo dei procedimenti tradizionali di digitalizzazione degli archivi storici. Attraverso una riorganizzazione di tali processi si può apportare un significativo cambiamento nel panorama della digitalizzazione, in particolare per gli archivi d’impresa.
Oggi, l’evoluzione degli strumenti e degli algoritmi di Intelligenza Artificiale è tale per cui diventa necessario che questa tecnologia permei tutti gli ambienti aziendali. Le imprese si devono dotare di tecnologie avanzate e di sistemi gestionali dei modelli di digitalizzazione realizzati su componenti hardware e software all’avanguardia, tra loro integrati per rispondere alle esigenze di efficaci campagne di digitalizzazione.
Un moderno centro di digitalizzazione deve pertanto assolvere alle seguenti funzioni:
- organizzative (gestione progetti e attività);
- applicative (utilizzo degli scanner);
- processuali (trattamento dei dati digitali e delle immagini);
- descrittive (estrazione contenuti testuali dalle immagini; OCR, HTR);
- gestionali (creazione e gestione metadati);
- conservative (sistema informativo, database e storage dati);
- comunicative (pubblicazione contenuti);
- collaborative (interoperabilità dei dati; LOD).
In sintesi, si tratta di creare una sorta di black box il cui cuore è il software, il quale costituisce il motore di vari processi di digitalizzazione che vanno dal management dei progetti, alla gestione delle immagini e dei contenuti digitalizzati fino allo storage e pubblicazione dei dati. Nella black box sono tra loro collegate una serie di applicazioni differenti, appositamente sviluppate, che agevolano in modo sistematico la digitalizzazione delle diverse tipologie di oggetti (es, libri, foto, quadri, ecc.).
Le principali applicazioni sviluppate nell’ambito del progetto Made in Heritage sfruttano piattaforme di intelligenza artificiale quali Google Vision per l’estrazione di metadati e librerie open source quali ad esempio OpenCV per il processo di post produzione delle immagini.
Un ruolo essenziale nel processo di digitalizzazione degli archivi è svolto dalle piattaforme di pubblicazione on line e prima ancora da quelle di catalogazione. Back-end e Front-end sono due categorie di applicazioni familiari a chi si occupa di questa materia. Il primo è un database dei contenuti digitalizzati ed è profilabile per renderlo accessibile solamente al personale autorizzato. Il secondo (Front-end o OPAC) rende pubblici in senso ampio i contenuti digitalmente catalogati. A questi software è spesso demandata anche la gestione del delicato tema della tutela dei diritti d’autore e della riservatezza dei contenuti.
La descrizione dettagliata di queste applicazioni sarà oggetto di specifici approfondimenti che presenteremo nei prossimi numeri di MIH_News.