Il data processing by Made In Heritage per Fondazione Ugo e Olga Levi
Intelligenza artificiale per il trattamento dei dati culturali
Tecnologie di trattamento digitale dei dati d’archivio sviluppate da Made In Heritage per il LeviDigiLab della Fondazione Ugo e Olga Levi.
La digitalizzazione dell'archivio storico deve anche essere intesa come un processo di trasformazione della natura fisica dei dati. Per effetto di questa azione ‘preliminare’, i dati registrati su supporto cartaceo (lettera, spartito, scheda, foto) vengono fatti migrare su dispositivo digitale. Si tratta di un'operazione complessa che richiede l'utilizzo di vari strumenti hardware (come ad esempio gli scanner che abbiamo già descritto nella serie di post precedenti dedicati al progetto LeviDigiLab) e software.
Tipicamente, la digitalizzazione produce quelli che possono essere definiti bigdata, i quali devono essere gestiti secondo le indicazioni, modalità e obiettivi previsti nel progetto. Questa attività si chiama dataprocessing ed è fondata sull'utilizzo intensivo di algoritmi, una parte consistente dei quali basata sui protocolli e standard di intelligenza artificiale.
Nel campo della digitalizzazione dei beni archivistici e documentali, gli algoritmi sono assimilabili a software realizzati tramite apposita programmazione (coding), che svolgono autonomamente una serie di operazioni (conversione, misurazione, trasformazione) sui file con l'obiettivo di:
- Velocizzare il tempo di elaborazione
- Ridurre il numero di persone addette a tale elaborazione
- Migliorare il risultato finale
Per il progetto LeviDigiLab gli informatici di mind@ware, partner del network Made In Heritage, hanno sviluppato specifici algoritmi per il trattamento delle immagini che consentono di procedere, in automatico alla rotazione, ritaglio, correzione colore e aggregazione delle immagini.
Un aspetto particolarmente importante del progetto è quello finalizzato a sviluppare applicazioni più complesse per il trattamento dei dati d’archivio, sfruttando tecnologie quali la Optical Character Recognition (OCR), la Object Detection (individuazione del contenuto) e la Object recognition (riconoscimento del contenuto) allenate via machine learning.
Queste soluzioni informatiche agevolano il lavoro degli archivisti in termini di classificazione, raggruppamento, misurazione e infine pubblicazione (ad esempio su Digital Library) delle informazioni e contribuiscono all’affermarsi degli strumenti delle digitalhumanities per la valorizzazione e diffusione della memoria custodita nelle biblioteche e negli archivi storici.