Il Progetto Gutenberg

Archeologia Informatica e OCR: le radici tecnologiche della digitalizzazione del patrimonio culturale

Nel vasto panorama dell'archeologia informatica e del retrocomputing, pochi progetti possono vantare una storia e un impatto paragonabili a quelli del Progetto Gutenberg. Questa pietra miliare nell'evoluzione dell'informatica ha gettato le basi per la democratizzazione dell'accesso alla conoscenza. Nelle prossime righe si esploreranno le origini del Progetto Gutenberg e le principali tecnologie informatiche che hanno reso possibile questa impresa rivoluzionaria.

Il Progetto Gutenberg è ufficialmente nato il 4 luglio del 1971, quando il computer personale era ancora un'idea embrionale e i mainframe dominavano il mondo dell'informatica. La visione venne a Michael Stern Hart, uno studente dell'Università dell'Illinois che aveva accesso a un Xerox Sigma V. Fu proprio su questa macchina che iniziò a digitalizzare il testo della Dichiarazione di Indipendenza degli Stati Uniti. Il suo obiettivo era ambizioso: creare una biblioteca digitale di testi letterari di pubblico dominio.

Il concetto chiave del Progetto Gutenberg era il "Dominio Pubblico Digitale". Hart credeva che il sapere dovesse essere libero e accessibile a tutti, un'idea rivoluzionaria. I testi digitalizzati sarebbero stati messi a disposizione gratuitamente, eliminando le barriere all'accesso all'informazione.

Per comprendere appieno l'importanza del Progetto Gutenberg, vanno esaminate le principali tecnologie informatiche del tempo. All'epoca, le tecnologie di riconoscimento ottico dei caratteri (OCR) erano ancora agli albori e il testo doveva essere trascritto manualmente, carattere per carattere. Il processo era laborioso e richiedeva tempo e pazienza. Michael Hart e il gruppo di volontari che lo assisteva trascrivevano testi in modo meticoloso, dando prova di un impegno fuori dal comune che alimentava questo progetto straordinario.

Oggi questo tipo di tecnologia, che è al centro dei processi di digitalizzazione degli archivi storici istituzionali e d’impresa, ha compiuto passi da gigante. L'Optical Character Recognition rappresenta una delle tecnologie più sorprendenti e influenti del mondo digitale. Con la sua capacità di convertire testo stampato e scritto a mano in formato digitale, l'OCR ha trasformato la gestione dei documenti e aperto nuove frontiere nell'accessibilità all'informazione.

L'idea di riconoscere caratteri stampati attraverso l'elaborazione elettronica risale agli anni '20 del XX secolo, con l'invenzione delle prime ‘macchine combinatorie’. Tuttavia, è solo negli anni '50 e '60 che si assiste a progressi significativi nella tecnologia. Le prime applicazioni pratiche erano principalmente rivolte al riconoscimento di caratteri scritti a macchina.

Le prime applicazioni dell'OCR si concentravano principalmente sulla digitalizzazione e l'archiviazione di documenti. Le aziende utilizzavano l'OCR per convertire documenti cartacei in testo digitale, semplificando l'archiviazione e il recupero delle informazioni. Le biblioteche utilizzavano questa tecnologia per catalogare e cercare libri, riducendo notevolmente il lavoro manuale richiesto. Purtroppo, i sistemi OCR iniziali erano affetti da limitazioni legate alla qualità del testo originale, alla presenza di rumore visivo e alla scarsa capacità di riconoscimento della scrittura a mano.

Una svolta radicale nell'evoluzione dell'OCR è stata impressa dall'introduzione delle reti neurali artificiali che sono alla base del deep learning. Questi algoritmi, ispirati al funzionamento del cervello umano, sono capaci di apprendere autonomamente, migliorando progressivamente la loro precisione nel riconoscimento dei caratteri. Tale innovazione ha permesso di superare molte delle limitazioni dei sistemi OCR tradizionali, come la dipendenza dalla qualità del testo originale e la complessità della formattazione.

Oggi, grazie all'apprendimento automatico, l'OCR è addirittura in grado di riconoscere e convertire, con un notevole grado di affidabilità, la scrittura a mano in testo digitale con protocolli HTR (Handwritten Text Recognition) di elevata precisione, aprendo nuove opportunità nella digitalizzazione di archivi storici e nella trascrizione di documenti manoscritti.

Sotto questo punto di vista, letteralmente pionieristico è stato il contributo offerto da mind@ware, partner di Made In Heritage, ai progetti del consorzio internazionale Time Machine Europe (timemachine.eu). All’interno di questa sperimentazione particolarmente significativo è stato l’apporto allo sviluppo di Transkribus una potente piattaforma che integra OCR con intelligenza artificiale per la trascrizione e analisi di documenti storici manoscritti e stampati.

Questa piattaforma rivoluzionaria è ampiamente utilizzata da ricercatori, archivisti e storici per digitalizzare e interpretare testi antichi, semplificando la ricerca e l'analisi. Transkribus (https://readcoop.eu/it/transkribus/) facilita la gestione di grandi raccolte di documenti storici, aiutando a preservare il patrimonio culturale e rendendolo facilmente accessibile a una vasta gamma di utenti. È uno strumento indispensabile per chiunque sia coinvolto nella ricerca storica o nella conservazione del passato.

Questo tipo di tecnologie è stato molto utile nell’ambito del progetto Venice Time Machine, dove la lettura automatica di vecchi manoscritti scritti a mano rappresentava una sfida impegnativa. Il software standard di riconoscimento dei caratteri permetteva infatti di leggere i libri stampati lettera per lettera nonostante le variazioni nei caratteri e renderli quindi ricercabili. Ma questo non funzionava per i manoscritti scritti a mano, dove le forme delle singole lettere variano enormemente tra gli scribi e possono evolvere nel tempo.

I ricercatori di Venice Time Machine (vedi: https://www.nature.com/articles/546341a) hanno contribuitio alla soluzione di questo tipo di problema utilizzando approcci creativi e sviluppando un metodo innovativo, basato sul deep learning capace di riconoscere le forme di intere parole, che ha dato vita a una speciale collaborazione con l’Unione Europea denominata Recognition and Enrichment of Archival Documents (READ).

Le moderne soluzioni OCR sono in grado di riconoscere e convertire anche testi in diverse lingue e caratteri, contribuendo all'accessibilità globale dell'informazione. Inoltre, i sistemi OCR avanzati sono in grado di riconoscere e convertire tabelle, grafici e altri elementi di formattazione, permettendo una migliore preservazione dell'aspetto originale dei documenti.

Tra le innovazioni più strabilianti va annoverata quella dell’integrazione dell'OCR in tempo reale con applicazioni mobili e strumenti di traduzione, che permettono ai dispositivi portatili di tradurre istantaneamente il testo da qualsiasi lingua.

L’ultima frontiera appare quella dell’integrazione con l’AI. La combinazione degli OCR con l'intelligenza artificiale per l'automazione dei processi aziendali, consente l'estrazione automatica di dati da documenti in modo sempre più accurato, riducendo notevolmente l’incidenza degli errori umani.

Evidentemente, ognuno di questi sviluppi e funzioni dell’OCR riveste un ruolo fondamentale nel grande cantiere che lavora alla tutela, valorizzazione e diffusione del patrimonio culturale conservato, ma spesso inaccessibile, nei musei, nelle biblioteche e negli archivi del mondo.

Made In Heritage, in ideale connessione con il Progetto Gutenberg, utilizza e sviluppa queste tecnologie, mettendole a disposizione dei conservatori e promotori del Cultural&Corporate Heritage, in modo personalizzato e innovativo.

Il Progetto Gutenberg

Archeologia Informatica e OCR: le radici tecnologiche della digitalizzazione del patrimonio culturale

News correlate

Featured