Pubblicato in: Studi e Ricerche

Testi antichi: la loro digitalizzazione con reCaptcha

di jessica 20 agosto 2008

Un gruppo di ricercatori della Carnegie Mellon University ha ideato reCaptcha, un sistema per digitalizzare in modo economico e veloce i testi antichi custoditi in biblioteche ed archivi. L’intuizione che ha avuto è molto semplice e si basa sull’utilizzo dei Captcha, i test che richiedono all’utente di scrivere una sequenza di lettere o di numeri, che appaiono distorti o offuscati, per dimostrare di essere umani e non bot e che vengono proposti ogni giorno a milioni di persone. I Captcha, in pratica, servono per contrastare e fermare l’intrusione degli spammer ma fungono anche da alleati inconsapevoli alla digitalizzazione di testi. Infatti, gli utenti, trascrivendo queste parole costituiscono un bacino di potenziale forza lavoro gratuita.

Nel giro di un anno, grazie a questo semplice sistema, sono state tradotte in formato digitale ben 440 milioni di parole, l’equivalente di 17.600 volumi. Per i testi normali, formati quindi da font individuabili, si utilizzano software di riconoscimento ottico dei caratteri (OCR) che trasformano le parole ed i caratteri in formati riconoscibili dai pc. Ma per i testi antichi non è mai stato possibile sfruttare questo sistema, a causa di lettere poco leggibili e carta ingiallita. Fino a poco tempo fa, quindi, erano degli operatori umani, a trascrivere questi volumi, con un elevato costo complessivo e tempo speso. Con questa versione intelligente del sistema antispam Captcha nel giro di un anno, invece, i visitatori di 40mila siti web hanno decifrato 440 milioni di parole con un’accuratezza del 99%. E come spiega Luis Von Ahn, uno dei ricercatori coinvolti nel progetto “Attualmente vengono tradotte 4 milioni di parole al giorno. Per ottenere i risultati che raggiungiamo in una settimana, più di 1.500 persone dovrebbero lavorare per 40 ore a testa ad un ritmo di 60 parole al minuto”.

E’ possibile aiutare questa sperimentazione scaricando gratuitamente reCaptcha dal sito Recaptcha.net. Per inserirlo nelle proprie pagine web. Se questo nuovo sistema dovesse veramente prendere piede, infatti, si potrebbero salvare intere biblioteche dall’usura del tempo.

Sullo stesso argomento potresti leggere:

I commenti sono chiusi.