Corpus TLIO storico
CNR-Opera del Vocabolario Italiano
Guida ai contenuti


 


Il corpus interrogabile a questo indirizzo è quello costituito e utilizzato dall'Opera del Vocabolario Italiano per la redazione del Tesoro della Lingua Italiana delle Origini.
In questa versione è mantenuta la forma del corpus effettivamente usata per la redazione in un lungo periodo di tempo, anche per i testi che attraverso il continuo processo di miglioramento filologico del corpus sono stati modificati o sostituiti. In questo modo dalle voci del TLIO è possibile recuperare la documentazione effettivamente utilizzata, nonostante l'evoluzione del corpus. Il corpus contiene 3469 testi per complessive 26.416.108 occorrenze di 505.265 forme grafiche distinte.
È reso disponibile in rete per le ricerche linguistiche e consente di scaricare brevi citazioni per uso di ricerca.
Lo scaricamento dei testi è vietato.
Viene aggiornato periodicamente, parallelamente all'aggiornamento degli altri corpora dell'OVI.
Le funzioni di ricerca sono le stesse di GATTO e sono completamente descritte dalla guida in linea.

Il corpus è lemmatizzato, ed è perciò possibile utilizzare l'interrogazione per lemmi in tutte le combinazioni previste dal programma GattoWeb. I lemmi che si possono attualmente cercare sono 129.378.

La lemmatizzazione è sostanzialmente completa per quanto riguarda le forme grafiche, con un modesto residuo di forme rimaste ancora non interpretate. Perciò la ricerca di un lemma permette di ottenere l'elenco completo delle forme del lemma stesso presenti nel corpus.

Sono lemmatizzate attualmente 5.075.814 occorrenze. Tali occorrenze sono cioè reperibili direttamente mediante la ricerca per lemmi, selezionando nell'Accumulatore l'opzione tipo di contesti = 'col lemma indicato'.
Le altre occorrenze delle forme trovate con la ricerca per lemmi sono reperibili selezionando anche l'opzione tipo di contesti = 'non lemmatizzati'. In questo caso si ottengono anche contesti nei quali la forma trovata è in realtà un omografo, cioè una forma di un altro lemma.

La lemmatizzazione del corpus dell'italiano antico è un'operazione complessa, che richiede l'interpretazione di numerosissimi contesti in molte varietà linguistiche diverse, in linguaggi di diverso tipo (poetico, giuridico, botanico, medico ecc.), e in testi editi con i più diversi criteri filologici, solo per una parte dei quali esistono strumenti di interpretazione (commenti, glossari ecc.) di qualità e affidabilità molto varia.
Questo lavoro è stato iniziato fin dalle origini dell'Opera del Vocabolario, ed è passato attraverso metodi linguistici e strumenti informatici diversi e attraverso l'opera di molte persone.
Per queste ragioni è possibile ancora incontrare nelle lemmatizzazioni presenti nel corpus incoerenze e anche veri e propri errori, alla correzione dei quali si sta lavorando mentre si procede nel contempo ad ampliare il numero delle occorrenze lemmatizzate.
Sarà estremamente utile all'Opera del Vocabolario la segnalazione degli errori o anche semplicemente delle osservazioni e dei dubbi di chi consulta, mediante un messaggio di posta elettronica agli attuali responsabili della lemmatizzazione Elena Artale e Diego Dotto.