Corpus TLIO storico |
CNR-Opera del Vocabolario Italiano |
Guida ai contenuti |
Il corpus interrogabile a questo indirizzo è quello costituito e utilizzato
dall'Opera del Vocabolario Italiano
per la redazione del Tesoro
della Lingua Italiana delle Origini.
In questa versione è mantenuta la forma del corpus effettivamente usata per la redazione in un lungo periodo di tempo, anche per i testi che attraverso il continuo processo di miglioramento filologico del corpus sono stati modificati o sostituiti. In questo modo dalle voci del TLIO è possibile recuperare la documentazione effettivamente utilizzata, nonostante l'evoluzione del corpus.
Il corpus contiene 3469 testi per complessive 26.416.108 occorrenze di 505.265 forme
grafiche distinte.
È reso disponibile in rete per le ricerche linguistiche e consente di scaricare
brevi citazioni per uso di ricerca.
Lo scaricamento dei testi è vietato.
Viene aggiornato periodicamente, parallelamente all'aggiornamento degli altri corpora dell'OVI.
Le funzioni di ricerca sono le stesse di GATTO e sono completamente descritte
dalla guida in linea.
Il corpus è lemmatizzato, ed è perciò possibile utilizzare l'interrogazione per
lemmi in tutte le combinazioni previste dal programma GattoWeb. I lemmi che si
possono attualmente cercare sono 129.378.
La lemmatizzazione è sostanzialmente completa per quanto riguarda le forme
grafiche, con un modesto residuo di forme rimaste ancora non interpretate.
Perciò la ricerca di un lemma permette di ottenere l'elenco completo delle
forme del lemma stesso presenti nel corpus.
Sono lemmatizzate attualmente 5.075.814 occorrenze. Tali occorrenze sono cioè
reperibili direttamente mediante la ricerca per lemmi, selezionando
nell'Accumulatore l'opzione tipo di contesti = 'col lemma indicato'.
Le altre occorrenze delle forme trovate con la ricerca per lemmi sono
reperibili selezionando anche l'opzione tipo di contesti = 'non
lemmatizzati'. In questo caso si ottengono anche contesti nei
quali la forma trovata è in realtà un omografo, cioè una forma di un altro
lemma.
La lemmatizzazione del corpus dell'italiano antico è un'operazione complessa,
che richiede l'interpretazione di numerosissimi contesti in molte varietà
linguistiche diverse, in linguaggi di diverso tipo (poetico, giuridico,
botanico, medico ecc.), e in testi editi con i più diversi criteri filologici,
solo per una parte dei quali esistono strumenti di interpretazione (commenti,
glossari ecc.) di qualità e affidabilità molto varia.
Questo lavoro è stato iniziato fin dalle origini dell'Opera del Vocabolario, ed
è passato attraverso metodi linguistici e strumenti informatici diversi e
attraverso l'opera di molte persone.
Per queste ragioni è possibile ancora incontrare nelle lemmatizzazioni presenti
nel corpus incoerenze e anche veri e propri errori, alla correzione dei quali
si sta lavorando mentre si procede nel contempo ad ampliare il numero delle
occorrenze lemmatizzate.
Sarà estremamente utile all'Opera del Vocabolario la segnalazione degli errori
o anche semplicemente delle osservazioni e dei dubbi di chi consulta, mediante
un messaggio di posta elettronica agli attuali responsabili della lemmatizzazione Elena Artale e Diego Dotto.