in short.


An outline presentation of the project.

by Manuel Barbera(manuel.barbera@bmanuel.org).



The Corpus Taurinense (CT) is a corpus of Old Italian (more specifically XIII century Florentine) of 259,299 tokens (21,087 types and 7,599 lemmata). It is fully lemmatized, POS-tagged, disambiguated, and marked up for text structure, literary genre and philological forms.

The CT has a long history and is the first corpus we planned. As a matter of fact, it was this project that first aroused Manuel Barbera's interest in Corpus Linguistics and NLP, that cemented his partnership with Carla Marello, and that, eventually, set in motion the train of events which brought in existence bmanuel.org, the computational group associated with it and with Turin University, and corpora.unito.it the pole of linguistic resources distribution.
The CT was conceived by Barbera and Marello on the night of March 14th, 1998 in Padua during a meeting of ItalAnt, and was born in Stuttgart on April 29th, 2000, when the first working demo ("ANT4") was ready for interrogation (midwives were Arne Fitschen, Manuel Barbera and Ulrich Heid).

This research has been carried out thanks to two co-financed grants (COFIN), 1997-99 ("Ricerche linguistiche sull'italiano antico") and 1999-2001 ("Grammatica e lessico dell'italiano antico",) with Bice Mortara Garavelli and Lorenzo Renzi as local and national coordinators respectively. Substantial partners were the OVI and the IMS Stuttgart, as well as, only in the first steps of the project, DimaLogic.

Many people have worked on this project. Manuel Barbera acted as general coordinator (and philology expert) together with Carla Marello and Marco Tomatis (information technology expert). Arne Fitschen, Bice Mortara Garavelli, Cesare Oitana, Helmut Schmidt, Marco Mazzoleni, Mario Squartini and Ulrich Heid constantly provided invaluable help. Several students were also enlisted: Antonella Gagliostro, Cristina Bottino, Daniela Oria, Elena Baratono, Elisabetta Pelazzo, Manuela Manera, Mara Migliore, Marco Destefanis, Paolo Montini, and above all Adriano Allora and Luca Valle (now in our PhD course). It is worth mentioning that most of the students were only undergraduates in the Faculty of Modern Languages, with no philological or romanistic training: in this sense the Fabrica Corporis Taurinensis was also a relevant experiment in didactics.


Marco Tomatis

Marco Tomatis, one of the pillars of the Fabrica Corporis Taurinensis, with Cesare Oitana (DimaLogic founder) in the background.


It took a vast amount of hard work but we are especially proud of the output and of the uniqueness of the following specifications:

+ an Old Italian tagset was especially devised for this project by Manuel Barbera and is fully hierarchy-structure typed and EAGLES compatible;
+ the plentiful (and troublesome) transcategorizations are dealt with by micro- and local rules, managed by a huge batch of AWK scripts engineered and written by Marco Tomatis; the process of inter-POS disambiguation was carried over to its limits, attaining elimination of 99,997 % of the external transcategorizations;
+ not only does the textual markup contain the usual marking of chapters, titles and so on, but it is also able to handle literary genres by independently marking the prosa/verse distinction;
+ a simple but effectual philological markup was introduced as well;
+ besides the over 7.5 hundreds single word lemmata, 2,115 multiword items were singled out in the corpus and especially marked;
+ all clitics are tokenized and POS-tagged;
+ the public release of CT is in the well known CQP format of the of the IMS Stuttgart Corpus Workbench;
+ the CT is well fitted to be used as training corpus, for both size and accuracy, with a stochastic tagger such as the Tree Tagger. A future service for stochastically tagging OVI texts is so made possible.


E saxibus flores

d pre dure da rusi i l'oma avune fin-a mai, pr d'ani, ma a la longa i n'a soma surt fra (Piedm. Something like 'We've had plenty of stones to chew over the years, but now that's all over and we've made it through').


The Corpus Taurinense is built up with the same bunch of Old Florentine texts choosen by Lorenzo Renzi and Giampaolo Salvi for their ItalAnt, Grammatica dell'italiano antico. This set of texts is, in turn, a subset of
TLIO, Tesoro della lingua italiana delle origini kindly supplied by Pietro Beltrami (OVI).
Here is a list of the 21 texts included:

+ Bono Giamboni, Il Libro de' Viz e delle Virtudi, in Il Libro de' Viz e delle Virtudi e Il Trattato di Virt e Viz, a cura di Cesare Segre, Torino, Einaudi, 1968 "Nuova raccolta di classici italiani annotati" 7, pp. 3-120.
+ Bono Giamboni, Il Trattato di Virt e di Viz e di loro vie e rami, in Il Libro de' Viz e delle Virtudi e Il Trattato di Virt e Viz, a cura di Cesare Segre, Torino, Einaudi, 1968 "Nuova raccolta di classici italiani annotati" 7, pp. 121-156.
+ Brunetto Latini, Il Favolello, in Poeti del Duecento a cura di Gianfranco Contini, Milano - Napoli, Ricciardi, 1960 "La Letteratura italiana. Storia e testi" 2.ij, pp. 278-84.
+ Brunetto Latini, La Rettorica, a cura di Francesco Maggini, Firenze, Le Monnier 1968.
+ Brunetto Latini, Il Tesoretto, in Poeti del Duecento, a cura di Gianfranco Contini, Milano - Napoli, Ricciardi, 1960 "La Letteratura italiana. Storia e testi" 2.ij, pp. 175-277.
+ Libro degli ordinamenti della Compagnia di Santa Maria del Carmine, in Testi fiorentini del Dugento e dei primi del Trecento, con introduzione, annotazioni linguistiche e glossario a cura di Alfredo Schiaffini, Firenze, G. C. Sansoni editore, 1954 "Autori classici e documenti di lingua pubblicati dall'Accademia della crusca", n. 4, pp. 55-72.
+ Capitoli della Compagnia della Madonna d'Orsammichele, in Nuovi testi fiorentini del Dugento, a cura di Arrigo Castellani, Firenze, Sansoni, 1952, vol. II., n. 21, pp. 650-73.
+ Capitoli della Compagnia di San Gilio, in Testi fiorentini del Dugento e dei primi del Trecento, con introduzione, annotazioni linguistiche e glossario a cura di Alfredo Schiaffini, Firenze, G. C. Sansoni editore, 1954 "Autori classici e documenti di lingua pubblicati dall'Accademia della crusca", n. 3, pp. 34-54.
+ Cronica fiorentina, in Testi fiorentini del Dugento e dei primi del Trecento, con introduzione, annotazioni linguistiche e glossario a cura di Alfredo Schiaffini, Firenze, G. C. Sansoni editore, 1954 "Autori classici e documenti di lingua pubblicati dall'Accademia della crusca", n. 6, pp. 82-150.
+ Dante Alighieri, Vita nuova, edizione critica a cura di Michele Barbi, Firenze, Bemporad, 1932.
+ Estratti notarili del Libro del dare e dell'avere di Castra Gualfredi e compagni dei Borghesi, in Nuovi testi fiorentini del Dugento, a cura di Arrigo Castellani, Firenze, Sansoni, 1952, vol. II, n. 2, pp. 207-11.
+ Fiori e vita di filosafi e d'altri savi e d'imperadori, Edizione critica a cura di Alfonso D'Agostino, Firenze, La Nuova Italia, 1979.
+ Guido Cavalcanti, Rime, in Poeti del Duecento, a cura di Gianfranco Contini, Milano - Napoli, Ricciardi, 1960 "La Letteratura italiana. Storia e testi" 2.ij, t. II, pp. 491-558, 561, 563-4, 566-7.
+ Guido Cavalcanti (?), Due ballate, in Guido Cavalcanti, Le Rime, Milano-Napoli, Ricciardi, 1957, pp. 343-45.
+ Jacopo Cavalcanti, Tre Sonetti, in Guido Cavalcanti, Rime. Con le rime di Jacopo Cavalcanti, a cura di Domenico de Robertis, Torino, Giulio Einaudi editore, 1986 "Nuova raccolta di classici italiani annotati" 10.
+ Lettera di messer Consiglio de' Cerchi, e compagni in Firenze, a Giachetto Rinucci, e compagni, in Inghilterra, in Nuovi testi fiorentini del Dugento, a cura di Arrigo Castellani, Firenze, Sansoni, 1952, vol. II., n. 15,pp. 593-99.
+ Lettera di messer Consiglio de' Cerchi e messer Lapo de' Cerchi, e compagni, in Firenze, a Giachetto Rinucci, ed a Ghino ed agli altri compagni, in Nuovi testi fiorentini del Dugento, a cura di Arrigo Castellani, Firenze, Sansoni, 1952, vol. II., n. 16, pp. 600-03.
+ Libro del dare e dell'avere, e di varie ricordanze, di Lapo Riccomanni, in Nuovi testi fiorentini del Dugento, a cura di Arrigo Castellani, Firenze, Sansoni, 1952, vol. II., n. 11, p. 516-55.
+ Maestro Rinuccino, Rime, in I sonetti di maestro Rinuccino, a cura di Stefano Carrai, Firenze, Accademia della Crusca, 1981.
+ Il novellino, testo critico, introduzione e note a cura di Guido Favati, Genova, Fratelli Bozzi, 1970.
+ Versione d'un frammento della Disciplina Clericalis di Pietro di Alfonso, in Testi fiorentini del Dugento e dei primi del Trecento, con introduzione, annotazioni linguistiche e glossario a cura di Alfredo Schiaffini, Firenze, G. C. Sansoni editore, 1954 "Autori classici e documenti di lingua pubblicati dall'Accademia della crusca", n. 5, pp. 73-81.

The reference grammar (ItalAnt) and the reference corpus (Corpus Taurinense) of Old Italian will really be twins since they share the same grounds. The advantages of these dispositions are obvious. However the choice of texts, if suitable for the Grammar, could be conveniently improved for the Corpus. A fitting enlargement of the Corpus, as a matter of fact, has already been planned, and the first steps are already been done: viz. we have (a) singled out the new texts to be added, (b) obtained them from OVI, and (c) asked a new cofinanced grant (PRIN) to fund the project. The output will consist of two corpora: the CT as it is at present, twin of ItalAnt, and a CT Plus, increased in size and representativeness.


The Vita Nuova sample featured in the home page is in the specific native format used in bmanuel.org to implement the corpus. This format has been converted into the usual CQP format for the final release. This is how the same sample is displayed in CQP format:


The incipit of Vita Nuova in CQP format

The incipit of Vita Nuova in CQP format, as in the released corpus

Caution!
Work in progress


***HTML code & design by Manuel Barbera***