Note per la costituzione e trascrizione del
corpus di italiano nativo VINCA.

Guidelines v. 1 (08.12.04).

di Manuel Barbera (manuel.barbera@bmanuel.org) ed Elisa Corino (elisa.corino@tin.it).



0. Generalità.


0.0
Introduzione.


Le seguenti "norme" specificano le modalità di raccolta, archiviazione e preparazione dei testi per un corpus di italiano di parlanti nativi: VINCA (Varietà di Italiano Nativo Corpus Appaiato). Esse sono nate a partire dall'esperienza maturata nella preparazione delle Guidelines di VALICO ( Varietà Lingua Italiana Corpus Online), con l'idea di costituire un corpus di raffronto, raccogliendo brevi storie scritte da nativi italiani che partono dagli stessi input che hanno originato le produzioni scritte degli stranieri.


0.1
Tipi di collaborazioni.

I destinatari ideali del presente documento sono i fornitori di testi (ossia le persone che hanno assegnato e raccolto le esercitazioni degli apprendenti destinate ad entrare nel corpus) ed i trascrittori (ossia le persone che trascriveranno manualmente i testi degli apprendenti trasformandoli in formato elettronico con i criteri necessari alla loro successiva elaborazione automatica). Le due figure potranno, al caso, anche coincidere.


0.2
I fornitori.

Per i fornitori di testo sono previste due diverse possibilità.

0.2.1
Nell'ipotesi di maggiore coinvolgimento dovranno fornire:
(a) una copia meccanica degli originali, fotocopia se gli originali sono, come spesso succede, manoscritti, o copia su dischetto se gli originali sono stati elaborati direttamente su PC;
(b) una header (intestazione) per ogni testo, compilata il più accuratamente possibile secondo i criteri illustrati nel capitolo 1;
(c) uno stelloncino con le proprie generalità, anche istituzionali e scientifiche. Nell'ipotesi di maggior coinvolgimento nel progetto essi potranno anche occuparsi (direttamente o indirettamente) della trascrizione dei testi, secondo le norme illustrate nel capitolo 2.

0.2.2
Nell'ipotesi ipotesi minima, invece, i fornitori di testi dovranno produrre:
(a) una copia meccanica degli originali, fotocopia se gli originali sono, come più spesso, manoscritti, o copia su dischetto se gli originali sono stati elaborati direttamente su PC;
(b) una serie di 5 questionari (studente, docente, scuola, esercizio e test) adeguatamente compilati. Questi verranno loro forniti su files o cartacei: cfr. Appendice 1.


0.3
Le trascrizioni.

La trascrizione dei testi, più nel dettaglio, dovrà essere prodotta in due copie, entrambe con la medesima header (intestazione): la trascrizione diplomatica (TD) e la trascrizione tokenizzata e markuppata (TTM).
Ogni documento, sia esso in TD o TTM, è sempre costituito dalla trascrizione del testo (cfr. § 2) preceduta dalla header (cfr. § 1); il fornitore / trascrittore avrà a disposizione un file di template (il modulo template.txt) da usare per la compilazione delle headers e/o la trascrizione dei testi.
Per la redazione dei documenti (headers, trascrizioni e stelloncini) si raccomanda di usare un semplice editor di testo (mai Word o WordPad!!) come NotePad, Edit Pro, VEdit, WinVi ecc. I documenti devono essere in formato .txt di Windows (e non .doc o .rtf!!), con codifica ANSI.
Ogni trascrizione, in definitiva, dovrà pervenire agli organizzatori del corpo sotto forma di 2 files .txt nominati secondo il sistema nometrascrittore###_TTM~TD.txt, come ad esempio:

stefania001_TTM.txt oppure valeria002_TD.txt.

0.3.1
La preparazione dei due file in questione è essenzialmente operazione manuale; i TTM, tuttavia, prima di assumere la forma definitiva, passeranno attraverso un formato di transizione, generato automaticamente, che sarà sommariamente descritto in § 3.2 ed esemplificato in Appendice 3.


0.4
Limitazioni.

0.4.1
Queste prime Guidelines riguardano solo la preparazione dei documenti non annotati ("raw"), sia in versione diplomatica sia in versione tokenizzata e markuppata. I criteri per la cernita dei testi da raccogliere non sono qui pertinenti, ed anche l'allestimento di specifiche fasce di annotazione sarà operazione successiva.

0.4.2
Il formato finale del corpus sarà XML; il formalismo qui proposto non è veramente tale, ma è un formato più "facile da scrivere" per i trascrittori, calcolato tuttavia per poter essere agevolmente (ed automaticamente) convertito in legale XML in un secondo tempo.