Note per la costituzione e trascrizione del
corpus di italiano nativo VINCA.

Guidelines v. 2 (08.12.04 - 27.01.05)).

di Manuel Barbera (manuel.barbera@bmanuel.org) ed Elisa Corino (elisa.corino@tin.it).



Indice generale.

0.

Generalitā.

0.0

Introduzione.

0.1

Tipi di collaborazioni.

0.2

I fornitori.

0.2.1
L'ipotesi di maggiore coinvolgimento.
0.2.2
L'ipotesi di minimo coinvolgimento.

0.3

Le trascrizioni.

0.3.1
I passi successivi.

0.4

Limitazioni.

0.4.1
Il tagging.
0.4.2
Il formato XML.

1.

Struttura e compilazione della header.

1.0

Dati e privacy.

1.1

Il template.

1.1.1
Sintassi e connettori.

1.2

Attributi e valori: commento dettagliato.

1.2.1
La <doc-id>.
1.2.1.1
<id#>: l'dentificativo assoluto.
1.2.1.2
<charset>: il character set.
1.2.1.3
<lingua>: la lingua del testo.
1.2.1.4
<aut_NC>: il produttore del testo.
1.2.1.5
<fornitore>: il fornitore del testo. Lo stelloncino-fornitore.
1.2.1.6
<trascr>: il trascrittore del testo. Lo stelloncino-trascrittore.
1.2.1.7
<data>: la data di produzione del testo.
1.2.1.8
<luogo>: il luogo di produzione del testo.
1.2.1.9
<ist>: l'istituzione erogatrice del testo (tipo).
1.2.1.10
<ist_nome>: l'istituzione erogatrice del testo (nome).
1.2.1.11
Lo stelloncino-istituzione.
1.2.2
La <set-id>.
1.2.2.1
<corpus>.
1.2.2.2
<gruppo_num>: i gruppi di esercizi (numero).
1.2.2.3
<gruppo_nome>: i gruppi di esercizi (nome).
1.2.2.4
Lo stelloncino-gruppo.
1.2.3
La scheda <autore>.
1.2.3.1
<specifiche>: sesso, ente.
1.2.3.2
<eta>: le sette fascič di etā.
1.2.3.3
<status>: le fascie di reddito.
1.2.3.4
<occupazione>: la situazione lavorativa.
1.2.3.5
<lingua1>: lingua madre.
1.2.3.6
<lingue>: altre lingue conosciute.
1.2.3.7
<dialetto1_nome>: dialetto noto.
1.2.3.8
<dialetto1_livello>: gradi di conoscenza del dialetto noto.
1.2.3.9
<scolarizzazione>: scolarizzazione di partenza.
1.2.3.10
<scolarizzazione-padre>: scolarizzazione del padre.
1.2.3.11
<scolarizzazione-madre>: scolarizzazione della madre.
1.2.3.12
<residenza>: luogo di residenza.
1.2.3.13
<residenza-prec>: residenze precedenti.
1.2.4
Le schede per autori multipli.
1.2.5
La scheda <testo>.
1.2.5.1
<tipo_forma>: il tipo "formale" di testo.
1.2.5.2
<tipo_produzione>: il tipo di condizioni di produzione del testo.
1.2.5.3
<topics>: la classificazione tematica.
1.2.5.4
<keyw>: le parole chiave.
1.2.5.5
<test>: la natura di prova o meno del testo.
1.2.5.6
Lo stelloncino-prova.
1.2.5.7
<qualita>: la natura dell'antigrafo.
1.2.5.8
<esecuzione>: il modo di esecuzione materiale del testo.
1.2.5.9
<cap-min>: i testi tutti maiuscoli o tutti minuscoli.
1.2.6
La scheda <ref>.
1.2.6.1
<stel>: lista degli stelloncini.
1.2.6.2
<cons>: la consegna.
1.2.6.3
<txtext>: testi esterni.
1.2.6.4
<imgext>: immagini esterne.
1.2.6.5
<txtint>: testi interni.
1.2.6.6
<imgint>: immagini interne.

2.

Criteri di trascrizione.

2.0

Costruzione dei files.

2.0.1
Il formato.
2.0.2
I nomi.
2.0.3
Il charachter set.
2.0.3.1
Quando Unicode?
2.0.3.2
Divieto dei caratteri composti.

2.1

Layout.

2.1.1
Le righe.
2.1.1.1
Righe con accapo.
2.1.1.2
Righe bianche.
2.1.1.3
Fini-riga negli e-mails.
2.1.2
Le indentature.
2.1.2.1
Dominio del tag <blank>.
2.1.2.2
Margini irregolari.
2.1.3
Le pagine.
2.1.4
Capitoli e paragrafi.
2.1.4.1
Note per l'individuazione dei paragrafi.
2.1.5
Gli elenchi puntati.

2.2

Ortografia e processi correttori.

2.2.1
Maiuscole e minuscole.
2.2.2
Gli accenti.
2.2.3
Interventi modificativi sul testo.
2.2.3.1
Le correzioni.
2.2.3.2
Le inserzioni.
2.2.3.3
Irrilevanza della rappresentazione dell'assetto grafico.
2.2.3.4
Correzioni ed inserzioni combinate.
2.2.4
Interventi del docente.
2.2.5
Interventi alternativi sul testo: le varianti.
2.2.6
Guasti meccanici del testo: le lacune.
2.2.7
Difficoltā paleografiche: le lezioni non leggibili.

2.3

Divisione delle parole.

2.3.1
Conservazione in TD.
2.3.2
Tokenizzazione in TTM.
2.3.2.1
Gli apostrofi.
2.3.2.2
I doppi spazi.
2.3.3
Preposizioni articolate e catene clitiche.

2.4

Interpuntemi, diacritici e caratteri grafici.

2.4.1
Punteggiatura ordinaria.
2.4.1.1
Interpuntemi in serie.
2.4.1.2
Limiti della rappresentazione in TD.
2.4.2
L'andata a capo.
2.4.3
Il punto.
2.4.4
Le virgolette, semplici e doppie.
2.4.5
L'apostrofo.
2.4.6
Simboli.
2.4.6.1
Gli emoticons.
2.4.7
Marche di evidenziazione.
2.4.7.1
Sottolineato, tratteggiato, puntinato, corsivo, grassetto, maiuscoletto, espanso e cerchiato.
2.4.7.2
Evidenziazioni complesse.
2.4.8
Colori diversi.
2.4.9
Disegni.
2.4.9.1
In TD.
2.4.9.2
In TTM.
2.4.9.3
Riproduzione digitale.
2.4.10
Allegati di natura testuale.

2.5

Markup testuale.

2.5.1
Zone speciali del testo.
2.5.1.1
Il tag <titolo>.
2.5.1.2
Il tag <pcoll>.
2.5.1.3
Il tag <ecoll>.
2.5.1.4
Il tag <versi>.
2.5.1.5
Il tag <nota>.
2.5.1.6
Il tag <marginale>.
2.5.1.7
Il tag <interlinea>.
2.5.1.8
Il tag <calce>.
2.5.1.9
Avvertenze per l'uso di <marginale>, <interlinea> e <calce>.
2.5.2
Testo del docente.
2.5.3
Citazione.
2.5.4
Discorso diretto.
2.5.5
Turni del dialogo.

2.6

Markup di pre-tagging.

2.6.1
Nomi propri.
2.6.2
Indirizzi web.
2.6.3
Espressioni numerico-matematiche.
2.6.4
Espressioni di datazione.
2.6.5
Lingue diverse.
2.6.5.1
Limiti di applicazione del tag.
2.6.5.2
Lingue da tradurre.
2.6.5.3
Lingue in caratteri non latini.

2.7

Etichette embricate.

2.7.1
Un esempio semplice.
2.7.2
Un esempio complesso.

3.

Il dopo.

3.1

Il formato di scambio.

3.1.1
L'assetto delle righe: gli scripts.
3.1.2
L'assetto delle righe: le ragioni.
3.1.3
L'assetto delle righe: gli esempi.

3.2

La CQP beta.

3.3

I taggings.

4.

Appendice 1: questionari.

4.1

Il questionario-autore.

4.1.1
Chi lo compila.
4.1.2
La privacy.

4.2

Il questionario-docente.

4.3

Il questionario-esercizio.

4.4

Il questionario-test.

4.5

Il questionario-scuola.

5.

Appendice 2: stelloncini.

5.1

Stelloncino-fornitore.

5.1.1
Template.

5.2

Stelloncino-trascrittore.

5.2.1
Coincidenza di fornitore e trascrittore.
5.2.2
Template.

5.3

Stelloncino-istituzione.

5.3.1
Template.

5.4

Stelloncino-gruppo.

5.4.1
Template.

5.5

Stelloncino-prova.

5.5.1
Template.

5.6

Stelloncino-consegna.

5.6.1
Impossibilitā di templates.

6.

Appendice 3: esempi di trascrizione.

[Per ora sono disponibili solo esempi tratti da Valico].

6.1

Il bello ed il brutto dell'Italia (1): stefania001_*.txt.

6.1.1
Versione TD.
6.1.2
Versione TTM.
6.1.3
Versione FS.

6.2

Il bello ed il brutto dell'Italia (2): stefania002_*.txt.

6.2.1
Versione TD.
6.2.2
Versione TTM.
6.2.3
Versione FS.

6.3

Le cose che ho fatto in vacanza: tanya_carla001_*.txt.

6.3.1
Versione TD.
6.3.2
Versione TTM.
6.3.3
Versione FS.

6.4

Mia madre: tanya_valeria001_*.txt.

6.4.1
Versione TD.
6.4.2
Versione TTM.
6.4.3
Versione FS.

6.5

E-mail di buon anno: silvia001_*.txt.

6.5.1
Versione TD.
6.5.2
Versione TTM.
6.5.3
Versione FS.

6.6

Questionario indiano: tanya_francesca001_*.txt.

6.6.1
Versione TD.
6.6.2
Versione TTM.
6.6.3
Versione FS.

Attenzione!
Work in progress


***HTML code & design by Manuel Barbera***