Note per la costituzione e trascrizione del
corpus di italiano nativo VINCA.

Guidelines v. 1 (08.12.04).

di Manuel Barbera (manuel.barbera@bmanuel.org) ed Elisa Corino (elisa.corino@tin.it).

1. Struttura e compilazione della header.

Nella intestazione o "header" va specificato, prevalentemente da parte del fornitore dei testi, un certo numero di informazioni relative al testo ed alla sua produzione, organizzate in più gerarchie: caratteristiche del documento, caratteristiche del gruppo di testi di cui il documento fa parte, dati dell'autore e caratteristiche del testo, ecc. (cfr. § 1.1). I fornitori (e trascrittori) potranno copiare ed incollare su un "bastone" vuoto (cioè uno schema vuoto predisposto nel file template.txt in dotazione), inserendo opzioni. È infatti fondamentale che tutte le intestazioni siano formalmente standard. Una volta compilato, il file di intestazione va copiato e incollato in testa a entrambe le trascrizioni, sia TD che TTM (cfr. § 0.3 e 2.0), di ogni documento.
Ai fornitori e trascrittori verrà inoltre richiesto (come già accennato) di compilare alcuni files di informazioni contenenti i loro dati, i dati relativi all'istituzione in cui sono stati prodotti i testi e i dati che concernono le caratteristiche della prova somministrata (cfr. §§ 4 e 5, Appendici 1 e 2).

1.0 Dati e privacy.

Nella versione pubblica del corpus saranno, naturalmente, introdotte misure per la tutela della privacy del fornitore, del trascrittore e dell'autore, ma nella versione base, disponibile solo in locale, è comunque importante avere anche queste informazioni.

1.1 Il template.

Il modulo vuoto per l'immissione dei dati nella base di dati collegata al corpus (quello che noi chiamiamo il "bastone vuoto") si presenta al modo seguente:

<HEAD>
<doc-id>
<idN>-----</idN>
<charset>ansi;unicode</charset>
<lingua>italiano</lingua>
<aut_NC>(nome;?,cognome;?),(nome;?,cognome;?),…</aut_NC>
<fornitore>(nome,cognome);ente</fornitore>
<trascr>nome,cognome</trascr>
<data>(aaaa,mm;0;?,gg;0;?);(0;?)</data>
<luogo>città;?,nazione,?</luogo>
<ist>ente;scuola;azienda;privato;0;?</ist>
<ist_nome>____;0;?</ist_nome>
</doc-id>
<set-id>
<corpus>____</corpus>
<gruppo_num>1;2;…,g1;g5;gn</gruppo_num>
<gruppo_nome>____;0</gruppo_nome>
</set-id>
<autore>
<specifiche>m;f;?;ente;gruppo</specifiche>
<eta>1-7;8-13;14-18;19-25;26-30;30-40;40-50;oltre;?</eta>
<status>1;2;3;?</status>
<occupazione>stud;ins;cas;op;imp;comm;lpr;pens;dis;…;?</occupazione>
<lingua1>____;?,____;0;?</lingua1>
<lingue>____;0;?</lingue>
<dialetto1_nome>____;0;?</dialetto1_nome>
<dialetto1_livello>(madre;att;pass;scars);0;?</dialetto1_livello>
<dialetto2_nome>____;0;?</dialetto2_nome>
<dialetto2_livello>(madre;att;pass;scars);0;?</dialetto2_livello>
<scolarizzazione>el;md;sp;un;?</scolarizzazione>
<scolarizzazione-padre>an;el;md;sp;un;?</scolarizzazione-padre>
<scolarizzazione-madre>an;el;md;sp;un;?</scolarizzazione-madre>
<residenza>(nascita;#anni;?,citta;?,regione;?);?</residenza>
<residenza-prec>(citta;?,regione;?);0;?</residenza-prec>
</autore>
<autore2>ripeti_autore_o_canc</autore2>
<autoreN>ripeti_autore_o_canc</autoreN>
<testo>
<tipo_forma>c-lib_var;c-lib_descr;c-lib_narr;c-lib_reg;c-lib_arg;c-art;
tes;dial;ques;es-trad;dett;rias;email;lett</tipo_forma>
<tipo_produzione>did;priv;lav;?</tipo_produzione>
<topics>...</topics>
<keyw>(____,____,____,____,____);?</keyw>
<test>____;0;?</test>
<qualita>orig;origFC;origCE;copia</qualita>
<esecuzione>or;ms;wp;kw</esecuzione>
<cap-min>tc;tm;0</cap-min>
</testo>
<ref>
<stel>nome_F.txt;0,nome_T.txt;0,nome_G.txt;0,nome_P.txt;0</stel>
<cons>nome_C.txt;0</cons>
<txtext>nome1_R.txt;0,nome2_R.txt;0</txtext>
<imgext>nome1_R.jpg;0,nome2_R.jpg;0</imgext>
<txtint>nome1.txt;0,nome2.txt;0</txtint>
<imgint>nome1.jpg;0,nome2.jpg;0</imgint>
</ref>
</HEAD>
<BODY>
</BODY>

La più recente versione della header è disponibile da scaricare come file .txt (vn-template_03.txt) direttamente pronto all'uso.

1.1.1
Si noti che all'interno di un <tag> non devono esserci spazi tra il <tag> e la parola adiacente, quindi si avrà, ad esempio,

<residenza>11,Mortara,Piemonte</residenza>

I connettori, d'altra parte, sono limitati a due, la "and" (,) e la "or" (;), più la parentesi.
Immediatamente dopo la header, contenuta nel tag <BODY>_</BODY>, inizia poi la trascrizione del testo (cfr. infra, capitolo 2).

1.2 Gli attributi ed i valori della header: commento dettagliato.

Qui sotto commentiamo dettagliatamente ogni attributo e valore della header seguendo la struttura del bastone vuoto di modello.

1.2.1 <doc-id>
Informazioni che serviranno ad identificare univocamente il documento una volta inserito nel corpus. Sono articolate nei seguenti attributi:

1.2.1.1
<idN> Numero progressivo che sarà l'identificativo assoluto del documento. Va lasciato vuoto tanto dai fornitori quanto dai trascrittori: saranno poi gli allestitori del corpus a saturare il campo.

1.2.1.2
<charset> Il character set in cui è codificato il documento di testo. Sono possibili due soli valori alternativi: ansi, ossia il set standard in Windows, coincidente con l'ASCII ISO 8859-1 Latin 1, ed unicode, da usare solo per i testi che presentino caratteri non-latini; il valore di default è ovviamente ansi. Per maggiori dettagli cfr. il § 2.0.3 del capitolo sui criteri di trascrizione.

1.2.1.3
<lingua> Di default è l'italiano. Il valore è previsto solo per la futura interrogazione del Corpus di Apprendenti insieme ad altri corpora non sempre / solo di lingua italiana.

1.2.1.4
<aut_NC> Nome del produttore effettivo del testo. I campi nome e cognome possono essere riempiti anche con nomi multipli o complessi usando lo spazio, per cui potremmo avere, ad es.

<aut_NC>Gian Giovanardo,de Storpis - Mutipure</aut_NC>

È previsto il valore non definito (?) in entrambi i campi, nel caso che le generalità dell'autore fossero solo imperfettamente note. (cfr. Appendice 1).
Sono anche previsti i casi in cui gli autori siano più di uno, anche se l'eventualità non è molto probabile. In questo caso si useranno le parentesi e si attiveranno le gerarchie <autore1> ... <autoreN> per fornire i dati di ogni autore (cfr § 1.2.4)

1.2.1.5
<fornitore> Nome della persona che ha materialmente raccolto il testo; in questo campo bastano nome e cognome (con i criteri di cui sopra), ma ogni fornitore di testi dovrà compilare uno stelloncino a parte con le proprie generalità, anche istituzionali e scientifiche (cfr. Appendice 2 § 5.1). Il "nome" di tale stelloncino dato dal "nomecognome" del fornitore accompagnato dalla sigla F, ed il suo formato sarà lo stesso .txt degli altri files del corpus (cfr. §§ 2.0.1 e 2.0.3). Ad esempio per Amalasunta Roito avremo

amalasuntaroito_F.txt.

È anche possibile (anche se non auspicabile) che un gruppo di documenti non ci pervenga da una persona determinata, ma da un qualche ufficio o struttura amministrativa "non personale": in questo caso si userà il valore ente.

1.2.1.6
<trascr> Nome della persona che ha materialmente trascritto il testo, nel caso che questa sia distinta da chi lo ha raccolto; anche in questo campo bastano nome e cognome (con i criteri di cui sopra), ed alla stessa maniera ogni trascrittore dovrà compilare lo stelloncino a parte (cfr. Appendice 2 § 5.2). Analogamente, il "nome" dello stelloncino sarà dato dal "nomecognome" del trascrittore accompagnato dalla sigla T, ed il suo formato sarà il solito .txt degli altri files del corpus (cfr. §§ 2.0.1 e 2.0.3). Ad esempio per Francesca Minozzi avremo

francescaminozzi_T.txt.

Nel caso che fornitore e trascrittore coincidano, l'indicazione sarà ripetuta più volte, e la sigla nel nome del file sarà FT, ad es.

silviacamarca_FT.txt.

1.2.1.7
<data> Data di produzione del testo, espressa secondo il sistema aaaa,mm,gg saturabile da valori numerici o da quello non definito (?), ad es. "14 febbraio 2001" sarà 2001,02,14, "Dicembre 1999" sarà 1999,12,?, estate 2003 sarà 2003,06-09,?. I valori nulli o non definiti sono applicabili anche a tutto l'attributo nel suo complesso qualora tutto il campo data e non solo una sua parte risulti sconosciuto o non pertinente.

1.2.1.8
<luogo> Luogo di produzione del testo. Sono specificati due valori: la città o paese in cui il testo è prodotto e la nazione cui appartiene, espressa nelle convenzionali sigle internazionali scritte in maiuscolo (in VINCA il valore sarà per lo più IT per 'Italia'); sono previsti anche i valori non definiti (?), e quelli per località straniere (nel caso di monferrini residenti temporaneamente a Camberra e simili). Ess.

<luogo>Cusano Milanino,IT</luogo>
<luogo>Madras,IN</luogo>
<luogo>?,HU</luogo>

1.2.1.8.1
Le sigle per le località straniere sono quelle standard ISO usate per le estensioni TLD dei domini web internazionali; il sistema (aggiornato al 2 aprile 2002) con le sue 239 entità ricopre sostanzialmente tutti gli stati del mondo (con minime eccezioni, relative a regioni geografiche e situazioni politiche particolari). Una lista completa, se ve ne fosse bisogno, è disponibile anche su questo sito: http://www.bmanuel.org/courses/tld.html.

1.2.1.9
<ist> Tipo di istituzione nella quale è stato prodotto il testo; sono previsti anche il valore nullo (0), il valore non definito (?) ed il valore (privato) nel caso non sia coinvolta alcuna istituzione.

1.2.1.10
<ist_nome> Nome dell'istituzione presso o per la quale è stato prodotto il testo; sono previsti anche il valore nullo (0) e il valore non definito (?).

1.2.1.11
Bisognerà poi indicare su uno stelloncino a parte in max 720 battute (cioè c. 8 righe di 90 battute) le generalità e caratteristiche dell'istituzione (cfr. Appendice 2 § 5.3). Ogni stelloncino dovrà essere posto in un file separato, avente per nome una forma sintetica del nome dell'istituzione medesima accompagnato dalla sigla I, ed il suo formato sarà il solito .txt degli altri files del corpus (cfr. §§ 2.0.1 e 2.0.3). Ad esempio per i documenti <ist>Gioberti-IV</ist> si avrà il file Gioberti-IV_I.txt dal seguente contenuto:

Liceo classico Gioberti
Torino - Italia
Classe seconda liceo classico.
Grado: media superiore
Extra info: La seconda liceo classico corrisponde al quarto anno di scuola media superiore. Le materie portanti sono di stampo umanistico (latino, greco, italiano, storia, filosofia...).

1.2.2 <set-id>
Informazioni che serviranno ad identificare gli insiemi di testi da cui il documento proviene ("gruppo") ed in cui confluirà ("corpus"):

1.2.2.1
<corpus> Di default il valore da attribuire sarà VINCA.

1.2.2.2
<gruppo_num> Esercizi con consegna uguale: numerazione. In questo campo è necessario specificare due valori separati dalla virgola: il numero assoluto dell'esercizio (1;2;…,) (dove 1 sarà tanto il primo di una serie quanto l'esercizio unico), e la consistenza del gruppo, dove sono previsti soli tre valori, (g1) per l'esemplare unico, (g5) per gruppetti inferiori a cinque e (gn) per gruppi con più di cinque esemplari. Ad esempio:

<1,g1> "esercizio unico (esemplare 1 di gruppo di 1)"
<1,g5> "primo esercizio di gruppo con meno di 5 esemplari"
<3,g5> "terzo esercizio di gruppo con meno di 5 esemplari"
<7,gn> "settimo esercizio di gruppo con più di 5 esemplari"

1.2.2.3
<gruppo_nome> Esercizi con consegna uguale: denominazione. In questo campo va inserito un nome che funga da identificativo per ogni gruppo di esercizi; in alternativa (per esercizi unici) è previsto il valore nullo (0). Si noti che non è necessario inserire tutta o parte della consegna: è sufficiente un nome convenzionale, possibilmente breve e originale, che permetta di riconoscere univocamente il gruppo al quale si fa riferimento, ad es.

<gruppo_nome>amore</gruppo_nome>
<gruppo_nome>sogno</gruppo_nome>.

1.2.2.4
Nel caso di gruppi di esercizi, bisognerà poi indicare su uno stelloncino a parte in max 900 battute (cioè c.10 righe di 90 battute) le caratteristiche dell'esercizio (in alternativa il fornitore potrà compilare il "questionario esercizio", cfr. Appendice 2 § 5.4, lasciando ai trascrittori il compito di ricavarne lo stelloncino appropriato). Ogni stelloncino dovrà essere posto in un file separato, avente per nome lo stesso nome assegnato al gruppo accompagnato dalla sigla G, ed il suo formato sarà il solito .txt degli altri files del corpus (cfr. §§ 2.0.1 e 2.0.3). Ad esempio per il gruppo amore si avrà un file dal nome

amore_G.txt.

e dal contenuto seguente (che può fungere da modello anche per l'organizzazione dell'informazione al suo interno):

Consegna: Guarda queste figure e scrivi una storia di almeno 100 parole in modo che anche una persona che non vede le figure capisca cosa è successo. L'incipit è Ieri al parco...
Scopo: verificare la capacità di legare segmenti narrativi, di usare i tempi verbali e i connettivi testuali, coerenza e coesione del testo.
Contesto: esercitazione in classe.
Extra info: agli studenti è stato permesso l'uso di un dizionario di sinonimi e contrari.

1.2.2.4.1
Si noti che la "descrizione del gruppo" fornita negli stelloncini *_G.txt non è coincidente con la "riproduzione integrale della consegna" fornita negli stelloncini *_C.txt (cfr. § 1.2.6.2): per un gruppo di documenti potremmo infatti non avere a disposizione la consegna originaria, così come potremmo invece disporre della consegna originaria per un documento singolo. Le informazioni contenute nei due stelloncini non sono inoltre coincidenti: in uno si fornisce una descrizione "dall'esterno" dell'esercizio, nell'altro si riproduce quanto effettivamente consegnato agli apprendenti.

1.2.3 <autore>
Informazioni sul produttore del testo.

1.2.3.1
<specifiche> Informazioni (specifiche) sul sesso del produttore del testo, maschile o femminile o non definito (?), se si tratta di individuo, altrimenti si specifica se l'erogatore del testo è un ente od istituzione di qualche natura (ente), o se invece il testo è il risultato del lavoro collettivo di un gruppo di persone (gruppo).

1.2.3.2
<eta> Sono previste sette fasce di età (1-7,8-13,14-18,19-25,26-30,30-40,40-50, oltre) oltre al valore non definito (?).

1.2.3.3
<status> Status sociale, in base al reddito: modesto (1), medio (2), alto (3), non definito (?).

1.2.3.4
<occupazione> La situazione lavorativa e l'occupazione dell'autore; sono previsti nove valori (studente stud, insegnante ins, casalinga cas, operaio op, impiegato imp, commerciante comm, libero professionista lpr, pensionato pens, disoccupato dis) oltre al non definito (?); il valore (...) è per qualsiasi professione non inclusa in quelle previste.

1.2.3.5
<lingua1> Informazioni sulla lingua madre dell'autore. Sono previsti due campi cui attribuire un valore.
Nel primo il valore di default sarà italiano.
Nel secondo si indica la L1 veicolare se diversa dalla lingua madre (come ad es. avviene in Alto Adige, ecc.), altrimenti si pone il valore nullo (0: lingua madre e L1 coincidono) od alla peggio non definito (?).

1.2.3.6
<lingue> Informazioni sulle altre lingue note all'apprendente; sono previsti anche il valore nullo (0) e il valore non definito (?). Non si può però sempre stabilire con assuluta certezza il grado di conoscenza delle altre lingue conosciute: la proposta sarebbe di inserire tutte le lingue che l'autoree dichiara di conoscere (quindi anche le lingue con conoscenza scolastica e non solo le L2 effettive) in supposto ordine decrescente di conoscenza.

1.2.3.7
<dialetto1_nome> Informazioni sui dialetti noti all'autore; sono previsti anche il valore nullo (0) e il valore non definito (?).
Nel caso l'autore conosca più di un dialetto sarà necessario compilare il campo <dialetto2_nome>, in caso contrario il valore di tale campo sarà nullo (0).

1.2.3.8
<dialetto1_livello> Informazioni sul livello di conoscenza dei dialetti noti all'autore; sono previsti quattro valori (lingua madre madre, conoscenza attiva att, conoscenza passiva pass, conoscenza scarsa scars) oltre al non definito (?).
Nel caso l'autore conosca più di un dialetto il grado di conoscenza del secondo sarà espresso dal campo <dialetto2_livello> i cui valori sono i medesimi previsti per il primo dialetto.

1.2.3.9
<scolarizzazione>
La scolarizzazione di partenza: elementare (el), media (md), superiore (sp), universitaria (un), non definita (?).

1.2.3.10
<scolarizzazione-padre>
La scolarizzazione del padre: analfabeta (an), elementare (el), media (md), superiore (sp), universitaria (un), non definita (?).

1.2.3.11
<scolarizzazione-madre>
La scolarizzazione della madre: analfabeta (an), elementare (el), media (md), superiore (sp), universitaria (un), non definita (?).

1.2.3.12
<residenza> Quantificazione e localizzazione della residenza dell'autore: sono previsti tre campi associati per il numero degli anni, la città e la regione (#anni,città,regione); nel caso in cui l'autore risieda nello stesso luogo fin dalla nascita il valore sarà nascita ad es. "7,Rho,Piemonte", o "nascita,Perugia,Umbria". In completa mancanza di informazioni in proposito sono, invece, sempre previsti i valori non definiti (?).

1.2.3.13
<residenza-prec> Localizzazione della residenza precedente dell'autore: sono previsti due campi associati per la città e la regione (città,regione ad es. "Gela,Sicilia"). Nel caso in cui l'autore abbia sempre abitato nel luogo di attuale residenza il valore sarà nullo (0); sono, invece, sempre previsti i valori non definiti (?).

1.2.4 <autore1> ... <autoreN>
Nel caso (prevedibilmente poco frequente) in cui siano stati posti più autori come valore del campo <aut_NC>, i loro dati andranno forniti in tante gerarchie quanti, appunto, gli autori, e la struttura interna di ogni gerarchia riprodurrà quella di <autore>, avremo quindi (per usare un esempio di fantasia):

<doc-id>
[…]
<aut_NC>(Peppino,Esposito),(Fefè,Locascio)</aut_NC>
[…]
<autore>
<specifiche>m;f;?;ente;gruppo</specifiche>
<eta>1-7;8-13;14-18;19-25;26-30;30-40;40-50;oltre;?</eta>
<status>1;2;3;?</status>
<occupazione>stud;ins;cas;op;imp;comm;lpr;pens;dis;…;?</occupazione>
<lingua1>____;?,____;0;?</lingua1>
<lingue>____;0;?</lingue>
<dialetto1_nome>____;0;?</dialetto1_nome>
<dialetto1_livello>(madre;att;pass;scars);0;?</dialetto1_livello>
<dialetto2_nome>____;0;?</dialetto2_nome>
<dialetto2_livello>(madre;att;pass;scars);0;?</dialetto2_livello>
<scolarizzazione>el;md;sp;un;?</scolarizzazione>
<scolarizzazione-padre>an;el;md;sp;un;?</scolarizzazione-padre>
<scolarizzazione-madre>an;el;md;sp;un;?</scolarizzazione-madre>
<residenza>(nascita;#anni;?,citta;?,regione;?);?</residenza>
<residenza-prec>(citta;?,regione;?);0;?</residenza-prec>
</autore>
<autore2>
<specifiche>m;f;?;ente;gruppo</specifiche>
<eta>1-7;8-13;14-18;19-25;26-30;30-40;40-50;oltre;?</eta>
<status>1;2;3;?</status>
<occupazione>stud;ins;cas;op;imp;comm;lpr;pens;dis;…;?</occupazione>
<lingua1>____;?,____;0;?</lingua1>
<lingue>____;0;?</lingue>
<dialetto1_nome>____;0;?</dialetto1_nome>
<dialetto1_livello>(madre;att;pass;scars);0;?</dialetto1_livello>
<dialetto2_nome>____;0;?</dialetto2_nome>
<dialetto2_livello>(madre;att;pass;scars);0;?</dialetto2_livello>
<scolarizzazione>el;md;sp;un;?</scolarizzazione>
<scolarizzazione-padre>an;el;md;sp;un;?</scolarizzazione-padre>
<scolarizzazione-madre>an;el;md;sp;un;?</scolarizzazione-madre>
<residenza>(nascita;#anni;?,citta;?,regione;?);?</residenza>
<residenza-prec>(citta;?,regione;?);0;?</residenza-prec>
</autore2>
[…]

1.2.5 <testo>
Caratterizzazione testuale del documento.

1.2.5.1
<tipo_forma> Tipo "formale" di testo: libera composizione rispettivamente di tipo misto o imprecisabile (c-lib_var), di tipo descrittivo (c-lib_descr), narrativo (c-lib_narr), regolativo (c-lib_reg), argomentativo (c-lib_arg), composizione in forma di articolo di giornale (c-art), tesina (tes), testo dialogico scritto da una persona singola (dial), questionari liberi e "comprehension" (ques), esercizio di traduzione (es-trad), dettato (dett), riassunto (rias), lettera elettronica (email) o tradizionale (lett). Sono escluse le traduzioni, i questionari con risposte obbligate o troppo brevi per essere di alcuna rilevanza linguistica, e, per analoghe ragioni, i cloze; non sono, almeno in questa prima fase, previsti i dettati.

1.2.5.2
<tipo_produzione> Tipo di condizioni nel quale il testo è stato prodotto: nell'attività didattica (did), privatamente (priv) o nel quadro dell'attività lavorativa (lav). È stato previsto anche il valore indefinito (?) ma non quello nullo.

1.2.5.3
<topics> In prospettiva dell'armonizzazione del corpus VINCA con altri corpora in allestimento, sarà introdotta una classificazione tematica adeguata di ogni documento. In questa prima fase il campo viene semplicemente ignorato.

1.2.5.4
<keyw>Per le medesime ragioni si possono indicare alcune keywords che aiutino ad individuare l'argomento del documento; il numero di queste è fissato a 5, ma è stato previsto anche il valore indefinito (?), nel caso il documento non abbia un singolo e/o preciso argomento. In questa prima fase anche questo campo viene semplicemente ignorato e verrà completato dai curatori del corpus in un momento successivo alla trascrizione dei documenti.

1.2.5.5
<test> Qui va inoltre specificato se l'elaborato, quale che ne sia il tipo, è una prova di esame di fine anno o una prova in itinere. In tal caso il raccoglitore userà una formulazione riconoscibile nel sistema scolastico del paese, ad es.

<test>Prova d'ingresso</test>.

1.2.5.6
In uno stelloncino a parte illustrerà poi tale dicitura, chiarendo anche le condizioni di svolgimento della prova (tempo dato, possibilità di consultare dizionari monolingui o bilingui di italiano o altri testi di riferimento; cfr. Appendice 2 § 5.5). Il "nome" dello stelloncino sarà dato da una forma convenzionalmente abbreviata del nome della prova accompagnato dalla sigla P, ed il suo formato sarà il solito .txt degli altri files del corpus (cfr. §§ 2.0.1 e 2.0.3), ad es.

provadingresso_P.txt.

È previsto anche il valore nullo (0), se il documento prodotto non è una prova, ed il non definito (?), se semplicemente l'informazione non è nota al raccoglitore.

1.2.5.7
<qualita> La natura dell'antigrafo del testo trascritto: si tratta dell'originale prodotto dall'apprendente, materialmente (orig) od in fotocopia (origFC) od in copia elettronica (origCE), o piuttosto di una sua copia indiretta, già digitata dal raccoglitore o da chi per esso (copia)

1.2.5.7.1
Nel caso di emails si usa il valore (orig) quando l'antigrafo è la mail origianaria, direttamente estratta dal mail reader, si usa invece (origCE) quando l'antigrafo è già una conversione dal formato originario del mailer, con eventuale perdita di informazioni (headers, fini riga, ecc.) - cfr. anche § 2.1.1.3.

1.2.5.8
<esecuzione> Il modo di produzione materiale del testo: se orale (or), manoscritto (ms), scritto al computer con un programma di videoscrittura (wp), o dattiloscritto (kw). I materiali che prevediamo di avere sono tutti scritti (prevalentemente manoscritti), ma si è voluto lasciare una finestra aperta per eventuali materiali orali che fosse dato di raccogliere.

1.2.5.9
<cap-min> Il sistema ortografico normale delle lingue scritte in latinica quali l'italiano prevede la normale alternanza di due set di grafi: capitali ("ABC") e minuscoli ("abc"). Può capitare che singoli scriventi uniformino la propria ortografia ad uno solo dei set, scrivendo tutto in grafi esclusivamente attinti al canone capitale (meno frequente è il contrario). Si tratta di una caratteristica da distinguere dall'uso specifico per singole porzioni di testo (singole parole o frasi) del maiuscolo (trascritto come tale) o del maiuscoletto (cfr. le marche di evidenziazione, § 2.4.7.1). Per evitare di trascrivere testi intieri in capitali (appesantendo inutilmente il formario del POS-tagger) si è scelto di marcare tale caratteristica nella header e poi trascrivere il testo in normale minuscola (con eventuale ricorso a maiuscole per marcare cambi di corpo, anche se non di canone, del carattere). I valori previsti sono pertanto: il valore nullo (0) per l'uso normale, il valore (tc) per i testi tutti in capitali, ed il valore (tm) per quelli tutti in minuscole. Si vedano gli ess. a e b, cui va attribuito <cap-min>tc</cap-min> nella header, e la loro trascrizione TD:

a.
Rodolfo, però, vedendo
che un uomo lo inseguiva, si spaventò e si mise a correre. Dopo
una corsa estenuante, il cameriere riuscì a raggiungere Rodolfo.
Solo allora Rodolfo si rese conto di avere equivocato la situazione

b.
l'altro giorno al lavoro ero stanco
e non avevo assolutamente voglia
di fare niente. restavo imbambolato
di fronte allo schermo del mio com|puter
fissando le immagini

1.2.6 <ref>
I links, o riferimenti ipertestuali (href), istituiti dal e nel documento, intendendo con ciò tanto i riferimenti esterni chiesti dalla header (stelloncini, ecc.), tanto i riferimenti interni ad immagini od allegati testuali contenuti nel testo.

1.2.6.1
<stel> Devono essere indicati, nella corretta sequenza, i nomi degli stelloncini richiesti dal documento in questione (nell'ordine: fornitore, trascrittore, gruppo, prova) con i nomi che sono stati descritti nei §§ 1.2.1.5, 1.2.1.6, 1.2.2.3 e 1.2.5.6.

<stel>amalasuntaroito_R.txt,francescaminozzi_T.txt,amore_G.txt,provadingresso_P.txt.</stel>

Oltre alla specifica dei nomi è previsto naturalmente anche il valore nullo (0).

1.2.6.2
<cons> In condizioni ideali, oltre agli elaborati degli apprendenti, si dovrebbe acquisire anche la consegna materialmente assegnata dal docente. In tal caso questa va trascritta integralmente (secondo i criteri della TD) su file separato, il cui "nome" sarà dato da una forma convenzionalmente abbreviata del titolo della consegna (perlopiù la stessa del nome del gruppo, quando presente: cfr. § 1.2.2.3) accompagnato dalla sigla C, ed il suo formato sarà il solito .txt degli altri files del corpus (cfr. §§ 2.0.1 e 2.0.3), ad es. la consegna dei documenti del gruppo storia, indicata al modo sg.

<cons>storia_C.txt</cons>

punterà al file storia_C.txt che riproduce nella sua interezza la consegna originale, cioè:

Continua la storia: Era una notte buia e tempestosa, il vento soffiava tra le cime degli alberi e la pioggia battente scrosciava tra le fronde. Geppino e Mariolina erano perduti, non avrebbero mai più trovato la strada di casa, ma ecco che ad un tratto …

Oltre alla specifica del nome è previsto naturalmente anche il valore nullo (0).

1.2.6.2.1
Per la differenza tra "consegna" e "gruppo", così come tra stelloncini *_G.txt e stelloncini *_C.txt in genere cfr. quanto detto in § 1.2.2.3 e 1.2.2.4.

1.2.6.3
<txtext> Nella consegna si può fare riferimento a testi esterni che siano stati letti in classe (dettati, traduzioni, esercizi di comprehension, sono necessariamente basati su un testo esterno). Qualora ne fossimo in possesso, di questi va fornita o la trascrizione (per brani di pubblico dominio) od il rinvio bibliografico (per testi estesi, facilmente reperibili, o coperti da copyright). Valgono le solite avvertenze sul nome e formato del file, vale a dire che il "nome" sarà dato da una forma convenzionalmente abbreviata del titolo del brano di riferimento (eventualmente il medesimo del nome del gruppo e/o della consegna: cfr. §§ 1.2.2.3 e 1.2.6.2) accompagnato dalla sigla R, ed il suo formato sarà il solito .txt degli altri files del corpus (cfr. §§ 2.0.1 e 2.0.3). Possono essere indicati anche più files (separati tra loro dalla virgola) o nessuno (0). Ad esempio, il testo di riferimento per i documenti del gruppo tartari, indicato al modo sg.

<txtext>tartari_R.txt</txtext>

punterà al file tartari.txt che conterrà il testo:

Dino Buzzati, Il deserto dei Tartari, Milano, A. Mondadori, 1979, 6a ed. - cap.4

1.2.6.4
<imgext> Analogamente nella consegna si può fare riferimento ad immagini esterne che siano state usate come base per l'esercitazione. Si tratterà in questo caso di files di immagine, scannate di solito in .jpg, il cui "nome" sarà dato da un titolo convenzionale (eventualmente il medesimo del nome del gruppo e/o della consegna: cfr. §§ 1.2.2.3 e 1.2.6.2) accompagnato dalla sigla R.

Ad es., l'immagine di riferimento per i documenti del gruppo pescatore, indicata al modo sg.

<imgext>br-g=pogopesca_R.jpg</imgext>

punterà al file br-g=pogopesca_R.jpg che conterrà l'immagine :

[tav. 1] L'immagine esterna br-g=pogopesca_R.jpg.

Possono essere indicati anche più files (separati tra loro dalla virgola) o nessuno (0).

1.2.6.5
<txtint> Nel testo possono essere compresi allegati di natura testuale (i.e. ritagli di giornale, ecc.). In tal caso questi saranno trascritti integralmente in files separati secondo i criteri della TD, i cui "nomi" saranno dati da un titolo convenzionalmente abbreviato (a volte lo stesso del nome del gruppo: cfr. § 1.2.2.3), ed il cui formato sarà il solito .txt degli altri files del corpus (cfr. §§ 2.0.1 e 2.0.3).

Ad es., il testo allegato nei documenti del gruppo annuncioVecchia, indicato al modo sg.

<txtint>annuncioVecchia.txt</txtint>

punterà al file annuncioVecchia.txt che conterrà il testo:

AAA vecchia multimiliardaria residente ad Acapulco cerca giovane aitante bella presenza e fisico prestante per assaporare ultimi istanti di vita. Si promette una morte a breve termine coronata da cospicua eredità. Chiedere di tota Bina.

Potranno naturalmente essere indicati più files (separati tra loro dalla virgola) o nessuno (0).

1.2.6.5.1
Si noti che i nomi dei files di riferimento interni non presentano sigle, a differenza degli esterni che ne erano sempre contrassegnati.

1.2.6.6
<imgint> Nel testo possono essere compresi materiali di tipo grafico, come disegni o schizzi dell'autore (cfr. il commento al tag img infra § 2.4.9 e sgg.). Si tratterà in questi casi di files di immagine, scannate di solito in .txt, il cui "nome" sarà dato da un titolo convenzionale.

Ad es., l'immagine allegata in un documento del gruppo mipresento, indicata al modo sg.

<imgint>vn-g=omino4.jpg</imgint>

punterà al file vn-g=omino4.jpg che conterrà l'immagine:

[tav. 2] L'immagine esterna vn-g=omino4.jpg.