Note per la costituzione e trascrizione del
corpus di italiano nativo VINCA.

Guidelines v. 1 (08.12.04).

di Manuel Barbera (manuel.barbera@bmanuel.org) ed Elisa Corino (elisa.corino@tin.it).



3. Il dopo.


Terminata la fase di immisione manuale dei dati secondo i criteri esposti nel capitolo precedente, si rendono ancora necessarie alcune operazioni sui files TTM prima di raggiungere l'assetto definitivo (i files TD resteranno invece come sono, per documentazione filologica). Solo alcune di queste fasi, tuttavia, saranno sommariamente descritte in queste Guidelines.


3.1
Il formato di scambio


La prima, e più semplice, di queste operazioni consiste in un ulteriore perfezionamento del markup fino a raggiungere quello che chiamiamo formato di scambio (FS), attuata questa volta automaticamente con uno script in Perl.

3.1.1
La principale modifica riguarda l'assetto delle righe, prima con l'introduzione dei tag <tLn>; "text line" ed <eLn> "empty line", attuata dallo script linee.pl (preparato da Simona Colombo):

while(<>){
if (/^</)
{
print;
}
elsif (/^\s+</)
{
print;
}
elsif ( /^\s*$/ )
{ ## empty line
print "\n<eLn/>\n";
}
else
{
print "\n<tLn>\n$_</tLn>\n";
}
}</P>

e poi con la loro numerazione progressiva interna ad ogni testo, attuata dallo script 8_contarighe.pl, originariamente sviluppato da Simona Colombo per i corpora di newsgroups in allestimento::

#!/usr/bin/perl
# conta le tline qline e sostituisce eline con quante ne ha sostituite

$numrighe=0;
$numeline=0;
$eline=0;
while (<>){
if (/^/)
{
$numrighe=0;
$numeline=0;
print;

}
elsif (/^(\ {
if ($eline==1)
{
$eline=0;
print "$numeline<\/eLn>\n";
$numeline=0;
}

$numrighe++;
s/()/$1$2 nr\=$numrighe $3/;
s/()/$1 nr\=$numrighe $2/;
s/()/$1 nr\=$numrighe $2/;

print;
}
elsif (/^/)
{
$eline=1;
$numeline++;
}
elsif (/^<\/body>/)
{
if ($eline==1)
{
$eline=0;
print "$numeline<\/eLn>\n";
$numeline=0;
}
print;
}
elsif (/^(news\:)(.+\w+)(\.\.\.|$)/)
{
#s/\n//;
#print $1;
print "\n$1$2<\/news>$3\n";
}

elsif (/(.+)(news\:)(.+\w+|.+\>)(\.\.\.|$)/)
{
print $1;
print "\n$2$3<\/news>$4\n";
}
else
{
print;
}

}

3.1.2
Le ragioni di questo riassetto sono duplici: da un lato una più facile trasformabilità in standard XML e CQP Format, dall'altro la uniformazione agli altri corpora italiani (e non) in fase di creazione da parte del nostro gruppo (tanto in sede di bmanuel.org come di corpora.unito.it). La piena compatibilità di VALICO con altri corpora e la possibilità di poter attuare ricerche incrociate su più corpora usando la medesima sintassi di ricerca rappresenta infatti uno dei punti di forza di questo progetto.

3.1.3
Alcuni esempi di documenti in formato di scambio si trovano nell'Appendice 3.


3.2
CQP beta.


A partire dal formato di scambio, con procedure ancora una volta completamente automatizzate, previo eventualmente un perfezionamento dell'assetto XML, si perverrà ad una versione in formato CQP già complertamente gestibile ed interrogabile come corpus, di cui è prevista la messa online come beta sul sito di corpora.unito.it.


3.3
I taggings.


A partire da questa prima versione semplice (solo markuppata e tokenizzata), si appronterà una versione annotata; sono previsti in particolare un POS-tagging (basato sul tagset EAGLES e sull'esperienza del CT), da attuare usando il Tree Tagger dell'IMS Stuttgart, ed un error-tagging, secondo strategie ancora in parte da definire.