CT Tools

by Manuel Barbera (bmanuel@inrete.it) and Marco Tomatis (m-tomatis@tiscali.it),




A suite of corpus developing tools.

These are the tools (mostly AWK scripts) we needed to develop the Corpus Taurinense. Maybe if you are trying some similar endeavour, following more or less the lines of Barbera 2009, here you could find something useful to your tasks.
Obviously, most of this software needs "GAWK" (Gnu AWK) to work properly. You can download it directly from the Free Software Foundations web site. For Microsoft systems it is possible to download the last version of GAWK from the Sourceforge web site.


The downloadable Scripts

Hereunder each script is listed with the indication of its main author (MT stands for Marco Tomatis, AF for Arne Fitschen, MB for Manuel Barbera and DL for Dima Logic founder Cesare Oitana); all were however checked by MB and revised by MT. A short description in Italian of each script follows.

Aufbereitung_new.perl [AF]

Esegue il primo passaggio per la codifica in CQP del corpus disambiguato. Input: corpus disambiguato.

check=dirtydos.awk [DL]

Aiuta a individuare caratteri anomali all'interno del testo DOS. Input: testo taggato.

checkline.awk [MT]

Verifica la congruenza dei dati nel corpus segnalando le eventuali irregolarità. Input: testo disambiguato.

checksum.awk [MT]

Computa il numero complessivo di forme. Input: testo taggato o disambiguato.

conto.awk [DL]

Computa le occorrenze del carattere specificato nel programma. Input: testo taggato.

count_Toktype.awk [MT]

Computa i dati ricavati da "estra_Toktype". Input: file di uscita di estra_Toktype.

dis_end.awk [MT]

Formatta il testo disambiguato secondo le caratteristiche del testo di origine. Input: file di uscita di modulo6.

dis_prep.awk [MT]

Prepara il testo per le operazioni di disambiguazione. Input: file di uscita di spalmaF2.

estra_Toktype.awk [MT]

Estrae i lemmi riferiti ai type presenti nel corpus. Input: corpus disambiguato.

estraF.awk [DL]

Estrae le frequenze d'uso delle forme presenti nel corpus. Input: corpus disambiguato.

estraL.awk [DL]

Estrae i lemmi dal testo disambiguato. Input: corpus disambiguato.

Fix_uncinate.awk [MT]

Verifica e corregge eventuali anomalie nelle parenesi uncinate. Input: file di uscita di Aufbereitung_new.

horiz.awk [MT]

Riporta un testo convertito da vertic nel formato originario. Input: file di uscita di vertic.

lineaMW.awk [DL]

Formatta il formarioMW consentendo di ricavare il lemmarioMW. Input: file di multiword.

modulo1.awk [MT]

Primo modulo di disambiguazione. Input: file di uscita di dis_prep.

modulo2.awk [MT]

Secondo modulo di disambiguazione. Input: file di uscita di modulo1.

modulo3.awk [MT]

Terzo modulo di disambiguazione. Input: file di uscita di modulo2.

modulo4.awk [MT]

Quarto modulo di disambiguazione. Input: file di uscita di modulo3.

modulo5.awk [MT]

Quinto modulo di disambiguazione. Input: file di uscita di modulo4.

modulo6.awk [MT]

Sesto modulo di disambiguazione. Input: file di uscita di modulo5.

mwl-hinzu.perl [AF]

Permette una efficace codifica in CQP delle MultiWord. Input: file di MultiWord e file di uscita di Fix_uncinate.

ovi-ct_tm.awk [MT]

Automatizza la catena di sostituzioni necessaria per il passaggio dal formato "Gatto" al formato "Corpus Taurinense". Input: testo in formato Gatto.

pesca50.awk [DL]

Estrae le congiunzioni coordinate (POS 50). Input: testo taggato.

pescaCL.awk [DL]

Estrae le forme che contengono il carattere di backslash "\". Input: testo in formato Gatto.

pescaSi.awk [DL]

Estrae le forme pronominali. Input: testo taggato.

pex_d'.awk [MT]

Simula le regole di disambiguazione per la forma "d'". Input: file di uscita di modulo6.

pex_questi.awk [MT]

Simula le regole di disambiguazione per la forma "questi". Input: file di uscita di modulo2.

sdoppia.awk [DL]

Segnala le righe doppie consecutive in un testo ordinato alfabeticamente. Input: file di uscita di vertic.

separa.awk [DL]

Si occupa di separare i grafoclitici di un testo. Richiede il file di riferimento "conencl". Input: testo in formato Gatto.

smista.awk [DL]

Segnala l'assenza del campo lemma in F2. Input: F2.

smista_.awk [DL]

Segnala in F2 il campo lemma presente, ma non ancora valorizzato. Input: F2.

somma.awk [DL]

Calcola la somma delle occorrenze del formario. Input: F2.

spalmaF2.awk [DL]

Assegna le etichette con i valori grammaticali a tutte le forme del corpus. Input: testo del Corpus Taurinense in formato ascii.

subs.awk [DL]

Effettua alcune sostituzioni di caratteri per il passaggio dal formato "Gatto" al formato "Corpus Taurinense". Input: testo in formato Gatto.

transord_1.awk [MT]

Riformatta i dati di frequenza dei token sulla base delle transcategorizzazioni - Modulo 1. Input: F (effeliscio).

transord_2.awk [MT]

Riformatta i dati di frequenza dei token sulla base delle transcategorizzazioni - Modulo 2. Input: file di uscita del Transord_1

transord_3.awk [MT]

Riformatta i dati di frequenza dei token sulla base delle transcategorizzazioni - Modulo 3. Input: file di uscita del Transord_2

verif4.awk [DL]

Effettua verifiche formali sulle etichette all'interno delle righe. Input: testo taggato.

vertic.awk [MB]

Converte un testo taggato in layout orizzontale con formato “word_tag” in layout verticale con word e tag su due colonne. Input: testo disambiguato.


Download all.

You can also download all the batch in one single archive here.


License terms.

All the tools are free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version. This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details. You should have received a copy of the GNU General Public License along with this program; if not, write to the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.