in breve |
![]() |
![]() |
![]() |
![]() |
di Manuel Barbera (manuel.barbera@bmanuel.org)
e Cristina Onesti (cristina.onesti@unito.it).
Il Corpus Segusinum rappresenta il primo sottocorpus
di una auspicabilmente più ampia raccolta di dati scritti da varietà di italiano
giornalistico, con una particolare attenzione alla realtà regionale della stampa piemontese.
Il corpus è costituito attualmente da due intere annate del giornale La Valsusa,
una delle testate italiane più antiche.
Fondato nel 1897 dal mons. Edoardo Giuseppe Rosaz,
La Valsusa
è un settimanale in uscita il giovedì che si occupa del territorio della Valle di
Susa, Val Sangone e parte della cintura di Torino. Il formato è un tabloid di 52
pagine (in media), in parte a colori. I temi trattati vanno dalla cronaca allo
sport ad approfondimenti tematici di attualità, cultura e religione. Attuale direttore
responsabile, dal 1979, è Ettore De Faveri, affiancato da un gruppo redazionale
in cui sono presenti oltre cinquanta giornalisti di tutte le età, il cui motto
potrebbe riassumersi nelle parole di Piero Ottone: "Nessuno decide di fare il
giornalista per migliorare l'umanità. Però un buon giornale la migliora".
L'interesse per un corpus di dati linguistici scritti tratti da
giornali piemontesi nasce precipuamente dalla possibilità di archivio ed interrogazione
di materiali provinciali e regionali, legati alla realtà piemontese, ed alla notevole
lacuna della corpus linguistics italiana nel considerare la stampa a tiratura locale.
La stampa periodica milanese ebbe sì una propria raccolta di concordanze nell'Ottocento
(La stampa periodica milanese della prima metà dell'Ottocento: testi e concordanze,
a cura di I. Bonomi, S. De Stefanis Ciccone, A. Masini, Pisa, Giardini, 1983),
ben prima tuttavia della possibilità di interrogazione da formato digitale attualmente
possibile. A ciò si aggiunga che, anche a livello di corpora da testate nazionali, il panorama
degli strumenti a disposizione di linguisti ed utenti interessati in genere è piuttosto
limitato: il corpus
La Repubblica sviluppato dall'Università di Bologna
(cfr. M. Baroni, S. Bernardini, F. Comastri, L. Piccioni, A. Volpi, G. Aston, M. Mazzoleni,
Introducing the "La Repubblica" corpus: A large, annotated, TEI(XML)-compliant
corpus of newspaper Italian, in Proceedings of LREC 2004, Lisbon, ELDA,
2004, pp. 1771-1774) ci sembra uno dei pochi strumenti efficaci per un linguista.
Il (sotto)Corpus Segusinum ed in futuro il più ampio corpus giornalistico
piemontese saranno dedicati alla contemporaneità; comprende - al termine del primo
stadio della ricerca 2007/2010 - la raccolta delle annate 2003 e 2004 della testata
de La Valsusa.
In questa direzione l'attività di ricerca svolta sui testi del Corpus Segusinum
si propone un obiettivo anche metodologico nel tracciare alcune linee guida fondanti
per l'annotazione di testi da giornali. L'elaborazione di dati dalla realtà piemontese
è infatti legata non solo ad un interesse diatopico, ma ancor più ad un aspetto
diafasico, considerata la situazione enunciativa che presenta caratteristiche diverse
dalla stampa nazionale:
--- è infatti svincolata da un pubblico nazionale
(nella scelta degli argomenti per esempio);
--- il linguaggio potrebbe subire maggiormente il
contatto con il dialetto;
--- può rivelarsi interessante la diversa penetrazione
di alcuni forestierismi.
Nonostante l'esistenza di strumenti quali la Biblioteca Digitale Italiana (BDI), che raccoglie documenti scannerizzati da pubblicazioni a tiratura regionale o comunque minoritaria rispetto a quella nazionale (bollettini, annuali, ecc.), nonché la recente ed encomiabile esperienza regionale dell'archivio della stampa periodica piemontese (Periodici del Piemonte e della Valle d'Aosta, di carattere storico, comprendente schede, titoli bibliografici ed immagini), solo un corpus, per sua stessa definizione, permette un'analisi linguistica - impossibile con formati .pdf o immagini - in grado di risalire a singole parti del discorso grazie al POS-tagging; a calcoli di frequenze delle occorrenze; a ricerche specifiche su titoli, sottotitoli ed occhielli; a ricerche specifiche nelle civette di prima pagina (e diversamente negli incipit delle girate); ad indagini morfologiche, sintattiche ed a livello testuale; a ricerche mirate per luoghi, rubriche o testatine del giornale; a tipi di testo; a parole chiave degli articoli e di altri generi testuali talvolta negletti, quali recensioni, inserzioni, echi di cronaca, comunicati stampa, ecc.
L'immagine di apertura della homepage del Corpus Segusinum è ispirata a quella Val di Susa che M. Barbera (valsusino ed inveterato "montagnino") più ama: quella di boschi, montagne, malghe ed alpeggi (è sede, ta l'altro, del Parco dell'Orsiera Rocciavré). Ma oltre a paesaggio e campagna, la Val di Susa è anche terra ricca di storia e leggende. Al di là delle sontuose antichità romane (si pensi solo a Susa!) ed addirittura preromane,
la storia medievale ha segnato profondamente la valle, non fosse che con i suoi unici complessi abbaziali (da S. Antonio di Ranverso, alla Sacra di San Michele, alla Novalesa). Ed è una delle leggende del medioevo carolingio che è alla base del logo del nostro corpus: come la Durlindana di Orlando anche la linguistica dei corpora "dividet et adnotat", per parafrasare il nostro motto.
Il Corpus Segusimum, che è il progetto pilota ed apripista della
nostra iniziativa, sarà presto affiancato da un gemello astigiano basato
la Gazzetta d'Asti, di cui abbiamo già acquisito i testi delle annate 2003 e 2004,
in avanzata fase di allestimento.
Storico strumento d'informazione, la Gazzetta (in uscita ogni venerdì) rappresenta
nel panorama locale una delle testate cittadine più antiche e più conosciute dell'Astigiano.
Settimanale cattolico fondato nel 1899 e fortemente voluto dal Vescovo di Asti di allora,
Mons. Giacinto Arcangeli, apparve con il primo numero di testata nel 1899.
Il progetto punterà, con l'arrivo di nuove collaborazioni, ad offrire rinnovato lustro
e visibilità a validi prodotti della realtà della carta stampata piemontese e agli
argomenti che essa, e solo essa, tratta, promuovendo una tradizione locale non sempre
valorizzata dalla diffusione delle sole testate a tiratura nazionale; si tratta in
alcuni casi di restituire vitalità a testi di nicchia, costretti ad operare talvolta
con scarsi stimoli o guadagni, e di documentare tali realtà a rischio di estinzione,
poichè minacciate da altre forme di informazione (per es. gli inserti provinciali di
testate nazionali). Ovviamente il corpus servirà anche da archivio digitale delle
singole testate giornalistiche e documentazione della loro storia.
![]() |
Attenzione! |