in breve


Un abbozzo di presentazione del progetto.

di Manuel Barbera (manuel.barbera@bmanuel.org)
e Cristina Onesti (cristina.onesti@unito.it).



Il Corpus Segusinum rappresenta il primo sottocorpus di una auspicabilmente più ampia raccolta di dati scritti da varietà di italiano giornalistico, con una particolare attenzione alla realtà regionale della stampa piemontese. Il corpus è costituito attualmente da due intere annate del giornale La Valsusa, una delle testate italiane più antiche.


Il logo de La Valsusa.


Fondato nel 1897 dal mons. Edoardo Giuseppe Rosaz, La Valsusa è un settimanale in uscita il giovedì che si occupa del territorio della Valle di Susa, Val Sangone e parte della cintura di Torino. Il formato è un tabloid di 52 pagine (in media), in parte a colori. I temi trattati vanno dalla cronaca allo sport ad approfondimenti tematici di attualità, cultura e religione. Attuale direttore responsabile, dal 1979, è Ettore De Faveri, affiancato da un gruppo redazionale in cui sono presenti oltre cinquanta giornalisti di tutte le età, il cui motto potrebbe riassumersi nelle parole di Piero Ottone: "Nessuno decide di fare il giornalista per migliorare l'umanità. Però un buon giornale la migliora".



L'interesse per un corpus di dati linguistici scritti tratti da giornali piemontesi nasce precipuamente dalla possibilità di archivio ed interrogazione di materiali provinciali e regionali, legati alla realtà piemontese, ed alla notevole lacuna della corpus linguistics italiana nel considerare la stampa a tiratura locale.
La stampa periodica milanese ebbe sì una propria raccolta di concordanze nell'Ottocento (La stampa periodica milanese della prima metà dell'Ottocento: testi e concordanze, a cura di I. Bonomi, S. De Stefanis Ciccone, A. Masini, Pisa, Giardini, 1983), ben prima tuttavia della possibilità di interrogazione da formato digitale attualmente possibile. A ciò si aggiunga che, anche a livello di corpora da testate nazionali, il panorama degli strumenti a disposizione di linguisti ed utenti interessati in genere è piuttosto limitato: il corpus La Repubblica sviluppato dall'Università di Bologna (cfr. M. Baroni, S. Bernardini, F. Comastri, L. Piccioni, A. Volpi, G. Aston, M. Mazzoleni, Introducing the "La Repubblica" corpus: A large, annotated, TEI(XML)-compliant corpus of newspaper Italian, in Proceedings of LREC 2004, Lisbon, ELDA, 2004, pp. 1771-1774) ci sembra uno dei pochi strumenti efficaci per un linguista.

Il (sotto)Corpus Segusinum ed in futuro il più ampio corpus giornalistico piemontese saranno dedicati alla contemporaneità; comprende - al termine del primo stadio della ricerca 2007/2010 - la raccolta delle annate 2003 e 2004 della testata de La Valsusa.
In questa direzione l'attività di ricerca svolta sui testi del Corpus Segusinum si propone un obiettivo anche metodologico nel tracciare alcune linee guida fondanti per l'annotazione di testi da giornali. L'elaborazione di dati dalla realtà piemontese è infatti legata non solo ad un interesse diatopico, ma ancor più ad un aspetto diafasico, considerata la situazione enunciativa che presenta caratteristiche diverse dalla stampa nazionale:

--- è infatti svincolata da un pubblico nazionale (nella scelta degli argomenti per esempio);
--- il linguaggio potrebbe subire maggiormente il contatto con il dialetto;
--- può rivelarsi interessante la diversa penetrazione di alcuni forestierismi.

Nonostante l'esistenza di strumenti quali la Biblioteca Digitale Italiana (BDI), che raccoglie documenti scannerizzati da pubblicazioni a tiratura regionale o comunque minoritaria rispetto a quella nazionale (bollettini, annuali, ecc.), nonché la recente ed encomiabile esperienza regionale dell'archivio della stampa periodica piemontese (Periodici del Piemonte e della Valle d'Aosta, di carattere storico, comprendente schede, titoli bibliografici ed immagini), solo un corpus, per sua stessa definizione, permette un'analisi linguistica - impossibile con formati .pdf o immagini - in grado di risalire a singole parti del discorso grazie al POS-tagging; a calcoli di frequenze delle occorrenze; a ricerche specifiche su titoli, sottotitoli ed occhielli; a ricerche specifiche nelle civette di prima pagina (e diversamente negli incipit delle girate); ad indagini morfologiche, sintattiche ed a livello testuale; a ricerche mirate per luoghi, rubriche o testatine del giornale; a tipi di testo; a parole chiave degli articoli e di altri generi testuali talvolta negletti, quali recensioni, inserzioni, echi di cronaca, comunicati stampa, ecc.



L'immagine di apertura della homepage del Corpus Segusinum è ispirata a quella Val di Susa che M. Barbera (valsusino ed inveterato "montagnino") più ama: quella di boschi, montagne, malghe ed alpeggi (è sede, ta l'altro, del Parco dell'Orsiera Rocciavré). Ma oltre a paesaggio e campagna, la Val di Susa è anche terra ricca di storia e leggende. Al di là delle sontuose antichità romane (si pensi solo a Susa!) ed addirittura preromane,

a: il Maomèt di Borgone - b: Coiro ed Augusto firmano i patti del 13 a.C.

A sinistra (a) il cosiddetto Maomèt, (lett. 'Maometto', cioè una figura pagana), sito in una boscaglia tra Borgone e San Didero. Secondo taluni «un bassorilievo su roccia dedicato a Silvano» (Natalino Bartolomasi, Valsusa antica. I. Le origini - i Celti - i Romani, Pinerolo, Editice Alzani, 1975, p. 50), secondo altri «si tratta [...] di un Giove Dolicheno e nella sua mano destra alzata potevano esserci le famose folgori» (Ruggiero 1970 cit. infra, p. 79).
A destra (b) la firma dei patti del 13 a.C tra il re celta Cozio (a sinistra) ed Augusto, così come effigiata ufficialmente a Susa nel celebre Arco inaugurato personalmente da Augusto nell'8 a.C.: L'evento segna l'ingresso definitivo di Segusium/Susa e della sua valle nella storia romana. Adattato da Bartolomasi 1975 cit. supra, tavole 11 e 25.

la storia medievale ha segnato profondamente la valle, non fosse che con i suoi unici complessi abbaziali (da S. Antonio di Ranverso, alla Sacra di San Michele, alla Novalesa). Ed è una delle leggende del medioevo carolingio che è alla base del logo del nostro corpus: come la Durlindana di Orlando anche la linguistica dei corpora "dividet et adnotat", per parafrasare il nostro motto.

La péra ëd Rolànd. Manuel Barbera, 3 dicembre 2008.

Il curioso masso fesso, sito all'estremità settentrionale del comune di Villarfocchiardo (Vilarfociàrd), e legato alla leggenda carolingia del passaggio del paladino Orlando, che ha ispirato il logo del corpus. Come scriveva Michele Ruggiero (Tradizioni e leggende della Valle di Susa, Torino, Editrice Piemonte in Bancarella, 1970, p. 79): «i paladini di Francia sono presenti nelle leggende di Borgone: presso la Cascina Rolando, a breve distanza dal ponte della Giacônera [recte Giaconera] si trova, proprio in vista della strada nazionale, un masso con un taglio netto al centro. La tradizione vuole che sia stato infranto da Orlando con la sua spada quando vi lesse i nomi di Angelica e Medoro e alcuni versi che celebravano il loro amore: "Tagliò lo scritto e 'l sasso, e sin al cielo / A volo alzar fé le minute scheggie" (Orlando Furioso, Canto XXIII, ottava CXXX)».



Il Corpus Segusimum, che è il progetto pilota ed apripista della nostra iniziativa, sarà presto affiancato da un gemello astigiano basato la Gazzetta d'Asti, di cui abbiamo già acquisito i testi delle annate 2003 e 2004, in avanzata fase di allestimento. Storico strumento d'informazione, la Gazzetta (in uscita ogni venerdì) rappresenta nel panorama locale una delle testate cittadine più antiche e più conosciute dell'Astigiano. Settimanale cattolico fondato nel 1899 e fortemente voluto dal Vescovo di Asti di allora, Mons. Giacinto Arcangeli, apparve con il primo numero di testata nel 1899.
Il progetto punterà, con l'arrivo di nuove collaborazioni, ad offrire rinnovato lustro e visibilità a validi prodotti della realtà della carta stampata piemontese e agli argomenti che essa, e solo essa, tratta, promuovendo una tradizione locale non sempre valorizzata dalla diffusione delle sole testate a tiratura nazionale; si tratta in alcuni casi di restituire vitalità a testi di nicchia, costretti ad operare talvolta con scarsi stimoli o guadagni, e di documentare tali realtà a rischio di estinzione, poichè minacciate da altre forme di informazione (per es. gli inserti provinciali di testate nazionali). Ovviamente il corpus servirà anche da archivio digitale delle singole testate giornalistiche e documentazione della loro storia.

Attenzione!
Lavori in corso


***HTML code & design by Manuel Barbera***