Progetto Spoken Learner Corpus (SLC)

Colaborazione Trinity Lancaster per Corpus linguistico

Trinity Lancaster Corpus

Il progetto

Il progetto Spoken Learner Corpus (SLC), ovvero un corpus della lingua parlata degli apprendenti, nasce da una collaborazione tra Trinity College London  e il Centre for Corpus Approaches to Social Science (CASS) dell'Università di Lancaster.

Il progetto mira a creare un corpus linguistico di grandi dimensioni con la trascrizione del parlato dialogico del candidato (e dell'esaminatore), il quale verrà usato in diversi ambiti di ricerca, tra cui: l' acquisizione della seconda lingua, la valutazione linguistica, la glottodidattica e la  costruzione di materiale didattico, ecc.

Il corpus consta al momento di quasi tre milioni di lemmi. E' stato creato usando le registrazioni originali degli esami GESE  (Graded Exams in Spoken English  del  Trinity per i Grade equivalenti ai livelli del QCER da B1 a C2.

Il corpus campiona la lingua usata in diverse task orali, le quali rispecchiano le tipologie di eventi linguistici nella vita pubblica e privata parlati da apprendenti provenienti da diversi background linguistici.

Che cos'è un corpus linguistico?

Un corpus linguistico è una raccolta di testi, orali e scritti prodotti in contesti comunicativi, compilati digitalmente per l’analisi linguistica. I progressi in campo informatico rendono possibile la creazione di corpora molto voluminosi (milioni di parole), l’archiviazione in forma digitale e l’analisi automatica o semi-automatica.

Il parlato dialogico registrato viene inserito e codificato con diversi tag affinché gli utenti possano esaminare tutti i testi nel corpus, o un campione di essi, per determinare in quale modo la lingua viene usata in contesti particolari (per esempio in situazioni formali o informali) da specifici gruppi di persone (per esempio di diverse età e lingue madre), per scopi specifici (per esempio per scopi accademici, per scopi sociali), ecc. I risultati di tali analisi rappresentano uno strumento importante nello sviluppo e nella creazione di materiale didattico, nella costruzione di test o di altre procedure di valutazione, nella compilazione di dizionari e nel miglioramento della comunicazione tra diversi gruppi sociali e culturali.

La natura dell'esame GESE – un esame che pone l’attenzione sulle abilità comunicative – è tale per cui il Trinity Lancaster Corpus è in grado di fornire spunti unici sul modo in cui gli studenti scelgono di gestire l'interazione e di costruire il significato sulla base della propria identità, anziché essere eccessivamente limitati dai task previsti dal test.

Come può essere usato il corpus?

Il Trinity Lancaster Corpus rappresenta uno strumento di ricerca unico che permette di esaminare  il parlato dialogico degli apprendenti a diversi livelli di competenza  (advanced, intermediate e lower intermediate/threshold) e di analizzare la produzione orale degli apprendenti nelle differenti task (sia monologiche che interattive). Il corpus campiona il parlato degli apprendenti con varie L1, che rappresentano parlanti della lingua inglese provenienti dall’Italia, dalla Spagna, dal Messico, dall’Argentina, dal Brasile, dalla Cina, dall’India, dallo Sri Lanka e dalla Russia, il quale ci consentirà di comunicare agli apprendenti le loro competenze specifiche e le loro criticità, comprese le aree per il miglioramento. Consentirà inoltre lo sviluppo di materiale didattico ad hoc e la creazione di attività di supporto per la preparazione agli esami.

L'analisi dei corpora è destinata a divenire sempre più sofisticata in futuro, in particolare con  la ricchezza di annotazione che permette ricerche basate su criteri linguistici e contestuali diversi. Il Trinity Lancaster Corpus aspira a diventare uno strumento di ricerca di eccellenza in questo ambito.

Maggiori informazioni