Skip to main content

Preséntase o novo Corpus Documental do Galego actual (CORGA) elaborado polo Centro Ramón Piñeiro

O secretario xeral de Política Lingüística, Valentín García, presentou en rolda de prensa o novo Corpus Documental do Galego Actual (CORGA). A versión ampliada desta ferramenta lingüística elaborada polo Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH) -dependente da Consellería de Cultura, Educación e Ordenación Universitaria- incorpora preto de 32 millóns de palabras, das que algo máis de 400.000 son formas diferentes.

Segundo sinalou o secretario xeral durante a súa intervención “a nova versión ampliada do CORGA pon a disposición da comunidade científica e da cidadanía en xeral novas posibilidades para o estudo e a investigación lingüística nunha aposta polas tecnoloxías da información e da comunicación, e polos recursos tecnolóxicos en galego, tal e como sinala o Plan Xeral de Normalización da Lingua Galega”.

Participaron na presentación, amais de García Gómez, os directores do CORGA, Guillermo Rojo e María Sol López, e os responsables da coordinación lingüística e informática do proxecto, os investigadores da Universidade de Santiago de Compostela Eva Domínguez e Mario Barcala, respectivamente.

Corpus de Referencia do Galego Actual

O CORGA é un corpus documental desenvolvido no CRPIH e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción (novela, relato curto e teatro)- que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language).

A nova versión ampliada –a 1.7, dispoñible na rede no enderezo http://corpus.cirp.es/corga consta de case 32 millóns de palabras, das que algo máis de 400.000 son formas diferentes. Sobre este conxunto de formas ortográficas é posible consultar palabras ou expresións en xeral, por tipos de texto, épocas, áreas temáticas ou calquera combinación dos parámetros anteriores. Ademais, disponse dun sistema de consulta da nómina de autores e obras que permite buscar que obras ou autores están no corpus, saber que número de palabras totais e documentos corresponde á busca realizada ou que cantidade de palabras contén o CORGA nunha certa área temática, período de tempo etc.

Ferramentas tecnolóxicas avanzadas

O CRPIH traballa tamén na mellora de varias ferramentas que posibilitan as consultas máis avanzadas e propician dar un salto cualitativo nas posibilidades de busca sorteando as limitacións impostas polas consultas por forma ortográfica. Así, rematouse o subcorpus de adestramento xornalístico e de narrativa que utiliza o Etiquetador-Lematizador do Galego Actual (XIADA) -constituído na nova versión ampliada por algo máis de 600.000 formas ortográficas (correspondentes a case 750.000 elementos gramaticais)-, que está a disposición gratuíta da comunidade investigadora na versión 2.6 do Corpus de Referencia do Galego Actual etiquetado (CORGAetq) no enderezo http://corpus.cirp.es/corgaetq.

O CRPIH dispón tamén doutros dous recursos lingüísticos de especial interese para a comunidade investigadora como son a listaxe completa de formas ortográficas diferentes presentes no CORGA e o lexicón xeral utilizado polo etiquetador XIADA. Ambos os dous poden obterse cunha licenza de uso libre para facilitar e difundir o seu emprego en diferentes proxectos en http://corpus.cirp.es/corga e http://corpus.cirp.es/xiada, respectivamente.

Os sistemas e recursos relacionados con este proxecto destínanse ás persoas interesadas no estudo da lingua galega actual nos diferentes eidos, fornecéndoos con ferramentas que lles permitan, por unha banda, obter datos de diversa índole relacionados co emprego da lingua e, pola outra, desenvolver ferramentas de análise do galego cada vez máis sofisticadas.

O Centro Ramón Piñeiro

O CRPIH é un organismo dependente da Consellería de Cultura e Educación que se ocupa de levar adiante e de difundir proxectos de investigación lingüística, literaria, histórica e antropolóxica centrados en Galicia. Actualmente, as súas liñas de traballo xiran arredor da lingüística aplicada, a literatura medieval, a recuperación de publicacións literarias ou a identidade colectiva dende un punto de vista antropolóxico.
Gabinete de Comunicación da Xunta de Galicia