Skip to main content

Presentada a versión 4.0 do Corpus de Referencia do Galego Actual

Presenta ademais utilidades como a recuperación de información pola modalidade inventario, o recoñecemento automático mediante regras lingüísticas dos apreciativos en -iño, os elativos en -ísimo, e unha boa parte das formas con gheada, ou a posibilidade de realizar estudos dende a perspectiva de xénero: ben tendo en conta as formas con grafías innovadoras para a linguaxe inclusiva, ben atendendo á discriminación dos resultados en función do sexo do autor. Trátase dunha “ferramenta potente, flexible, amigable e tamén innovadora, de suma utilidade para extraer datos da lingua galega actual”, explicou María Sol López Martínez, investigadora principal do proxecto xunto a Guillermo Rojo.

Este corpus documental atópase integrado por distintos tipos de textos representativos da lingua galega actual que están codificados na linguaxe estándar XML (eXtensible Markup Language). A codificación practicada afecta principalmente á información bibliográfica e á estruturación do documento, e posibilita realizar consultas, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, segundo diversos criterios que poden combinarse dependendo das necesidades do usuario: período temporal, área temática, tipo de documento, ou parte do documento, entre outras.

O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

A presente aplicación facilita a obtención de datos lingüísticos mediante unha ferramenta de consulta que dá cabida ás diferentes aproximacións de busca: palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas, trazos morfolóxicos, lemas ou hiperlemas. Sobre estes datos, o sistema permite extraer as frecuencias simples e completas, visualizar a información recuperada en forma de concordancias ou obter o inventario dos elementos solicitados para a totalidade do corpus ou para cada un dos parámetros clasificatorios (lustro, medio, orixe, xénero, subtipo de documento, área temática ou sexo do autor). Engádese ademais nesta versión a posibilidade de procurar nunha obra específica e por un certo autor ou polo sexo deste e, así mesmo, ofrécese un sistema de consulta da nómina de autores e obras que conforman o corpus e mais unha primeira versión para a procura de coaparicións.
Universidade de Santiago de Compostela