Loading...

Lexicografía del español: intercomunicación y diálogos

by Alejandro Fajardo Aguirre (Volume editor) Dolores Torres Medina (Volume editor) Cristian Díaz Rodríguez (Volume editor)
©2023 Edited Collection 366 Pages
Open Access

Summary

La gran extensión geográfica del español ha producido numerosas obras lexicográficas que se enfrentan al reto de dar respuesta a problemas derivados de la internacionalización lograda por esta lengua. Por una parte, los diccionarios bilingües aportan una perspectiva diferente para reflexionar sobre nuestro léxico y sobre cómo representarlo de forma eficaz en los diccionarios; por otra parte, dentro de los países hispanohablantes, el colorido mosaico de variedades regionales, nacionales y supranacionales suscita debates sobre la manera de tratar tamaña diversidad para conseguir una representación ecuánime para todos. En este volumen, especialistas de diferentes orígenes contrastan problemas, métodos y soluciones lexicográficas para abordar esta dimensión internacional.

Table Of Contents

  • Cubierta
  • Título
  • Copyright
  • Sobre el autor/el editor
  • Sobre el libro
  • Esta edición en formato eBook puede ser citada
  • Índice
  • Lista de colaboradores
  • I. LEXICOGRAFÍA Y CORPUS DIGITALES
  • Corpus digitales y lexicografía histórica
  • Corpus y lexicografía: mitos y realidades
  • Corpus digitales y lexicografía «objetiva»
  • Lexicografía y corpus textuales
  • II. LEXICOGRAFÍA Y ENFOQUES METALEXICOGRÁFICOS
  • Diacronía de las construcciones de confiar con completiva
  • La codificación de las clases léxicas en la lexicografía monolingüe del español: a propósito de anda, vamos, vaya y venga
  • El tratamiento lexicográfico de la construcción (ir) al grano: procesos léxico-semánticos y resultados lexicográficos
  • Diacronía y diccionario: el tratamiento de los adverbios de duda en la lexicografía del español
  • Definiciones sinonímicas y equivalentes semánticos consignados en el Tesoro Lexicográfico Médico (TeLeMe)
  • Presente y futuro del diccionario y la labor diccionarística: la lexicografía digital. Análisis de cuatro aplicaciones de diccionarios
  • III. LEXICOGRAFÍA Y USUARIOS
  • El Diccionario del español medieval electrónico (DEMel) en línea: un primer balance
  • Sistemas de información digitales dinámicos e individualizados
  • Palabras de moda: postura académica ante el nuevo milenio
  • Los estudiantes de Educación Secundaria y el diccionario monolingüe
  • El Diccionario básico escolar del Centro de Lingüística Aplicada de Santiago de Cuba: adelantos de la quinta edición
  • El lenguaje en los videojuegos: un acercamiento al léxico de World of Warcraft
  • IV. LEXICOGRAFÍA Y OTRAS DISCIPLINAS
  • Toponimia y lexicografía: ¿debe ser recogido en un diccionario general el léxico onomástico?
  • Repositorios digitales para la investigación lexicográfica: los materiales para las pruebas de acceso
  • Corpus y acepciones lexicográficas: el aporte de la estadística
  • Análisis terminográfico del término metáfora desde la terminología aplicada
  • La concurrencia sufijal en el léxico de los materiales del Renacimiento: análisis evolutivo a partir del Mapa de Diccionarios Académicos
  • Entre el diccionario y el catecismo: el léxico religioso en el diccionario español-guaraní de Blas Pretovio S. J.
  • Léxico etnobotánico en el Diccionario general de cocina (1892) de Ángel Muro: a propósito de las plantas

Mar Campos Souto

Universidade de Santiago de Compostela

Corpus digitales y lexicografía histórica

Resumen: Este trabajo se centra en la aportación de los corpus (tanto de los de referencia como de los pequeños, generalmente documentales) a la lexicografía histórica de la lengua española, así como en la necesidad de aplicar un poderoso filtro filológico para poder aprovechar mejor sus datos. Una breve aproximación a otras fuentes documentales (como ficheros o bibliotecas y hemerotecas digitales) permite mostrar su carácter complementario, así como la necesidad de situar como objetivo prioritario la preservación digital y la construcción de herramientas que faciliten la consulta integrada de estos recursos.

Palabras clave: Corpus, Lexicografía histórica de la lengua española Fuentes documentales

Abstract: This article focuses on the contribution of corpora (both reference and small, the latter usually of the documentary type) to the historical lexicography of the Spanish language as well as on the need to apply a powerful philological filter to make better use of the data provided by them. A brief look at other documentary sources (such as files or digital and newspaper archives) allows us to show their complementary nature and emphasize the need to have as primary goals digital preservation and the creation of tools that make the overall search of these resources more accessible.

.Keywords: Corpus Historical lexicography of the Spanish language Documentary sources.

En un artículo publicado en el diario El País en septiembre de 2006, Julián Casanova reivindicaba el valor de la «labor rigurosa de decenas de historiadores» que, con su paciente y constante indagación «en archivos, hemerotecas y bibliotecas» habían permitido conocer en profundidad el «pasado más reciente» de España, con la Guerra Civil y la dictadura franquista; el título de ese texto («Sin archivos, no hay historia») evoca uno de los principios del método histórico enunciados por Charles Samaran (1961): «Il n’y a pas d’histoire sans documents».

Indudablemente, sin documentación no hay lexicografía histórica; probablemente por ello se ha afirmado que la lexicografía histórica ha sido siempre una lexicografía de corpus, aserto que no resulta anacrónico únicamente si nos acogemos a la definición que brinda el DLE para la voz corpus (‘conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación’).1 El diseño, la planificación y la realización de un diccionario histórico se ha transformado profundamente tras el surgimiento de la lexicografía computacional y la utilización de corpus textuales; la exigencia, en este tipo de obras, de efectuar un examen minucioso de las bases documentales en las que se sustenta se ve ahora favorecida por el caudaloso volumen de información facilitado por los corpus textuales y por las nuevas posibilidades de explotación de los datos que contienen.

La consulta del Fichero general de la Real Academia Española nos aproxima a una parte de las laboriosas tareas que debían realizar quienes, durante el siglo xx, afrontaron la redacción de los artículos publicados en los dos proyectos de diccionario histórico que la Real Academia Española emprendió durante la pasada centuria. Este monumental archivo, con más de diez millones de cédulas, muestra, en sus distintos tramos, la constante labor de aumento, corrección y mejora de las fichas, un proceso ligado al cotejo de los testimonios transcritos con las ediciones, manuscritos o impresos originales.2 Se ha advertido con frecuencia del sesgo que introduce este tipo de recursos en la selección del léxico, pues los papeletizadores suelen privilegiar los vocablos (y sus usos o acepciones) menos frecuentes o más alejados del período en que se confeccionan las cédulas;3 precisamente esa atención a lo diferencial, a lo especializado o a lo, en su momento, considerado raro constituye hoy uno de los rasgos más valiosos del Fichero general, pues puede ser una magnífica fuente complementaria de los corpus generales.4

La exigencia de un diseño previo distancia al tradicional fichero de los corpus actuales;5 por otra parte, el mayor tamaño de los corpus de referencia (el CDH, en su versión inicial, cuenta con más de 53 millones de ocurrencias) permite disponer de un número de testimonios de cada vocablo considerablemente superior al que facilitan habitualmente los ficheros. Así, el verbo andar (redactado en el DHLE 1960–19966) presenta 9 711 fichas del Fichero general, en tanto que el CDH, en su capa nuclear, ofrece 32 344 casos. Pero no es en la parte cuantitativa donde reside la principal virtud de los corpus de referencia, como el CDH, sino en las herramientas de consulta o análisis que, tras su anotación lingüística y su codificación, permiten recuperar información ya estructurada sobre aspectos tan variados como la vigencia y extensión en el tiempo o en el espacio de una palabra (o una forma), las voces con las que coaparece, el tipo de textos en que se documenta, etc.7

El reconocimiento de la aportación de los corpus al progreso de los estudios sobre la historia del léxico del español (y, en particular, de la lexicografía histórica) no está reñido con la oportunidad de señalar sus horizontes de posible mejora y advertir de la exigencia de aplicar un potente filtro filológico para poder aprovecharlos adecuadamente. Quienes trabajamos en lexicografía histórica nos beneficiaríamos sustancialmente de una anotación lingüística de los corpus más refinada. Aunque un ejemplo no hace granero, basta con consultar el lema blandir en el CDH (y seleccionar, en la casilla de clase de palabra, verbo) y leer rápidamente los 920 casos que se ofrecen como resultado de la búsqueda, con unos primeros testimonios datados en 1250; en cambio, el artículo blandir del DHLE sitúa el primer registro en 1348. La discordancia se explica porque buena parte de las ocurrencias del CDH se deben a la lematización ambigua con el adjetivo blando, a.8 Varios filólogos, por otra parte, han insistido —en palabras de Rodríguez Molina y Octavio de Toledo y Huerta— en la «necesidad de aquilatar los materiales del corpus y de revisar, con criterios filológicos, las fuentes de autoridad en las que se sustentan sus datos» (2017: 6).9 La breve caracterización filológica de los textos medievales del CDH nuclear o la confección de recursos como el CORDEMÁFORO surgen con la voluntad de contribuir a orientar a los usuarios sobre la calidad filológica de los textos incorporados en los corpus.

Un aspecto problemático de la relación entre diccionario y corpus (de referencia) se revela en el contraste entre los lemarios que se pueden extraer de estos recursos. Rojo (2017), tras señalar que el CORPES XXI, en su versión 0.83, triplica las entradas del DLE (137 450 frente a 93 110), concluye que, en este corpus, el porcentaje de hápax (lemas con frecuencia igual a 1) alcanza el 33,45 %. Sin pretender alcanzar el nivel de precisión de ese estudio, una comparación preliminar entre el lemario del DLE y el del CDH nuclear permite inferir que un porcentaje similar de lemas del DLE (el 32 %) no tiene correspondencia en el CDH nuclear.10 Y si se confronta el lemario obtenido del CDH nuclear con las entradas del DHLE 1960–1996 (28 384) se observa que, una vez restadas las remisiones (7 653), únicamente 5 105 voces se atestiguan (como lemas) en el CDH nuclear.

En los últimos años la eclosión de bibliotecas y hemerotecas digitales (y de la misma web) ha puesto de manifiesto su valor para el estudio de la historia del léxico español, especialmente en lo que se refiere a la primera documentación de voces (o acepciones) atestiguadas desde el siglo xviii.11 Las excepcionales Hemeroteca digital y Biblioteca digital hispánica de la Biblioteca Nacional de España nos permiten localizar testimonios tempranos que con frecuencia anteceden varios decenios al primero localizado en el CDH (véase, por ejemplo, varicela en el DHLE). Sin embargo, su manejo y provecho exige aplicar un estricto filtro filológico (por más que los filólogos bendigamos el acceso a estos magníficos recursos), pues suelen carecer de datos sustanciales para valorar los textos (no se distingue entre fecha de edición y fecha de redacción), no están lematizados, conducen a sobrerrepresentar el español de España y, además, su dispersión exige invertir un tiempo considerable en efectuar unas búsquedas que, en ocasiones, resultan infructuosas.

Varios investigadores han insistido en el hecho de que la proliferación de proyectos digitales (como corpus, ficheros, bibliotecas y hemerotecas digitales), así como la falta de estándares comunes, desemboca frecuentemente en «sobreinformación y […] dispendio de tiempo improductivo» para los estudiosos (Fajardo 2018: 274). Tras la hegemonía de los corpus de referencia, se ha reivindicado el valor de los corpus pequeños («small and tidy»), que, como indica Rojo (2021: 105), se caracterizan, en el ámbito de la lengua española, por su orientación predominantemente diacrónica, por incorporar un tipo concreto de textos y, debido a esa restricción tipológica, por basarse en «una edición muy cuidada de sus materiales y guiada por principios únicos». La actualización de CORHIBER (versión 4.0) permite comprobar la rica nómina de corpus del español de que disponemos (aunque en la «Presentación» ya se advierte que «se han eliminado algunos corpus que han dejado de funcionar»), con un papel destacado de los documentales, como CorLexIn u Oralia Diacrónica del Español (ambos, lematizados) u otros tan provechosos como Biblia medieval o CHARTA (sin anotación morfosintáctica).

El cedazo filológico resulta imprescindible para sacar provecho de esta amplia gama de bases documentales; cada una de ellas (y otras muchas, como los tesoros lexicográficos), en virtud de la función para la que han sido creadas, ofrece datos útiles para la lexicografía histórica. Conocer sus características y posibilidades (y hasta sus limitaciones) y el lugar que cada una ocupa en el ecosistema documental (que no puede ser habitado por otro ejemplar) permite afirmar su valor (y su carácter complementario) para alcanzar un conocimiento cabal de la historia del léxico del español. El presente de la investigación en este ámbito, abrigada —aunque a veces pueda parecer ahogada— por todos estos recursos, debería abrirse hacia un futuro en el que lo que Corbella, Fajardo y Langenbacher-Liebgott (2018) han denominado el «desorden digital» dé paso a una estandarización de los proyectos digitales y a la construcción de herramientas que faciliten su consulta integrada.

La dispersión constituye uno de los problemas nacidos al calor de la elaboración de estas nuevas bases documentales, pero, pese al sobreesfuerzo que exige de los investigadores, hay un peligro mayor que se cierne sobre ellas. Los costes de mantenimiento de corpus, diccionarios digitales, bases de datos en línea, hemerotecas y bibliotecas digitales constituyen una amenaza para su (su)pervivencia. La preservación digital es ya una exigencia inaplazable, pues, como indica la Unesco, debemos conjurarnos para que «esta nueva forma de patrimonio no desparezca en el olvido», dado que «la información digital está expuesta a la obsolescencia técnica y al deterioro físico».12 Más allá del debate sobre la utilidad de los corpus digitales, nuestro compromiso con las generaciones futuras debe garantizar que, al igual que hoy seguimos alimentándonos de las cédulas de los ficheros que otros construyeron, estos corpus (todos estos recursos) sigan al alcance de quienes nos sucedan, aunque solo sea para que, parafraseando al poeta, cuando llegue el momento, se acuerden de nosotros con comprensión.


1 Cf. Rojo (2021: 1 y 8) para la definición de corpus textual.

2 Una versión digitalizada del Fichero general se puede consultar en https://apps2.rae.es/fichero.html.

Details

Pages
366
Year
2023
ISBN (PDF)
9783631895511
ISBN (ePUB)
9783631895528
ISBN (Hardcover)
9783631895498
DOI
10.3726/b20504
Open Access
CC-BY
Language
Spanish; Castilian
Publication date
2024 (February)
Keywords
lexicografía corpus lingüísticos metalexicografía
Published
Berlin, Bern, Bruxelles, New York, Oxford, Warszawa, Wien, 2023. 366 p.

Biographical notes

Alejandro Fajardo Aguirre (Volume editor) Dolores Torres Medina (Volume editor) Cristian Díaz Rodríguez (Volume editor)

Alejandro Fajardo Aguirre es profesor de Filología Española en la Universidad de La Laguna. Sus líneas prioritarias de investigación son la lexicografía hispanoamericana, los diccionarios digitales y la historia del léxico. Dolores Torres Medina es profesora de Filología Inglesa en la Universidad de La Laguna. Sus principales líneas de investigación se orientan hacia la lexicografía bilingüe español-inglés, así como a los aspectos sociolingüísticos y las aplicaciones didácticas de la lexicografía. Cristian Díaz Rodríguez es maître de conférences en Lingüística Hispánica en la Universidad de Estrasburgo. Su investigación se centra en la lingüística contrastiva francés-español, en la fraseología y la lexicografía bilingüe.

Previous

Title: Lexicografía del español: intercomunicación y diálogos