Loading...

Lingüística de corpus: génesis y bases metodológicas de los corpus (históricos) para la investigación en lingüística

by Joan Torruella (Author)
Monographs 280 Pages

Summary

La finalidad de este libro es mostrar las posibilidades que ofrece la «lingüística de corpus» para el estudio de la lengua en general y de la lengua antigua en particular, alertando de los peligros que su aplicación irreflexiva e indiscriminada puede acarrear. La obra trata principalmente de cómo diseñar y recopilar corpus para que estos sean representativos del universo lingüístico que quieren describir, y de los postulados que se deben tener presentes en el momento de su explotación (análisis de los datos). Se trata de mostrar métodos científicos, sustentados en análisis cuantitativos y estadísticos, que posibiliten un mayor avance en las investigaciones del que se ha podido conseguir con otras metodologías, para poder ofrecer perspectivas diferentes que permitan aportar nuevas interpretaciones.

Table Of Content

  • Cubierta
  • Título
  • Copyright
  • Sobre el autor
  • Sobre el libro
  • Esta edición en formato eBook puede ser citada
  • Índice
  • Prólogo
  • Presentación
  • Parte I Los corpus y la lingüística de corpus
  • 1. La lingüística de corpus
  • 2. Corpus textuales
  • 3. Parámetros clasificatorios de los corpus
  • 3.1 Modalidad
  • 3.2 Temática
  • 3.3 Época
  • 3.4 Temporalidad
  • 3.5 Magnitud
  • 3.6 Evolución
  • 3.7 Distribución
  • 3.8 Número de ediciones
  • 3.9 Número de lenguas
  • 3.10 Tipo de edición
  • 3.11 Muestras
  • 3.12 Marcaje
  • 4. Corpus de lectura
  • Parte II Diseño de la estructura del corpus y post-edición de los textos
  • 5. Fases en la construcción de un corpus
  • 6. Estructura y ejes principales
  • 6.1 Eje temporal
  • 6.1.1 Límites
  • 6.1.2 Periodización
  • 6.1.3 El eje diacrónico en los corpus históricos informatizados iberorrománicos
  • 6.2 Eje diatópico
  • 6.2.1 Organización
  • 6.2.2 El eje diatópico en los corpus históricos informatizados iberorrománicos
  • 6.3 Eje tipológico
  • 6.3.1 Clasificaciones tipológicas para textos antiguos
  • 6.3.1.1 Propuestas de clasificación
  • 6.3.1.2 Postulados teóricos
  • 6.3.2 Propuesta de indicadores para una clasificación tipológica
  • 6.3.3 Nivel de formalidad y grado de oralidad
  • 6.3.3.1 Nivel de formalidad
  • 6.3.3.2 Grado de oralidad
  • 6.3.4 El eje tipológico en los corpus históricos informatizados iberorrománicos
  • 6.4 Traducciones
  • 7. Composición del corpus
  • 7.1 Representatividad y equilibrio
  • 7.1.1 Representatividad cualitativa
  • 7.1.2 Representatividad cuantitativa
  • 7.1.2.1 Equilibrio externo
  • 7.1.2.2 Equilibrio interno
  • 7.1.3 Cantidad de textos que deben configurar un corpus
  • 7.1.4 Tamaño de las muestras
  • 7.2 Corpus provisional versus corpus definitivo
  • 7.3 Selección de las obras
  • 7.4 Selección de los documentos
  • 7.5 Filiación de los documentos (Metadatos)
  • 7.5.1 Título
  • 7.5.2 Autor
  • 7.5.3 Fecha
  • 7.5.4 Tipo textual
  • 7.5.5 Dialecto
  • 7.6 Principios básicos en la composición de un corpus
  • 8. Preparación de los textos
  • 8.1 Preparación de los ficheros
  • 8.1.1 Codificación de los caracteres
  • 8.1.2 Formato de los ficheros
  • 8.1.3 Nombre de los ficheros
  • 8.2 Edición textual
  • 8.2.1 Tipo de edición
  • 8.2.1.1 Edición facsímil
  • 8.2.1.2 Edición diplomática o paleográfica
  • 8.2.1.3 Edición diplomático-interpretativa
  • 8.2.1.4 Edición normalizada
  • 8.2.1.5 Edición crítica
  • 8.2.1.6 Multiedición
  • 8.2.2 Normas de edición
  • 8.2.2.1 Unidades léxicas
  • 8.2.2.2 Estructuras oracionales
  • 8.3 Edición filológica digital
  • 8.3.1 Marcaje de las obras
  • 8.3.2 SGML
  • 8.3.3 XML
  • 8.3.4 Estructura de las etiquetas
  • 8.3.5 Definición del tipo de documento (DTD)
  • 8.3.6 TEI
  • 8.3.6.1 La estructura de un documento TEI
  • 8.3.6.2 Cabecera (Header)
  • 8.3.6.3 Cuerpo (Body)
  • 8.3.6.4 La edición filológica digital en el sistema TEI
  • 8.4 Edición lingüística
  • 8.4.1 Lematización
  • 8.4.1.1 Lexicón
  • 8.4.1.2 Lematización y categorización
  • 8.4.1.3 Análisis morfológico
  • 8.4.1.4 Desambiguación
  • 8.4.2 Estandarización de las categorías (EAGLES)
  • Parte III Bases científicas de la investigación a partir de corpus
  • 9. Elementos base en la investigación científica
  • 10. Método comparativo
  • 11. Bases estadísticas en la investigación con corpus
  • 11.1 Análisis
  • 11.2 Las variables
  • 11.3 El muestreo
  • 12. El valor de la estadística
  • 13. Epílogo
  • Referencias bibliográficas
  • Obras publicadas en la colección

← 10 | 11 →

Prólogo

Mucho se ha escrito y publicado sobre lingüística de corpus en los últimos años. Ha habido congresos, coloquios y se han publicado tanto artículos y monográficos sobre aspectos particulares como introducciones a la materia, concebidas en general a partir de algún proyecto concreto o desde una perspectiva teórica o metodológica determinada. Frente a ello, el presente manual ofrece una visión global, amplia y sistemática del estado actual de la lingüística de corpus en el ámbito iberorrománico, y lo hace de una manera crítica y cautelosa. La lingüística de corpus se considera aquí una disciplina científica numérica, cuya base es la transformación de enunciados lingüísticos en datos digitales y contables, permitiendo análisis cualitativos y cuantitativos con rigor científico. Resulta fundamental el planteamiento de que ese “rigor científico” no reside solo en procedimientos de cuantificación sofisticados sino que debe partir, ante todo, de una concepción adecuada del objeto complejo que son los textos, testimonios concretos del lenguaje humano, y de sus manifestaciones históricas, las lenguas.

El peligro de la lingüística de corpus, que por definición es un campo multidisciplinar, está en el particularismo, ya sea por la reducción a una visión numérica simplista, por ejemplo, o, en el otro extremo, por el escepticismo a las cuantificaciones y la insistencia filológica sobre individualidades textuales. Joan Torruella ha dedicado buena parte de su labor científica a la lingüística de corpus desde distintas perspectivas, desde el conocimiento detallado y filológico de las fuentes hasta el tratamiento estadístico de los datos. En su trabajo práctico de configuración de corpus hay que mencionar en primer lugar la creación del CICA (Corpus Informatitzat del Català Antic), así como sus numerosos estudios sobre diversos aspectos de la lingüística de corpus. Junto con Andrés Enrique-Arias es director de la revista Scriptum digital1, destacado órgano de publicación en el ámbito de la materia de este libro. Ahora demuestra, con este manual, toda la amplitud de sus conocimientos y ofrece tanto a estudiantes como a expertos en la materia una visión de conjunto compacta y completa de un área compleja.

En la línea de lo que hemos llamado una “nueva fase” en la lingüística de corpus2, superado ya el entusiasmo en parte algo ciego de las primeras décadas de disponibilidad de grandes corpus digitales, este libro cumple con dos objetivos: el ← 11 | 12 → de dar, por un lado, una visión detallada de las posibilidades de la creación de y el trabajo con los corpus, y, por otro lado, el de señalar los límites de la lingüística de corpus: “la utilización de corpus, a pesar de las grandes ventajas que puede aportar en el estudio de la lengua, también tiene sus limitaciones” (p. 259). En estas limitaciones reside al mismo tiempo el gran potencial de la disciplina: solo si se toma en consideración toda la complejidad de su objeto de estudio, si no se parte de simplificaciones falsas, servirán los corpus para describir adecuadamente los fenómenos lingüísticos.

Hoy en día trabajar con corpus digitales en lingüística es algo prácticamente generalizado y uno podría decir que un manual de lingüística de corpus es como el manual de instrucciones de una lavadora o el de un programa informático: algo superfluo ante la práctica de lanzarnos directamente a aprender trabajando con la herramienta. Pero existen dos razones por las cuales considero que este libro no es solo un adorno más en nuestras bibliotecas, sino que cumple una necesidad básica.

Por un lado, hay una tendencia común a las innovaciones culturales: la tendencia al conservadurismo y a la perpetuación de prácticas heredadas de los tiempos anteriores a la innovación. Recuerdo que en mis primeros correos electrónicos solía poner fecha, como en las cartas, hasta darme cuenta de que el programa daba fecha, hora y minuto. Los que todavía hemos vivido la cultura de las fichas y del trabajo manual con los textos (trabajo por otra parte no sustituido por la lingüística de corpus moderna3), solemos pensar desde la lógica de las fichas y no desde la lógica de los corpus electrónicos y de las actuales herramientas de tratamiento estadístico y de visualización (véase la cita de Enrique-Arias en la pp. 17–18 a este respecto). Y los que se acercan al corpus con la habilidad de los nativos digitales pueden quizá tener más facilidad con los aspectos técnicos, pero, al mismo tiempo, menos experiencia con los problemas filológicos que hay detrás de los datos. El libro nos guía a través de un camino que va desde los parámetros fundamentales de clasificación de un corpus y las dimensiones de variabilidad lingüística hasta el análisis estadístico, pasando por extensas discusiones fundamentales sobre cuestiones como la de la representatividad, la preparación de los textos y el diseño del corpus, con amplia información sobre el formato de los textos y el etiquetado. Se inscribe dentro de la tradición de estudios iberorrománicos que considera fundamental, al lado del eje diacrónico, el eje de variación ← 12 | 13 → diatópica, al mismo tiempo que integra la amplia discusión más reciente sobre la tradicionalidad textual y las tradiciones discursivas entre inmediatez y distancia, incidiendo sobre todo en la diferencia entre textos orales y escritos.

Por otro lado, el libro incluye una amplia discusión sobre la relación entre lengua y datos de corpus. El problema fundamental de la lingüística de corpus es que en realidad trabaja con epifenómenos —los textos—, pero lo que pretende estudiar no es la historia de los textos sino la de la lengua. Esto tiene numerosas consecuencias y Joan Torruella, más que considerarlas estorbos, las considera retos: sobre todo en la discusión sobre la cuestión de la representatividad, pero también a lo largo de todo el libro, Torruella no se cansa de señalar que la parole no es langue y los textos de los corpus no son la lengua; que la lengua varía en una serie de dimensiones; que la preparación de los datos digitales tiene que conocer la realidad de la variación gráfica, y que, en general, la lingüística de corpus no es una lingüística simplista o fácil: los corpus no reducen la complejidad del objeto, sino que la representan y la configuración del corpus debe hacerse de tal manera que este no sea representación arbitraria sino reflejo de una realidad lingüística. El lingüista vive en una continua tensión entre inclusión y exclusión: tiene que buscar objetos parciales que permitan ver una realidad. ¿Y cómo es posible esto, si los textos son individuales e “idiolectales”, si incluso dentro de un mismo texto puede haber presencia de diversas tradiciones discursivas, de variedades e incluso, por qué no, de lenguas? El libro nos demuestra que hay un camino, y que la lingüística de corpus, como toda ciencia, tiene que efectuar conscientemente trabajos de homogeneización por encima de esas heterogeneidades, sin olvidarse nunca de que está reduciendo la multiplicidad de los objetos empíricos y los está proyectando sobre un plano que le permite ver evoluciones, diferencias y tendencias.

La lengua no son números. Pero los números, como bien dice Joan Torruella, permiten una proyección de los datos lingüísticos que posibilitará su análisis objetivo. Sin embargo, la “objetividad” científica no reside solo en el tratamiento numérico adecuado, sino también en el paso previo: el rigor metodológico necesario para la transformación de textos en datos numéricos. Tomar en serio ambos aspectos exige trabajo y esfuerzo. Este libro, que nos señala perspectivas y dificultades de la lingüística de corpus, nos enseña que, después de este esfuerzo, la lingüística de corpus nos lleva a un vasto océano de posibilidades.

Johannes Kabatek, Universidad de Zúrich ← 13 | 14 →


1 http://scriptumdigital.org

2 Véase J. Kabatek (2016): “Un nuevo capítulo en la lingüística histórica iberorrománica: el trabajo crítico con los corpus”, in: J. Kabatek (ed., con la colaboración de C. de Benito), Lingüística de corpus y lingüística histórica iberorrománica, Berlin/New York: De Gruyter, 1–17.

3 Cf. J. Kabatek (2014): “Lingüística empática”, Rilce 30–3, 705–723.

← 14 | 15 →

Presentación

The beginning of any corpus study is the creation of the corpus itself. The decisions that are taken about what is to be in the corpus, and how the selection is to be organized, control almost everything that happens subsequently. The results are only as good as the corpus.

John Sinclair (1991: 13)

La penetración cada vez mayor de las llamadas, ya un poco anacrónicamente, nuevas tecnologías en los ámbitos académicos en general y en el de la filología en particular tiene cada vez más repercusión tanto en el método de trabajo como en la presentación y en la difusión de los resultados de las investigaciones que se llevan a cabo. Por una parte, la implementación en nuestra vida diaria de los ordenadores, cada día más rápidos y potentes, por otra, la gran variedad de programas dedicados a gestiones lingüísticas y, finalmente, la irrupción de Internet como medio de intercomunicación universal y de transmisión del saber, pero sobre todo como herramienta de creación, ha cambiado totalmente la manera de acceder a los textos, de trabajar con ellos y de presentar y poner a disposición de la comunidad científica los resultados obtenidos. Todo ello nos ha llevado a una nueva época en la evolución de los estudios humanísticos, la época de las humanidades digitales que, como apunta Pedro Sánchez-Prieto (2013), “constituirán pronto no solo una vía obligada para el estudio y la investigación en parcelas como la filología, la literatura o la historia, que en estos y otros campos ya lo son, sino que cambiarán el modelo de enseñanza, y constituirán un nuevo modelo, una nueva manera de trabajar con los alumnos desde preescolar hasta el doctorado”, afirmación que se puede trasladar ya al momento presente.

Como repositorio de materiales textuales, Internet ha supuesto una revolución parecida a la que comportó, en el siglo VI, la permuta del rollo al códex como soporte del medio de transmisión del saber, puesto que el códex era mucho menos frágil que el rollo, hacía posible contener textos más extensos y, sobre todo, permitía más posibilidades en la presentación, como la inclusión de portadas y de miniaturas, etc. Por otra parte, Internet como elemento de transformación y de difusión de documentos ha dado lugar a una revolución parecida a la que representó la invención de la imprenta en el siglo XV, puesto que el paso del códex al libro impreso propició un aumento considerable de las posibilidades ← 15 | 16 → de acceder a los textos y, en consecuencia, de la difusión de sus contenidos (se trataba del inicio de lo que ha venido a llamarse la democratización del saber y que Internet ha culminado).

No hay duda de que en el siglo XXI el estudio de la lengua, sea o no desde una perspectiva histórico-diacrónica, no puede fundamentarse en datos recogidos al azar o en impresiones muchas veces subjetivas fruto de algunas lecturas más o menos casuales escogidas sin criterios científicos de representatividad, sino que debe sentar sus bases en el examen minucioso y ordenado de los datos provenientes de textos seleccionados siguiendo una metodología y aplicando unos criterios determinados, y analizados cuantitativamente. Para ello, los corpus textuales4 se revelan como una herramienta imprescindible para poder realizar estudios sobre la lengua con métodos empíricos a partir de grandes cantidades de datos representativos, clasificables y cuantificables. Sin embargo, un buen manejo de estos datos exige disponer de programas de gestión que hagan posible realizar búsquedas automáticas potentes y complejas, y obtener resultados ordenados según diversos aspectos de la lengua (diacrónicos, dialectales, diastráticos, tipológicos, etc.), a partir de los cuales se pueda describir su comportamiento en el tiempo, en el espacio y en su uso.

El empleo de las nuevas tecnologías para el diseño y el análisis de corpus textuales representa una “revolución instrumental” importantísima, puesto que supone la apertura hacia nuevos recursos que potencian y agudizan nuestra capacidad de análisis y nos permite llegar más lejos y acceder a datos que hasta el momento estaban fuera del alcance de nuestras capacidades, lo que proporciona a nuestras investigaciones una nueva dimensión. Sin la utilización de las nuevas herramientas de que hoy dispone el filólogo y, sobre todo, sin los avances que suponen los métodos de la nueva disciplina llamada lingüística de corpus, a los investigadores se les pasarían por alto muchos datos e informaciones importantes para el estudio de la lengua imposibles de detectar siguiendo el método tradicional de “filología de sillón”,5 como a veces se la nombra, y les sería imposible manejar ← 16 | 17 → de manera eficaz las grandes cantidades de datos que los corpus proporcionan. Como apunta Guillermo Rojo (2013: 221), “los corpus textuales son el recurso general que se utiliza a lo largo y ancho de los estudios lingüísticos desde el último cuarto del siglo XX, que han cambiado radicalmente el panorama de esta disciplina” y que, según Leech (1992: 106), “defines not just a newly emerging methodology for studying language, but a new research enterprise, and in fact a new philosophical approach to the subject”. Gracias a esta nueva disciplina, a partir de los análisis de los ejemplos reales que aparecen en los corpus textuales, se pueden generalizar los resultados para definir tendencias y cambios en el uso de la lengua, ya sea del momento actual, ya sea del pasado. La mayor ventaja de un corpus textual digital es, por supuesto, la disponibilidad de un banco de datos ilimitado y la posibilidad de tener un corpus mucho más amplio, basado en muchos más textos de distintas épocas, tipos textuales, zonas geográficas, etc. No cabe duda de que tener una mayor cantidad y variedad de ejemplos incide positivamente en la profundidad y fiabilidad de los resultados y permite que la utilización de la estadística facilite resultados representativos.

El aumento de los materiales digitalizados disponibles junto con la aparición de herramientas informáticas para la extracción y análisis de datos y de las técnicas estadísticas para interpretarlos han traído importantes consecuencias de naturaleza teórica y metodológica y han supuesto un cambio de paradigma basado en una revolución tecnológica o instrumental. Sin embargo, en muchos casos, estas nuevas herramientas que las nuevas tecnologías ponen a disposición de los lingüistas y filólogos son tan potentes y tentadoras (facilitando un acceso fácil a cantidades de datos elevadísimas) que se usan de manera poco reflexiva, sin que previamente se haya hecho una especulación sobre las posibilidades y los peligros que su uso indiscriminado puede acarrear. Aun hoy en día, “existe una percepción un tanto simplista de que la adopción de medios electrónicos es en sí mismo una innovación metodológica que nos permite una mejor interpretación cualitativa y cuantitativa de los datos” que se obtienen de los corpus (Enrique-Arias, 2012b: 86). El mismo autor sigue su reflexión argumentando que:

Biographical notes

Joan Torruella (Author)

Joan Torruella es Doctor en Filosofía y Letras por la Universitat Autònoma de Barcelona. Es «Research Professor» en la Institució Catalana de Recerca i Estudis Avançats (ICREA) y miembro del Seminario de Filología e Informática de la UAB. Trabaja en temas relacionados con las nuevas tecnologias aplicadas a la filología y dirige el proyecto del «Corpus Informatitzat del Català Antic». Es codirector de la revista internacional «Scriptum digital»dedicada a corpus diacrónicos y edición digital en lenguas iberorrománicas.

Previous

Title: Lingüística de corpus: génesis y bases metodológicas de los corpus (históricos) para la investigación en lingüística