Loading...

Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas

by Salvador Pons Borderia (Author)
©2022 Monographs 286 Pages

Summary

Este libro sirve a un doble objetivo: por un lado, proporciona una guía a las dificultades, consideraciones y cuestiones metodológicas que entraña la tarea de creación de corpus lingüísticos, desde su concepción hasta su publicación en red. Para ello, se sigue el orden lógico de dicho proceso, que implica las tareas de diseño y grabación, de transcripción y de revisión de las conversaciones, así como los problemas relativos a la creación de una página web, un motor de búsqueda y una web de administración, a lo que se añade el mantenimiento de dicho corpus en el tiempo, en un entorno siempre cambiante.
Por otro lado, los capítulos centrales del libro aplican por primera vez de forma sistemática el modelo de unidades discursivas creado por el grupo Val.Es.Co. a un subcorpus de lengua oral coloquial. Tras introducir el modelo, se abordan las cuestiones relativas a cómo y a cuánta información prosódica debería incluir el modelo, a la división del corpus en unidades monológicas y dialógicas y, finalmente, a la descripción lingüística del español hablado que se sigue de la segmentación.

Table Of Contents

  • Cubierta
  • Título
  • Copyright
  • Sobre el autor
  • Sobre el libro
  • Esta edición en formato eBook puede ser citada
  • Índice
  • I. INTRODUCCIÓN
  • II. GRABACIÓN Y CREACIÓN DE CORPUS
  • 1. La grabación
  • 1.1. ¿Qué grabar? Una conversación no es una entrevista
  • 1.2. ¿A quién grabar? Selección y rasgos de los informantes. La ficha técnica.
  • 1.3. ¿Dónde grabar? La localización depende de los objetivos
  • 1.4. ¿Y las imágenes? ¿Hasta cuándo los corpus solo orales?
  • 1.5. Consentimientos y cuestiones legales (que cambian con el tiempo)
  • 1.6. ¿Cómo grabar? Secreta o no secreta, esa es la cuestión
  • 1.7. ¿Cuántos documentos genera una grabación?
  • 2. La transcripción
  • 2.1. Una transcripción para cada objetivo: (más) ancha o (más) estrecha
  • 2.2. Del signo a la etiqueta: cuestiones metodológicas
  • 2.3. ¿Quién debe transcribir? Las capas de la transcripción
  • 2.4. Programas informáticos para la transcripción: PRAAT y ELAN
  • 2.5. Los signos de transcripción del grupo Val.Es.Co.
  • 2.6. Signos y etiquetas TEI en el sistema del grupo Val.Es.Co.
  • 2.7. Conclusión
  • 3. De la grabación a la conversación preparada para la red
  • 3.1. El proceso de revisión: una ardua y necesaria tarea
  • 3.4. Tokenización y etiquetado de palabras
  • 3.5. Conclusión
  • III. ANÁLISIS Y SEGMENTACIÓN
  • 4. Hacia la segmentación del corpus oral
  • 4.1. Introducción
  • 4.2. Por qué y para qué segmentar
  • 5. El modelo Val.Es.Co. de unidades discursivas
  • 5.1. Unidades discursivas
  • 5.1.1. Unidades dialógicas
  • 5.1.2. Unidades monológicas
  • 5.1.2.1. El acto
  • 5.1.2.2. El subacto
  • 5.2. Posiciones
  • 5.3. Dimensiones
  • 5.4. Aplicaciones del modelo al estudio de las conversaciones coloquiales
  • 5.5. El modelo aplicado al registro formal
  • 6. Información prosódica
  • 6.1. ¿Cuánta prosodia cabe en el corpus?
  • 6.2. Segmentando en grupos entonativos
  • 6.3. Indicación de tonemas
  • 7. Segmentación: Cuestiones generales. Segmentación en actos y subactos
  • 7.1. Introducción
  • 7.2. Cómo segmentar: cuestiones técnicas
  • 7.3. Criterios de segmentación: actos y subactos
  • 7.3.1. Tres criterios para identificar actos
  • 7.3.2. Criterios para identificar subactos
  • 8. Segmentación en intervenciones y turnos
  • 8.1. Cómo segmentar intervenciones y turnos: cuestiones técnicas
  • 8.2. Criterios de reconocimiento de intervenciones y turnos. Problemas de segmentación.
  • 9. Segmentación en unidades superiores
  • 9.1. El diálogo y el discurso
  • 10. El español coloquial visto desde una teoría de unidades
  • 10.1. Introducción
  • 10.2. Descripción del español coloquial: de los residuos al acto
  • 10.2.1. Residuos y elementos subestructurales
  • 10.2.2. Elementos paralingüísticos
  • 10.2.3. Fragmentos ininteligibles
  • 10.2.4. Sí y no
  • 10.2.4.1. Sí y no aislados
  • 10.2.4.2. Sí y no integrados
  • 10.2.5. Segmentación de conjunciones
  • 10.2.6. Subordinadas adverbiales como unidades discursivas
  • 10.2.7. La segmentación de (algunos) marcadores discursivos
  • 10.2.8. Marcadores con etiquetas dobles
  • 10.2.9. Marcadores en intervenciones independientes
  • 10.2.10. Segmentos encajados
  • 10.2.11. Los subactos sustantivos topicalizados (SSTop)
  • 10.2.12. Otras construcciones integradas en un acto: las repeticiones
  • 10.2.13. El estilo directo
  • 10.3. De la intervención al discurso
  • 10.3.1. Las intervenciones completivas
  • 10.3.2. Las intervenciones compuestas
  • 10.3.3. Las intervenciones independientes
  • 10.3.4. Los elementos no lingüísticos como intervenciones
  • 10.3.5. Las intervenciones fáticas solicitadas
  • 10.3.6. Las intervenciones de inicio y de cierre de diálogo
  • 10.3.7. Intervenciones de desgaste de diálogo
  • 10.3.8. Diálogos de un solo turno
  • 10.3.9. Posiciones y diálogos
  • 10.3.10. Los cercos abiertos
  • 10.5. Conclusión
  • IV. EL CORPUS EN LA RED
  • 11. De la conversación a la base de datos: cuestiones de diseño
  • 11.1. ¿Cuántos informáticos hacen falta para diseñar un corpus?
  • 11.2. De la conversación al XML
  • 11.3. Diseño de la web
  • 11.3.1. La cabecera
  • 11.3.2. El esquema de navegación
  • 11.3.3. Web de administración
  • 11.3.4. El motor de búsqueda
  • 11.3.5. Análisis estadístico
  • 11.3.6. Información general, manual del usuario y preguntas frecuentes
  • 11.4. Esquema del sistema de búsqueda del corpus Val.Es.Co. 3.0.
  • 11.5. Problemas de la exportación de datos
  • 12. Manteniendo el corpus en el tiempo
  • 12.1. Soportes que fallan y software que se actualiza
  • 12.2. Normativa que cambia
  • 12.3. Instituciones que ayudan… o no
  • 12.4. ¿Cómo va a crecer el corpus?
  • BIBLIOGRAFÍA
  • Anexo I: LISTADO DE CORPUS EN EL DOMINIO HISPÁNICO
  • Anexo II: MODELO DE CONSENTIMIENTO AUTORIZADO
  • Anexo III: FICHA TÉCNICA DEL GRUPO VAL.ES.CO.
  • Anexo IV: CONVENCIONES DE TRANSCRIPCIÓN DEL GRUPO VAL.ES.CO.
  • Anexo V: SISTEMA DE ETIQUETAS DEL GRUPO VAL.ES.CO
  • Anexo VI: EQUIVALENCIA ENTRE EL SISTEMA DE SIGNOS DE TRANSCRIPCIÓN Y EL SISTEMA DE ETIQUETAS DEL GRUPO VAL.ES.CO.
  • Anexo VII: PROTOCOLO DE REVISIÓN DE CONVERSACIONES (CORPUS VAL.ES.CO. 3.0)
  • Anexo VIII: TIPOLOGÍA DE ACTOS DE HABLA
  • Anexo IX: CABECERAS DE LAS PÁGINAS DE BÚSQUEDA EN LOS PRINCIPALES CORPUS HISPÁNICOS
  • Obras publicadas en la colección

I.INTRODUCCIÓN*

Por mucho que haya avanzado la lingüística de corpus, especialmente en lenguas como el español, sigue habiendo investigadores que se plantean la elaboración de un corpus para sus objetivos científicos. Esta tarea, ardua y laboriosa, solo se puede entender desde una finalidad altruista, ligada al beneficio de una comunidad (por ejemplo, para documentar el habla de un grupo de edad o de una comunidad en vías de extinción, o bien para estimular la investigación en el desarrollo infantil o en comunidades bilingües) o guiada por necesidades particulares (por ejemplo, en una investigación sobre textos científicos de los siglos XVIII a XX en el ámbito de la Química). Lo cierto es que, sea cual sea el impulso que anime este proceso, el investigador deberá enfrentarse a una serie de consideraciones que tal vez no se hubiera planteado antes. Es objetivo de este libro proporcionar una guía, documentada pero en estilo no totalmente académico, a las dificultades, consideraciones y cuestiones metodológicas que entraña esta tarea. Aunque las reflexiones que guían estas páginas están basadas en la experiencia desarrollada durante casi treinta años en el seno del grupo Val.Es.Co. y se centran en la grabación de corpus orales conversacionales, muchas de las observaciones presentes en este libro se pueden aplicar también a los corpus escritos, de modo que ejemplos de uno y otro tipo se cruzarán por estas páginas sin que sea necesario precisar en cada momento de cuál se trata.

El punto de partida de este recorrido es la definición del término corpus, para la que se puede recurrir a la distinción de Sinclair (1996, 5) entre corpus, archivos de texto y colecciones de ejemplos. Un corpus se define de la siguiente manera:

The notion of “corpus” refers to a machine-readable collection of (spoken or written) texts that were produced in a natural communicative setting, and the collection of texts is compiled with the intention (1) to be representative and balanced with respect to a particular variey or register or genre and (2) to be analyzed linguistically (Gries 2009, 7).

Esta definición pone de manifiesto dos características esenciales de todo corpus: en primer lugar, su procesamiento electrónico (frente a los corpus de la época preelectrónica, que consistían en archivadores llenos de fichas rellenados ←13 | 14→a mano, como los del antiguo Diccionario Histórico de la RAE). En segundo lugar, que cumpla los criterios de representatividad y equilibrio; es decir, que la relación entre población y muestra (§ 1.2) sea proporcionada, así como que la relación entre las diferentes variables del corpus reproduzca el peso de dichas variables en la población.

Por su parte, un archivo de textos sería (Gries 2009), una base de datos que no ha sido construida para ser analizada lingüísticamente (por ejemplo, el archivo de las sesiones del Parlamento español en sus diferentes legislaturas) y que, como tal, no presenta equilibrio en las variables que la componen.

Por último, una colección de ejemplos es el nombre con el que se designa un conjunto de ocurrencias compiladas para un fin específico (por ejemplo, para una tesis doctoral). El Análisis Conversacional americano hace un uso frecuente de este concepto para referirse a la base empírica de sus investigaciones.

De esta definición amplia de corpus se sigue que las clasificaciones sobre los tipos de corpus son múltiples y no excluyentes. Analizando las tipologías de Sinclair (1996), Torruella y Llisterri (1999) y Gries (2009), se pueden extraer las siguientes variables:

La presencia de variedades diatópicas es especialmente importante en el dominio hispánico, dada su extensión; y tal vez sea este el punto en el que la lingüística hispánica de corpus tenga un mayor margen de mejora. Mientras que la descripción de ciertos tipos de habla, como la rural, está bien documentada para el caso de España, no se puede decir lo mismo del resto de Hispanoamérica. Las dificultades económicas y logísticas inherentes a estas empresas están detrás de dicha diferencia.

Ambas variedades, diatópica y diacrónica, pueden alentar la construcción de un mismo corpus, como es el caso del CORDIAM, que se plantea como un corpus del español americano que abarca desde el siglo XVI hasta principios del siglo XX.

Por su parte, la variedad diafásica es el objeto de los corpus destinados a documentar la variedad oral coloquial, como sucede con el corpus Val.Es.Co. en sus sucesivas versiones. Por último, los que documentan el habla de un grupo de edad, como el corpus COLA, oscilan entre lo diatópico y lo diafásico.

  • Especialización: distingue corpus generales, que sirven a múltiples propósitos (por eso suelen coincidir con los corpus macro), de corpus que documentan un determinado tipo de lengua. La distinción grande-pequeño no se solapa con la diferenciación general-particular: la Biblioteca Virtual de Prensa Histórica, por ejemplo, es un archivo de textos grande, pero limitado al lenguaje periodístico.
  • Codificación: distingue los corpus que no han sido anotados de los que sí. La tendencia actual va en la línea de la codificación como una característica exigible a un corpus y es, en cierta medida, obligatoria para todo corpus que empiece desde cero.

Como se ve, de todas las opciones que ofrece la lingüística de corpus, la de los corpus orales parece la menos claramente definida. En este sentido, una de las primeras preguntas que vienen a la mente cuando se plantea la creación de un corpus (oral) tiene que ver con el tamaño: cuánto material hay que recopilar para que pueda constituir un corpus y, sobre todo, cuándo es lo suficientemente amplio para que sea representativo. Lamentamos no poder dar una respuesta única a esta pregunta, ya que cada objeto de estudio requerirá más o menos documentos; pero sí podemos establecer una distinción inicial, en la línea de lo avanzado anteriormente, entre lo que podríamos llamar corpus con anzuelo y corpus de arrastre. Los primeros se crean con una finalidad particular, son de ←15 | 16→escaso tamaño pero, en compensación, desarrollan aspectos muy específicos que no cubre un corpus generalista. Por ejemplo, un corpus que grabe conversaciones de los habitantes de más de setenta años del pueblo del investigador, de cartas de amor del siglo XIX o de programas deportivos de los últimos cincuenta años. Son, por así decirlo, corpus humildes, producto de la tarea individual o de un grupo de investigación; suelen tener un diseño sencillo y en muchas ocasiones no son accesibles al gran público.

Frente a estos, los corpus de arrastre son grandes proyectos que implican los esfuerzos de muchos grupos de investigación y se plantean la documentación de grandes periodos históricos de la lengua, como los corpus académicos, o de amplias zonas dialectales (como el antiguo PILEI, su continuador, el PRESEEA o el CORDIAM). Suelen estar sujetos a una financiación pública mantenida en el tiempo e implican a varios países. Ofrecen a la comunidad investigadora un material de trabajo a partir del cual se pueden realizar investigaciones de muy diferente signo e impulsan de forma decidida la investigación de base. Los corpus académicos, en este sentido, son un ejemplo paradigmático; en especial el CORDE, que ha contribuido al desarrollo de los estudios de gramática histórica y de gramaticalización en los últimos veinticinco años.

¿Cuándo debería el investigador optar por crear uno u otro corpus? En realidad, esta es una falsa disyuntiva, puesto que son los intereses de su investigación los que le llevarán a elegir uno de estos dos caminos. Para el segundo, lo más razonable consiste en integrarse en una red ya existente y pasar por un periodo de aprendizaje en el que se estudien las decisiones de investigación tomadas por equipos más expertos. En cualquier caso, no es necesario “pensarlo todo desde el principio”, puesto que hay una experiencia previa en el campo que permite evitar errores, solucionar problemas y descartar decisiones que no se han revelado adecuadas en el pasado. Este libro nace, precisamente, con la vocación de difundir entre los interesados la experiencia adquirida durante treinta años en el diseño y creación de corpus.

Por último, una cuestión inevitable es si hacen falta más corpus en español. La respuesta es igualmente evidente: a medida que la investigación se diversifica, a medida que surgen nuevas preguntas de investigación e, incluso, a medida que el tiempo pasa, el lenguaje se transforma y se hace necesario (re)catalogarlo, domeñarlo y (re)conducirlo al embalse de los corpus para desaguarlo lentamente y poderlo estudiar. Piénsese en los géneros 2.0 y los cambios que están provocando en el español de hace tan solo treinta años, o en la necesidad de documentar de forma adecuada las muestras conversacionales del español no peninsular. Sí, hacen falta más corpus; pero, sobre todo, lo que hace ←16 | 17→falta son corpus bien construidos, esto es, que sean coherentes desde su concepción inicial hasta su visualización y estudio posteriores.

El presente volumen abordará el problema de la creación de corpus desde una vertiente cronológica, siguiendo el ordo naturalis que se le plantearía a todo investigador que se decidiera a diseñar, construir y mantener uno de ellos: así, tratará los problemas derivados del diseño y grabación (§ 2), transcripción (§ 3) y revisión de las conversaciones (§ 4), así como las cuestiones relativas a la creación de una página web que lo albergue (§ 11), un motor de búsqueda y una web de administración, sin olvidar los problemas de mantener dicho corpus en el tiempo en un entorno siempre cambiante (§ 12).

Frente a este marco aplicado, el bloque central del libro es de carácter teórico; desarrolla la propuesta para analizar el modelo de unidades discursivas creado por el grupo Val.Es.Co. desde el año 2003 y que se ha aplicado por primera vez de forma sistemática a un subcorpus de lengua oral coloquial. Dicho modelo se introducirá en el capítulo 5. Antes, se hablará de para qué segmentar (§ 4), cómo y cuánta información prosódica debería haber en el modelo (§ 6), la división del corpus en unidades monológicas (§ 7) y dialógicas (§ 8 y 9) y, finalmente, de los resultados de la segmentación (§ 10).

←18 | 19→

II. GRABACIÓN Y CREACIÓN DE CORPUS

El primer paso para crear un corpus –en este caso oral y, preferentemente, conversacional– consiste en realizar grabaciones. Ahora bien, la grabación es una actividad compleja que genera un nuevo producto: la transcripción, que no es sino la versión estática e interpretada del proceso anterior.←20 | 21→

Details

Pages
286
Year
2022
ISBN (PDF)
9783631867105
ISBN (ePUB)
9783631867112
ISBN (Hardcover)
9783631861615
DOI
10.3726/b19065
Language
Spanish; Castilian
Publication date
2022 (January)
Published
Berlin, Bern, Bruxelles, New York, Oxford, Warszawa, Wien, 2022. 286 p., 26 il. en color, 43 il. blanco/negro, 13 tablas.

Biographical notes

Salvador Pons Borderia (Author)

Salvador Pons Bordería es catedrático de Lengua Española en la Universidad de Valencia. Su investigación se centra en el estudio del español coloquial, la pragmática teórica, los estudios de gramaticalización y de construccionalización, y los aproximativos.

Previous

Title: Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
book preview page numper 24
book preview page numper 25
book preview page numper 26
book preview page numper 27
book preview page numper 28
book preview page numper 29
book preview page numper 30
book preview page numper 31
book preview page numper 32
book preview page numper 33
book preview page numper 34
book preview page numper 35
book preview page numper 36
book preview page numper 37
book preview page numper 38
book preview page numper 39
book preview page numper 40
288 pages