Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas

Name: Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas
Price: 64.00 CHF
Availability: InStock
Author: Salvador Pons Borderia
ISBN: 978-3-631-86711-2

Pons Borderia, Salvador

Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas

by Salvador Pons Borderia (Author)

Romance Studies

Series: Sprache - Gesellschaft - Geschichte, Volume 14

Summary

Este libro sirve a un doble objetivo: por un lado, proporciona una guía a las dificultades, consideraciones y cuestiones metodológicas que entraña la tarea de creación de corpus lingüísticos, desde su concepción hasta su publicación en red. Para ello, se sigue el orden lógico de dicho proceso, que implica las tareas de diseño y grabación, de transcripción y de revisión de las conversaciones, así como los problemas relativos a la creación de una página web, un motor de búsqueda y una web de administración, a lo que se añade el mantenimiento de dicho corpus en el tiempo, en un entorno siempre cambiante.
Por otro lado, los capítulos centrales del libro aplican por primera vez de forma sistemática el modelo de unidades discursivas creado por el grupo Val.Es.Co. a un subcorpus de lengua oral coloquial. Tras introducir el modelo, se abordan las cuestiones relativas a cómo y a cuánta información prosódica debería incluir el modelo, a la división del corpus en unidades monológicas y dialógicas y, finalmente, a la descripción lingüística del español hablado que se sigue de la segmentación.

Excerpt

Cubierta
Título
Copyright
Sobre el autor
Sobre el libro
Esta edición en formato eBook puede ser citada
Índice
I. INTRODUCCIÓN
II. GRABACIÓN Y CREACIÓN DE CORPUS
1. La grabación
1.1. ¿Qué grabar? Una conversación no es una entrevista
1.2. ¿A quién grabar? Selección y rasgos de los informantes. La ficha técnica.
1.3. ¿Dónde grabar? La localización depende de los objetivos
1.4. ¿Y las imágenes? ¿Hasta cuándo los corpus solo orales?
1.5. Consentimientos y cuestiones legales (que cambian con el tiempo)
1.6. ¿Cómo grabar? Secreta o no secreta, esa es la cuestión
1.7. ¿Cuántos documentos genera una grabación?
2. La transcripción
2.1. Una transcripción para cada objetivo: (más) ancha o (más) estrecha
2.2. Del signo a la etiqueta: cuestiones metodológicas
2.3. ¿Quién debe transcribir? Las capas de la transcripción
2.4. Programas informáticos para la transcripción: PRAAT y ELAN
2.5. Los signos de transcripción del grupo Val.Es.Co.
2.6. Signos y etiquetas TEI en el sistema del grupo Val.Es.Co.
2.7. Conclusión
3. De la grabación a la conversación preparada para la red
3.1. El proceso de revisión: una ardua y necesaria tarea
3.4. Tokenización y etiquetado de palabras
3.5. Conclusión
III. ANÁLISIS Y SEGMENTACIÓN
4. Hacia la segmentación del corpus oral
4.1. Introducción
4.2. Por qué y para qué segmentar
5. El modelo Val.Es.Co. de unidades discursivas
5.1. Unidades discursivas
5.1.1. Unidades dialógicas
5.1.2. Unidades monológicas
5.1.2.1. El acto
5.1.2.2. El subacto
5.2. Posiciones
5.3. Dimensiones
5.4. Aplicaciones del modelo al estudio de las conversaciones coloquiales
5.5. El modelo aplicado al registro formal
6. Información prosódica
6.1. ¿Cuánta prosodia cabe en el corpus?
6.2. Segmentando en grupos entonativos
6.3. Indicación de tonemas
7. Segmentación: Cuestiones generales. Segmentación en actos y subactos
7.1. Introducción
7.2. Cómo segmentar: cuestiones técnicas
7.3. Criterios de segmentación: actos y subactos
7.3.1. Tres criterios para identificar actos
7.3.2. Criterios para identificar subactos
8. Segmentación en intervenciones y turnos
8.1. Cómo segmentar intervenciones y turnos: cuestiones técnicas
8.2. Criterios de reconocimiento de intervenciones y turnos. Problemas de segmentación.
9. Segmentación en unidades superiores
9.1. El diálogo y el discurso
10. El español coloquial visto desde una teoría de unidades
10.1. Introducción
10.2. Descripción del español coloquial: de los residuos al acto
10.2.1. Residuos y elementos subestructurales
10.2.2. Elementos paralingüísticos
10.2.3. Fragmentos ininteligibles
10.2.4. Sí y no
10.2.4.1. Sí y no aislados
10.2.4.2. Sí y no integrados
10.2.5. Segmentación de conjunciones
10.2.6. Subordinadas adverbiales como unidades discursivas
10.2.7. La segmentación de (algunos) marcadores discursivos
10.2.8. Marcadores con etiquetas dobles
10.2.9. Marcadores en intervenciones independientes
10.2.10. Segmentos encajados
10.2.11. Los subactos sustantivos topicalizados (SSTop)
10.2.12. Otras construcciones integradas en un acto: las repeticiones
10.2.13. El estilo directo
10.3. De la intervención al discurso
10.3.1. Las intervenciones completivas
10.3.2. Las intervenciones compuestas
10.3.3. Las intervenciones independientes
10.3.4. Los elementos no lingüísticos como intervenciones
10.3.5. Las intervenciones fáticas solicitadas
10.3.6. Las intervenciones de inicio y de cierre de diálogo
10.3.7. Intervenciones de desgaste de diálogo
10.3.8. Diálogos de un solo turno
10.3.9. Posiciones y diálogos
10.3.10. Los cercos abiertos
10.5. Conclusión
IV. EL CORPUS EN LA RED
11. De la conversación a la base de datos: cuestiones de diseño
11.1. ¿Cuántos informáticos hacen falta para diseñar un corpus?
11.2. De la conversación al XML
11.3. Diseño de la web
11.3.1. La cabecera
11.3.2. El esquema de navegación
11.3.3. Web de administración
11.3.4. El motor de búsqueda
11.3.5. Análisis estadístico
11.3.6. Información general, manual del usuario y preguntas frecuentes
11.4. Esquema del sistema de búsqueda del corpus Val.Es.Co. 3.0.
11.5. Problemas de la exportación de datos
12. Manteniendo el corpus en el tiempo
12.1. Soportes que fallan y software que se actualiza
12.2. Normativa que cambia
12.3. Instituciones que ayudan… o no
12.4. ¿Cómo va a crecer el corpus?
BIBLIOGRAFÍA
Anexo I: LISTADO DE CORPUS EN EL DOMINIO HISPÁNICO
Anexo II: MODELO DE CONSENTIMIENTO AUTORIZADO
Anexo III: FICHA TÉCNICA DEL GRUPO VAL.ES.CO.
Anexo IV: CONVENCIONES DE TRANSCRIPCIÓN DEL GRUPO VAL.ES.CO.
Anexo V: SISTEMA DE ETIQUETAS DEL GRUPO VAL.ES.CO
Anexo VI: EQUIVALENCIA ENTRE EL SISTEMA DE SIGNOS DE TRANSCRIPCIÓN Y EL SISTEMA DE ETIQUETAS DEL GRUPO VAL.ES.CO.
Anexo VII: PROTOCOLO DE REVISIÓN DE CONVERSACIONES (CORPUS VAL.ES.CO. 3.0)
Anexo VIII: TIPOLOGÍA DE ACTOS DE HABLA
Anexo IX: CABECERAS DE LAS PÁGINAS DE BÚSQUEDA EN LOS PRINCIPALES CORPUS HISPÁNICOS
Obras publicadas en la colección

I.INTRODUCCIÓN ^*

Por mucho que haya avanzado la lingüística de corpus, especialmente en lenguas como el español, sigue habiendo investigadores que se plantean la elaboración de un corpus para sus objetivos científicos. Esta tarea, ardua y laboriosa, solo se puede entender desde una finalidad altruista, ligada al beneficio de una comunidad (por ejemplo, para documentar el habla de un grupo de edad o de una comunidad en vías de extinción, o bien para estimular la investigación en el desarrollo infantil o en comunidades bilingües) o guiada por necesidades particulares (por ejemplo, en una investigación sobre textos científicos de los siglos XVIII a XX en el ámbito de la Química). Lo cierto es que, sea cual sea el impulso que anime este proceso, el investigador deberá enfrentarse a una serie de consideraciones que tal vez no se hubiera planteado antes. Es objetivo de este libro proporcionar una guía, documentada pero en estilo no totalmente académico, a las dificultades, consideraciones y cuestiones metodológicas que entraña esta tarea. Aunque las reflexiones que guían estas páginas están basadas en la experiencia desarrollada durante casi treinta años en el seno del grupo Val.Es.Co. y se centran en la grabación de corpus orales conversacionales, muchas de las observaciones presentes en este libro se pueden aplicar también a los corpus escritos, de modo que ejemplos de uno y otro tipo se cruzarán por estas páginas sin que sea necesario precisar en cada momento de cuál se trata.

El punto de partida de este recorrido es la definición del término corpus, para la que se puede recurrir a la distinción de Sinclair (1996, 5) entre corpus, archivos de texto y colecciones de ejemplos. Un corpus se define de la siguiente manera:

The notion of “corpus” refers to a machine-readable collection of (spoken or written) texts that were produced in a natural communicative setting, and the collection of texts is compiled with the intention (1) to be representative and balanced with respect to a particular variey or register or genre and (2) to be analyzed linguistically (Gries 2009, 7).

Esta definición pone de manifiesto dos características esenciales de todo corpus: en primer lugar, su procesamiento electrónico (frente a los corpus de la época preelectrónica, que consistían en archivadores llenos de fichas rellenados ←13 | 14→a mano, como los del antiguo Diccionario Histórico de la RAE). En segundo lugar, que cumpla los criterios de representatividad y equilibrio; es decir, que la relación entre población y muestra (§ 1.2) sea proporcionada, así como que la relación entre las diferentes variables del corpus reproduzca el peso de dichas variables en la población.

Por su parte, un archivo de textos sería (Gries 2009), una base de datos que no ha sido construida para ser analizada lingüísticamente (por ejemplo, el archivo de las sesiones del Parlamento español en sus diferentes legislaturas) y que, como tal, no presenta equilibrio en las variables que la componen.

Por último, una colección de ejemplos es el nombre con el que se designa un conjunto de ocurrencias compiladas para un fin específico (por ejemplo, para una tesis doctoral). El Análisis Conversacional americano hace un uso frecuente de este concepto para referirse a la base empírica de sus investigaciones.

De esta definición amplia de corpus se sigue que las clasificaciones sobre los tipos de corpus son múltiples y no excluyentes. Analizando las tipologías de Sinclair (1996), Torruella y Llisterri (1999) y Gries (2009), se pueden extraer las siguientes variables:

– Tamaño: divide los corpus por su tamaño en macro (contienen gran cantidad de textos y sirven, por ello, a múltiples propósitos) y micro (se restringen a un objetivo de investigación, a un género discursivo, o a una época histórica más limitados). Dentro de los corpus macro cabe distinguir los corpus de referencia, como los académicos CREA o CORDE, que ofrecen una visión general de la estructura y variedades de una lengua; y los corpus monitores, que no son estáticos y van creciendo con el tiempo (como el también académico CORPES).

– Medio: plantea la distinción, aparentemente dicotómica, entre material oral y material escrito. Sin embargo, la presencia de los géneros electrónicos creados con la llegada de Internet muestra la presencia de géneros intermedios, por lo que oral y escrito deben tomarse como puntos extremos de un continuo. El tratamiento de los corpus con material tomado de la red está, en buena medida, por desarrollar y, visto con perspectiva histórica, no resulta exagerado decir que las técnicas de recogida, procesamiento y estudio que serán moneda común dentro de veinte años están, hoy en día, en los algoritmos de algunos artículos de investigación en matemáticas.

– Variación: distingue corpus que documentan una única variedad (diacrónica, diatópica, diafásica o diastrática) de los que incluyen varias de ellas. De todas estas, la más recurrente en los corpus es la diacrónica: incluir un único corte sincrónico (prototípicamente, la sincronía actual) o varias sincronías. ←14 | 15→En el caso de que la serie histórica termine en el presente, ambos tipos de corpus pueden coincidir, como en los corpus académicos.

La presencia de variedades diatópicas es especialmente importante en el dominio hispánico, dada su extensión; y tal vez sea este el punto en el que la lingüística hispánica de corpus tenga un mayor margen de mejora. Mientras que la descripción de ciertos tipos de habla, como la rural, está bien documentada para el caso de España, no se puede decir lo mismo del resto de Hispanoamérica. Las dificultades económicas y logísticas inherentes a estas empresas están detrás de dicha diferencia.

Ambas variedades, diatópica y diacrónica, pueden alentar la construcción de un mismo corpus, como es el caso del CORDIAM, que se plantea como un corpus del español americano que abarca desde el siglo XVI hasta principios del siglo XX.

Por su parte, la variedad diafásica es el objeto de los corpus destinados a documentar la variedad oral coloquial, como sucede con el corpus Val.Es.Co. en sus sucesivas versiones. Por último, los que documentan el habla de un grupo de edad, como el corpus COLA, oscilan entre lo diatópico y lo diafásico.

– Especialización: distingue corpus generales, que sirven a múltiples propósitos (por eso suelen coincidir con los corpus macro), de corpus que documentan un determinado tipo de lengua. La distinción grande-pequeño no se solapa con la diferenciación general-particular: la Biblioteca Virtual de Prensa Histórica, por ejemplo, es un archivo de textos grande, pero limitado al lenguaje periodístico.
– Codificación: distingue los corpus que no han sido anotados de los que sí. La tendencia actual va en la línea de la codificación como una característica exigible a un corpus y es, en cierta medida, obligatoria para todo corpus que empiece desde cero.

Como se ve, de todas las opciones que ofrece la lingüística de corpus, la de los corpus orales parece la menos claramente definida. En este sentido, una de las primeras preguntas que vienen a la mente cuando se plantea la creación de un corpus (oral) tiene que ver con el tamaño: cuánto material hay que recopilar para que pueda constituir un corpus y, sobre todo, cuándo es lo suficientemente amplio para que sea representativo. Lamentamos no poder dar una respuesta única a esta pregunta, ya que cada objeto de estudio requerirá más o menos documentos; pero sí podemos establecer una distinción inicial, en la línea de lo avanzado anteriormente, entre lo que podríamos llamar corpus con anzuelo y corpus de arrastre. Los primeros se crean con una finalidad particular, son de ←15 | 16→escaso tamaño pero, en compensación, desarrollan aspectos muy específicos que no cubre un corpus generalista. Por ejemplo, un corpus que grabe conversaciones de los habitantes de más de setenta años del pueblo del investigador, de cartas de amor del siglo XIX o de programas deportivos de los últimos cincuenta años. Son, por así decirlo, corpus humildes, producto de la tarea individual o de un grupo de investigación; suelen tener un diseño sencillo y en muchas ocasiones no son accesibles al gran público.

Frente a estos, los corpus de arrastre son grandes proyectos que implican los esfuerzos de muchos grupos de investigación y se plantean la documentación de grandes periodos históricos de la lengua, como los corpus académicos, o de amplias zonas dialectales (como el antiguo PILEI, su continuador, el PRESEEA o el CORDIAM). Suelen estar sujetos a una financiación pública mantenida en el tiempo e implican a varios países. Ofrecen a la comunidad investigadora un material de trabajo a partir del cual se pueden realizar investigaciones de muy diferente signo e impulsan de forma decidida la investigación de base. Los corpus académicos, en este sentido, son un ejemplo paradigmático; en especial el CORDE, que ha contribuido al desarrollo de los estudios de gramática histórica y de gramaticalización en los últimos veinticinco años.

¿Cuándo debería el investigador optar por crear uno u otro corpus? En realidad, esta es una falsa disyuntiva, puesto que son los intereses de su investigación los que le llevarán a elegir uno de estos dos caminos. Para el segundo, lo más razonable consiste en integrarse en una red ya existente y pasar por un periodo de aprendizaje en el que se estudien las decisiones de investigación tomadas por equipos más expertos. En cualquier caso, no es necesario “pensarlo todo desde el principio”, puesto que hay una experiencia previa en el campo que permite evitar errores, solucionar problemas y descartar decisiones que no se han revelado adecuadas en el pasado. Este libro nace, precisamente, con la vocación de difundir entre los interesados la experiencia adquirida durante treinta años en el diseño y creación de corpus.

Por último, una cuestión inevitable es si hacen falta más corpus en español. La respuesta es igualmente evidente: a medida que la investigación se diversifica, a medida que surgen nuevas preguntas de investigación e, incluso, a medida que el tiempo pasa, el lenguaje se transforma y se hace necesario (re)catalogarlo, domeñarlo y (re)conducirlo al embalse de los corpus para desaguarlo lentamente y poderlo estudiar. Piénsese en los géneros 2.0 y los cambios que están provocando en el español de hace tan solo treinta años, o en la necesidad de documentar de forma adecuada las muestras conversacionales del español no peninsular. Sí, hacen falta más corpus; pero, sobre todo, lo que hace ←16 | 17→falta son corpus bien construidos, esto es, que sean coherentes desde su concepción inicial hasta su visualización y estudio posteriores.

El presente volumen abordará el problema de la creación de corpus desde una vertiente cronológica, siguiendo el ordo naturalis que se le plantearía a todo investigador que se decidiera a diseñar, construir y mantener uno de ellos: así, tratará los problemas derivados del diseño y grabación (§ 2), transcripción (§ 3) y revisión de las conversaciones (§ 4), así como las cuestiones relativas a la creación de una página web que lo albergue (§ 11), un motor de búsqueda y una web de administración, sin olvidar los problemas de mantener dicho corpus en el tiempo en un entorno siempre cambiante (§ 12).

Frente a este marco aplicado, el bloque central del libro es de carácter teórico; desarrolla la propuesta para analizar el modelo de unidades discursivas creado por el grupo Val.Es.Co. desde el año 2003 y que se ha aplicado por primera vez de forma sistemática a un subcorpus de lengua oral coloquial. Dicho modelo se introducirá en el capítulo 5. Antes, se hablará de para qué segmentar (§ 4), cómo y cuánta información prosódica debería haber en el modelo (§ 6), la división del corpus en unidades monológicas (§ 7) y dialógicas (§ 8 y 9) y, finalmente, de los resultados de la segmentación (§ 10).

←18 | 19→

II. GRABACIÓN Y CREACIÓN DE CORPUS

El primer paso para crear un corpus –en este caso oral y, preferentemente, conversacional– consiste en realizar grabaciones. Ahora bien, la grabación es una actividad compleja que genera un nuevo producto: la transcripción, que no es sino la versión estática e interpretada del proceso anterior.←20 | 21→

Details

Pages: 286
Publication Year: 2022
ISBN (PDF): 9783631867105
ISBN (ePUB): 9783631867112
ISBN (Hardcover): 9783631861615
DOI: 10.3726/b19065
Language: Spanish; Castilian
Publication date: 2022 (January)
Published: Berlin, Bern, Bruxelles, New York, Oxford, Warszawa, Wien, 2022. 286 p., 26 il. en color, 43 il. blanco/negro, 13 tablas.
Product Safety: Peter Lang Group AG

Biographical notes

Salvador Pons Borderia (Author)

Salvador Pons Bordería es catedrático de Lengua Española en la Universidad de Valencia. Su investigación se centra en el estudio del español coloquial, la pragmática teórica, los estudios de gramaticalización y de construccionalización, y los aproximativos.

Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas

Summary

Excerpt

Table Of Contents

I.INTRODUCCIÓN ^*

II. GRABACIÓN Y CREACIÓN DE CORPUS

Details

Biographical notes

Key Subject Areas

Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas

Summary

Excerpt

Table Of Contents

I.INTRODUCCIÓN*

II. GRABACIÓN Y CREACIÓN DE CORPUS

Details

Biographical notes

Key Subject Areas

I.INTRODUCCIÓN ^*