Enlaces

Transcripción

Bienvenidos y bienvenidas a una nueva entrega de Palabras binarias, Informática para Linguistas. En esta ocasión hemos tenido el privilegio de poder hablar con Victoria Vázquez Rozas, profesora titular de Lengua Española en la Universidad de Santiago de Compostela, que cuenta con numerosas investigaciones y artículos relacionados con la estructura y funcionamiento de la cláusula en español, la sintaxis y el discurso y los métodos de construcción de corpus orales. En esta charla vamos a hablar sobre el corpus ESLORA, el corpus para el estudio del español oral, del que ella es la investigadora principal. Vamos a verlo.

Mario: Bueno Victoria, pues muchas gracias, en primer lugar, por venir aquí a Palabras binarias, a esta charla, entrevista. Te agradezco que hayas venido y, sobre todo, bueno, queríamos hablar contigo, sobre todo aprovechando que acabáis de publicar la versión 2.3 de ESLORA, nos parecía interesante que vinieras aquí a contarnos un poco cosas así generales de qué es ESLORA, qué es el corpus ESLORA, y también pues de esta versión en particular, que nos puedas dar alguna pincelada también.

Victoria: Bueno, pues muchas gracias Mario, por la invitación a Palabras binarias. Es un placer estar aquí contigo. Y bueno, quizá podamos empezar por cómo surgió el proyecto. El proyecto del corpus ESLORA surgió como una propuesta de Guillermo Rojo que nos hizo en el grupo de Gramática del Español de la Universidad de Santiago para recopilar materiales orales del español hablado en Galicia. La idea inicial era participar o integrar esos materiales en un macro corpus, en un macro proyecto que se llama PRESEEA, que es un proyecto para el estudio sociolinguístico del español de España y América, en el que se reúnen materiales, hay materiales orales de unas cincuenta ciudades de realmente todos los países de habla hispana. Entonces el proyecto nació en ese momento como una parte de PRESEEA, pero bueno, luego también tuvo su vida propia, tuvo sus desarrollos particulares. No sé si quieres que comentemos algo sobre la constitución, la composición del corpus.

Mario: Antes de ir a esa parte, me gustaría también comentar un poquito cuál es la inquietud o el interés que mueve el conocer el empleo del español en Galicia.

Victoria: Bueno, pues sí, claro. El objetivo, nuestro objetivo, es y era y sigue siendo documentar la forma de hablar el español en Galicia. Es un objetivo que en realidad forma parte de un interés por conocer la variación de las lenguas, porque las lenguas varían, los hablantes hablan de maneras parcialmente parecidas, semejantes y parcialmente diferentes, y eso ocurre con cualquier lengua, ocurre con el gallego, ocurre con el inglés, ocurre con el chino y ocurre, por supuesto, con el español. En el caso del español de Galicia, bueno, es cierto que partimos de una situación de mayor desconocimiento que el que tenemos de otras variedades. Esto es así porque la lengua tradicional propia de Galicia es el gallego, pero en las últimas décadas, sobre todo a partir de mediados del siglo XX, el uso del español fue creciendo hasta llegar a un punto en que aproximadamente un 70% de los habitantes de Galicia utiliza el español al menos en algunos contextos. Hay como un 25% de personas, de gallegos, que hablan solo español o habitualmente español y luego un 45% de hablantes que alternan el español y el gallego. O sea que realmente el gallego, el español, es una lengua que se utiliza en Galicia, pero no sabemos apenas nada de sus características, de sus condiciones de uso y también de la valoración sociolinguística que los hablantes tienen de este uso. Y, bueno, por eso necesitábamos reunir materiales que reflejaran el uso lo más natural posible que los hablantes hacen de la lengua.

Eso no es fácil, evidentemente, pero, bueno, en todo caso es la lengua oral la que nos puede dar pautas e información sobre la variación.

Mario: Claro, muy interesante este asunto. Bueno, pues si quieres ahora podemos ver un poquito cómo está compuesto el ESLORA. Lo podemos ver aquí en la pantalla.

Victoria: Comento un poco la composición. El corpus no es un corpus muy amplio, realmente tiene en este momento, en esta versión 2.3, lo veis 768.000 palabras ortográficas y está compuesto por entrevistas semidirigidas y conversaciones. Realmente la parte de las entrevistas semidirigidas, que son unas entrevistas informales, podemos decir, es una parte común a PRESEEA. Las conversaciones es un desarrollo propio de nuestro corpus y se grabaron, por supuesto, con todas las condiciones para respetar la privacidad de las personas, permisos previos, permisos posteriores, y nos dan un material muy rico para conocer el uso del español en Galicia. Luego tenemos también cuestionarios sociolinguísticos y un test de inseguridad lingüística que nos sirven para recoger el discurso metalingüístico, o sea, lo que los hablantes opinan del uso del español, también del gallego y de algunas características que identifican en el español de Galicia. Eso también nos resulta útil. Porque, bueno, no lo comenté antes, pero evidentemente un corpus oral como este tiene además el interés añadido de que documenta el español en una comunidad bilingüe. O sea, documenta el español en contacto con el gallego y en los estudios de contacto que hoy en día cada vez tienen más interés porque, bueno, ahora somos conscientes de que casi el estado natural de los usos lingüísticos es un estado de bilingüismo, multilingüismo, contacto de lenguas, mucho más generalizado de lo que se creía hasta ahora. Entonces, también, de esta manera, sabemos un poquito más o tenemos algunos datos sobre cómo los gallegos alternamos a veces el uso del español y del gallego, que eso también está registrado en el corpus, es una parte muy importante.

Mario: Yo lo registro en mi día a día.

Victoria: Yo creo que todos, ¿no?. Y, bueno, sobre la estructuración del corpus, cómo está diseñado, que es la parte que aparece ahí en la tabla, seguimos los parámetros que más o menos se aplican en los estudios de sociolingüística variacionista, que son también los que se han usado en PRESEEA y por eso nuestro corpus está integrado en ese macro corpus y nos permite hacer estudios comparativos con el español de otras zonas. Y el corpus está estructurado, organizado según la edad de los hablantes, hacemos como tres grupos para la edad, lo que llamamos grupos etarios. Tenemos también tres grupos para nivel de estudios, distinguimos personas o hablantes de estudios primarios, de estudios secundarios y de estudios universitarios y también tenemos el corpus, la representación equilibrada de hombres y mujeres. Bueno, esa es la estructura general. Esto nos permite luego también hacer búsquedas particularizadas y de subcorpus que puedan interesar más en un momento dado.

Mario: Después vemos muy poquito porque ya lo comentamos. Esto es un poco la, creo que es también la distribución de los datos en función de los criterios de los metadatos de alto nivel que hay asociados a los a los hablantes.

Victoria: Es lo mismo, bueno, ahí también se ve que el corpus, el subcorpus de la parte inferior izquierda, el subcorpus de entrevistas es bastante más amplio, más grande que el de conversaciones. La verdad es que las conversaciones exigen mucho más trabajo, suelen ser conversaciones cortas, también la transcripción y todo el tratamiento es mucho más laborioso. Bueno, ahora a ver si aumentamos un poquito la parte de conversaciones y en algún momento se puede equilibrar un poco.

Mario: Bueno, pues aprovechando que nosotros hemos trabajado en el desarrollo de buena parte de alguna de las cosas que están, aunque no hemos estado desde el principio, si te parece, explico yo un poquito cómo es o cómo ha sido o cómo más o menos cómo concebimos nosotros la manera de trabajar en el corpus. Dejadme poner aquí para que lo veáis mejor, así un poquito más grande. Tenemos dividido las etapas de trabajo, las tenemos divididas en el proyecto en varias etapas y la primera es la adquisición que es la de donde conseguimos las grabaciones de los informantes, que en esta yo no he estado, no he vivido esta etapa, no vamos a entrar mucho en detalle, pero bueno, yo creo que cada una de estas etapas daría para un capítulo independiente, de Palabras binarias, daría seguro, porque yo me he enterado después de cosas que me comentabais, de cómo no influir al hablante, cómo hacer para que sea lo más natural posible y tal, todas esas cosas son complicadas.

Después de la adquisición viene la transcripción y el alineamiento, que bueno, tirando de auriculares, prestando mucha atención, hacer el alineamiento del audio y el texto que en ESLORA se hace a nivel de oración, no lo hemos hecho a nivel de palabra y yo creo que ha sido un acierto, luego comentaré esto, creo que ha sido un acierto para poder avanzar, porque yo creo que muchos de los que nos ven saben lo duro que es poder alinear a nivel de palabra. Está bien, está bien también, pero te quedas muchos meses o años incluso ahí estancado en ese tema, nosotros lo tenemos a nivel de, no sé si he dicho de oración, a nivel de intervención, intervención o fragmento.

Victoria: Fragmento marcado por pausas

Mario: Sí, marcado por pausas, tampoco nos hemos puesto muy exquisitos con ese asunto. Bien, y luego bueno, como el proyecto ha durado bastantes años, hemos pasado por varias herramientas de transcripción, algunas han desaparecido, otras no tenían mantenimiento, por eso veis ahí que hay dos herramientas de transcripción, Transcriber, que fue la que se ha usado en las primeras etapas, después nos hemos pasado al ELAN y luego a nivel de cabeceras, de los metadatos, pues hemos un poco tirado por el camino de en medio, una vía práctica, porque en el ELAN, por lo menos en aquel momento, nos ha parecido un poco complicado manejar las cabeceras, dijimos mira, montamos un XML nuestro, lo hacemos igual ya para Transcriber y ELAN, y hemos ahí en la fase de estructuración, lo que hemos hecho, que hemos llamado ahí estructuración, lo que hemos hecho es intentar unificar en algún momento las dos vías que teníamos arriba de Transcriber y de ELAN, había que unificarlas en algún punto, y hemos hecho un XML conjunto, donde llegan por un lado, por los dos flujos de información y los unificamos en un XML conjunto, Que pasan a la fase de validación.

¿Qué es esto de la validación? Bueno, pues que las herramientas que tenemos, los editores XML, ELAN, el Transcriber, a veces no son capaces de detectar un montón de errores de marcado, de detección, etcétera, lo tenemos ahí con algunos scripts que hacen, detectan esos errores y hacen que volvamos atrás, otra vez hablar con el equipo de lingüistas, hay que corregir estas cosas, volvemos, bueno, eso es un paso que de la validación volvemos a pasar a la estructuración varias veces, incluso la transcripción arriba, varias veces hacemos varios ciclos de prueba y seguimos haciendo varios ciclos de prueba, que esta es la rueda de que nunca para, que nunca para. Y luego en la etiquetación, que es totalmente automática, es importante señalar que la etiquetación de ESLORA no está revisada manualmente, es una etiquetación totalmente automática, pero sí que se ha trabajado mucho en que ese etiquetador automático lo haga lo mejor posible y entonces pues se ha hecho un corpus de entrenamiento específico para el etiquetador, que etiquete oral, oral español, que no hay mucho por ahí, la verdad, es bastante original en ese aspecto y por último creamos los datos, bueno, me he saltado ahí la parte de anonimización también, porque hay datos sensibles, nombres, lugares, etcétera, hay que ponerles el típico pitido para que no salgan a la luz cosas que no es prudente que salgan y finalmente hay una carga en la aplicación de búsquedas, que es lo que ve el usuario al final y que vamos a ver dentro de un momentito nada, una pinceladita nada más de cómo es este sistema de búsquedas. Y bueno, a raíz de ver este flujo, no sé si puedes contarnos algunas, dos, tres cuestiones claves, perdón, antes de las cuestiones clave, algunas dificultades que nos puedas contar a lo largo del desarrollo del proyecto, si te viene a la mente alguna dificultad de algunas de las tareas que vemos aquí en el flujo.

Victoria: Bueno, sí, dificultades, claro, el trabajo es lento, es lento porque hay que volver a revisar a veces partes de transcripciones, hay esto que comentabas de las etiquetas, que hay un error, que el cierre, que se solapan, la transcripción en sí misma es muy laboriosa, sobre todo, más la transcripción de conversación que de entrevista, porque las conversaciones hay más de dos hablantes, las entrevistas normalmente son de dos, aunque a veces tenemos alguna otra persona por el medio, y eso claro, nos llevó mucho tiempo, nos lleva todavía mucho tiempo, los ruidos de fondo que no siempre se pueden minimizar, el solapamiento de los hablantes, incluso la identificación de hablantes, los cambios de intensidad, de velocidad con las que hablamos.

Mario: Se me ocurre a mí, en este caso, desde el desconocimiento, el conseguir hablantes, que se presten.

Victoria: Bueno, curiosamente sí, pero quizá sí, las entrevistas, pero también porque la estructuración que tenemos de las entrevistas, que viene un poco forzada por nuestra pertenencia a PRESEEA, establece unos grupos de hablantes que no siempre son fáciles de conseguir. Por ejemplo, hablantes del primer grupo de edad, que en el momento en que hicimos las grabaciones, eran hablantes que tenían, en ese momento, entre 20 y 34 años, con estudios primarios, con solo estudios primarios. De hecho, nuestro corpus debería tener 54 entrevistas, tiene 53, porque teníamos alguna que ya estaba transcrita, pero cuando nos dimos cuenta esa persona tenía estudios secundarios, estudios medios. A veces las dificultades vienen de ahí. Y conseguir hablantes en las conversaciones quizá menos, porque son conversaciones cortas, porque contamos con la colaboración de bastantes estudiantes y exalumnos que también trabajaron como, bueno, participaron en el proyecto como, a veces, becarios de colaboración. Y bueno, nosotros mismos, los miembros del proyecto, también hicimos las...

Mario: También estáis por ahí.

Victoria: Estamos por ahí en alguna también, porque a veces es inevitable. Luego hay otra parte sobre dificultades que tú también conoces bien, que es la coexistencia de español y gallego en las conversaciones y en las entrevistas también. Que puede verse como un inconveniente si pensamos que las lenguas son, eso, compartimentos estancos, y no lo son, sino que ponemos en juego cuando nos comunicamos todas nuestras destrezas comunicativas y nuestros conocimientos. Y la alternancia con el gallego, que es algo que se refleja en el corpus y que además muestra la naturalidad del corpus. Pues eso sí nos plantea problemas y bueno, estamos también ahora trabajando en alguna solución, incluso de etiquetación. Pero planteó problemas también para la anotación, ¿no? No sé si vamos a hablar un poquito de la anotación.

Mario: Bueno, si quieres podemos comentarlo.

Victoria: Sí, la anotación. O sea, cómo se delimitan en un corpus en español los fragmentos que están...

Mario: Sí, recuerdo varias reuniones sobre esto, de qué debe marcarse como gallego o no, porque a veces no es fácil.

Victoria: Claro

Mario: Es difícil distinguir si alguien está hablando gallego o no, porque está cruzando entre lengua o está usando adaptaciones al gallego de las palabras en español. A veces no está nitida esa palabra. Sí que me acuerdo de algunas de esas cosas bastante interesantes, sí, sí. Bueno, en cualquier caso, decías que el corpus es pequeño, pero yo me atrevería a decir que es un proyecto exitoso por varios motivos. Primero, porque hay un... Bueno, son muchos años e incluso hablo por propia experiencia en los proyectos que son así a lo largo de los años, es fácil entrar en ratoneras, en bucles, en decisiones que no se acaban de tomar. Cuesta mucho, y lo entiendo, cuesta mucho a veces sacrificar algo para avanzar. Este tema de la alineación de las palabras yo no he estado, pero estoy seguro que habéis vivido eso en las primeras fases del proyecto. Nos metemos en esa ratonera o avanzamos hacia adELANte. Entonces, cada proyecto tiene unas prioridades y tiene que ir decidiendo. Pero no sólo eso, sino también muchos de los que nos ven, las mareas de financiación, ahora hay, ahora hay la mitad, ahora no hay. Habéis sabido lidiar con eso. También ha generado recursos colateralmente. Este corpus de entrenamiento, que aún se conoce poco, pero bueno, es algo que está ahí y que no hay muchos en español, en ningún sitio, español oral, que se pueda entrenar un etiquetador para etiquetar español oral. No es fácil y se ha generado eso. Y luego que sabemos que está habiendo estudios que usan el ESLORA, que supongo que será para vosotros mucha satisfacción ver que no sois vosotros los que hacéis los estudios, que eso pasa siempre cuando un grupo de investigación desarrolla un corpus, los primeros son ellos en hacer esos estudios. Pero supongo que será muy satisfactorio ver cómo otra gente que no sabes quiénes son, piden información y están haciendo publicaciones basadas en vuestro corpus.

Victoria: Pues sí, sí, sí. Bueno, no sé si puedo comentar algo sobre lo que decías al principio. Es verdad que el corpus es pequeño, pero también es cierto que es un corpus oral. Y los corpus del español más conocidos y más usados, como el CORPES, o el Corpus del Español de Mark Davies, o incluso corpus que se recopilan, se compilan a partir de, bueno, automáticamente a partir de textos de internet como Web/Dialects, o el esTenTen de Sketch Engine, que está en Sketch Engine. Son corpus muy grandes, de millones de palabras, pero son corpus básicamente escritos. En el CORPES hay una mínima parte oral, donde por cierto también están materiales de ESLORA. Y claro, no es lo mismo recopilar, diseñar y construir un corpus escrito que un corpus oral. Entonces no se puede poner en la balanza porque son elementos muy distintos. Y con respecto a cómo progresó el proyecto desde la idea inicial de esa propuesta inicial de Guillermo Rojo, pues es verdad que tuvimos suerte, bueno, supongo que porque también trabajamos y tuvimos una financiación suficiente como para, a veces un poco justita, algún año con problemas, pero para mantener un flujo de trabajo continuo. También es cierto que contamos con el apoyo económico, y no solo económico, claro, del Grupo de Gramática del Español, que también ha conseguido cierta financiación que redunda en sus proyectos, en los proyectos del grupo. Pero sobre todo yo creo que el éxito, si se puede decir, del proyecto de ESLORA, que hayamos llegado hasta aquí y que tengamos y que sigamos con idea de mejorar, progresar y ampliar, viene de las personas, del equipo, que es un equipo dedicado, interesado, creativo, con buena comunicación interna. Somos pocos, pero bien avenidos, y además con conocimientos en parte comunes y en parte complementarios. Y eso ayuda también a que el corpus se vaya desarrollando, aunque sea despacito, en diferentes áreas, tanto de anotación como del propio crecimiento del corpus y lo que se pueda hacer con él.

Mario: Sí, sí, hay mucha proactividad también. No es, sale de todos un poco, a veces no al mismo tiempo, pero de repente empuja uno por un lado, empuja otro por otro. Hay iniciativas.

Victoria: Hay iniciativas, y todos yo creo que acogemos muy positivamente las iniciativas de los otros y bueno eso también da fuerza y da ganas de seguir.

Mario: Se siente, eso se siente. Bueno, pues si te parece podemos ver un poquito, nada, muy por encima, un segundito, aquí. Bueno, antes de que nos hables de esto, después de esta transparencia vamos a ver un poquito el formulario de búsqueda, sin hacer una búsqueda, porque voy a hacer yo una sesión de demostración en otro vídeo, entonces lo vamos a dejar para ahí, y nada, daremos simplemente unas pinceladitas en lo que hay en los menús, y nada más, si te parece bien. Pero antes creo que querías comentar algo sobre la codificación.

Victoria: Bueno, por dar alguna información, un poco más específica sobre qué se puede encontrar en el corpus, porque como antes veíamos lo que llamamos metadatos, esa asignación o indicación sobre la edad, el nivel de estudios y algunas otras informaciones que luego nos permiten recuperar la información, recuperar los datos. También, claro, la codificación de las transcripciones es fundamental para poder aprovechar bien el material que hay ahí. En general se suele distinguir una codificación no lingüística de la codificación lingüística. Bueno, a lo mejor, en algún sentido lo que llamamos no lingüístico también es un poco lingüístico, pero bueno, es un poquito técnico cómo lo ponemos ahí. Pero empezando con la codificación no lingüística, ahí entran los metadatos que estaba comentando, que todos los archivos del corpus tienen su indicación de si es una entrevista o una conversación, en qué fecha se realizó, en qué lugar, las condiciones o las características de los hablantes que ya comentamos.

Y luego hay una codificación no lingüística intratextual que es muy relevante en los corpus orales porque porque da información relevante sobre cómo se desarrolla la interacción. El hecho de que marquemos pausas y silencios, no usamos signos de puntuación, que son signos pensados para la lengua escrita. Tenemos que marcar los solapamientos, es decir, la coincidencia en el habla de dos o más hablantes, los cambios de lengua, a los que también ya aludimos, las risas, las citas, algunos otros ruidos vocales que marcamos también, las palabras cortadas, vacilaciones, etcétera. Eso se marca, son marcas de oral que después nos resultan a nosotros y a otros investigadores muy útiles también para hacer estudios sobre lengua hablada. Y en la parte de la anotación lingüística, codificación lingüística que suele recibir el nombre de anotación, ya lo dijo antes Mario, nuestra transcripción es una transcripción ortográfica, bueno no sé si lo dijiste o no, pero bueno, lo asumimos.

Mario: Creo que no.

Victoria: La transcripción es ortográfica, seguimos las pautas de la ortografía del español, el estándar, excepto en lo que se refiere a la puntuación y al uso de mayúsculas derivado de la puntuación, eso no lo seguimos. Pero luego, gracias al etiquetador morfosintáctico XIADA, del que sí ya habló Mario, podemos asignar, asignamos a cada una de las palabras, cada una de las formas realmente, el lema, es decir, desambiguamos, porque no es lo mismo, por ejemplo, "cuento" es una palabra fonéticamente, pero puede responder a una forma del verbo "contar" o al sustantivo "cuento", "para" puede ser una preposición o puede ser el verbo "parar". Bueno, pues la asignación del lema es fundamental porque si estamos estudiando las preposiciones no queremos que aparezca por el medio la forma del verbo "parar". Luego, dentro de otras especificaciones que marcamos gracias a la etiquetación morfosintáctica son las clases de palabras, sustantivo, verbo, interjección, etcétera. Las categorías gramaticales, esto también es muy relevante, porque muchos de nuestros estudios también se refieren a la estructura gramatical del español, es decir, el hecho de que un sustantivo sea masculino, femenino, singular, plural y el verbo sea subjuntivo, pasado, lo que sea. Últimamente, gracias también a un proyecto y a la iniciativa de María Sampedro, una colaboradora del grupo, se marcaron los actos de habla, en parte los actos de habla, que es la diferencia que hay, por ejemplo, entre pregunta y respuesta, entre invitación y aceptación y también las unidades conversacionales. De hecho, las unidades conversacionales, de alguna manera, también ya están marcadas en los turnos, los turnos los distinguimos y algunos otros detalles. Todo esto, una vez codificado, permite que se pueda recuperar en la aplicación de consulta, a través de la aplicación de consulta.

Mario: Voy a poner ahí en pantalla, un segundito, vamos a poner ahí simplemente el formulario, como comentaba, no vamos a hacer hoy ninguna búsqueda, simplemente ver un poquito por encima qué permite obtener cada cosa y así dedicamos otro vídeo. Haré una pequeña demostración y ya que aprovecho para decir lo de María Sampedro, que también la he convencido para hacer algo, no sé si algo así o algo diferente, pero para que la parte de intervenciones que veis ahí, esas búsquedas y demás, que ella nos cuente un poco cómo sacarle partido a esa parte. Esa es la idea de... ha aceptado y estoy encantado para completar ahí el círculo que estamos haciendo con ESLORA en estas ediciones. Muy bien, no sé si quieres comentar túa así por encima.

Victoria: Sí, claro, por supuesto. En la parte de la pantalla se divide en una parte de búsquedas que ya de alguna manera resumimos al hablar del tipo de corpus, luego comentaremos algo sobre búsquedas gramaticales.

Mario: Podemos verlo aquí, simplemente ver que se pueden hacer búsquedas por palabras ortográficas o por elementos gramaticales. Y aprovecho para decir que tenemos el vídeo número 5 de Palabras binarias, va sobre palabras ortográficas y elementos gramaticales, y nos está sorprendiendo que es el vídeo más visto de nuestro canal. Y allí, si alguien tiene dudas de qué es cada una de las cosas, pueden verlo en ese vídeo.

Victoria: Sí, sí, porque claro, esos conceptos hay que tenerlos claros, para explotar...

Mario: Para luego ver la demostración, para no contar siempre, aunque siempre se menciona un poquito, allí lo ven más en detalle el ejemplo de la diferencia entre palabras ortográficas y elementos gramaticales, que también ha quedado patente en tu explicación. Tenemos por un lado las palabras ortográficas, pero luego teníamos el lema, la categoría gramatical, que eso tiene que ver con los elementos gramaticales.

Victoria: Efectivamente. Luego, en la parte de resultados, que es donde lo que acabas de abrir tú ahora, ahí tenemos varias opciones. Podemos obtener la frecuencia simple o la frecuencia completa de cualquier fenómeno, de cualquier elemento de búsqueda bastante compleja que podamos hacer combinando varios elementos gramaticales. Podemos obtener la frecuencia completa, nos da la distribución por grupos de edad, por hombre/mujer, por conversación frente a entrevista. Eso también nos da una panorámica, nos ofrece una panorámica de cómo se distribuyen ciertos usos. Por ejemplo, el uso de la palabra "rollo". Se ve como aparece sobre todo en hablantes jóvenes. Luego tenemos las concordancias, que es lo que está marcado. Las concordancias son la palabra en su contexto, una línea de transcripción en la que aparece el elemento que hemos buscado, sea palabra ortográfica, sea elemento gramatical.

Mario: Ejemplos de uso. Al final, también son los ejemplos de uso. Es una palabra en contexto que son ejemplos.

Victoria: Exactamente, son ejemplos. Aunque nosotros en corpus tendemos a hablar más de ocurrencias o casos. Un ejemplo es la selección que hacemos de algunos de ellos para mostrar un fenómeno. Pero la gran ventaja de un corpus es que nos lo da todo.

Mario: Ocurrencias, sí, sí.

Victoria: Evitamos ciertos sesgos que a veces en las descripciones surgen precisamente por seleccionar los ejemplos a gusto del consumidor.

Mario: Claro, claro, sí, sí. No pensaba yo en esa, sí sí, en ese matiz.

Victoria: Pero bueno, esto yo creo que lo heredé de Guillermo, fíjate. Luego tenemos los inventarios, que es una opción de resultados muy interesante, porque sobre todo cuando hay muchos casos, nos interesa más ver qué tipo de elemento gramatical qué lema o si el masculino o el femenino funcionan con más o menos frecuencia.

Mario: Esta es la novedad de la versión anterior, no de ésta, y está por descubrir. Yo digo que está por descubrir. Yo me lo imagino, y a mí me gusta mucho, porque me lo imagino que tú cuando vas a las concordancias me imagino un bosque que hay árboles de todo tipo y estás dentro del bosque y ves, mira, aquí hay un pino, mira, aquí hay un roble. Pero los inventarios te permiten ver el bosque desde arriba y dices, mira, allí hay una zona donde hay más robles, porque te dice cuánto de importante, o de frecuente, es un fenómeno gramatical y está muy bien, porque complementa muy bien la otra parte.

Victoria: Sí, sí, cuando hagas la demostración intentaremos mostrar la gran ventaja de esos ejemplos. Porque realmente los inventarios te dan esa visión general, no sólo visión general realmente, esa cuantificación que permite muchas veces extraer generalizaciones y luego refinar las búsquedas. Las concordancias siempre hay que consultarlas, siempre hay que mirarlas porque, bueno, también es verdad, el etiquetador tiene también sus pocos, pero algún error.

Mario: Tiene fallos. Siempre hay que esperar que estemos entre un 3 y un 5 por ciento de error, es habitual.

Victoria: Exactamente, pero bueno, desde luego los inventarios son un punto y luego están las intervenciones que es la etiquetación pragmática de actos de habla que comentábamos y que ya veréis con detalle con

Mario: María Sampedro y que permite hacer búsquedas relacionadas con los actos de habla. Bueno, pues estupendo, yo creo que ha quedado más o menos clara la idea general. Y ya para ir finalizando, ¿para qué tipo de estudios crees que ESLORA puede servir, o está más indicado?

Victoria: Puedo comentar brevemente para qué se está usando y se ha usado. Y seguramente vendrán otras líneas más adELANte, pero bueno, fundamentalmente se está usando mucho, no sólo por nuestro grupo, sino por lingüistas, investigadores de otros lugares y de otros países para hacer descripción y análisis de fenómenos léxicos, de fenómenos gramaticales, sintácticos, morfológicos, relacionados con el español, con la variación del español. A veces son estudios centrados en la variedad del español de Galicia y en otros casos son estudios comparativos con otras variedades y esto es realmente interesante también.

Bueno, otra línea de trabajo que se está explotando bastante es la de, bueno, que se ha explotado, esto es quizá un poquito más anecdótico, para la lingüística forense. Este corpus lo han pedido para desarrollar investigaciones sobre el habla de nativos y hablantes de segunda lengua, español segunda lengua, para tener datos realmente naturales sobre distintas variedades del español y poder desarrollar recursos automáticos que identifiquen a los hablantes según su natividad o no. En Barcelona se hizo un estudio sobre esto. Se ha utilizado también para el español, para estudios de español como segunda lengua porque no hay, como no hay muchos corpus, no hay apenas materiales de lengua oral, de lengua oral natural y actual, se necesita recurrir a registros de habla para poder entender, para poder explicar también cómo se usa el español oral, se llama ELE.

También, bueno, también para estudios que relacionan el español con el gallego, que comparan y ven qué influencias hay en el español aparte del gallego y también para ver cómo se distribuyen las dos lenguas en contextos en los que cambia el código. También se ha usado para y se sigue usando para estudios de tipo sociolinguístico, evidentemente sociolinguística variacionista, que es el marco de PRESEEA, pero no sólo porque para estudios de las ideologías lingüísticas, de los prejuicios lingüísticos, del discurso metalingüístico, porque ESLORA, como antes comentábamos, que tiene, aparte de los datos de uso en sí del habla, de las transcripciones, recogió información, recogimos información sobre las opiniones de los hablantes ante un cuestionario, ante distintos test que se grabaron y que ahora nos permiten contrastar el uso que se hace de la lengua con las actitudes que se tiene hacia la variedad y hacia algunos fenómenos. Esta parte también es interesante. Y bueno, incluso el corpus se cita como una referencia para desarrollar nuevos corpus orales, por ejemplo el corpus CORMA del español de Madrid que desarrolla la profesora Renata Enghels de la Universidad de Gante, también usó nuestro corpus como modelo, pero sí referencia para desarrollar el suyo.

Mario: Pues yo creo que ya pueden tener una idea más o menos, algunas pistas para qué es útil este corpus. Seguro que tiene muchos más usos que ahora no te vienen a la cabeza o lo que sea. Y bueno ya, para acabar, hablando un poco de futuro o bueno en este en este proyecto el futuro muchas veces es el presente porque cuando se publica una versión no es raro que estemos acabando la siguiente. Entonces, bueno, te pregunto por el futuro que tenéis en mente así a corto/medio plazo, en el futuro más inmediato y a lo mejor un poco más en líneas generales como ideas generales de futuro hacia donde queréis ir.

Victoria: Bueno, pues bueno, yo creo que si contamos con la colaboración del equipo informático sin el cual nada de esto sería posible, es así, Mario, las cosas como son. Pues uno de los objetivos que ya vemos en el horizonte es la etiquetación conjunta de español y gallego porque en este momento el corpus permite recuperar la información referida al español pero no los fragmentos que están etiquetados como gallego.

Mario: Eso está ahí, justamente estamos nosotros enfrascados en ese tema, esperemos que pronto ya podamos ver en pruebas por lo menos. Nosotros siempre tenemos la exclusiva, claro. Pero sí, la verdad es que yo no... sabes que no soy lingüista de formación pero incluso preparando ejemplos de ejemplos para hacer la demostración famosa digo es justo esto me venía bien que estuviera y esperemos que en la siguiente versión, que será pronto, será pronto, podamos ver eso de poder hacer búsquedas de la parte del gallego de la parte del español y que cada uno busque lo que le interese, pero porque ahora bueno igual no lo queda claro a los que nos están viendo, ahora mismo se puede buscar la parte que está en español la que está en gallego se ve acompañando pero no se puede buscar en ella. Primero porque quisimos que no influenciara la estadística de lo que es español, claramente español, vamos a dejarlo así, y nada entonces quedó excluido de todos los cálculos y , acompaña al contexto nada más y la idea es que se pueda usar esa parte y la verdad es que para ese uso que decías de bueno de la influencia entre lenguas todo lo que tiene que ver el cambio de código, para eso va a ser una pasada.

Victoria: Sí, estamos deseando que se pueda usar porque además, incluso desde el punto de vista teórico, las lenguas próximas como es el caso del español y gallego son las menos estudiadas en el cambio de código, ¿no?, en el contacto de lenguas, y las condiciones que tienen lenguas próximas son muy diferentes a las que se dan entre lenguas muy distintas, ¿no?, por ejemplo cambio de código chino mandarín e inglés o ruso-español pues no plantea los mismos problemas. Entonces en ese aspecto creo que también va a ser un hallazgo desde vuestro punto de vista y desde para los lingüistas.

Mario: Y no es fácil, tenemos que integrar hay cosas que están del gallego cosas que del español eso también daría para otro para otra charla cuando ya esté cuando esté nos volvemos a juntar.

Victoria: Y luego, bueno, hay una segunda un objetivo en el que estamos también que es lo que comentamos ya antes de ampliar el subcorpus de conversaciones porque es quizá la parte donde hace falta más material en este momento. Parece mentira que la actividad lingüística más común a los seres humanos, ¿no?, en general, y a cada uno de nosotros en particular, que es conversar es hablar espontáneamente, sea tan difícil de documentar, ¿no? respetando la privacidad... y es realmente lo más natural que tenemos

Mario: Sí, sí, bueno, pues yo creo que ha quedado muy bien, espero, espero que os guste, yo simplemente agradecerte nuevamente que hayas venido aquí, creo que es muy enriquecedor este tipo de charlas que nos salen en la tele y nada que os deseo lo mejor a ti y al grupo y todo y nos veremos aquí de nuevo más adELANte.

Victoria: Bueno, pues nada, muchas gracias, Mario, por ofrecernos este espacio en ofrecerme y en realidad todo el equipo en Palabras binarias y ya sabes dónde estamos a tu disposición.

Mario: Muy bien, muchas gracias. Bueno y a vosotros, no le he pedido permiso a Victoria, pero cuando publicamos esto estos vídeos normalmente si si vais a la página de Palabras binarias suele aparecer la y luego aparece allí un formulario de contacto. Si tenéis cualquier duda del corpus de lo que sea bueno aunque, aunque no lo hayamos pactado antes, yo me encargo de trasladar las dudas que tengáis al equipo, no hay ningún problema, podéis hacerlo allí, eso es privado, son correos que nos llegan a nosotros, si alguien quiere hacer algo más en público tenéis los comentarios de Youtube, donde también está el vídeo y podéis preguntarlo lo que queráis, que estaremos encantados de resolver las dudas que tengáis. Ya lo hacemos así, de hecho, a través del formulario de contacto de ESLORA, que nos llega a todos, y en función de la pregunta pues contestan unos otros. Pues nada más, espero que os haya gustado el vídeo y nos vemos en la próxima entrega. Hasta luego!

Utilizamos cookies para analizar el tráfico del sitio web y optimizar tu experiencia. Puedes aceptar o rechazar las cookies haciendo clic en los botones a continuación.

Política de cookies