Fechas Destacadas

  • 15 Ene

    15 enero

    Convocatoria WOPATEC-2016

  • 27 Abr

    27 abril

    Actualización de esta página web

  • 6 Jun

    6 junio

    Recepción de artículos

  • 1 Ago

    1 agosto

    Notificación de evaluación

  • 2 Nov

    2 noviembre

    Fecha final de inscripciones asistentes

  • 10 Nov

    10 Noviembre

    1° Jornada WoPATeC

  • 11 Nov

    11 Noviembre

    2° Jornada WoPATeC

  • 3 Dic

    3 Diciembre

    Informe de la actividad

10 - 11 de Noviembre 2016 • Viña del Mar

Workshop de Procesamiento Automatizado de Textos y Corpus

Esta tercera versión de WOPATEC se configura como una actividad de mayor integración entre los especialistas en procesamiento automatizado de textos, afianzando así la Red Hispanoamericana de Tratamiento Automático del Lenguaje Humano. Este año se convocará, por una parte, a investigadores jóvenes a presentar sus proyectos en versión poster y, por otra parte, a investigadores y desarrolladores que deseen presentar demostraciones de software o recursos computacionales en los que el procesamiento del lenguaje natural sea relevante.

Inscribirme Ahora
@wopatec

Último minuto @wopatec_2016

Facebook Wopatec



















Novedades

Novedades

Cartel Wopatec 2016

15 de setiembre de 2016:
Está disponible la versión preliminar del programa con los horarios de cada presentación. Tenemos también los resúmenes de todas las contribuciones.

Fechas Importantes:


Celebración de WOPATEC_2016: jueves 10 y viernes 11 de noviembre

Envío de artículos: 6 de junio 2016

Notificación de aceptación: 1 de agosto 2016









 






detalles

Detalles


WOPATEC es un espacio académico de encuentro interdisciplinar en el que se reflexiona sobre el análisis automatizado de la información de los textos desde interdisciplinas tales como la lingüística de corpus, lingüística computacional, semántica computacional, ingeniería lingüística y procesamiento del lenguaje natural. Sus objetivos principales son fomentar y promover la excelencia en la investigación de los textos y los corpus textuales, a través del análisis y procesamiento automatizado de ellos en sus diversos soportes tecnológicos para contribuir a su conocimiento teórico y aplicado.

Esta tercera versión de WOPATEC se configura como una actividad de mayor integración entre los especialistas en procesamiento automatizado de textos, afianzando así la Red Hispanoamericana de Tratamiento Automático del Lenguaje Humano. Este año se convocará, por una parte, a investigadores jóvenes a presentar sus proyectos en versión poster y, por otra parte, a investigadores y desarrolladores que deseen presentar demostraciones de software o recursos computacionales en los que el procesamiento del lenguaje natural sea relevante.

WOPATEC_2016 es organizado por el Instituto de Literatura y Ciencias del Lenguaje, los Programas de Postgrado en Lingüística y de Ingeniería Informática de la Pontificia Universidad Católica de Valparaíso, Chile. WOPATEC_2016 será realizado en la hermosa ciudad de Viña del Mar en el Aula Media del Centro Universitario María Teresa Braun de Ariztía (Sausalito) de la Pontificia Universidad Católica de Valparaíso. El programa científico incluye tres conferencia, una sesión de demostraciones de software, una sesión de poster y las comunicaciones orales de varios expositores participantes. El Workshop no tiene costo para los expositores ni para los asistentes.

Temas de interés (no exclusivamente):
  • Recuperación de información de textos
  • Clasificación de textos y de géneros
  • Resumen automatizado de textos
  • Análisis de sentimientos y opiniones
  • Análisis automatizado del discurso académico, científico y profesional
  • Herramientas de análisis textual y discursivo
  • Análisis computacional de relaciones semánticas
  • Ontologías computacionales
  • Representación computacional de los textos
  • Minería de textos
  • Análisis computacional de la literatura
  • Otros temas afines al procesamiento de textos y corpus


Comisión Organizadora
  • Dr. René Venegas (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dr.(c) Rodrigo Alfaro (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dr. Rogelio Nazar (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dr. PedroAlfaro (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dr. Héctor Allende (Pontificia Universidad Católica de Valparaíso, Chile)


Comisión Científica
  • Dr. Alberto Barrón-Cedeño (Qatar Computing Research Institute, HBKU, Qatar)
  • Dr. ArturoHernández (Universidad Católica de Temuco, Chile)
  • Dr. Carlos Periñán (Universidad Politécnica de Valencia, España)
  • Dr. Carlos Subirats (Universidad Autónoma de Barcelona, España)
  • Dr. César Aguilar (Pontificia Universidad Católica de Chile)
  • Dr. David Pinto (Benemérita Universidad Autónoma de Puebla, México)
  • Dr. Giovanni Parodi (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dr. Héctor Allende (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dr. Luis Meneses-Lerín (Universidad de Artois, Francia)
  • Dr. Luis Villaseñor (Instituto Nacional de Astrofísica, Óptica y Electrónica, México)
  • Dr. Manuel Montes (Instituto Nacional de Astrofísica, Óptica y Electrónica, México)
  • Dr. Marcelo Mendoza (Universidad Técnica Federico Santa María, Chile)
  • Dr. Paolo Rosso (Universidad Politécnica Valencia, España)
  • Dr. Rafael Marín (Universitè Lille3, Francia)
  • Dr. Ricardo Mairal (Universidad Nacional de Educación a Distancia, España)
  • Dr. Romualdo Ibáñez (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dr. Walter Koza (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dr. Xavier Blanco Escoda (Universitat Autònoma de Barcelona, España)
  • Dra. Irene Renau (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dra. Laura Alonso i Alemany (Universidad Nacional de Córdoba, Argentina)
  • Dra. Mónica Cárdenas (Pontificia Universidad Católica de Valparaíso, Chile)
  • Dra. Sabela Fernández (Pontificia Universidad Católica de Valparaíso, Chile)


Instrucciones de envío de artículos y posters

Los artículos deben ser originales y no haber sido enviados a otro congreso o revista. Habrá dos modalidades de artículo. Los artículos extensos de 6 páginas para ser considerados en la evaluación de comunicaciones orales y los breves 2 páginas para ser considerados en la sesión de poster y en la sesión de demostraciones de software. Los artículos deben estar escritos en español o inglés y deben tener tamaño carta, incluyendo las referencias bibliográficas. La evaluación de los artículos será realizada por un comité científico de pares expertos. Los artículos deberán seguir el formato de la plantilla que se presenta a continuación. La aceptación del artículo se hará vía correo electrónico y se publicará una lista en la página del Workshop. Cada participante debe inscribirse llenando el formulario publicado en la página web. Cada ponente de comunicación oral (se adjunta plantilla poster) y demostración de software (mismo formato que el de paper) aceptado tendrá 20 minutos para comunicar su trabajo. Para la sesión de poster se dedicará una hora en total. Al inicio de la sesión se solicitará a cada participante haga una presentación resumida de máximo 2 minutos de su poster. No habrá traducción de las sesiones.


Las plantillas para el envío de artículos y pósters:

Para consultas: rene.venegas@pucv.cl o wopatec@gmail.com










 






Lugar

10 - 11 de Noviembre • Viña del Mar

WOPATEC-2014 se celebrará en Viña del Mar, ciudad costera de gran interés turístico, con una gran oferta en actividades de ocio, gastronomía y comercio. Está a pocos minutos en auto o transporte público de Valparaíso, capital de la V Región y mundialmente conocida por su carácter cosmopolita y portuario, además de por su reconocimiento como Patrimonio Mundial de la Humanidad.

Links de interés:  Municipalidad de Viña del Mar Municipalidad de Valparaíso Atractivos turísticos

El Evento

El workshop tendrá lugar en el Aula Media del Instituto de Literatura y Ciencias del Lenguaje, situado en el campus Sausalito de la Pontificia Universidad Católica de Valparaíso (Av. El Bosque, 1290, Viña del Mar).

¿Cómo llegar?

CÓMO LLEGAR A VIÑA DEL MAR

En avión

Opción 1: En el aeropuerto de Santiago existen dos líneas de buses que cada 15 minutos y por un valor de US$ 3 trasladan a los pasajeros a la entrada de Santiago, ciudad que se encuentra a 20 minutos distante del aeropuerto. Luego, en la primera estación del Metro (tren subterráneo), llamada “Pajaritos”, los pasajeros deben hacer trasbordo para tomar un bus con destino a Viña del Mar (80 minutos de viaje aproximadamente).
Opción 2: En el aeropuerto se encuentra el servicio de transfer que puede llevar a dos pasajeros como mínimo hacia Viña del Mar.

En auto
Una de las alternativas para llegar a Viña del Mar en vehículo es por la ruta 68 que llega hasta Valparaíso, y luego se debe seguir la señalética correcta para llegar a Viña. La autopista Viña-Valparaíso tiene 5.5 kilómetros y comienza en Caleta Abarca. Otra opción es una ruta directa que va desde la ruta 68 hacia Variante Agua Santa o Ruta 66.

Mapa para  llegar a Viña del Mar en bus o en auto desde Santiago

CÓMO LLEGAR AL CAMPUS SAUSALITO
El campus Sausalito está ubicado en la Av/El Bosque, 1290.

Mapa para  llegar al Campus Sausalito desde el Terminal de Buses de Viña del Mar (Rodoviario)

En colectivo
Los colectivos números 33 (rojo), 31, 119, 128 y 131 suben hasta el campus, y pueden ser abordados en el centro de la ciudad, específicamente en calle 5 oriente o en Álvarez.

En micro
Las micros o locomociones números 401, 402, 403, 406, 407, 410, 212, 213 y 214 pueden ser abordados desde la Av/Álvarez y la C/5 Oriente. A diferencia de los colectivos, las micros pasan por fuera del Campus Sausalito, sino que los pasajeros deben bajarse en C/6 Oriente con 12 norte. Como punto de referencia se halla en toda una esquina una automotriz cuyo gran letrero visible para los transeúntes dice: “Michelin AutoFran”. Para llegar a la Facultad, se debe caminar por la calle 12 norte hasta llegar a C/Quillota (en la esquina se encuentra la Empresa de Gas Licuado “Lipigas”). Luego, se debe caminar hacia mano izquierda, y en la primera curva se debe comenzar a subir (Subida Los Lirios). Finalmente, se llegará a Av/El Bosque, la cual a mano izquierda se debe caminar unos pocos pasos para llegar al Campus Sausalito.

En taxi
Alrededor de la ciudad existen diferentes servicios de radio taxis que están a la espera de nuevos pasajeros. En primer lugar, se encuentran taxis que están ubicados en el Terminal Rodoviario de Viña del Mar (Av/Valparaíso, 1055), y su teléfono de contacto es el (32) 2752080. En segundo lugar, se encuentra Radio Taxis Nuevo Fénix, cuyo servicio se encuentra disponible las 24 horas del día de lunes a domingo. Su teléfono de contacto es (32) 2680784. También se encuentra en la ciudad el servicio de Radio Taxis Abacars que cuenta con operadoras que responden a los requerimientos de los clientes. Los teléfonos de contacto son (32) 2626021 y +56992909783.

CÓMO LLEGAR DESDE VALPARAÍSO A VIÑA DEL MAR

En metro
Existe una línea de metro que une Viña del Mar con Valparaíso, con metros de frecuencia 5-15 min aproximadamente, según la hora: http://www.metro-valparaiso.cl/ .

En micro
Existen muchas micros que van desde Viña del Mar a Valparaíso, es el caso de las líneas 212, 213, 214, 215 y 216, o 603, 602, 606 y 610.

En colectivo
Los colectivos que circulan desde Viña del Mar con destino hacia Valparaíso son aquellos que tienen la numeración 86, 90, 35, 188, 142, 153 y 220.

En auto
Viña del Mar y Valparaíso están unidas por la avenida España, que recorre el borde costero. La autopista costera aparece luego de pasar el reloj de flores en Viña del Mar, que se encuentra a los pies del Cerro Castillo y frente al Balneario Caleta Abarca.

CÓMO MOVERSE POR VIÑA DEL MAR Y VALPARAÍSO
En ambas ciudades existe una red de micros, colectivos y taxis que pasan con frecuencia.
1. Transporte público Viña del Mar y Valparaíso: las micros que tienen el número 603, 604, 606, 607, 610, 611 y 612 transitan para ambas ciudades. Existen otras líneas de micros que permiten trasladar a los pasajeros desde Viña del Mar a Valparaíso, y viceversa.
2.Colectivos: líneas 9, 90 y 93.

Alojamiento

Existe una numerosa y variada oferta hotelera en Viña del Mar.

Hoteles recomendados :

Hotel Monterilla (a 7 minutos sin tráfico en taxi / 33 minutos a pie de la sede Sausalito): http://www.monterilla.cl

Hotel Ankara (a 7 minutos sin tráfico en taxi / 26 minutos a pie de la sede Sausalito): http://www.ha.cl

Hotel Best Western Marina del Rey (a 10 minutos sin tráfico en taxi / 39 minutos a pie de la sede): http://www.bestwestern.com

Hotel O’higgins (a 8 minutos sin tráfico en taxi / 27 minutos a pie de la sede Sausalito): http://www.panamericanahoteles.cl

Hotel Gala (a 8 minutos sin tráfico en taxi / 35 minutos a pie de la sede Sausalito): http://www.galahotel.cl

Hotel Oceanic (a 9 minutos sin tráfico en taxi / 54 minutos a pie de la sede Sausalito): http://www.hoteloceanic.cl

Hotel Cantamar (a 7 minutos sin tráfico en taxi / 27 minutos a pie de la sede Sausalito): http://www.cantamar.cl

Hotel Rondó (a 7 minutos sin tráfico en taxi / 33 minutos a pie de la sede Sausalito): http://www.hotelrondo.cl

Crown Royal Hotel (a 10 minutos sin tráfico en taxi / 39 minutos a pie de la sede Sausalito): http://www.hotelroyal.cl

Hotel Albamar (a 7 minutos sin tráfico en taxi / 28 minutos a pie de la sede Sausalito): http://www.hotelalbamar.cl

Hotel Ágora (8 minutos sin tráfico en taxi / 30 minutos a pie de la sede): http://www.hotelagora.cl










 






Programa

Programa

•10•

Noviembre

•11•

Noviembre

Inscribirme Ahora
















Conferencia

Expositores

Resúmenes de las Conferencias:




Miguel Ballesteros
“Transition-based Natural Language Processing”

This talk describes new, sequential and efficient algorithms for analysis of text data. Transition-based models use a transition system, or abstract state machine, to model structured prediction problems, for example syntactic dependency parsing, as a sequence of actions. We propose a technique for learning representations of these states. Our primary innovation is a new control structure for sequence-to-sequence neural networks: the stack LSTM. Like the conventional stack data structures used in transition-based parsing, elements can be pushed to or popped from the top of the stack in constant time, but, in addition, an LSTM maintains a continuous space embedding of the stack contents. This lets us formulate efficient transition-based natural language processing models that captures three facets of the state: (i) unbounded look-ahead into the buffer of incoming words, (ii) the complete history of transition actions taken, and (iii) the complete contents of the stack of partially built fragments, including their internal structures. We also discuss different approaches to word representations, by modeling words and by modeling characters. The latter improves the way of handling out of vocabulary words without using external resources and improves the performance in morphologically rich languages. Transition-based modeling for natural language processing is not limited to syntactic parsing. In this talk I will explain how we successfully applied Stack-LSTMs to dependency parsing, phrase-structure parsing, language modeling and named entity recognition with outstanding results.






Elena Cotos
“Corpus analysis for Applied Natural Language Processing”

The study of discourse in authentic texts encompasses a variety of theoretical tenets and methodological approaches, particularly thriving on the investigative potential provided by corpora. Corpus Linguistics lays in close proximity with Applied Natural Language Processing (ANLP), a rapidly growing domain of inquiry “concerned with how computational approaches can assist with the identification, investigation, and resolution of real-life language related issues” (McCarthy & Boonthum-Denecke, 2012, p. xxvi). This interdisciplinary field merges research agendas in linguistics, cognitive psychology, and computer science, which may operate with the same textual datasets and different analytic techniques in order to accomplish broader applied goals through the medium of language. This talk will outline the role of corpus-based analysis in advancing ANLP. I will overview state-of-the-art developments, reviewing textual analysis systems built to provide practical resolutions through natural language processing. Then, I will demonstrate how genre theory and corpus-derived linguistic knowledge has been applied to automate the analysis of scientific discourse in two impactful ANLP projects at Iowa State University: Research Writing Tutor (RWT) and Automated Functional Language Extraction System AFLEX). RWT is an educational application that pushes the envelope due to its unique ability to analyze students’ individual research article sections, generate discipline-specific feedback based on the rhetorical conventions of this genre, and provide different forms of corpus-based scaffolding. The AFLEX project aims to design automated analysis systems to transform the translation of research findings into policy and to enhance communication between scientists. Combining corpus-based linguistic analysis with data science, one such system is being designed for disciplinary experts tasked with research synthesis. Another system will flag articles that report research studies incompletely for journal editors prior to sending submitted research articles to reviewers. I will share results from textual and computational analysis and will conclude with lessons learned, providing recommendations for future ANLP endeavors.





Gerardo Sierra
“LEXIK: un sistema para la generación de conocimiento léxicográfico”

La labor lexicográfica consume una gran cantidad de tiempo y recursos, de manera que la utilización de tecnología resulta necesaria para facilitar este proceso. De hecho, la lexicografía moderna es en gran medida basada en corpus lingüísticos. Mediante técnicas y herramientas básicas de procesamiento de lenguaje natural, tales como lematización, etiquetado de partes de la oración y análisis de concordancias, esta labor se ha simplificado. Para la creación de diccionarios de especialidad se han creado distintos desarrollos, como son los más conocidos extractores terminológicos o las bases de datos terminológicas, o bien los menos conocidos como los extractores de definiciones o los de ejemplos. En esta plática se presentará la arquitectura de LEXIK, un sistema que combina e integra diferentes aplicaciones y técnicas que han sido desarrolladas por separado, pero que en conjunto proporcionan una base rica de conocimiento para ayudar a lexicógrafos en la elaboración de diccionarios especializados. Este sistema modular procesa los documentos de un área de especialidad, que son capturados en un gestor de corpus, para obtener primeramente los términos del área. Para cada uno de los términos se obtienen los contextos definitorios, esto es, los fragmentos de texto obtenidos de la WEB en donde un autor introduce un término y proporciona su definición. Los contextos definitorios son clasificados en tres tipos de definición (analíticas, extensionales y funcionales) y agrupados por sus características semánticas, en donde de cada grupo se obtiene la definición más informativa y representativa del grupo. Además se extraen de la WEB candidatos a ejemplos para cada grupo de definiciones. Toda esta información es finalmente vertida en una base de datos, la cual es revisada por el lexicógrafo para validar y ajustar los datos para su utilización en la versión final del diccionario.

Resúmenes de las Ponencias y Pósters




Cagnina, Leticia1,2; Errecalde, Marcelo2; Stamatatos, Efstathios3

1 Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET)
2 LIDIC - Universidad Nacional de San Luis. San Luis, Argentina.
3 University of the Aegean. Karlovassi, Samos, Greece.

“Character n-grams profiles for predatory lines detection”

Sexual predation is a problem of growing social concern due to the possibilities that Internet, and social networking websites offer to paedophiles to meet, interact and eventually attack their victims. In this context, the development of effective methods to automatically detect predatory behaviour is an important research area with high social impact. This preliminary work proposes the use of a character n-grams profile to identify predatory lines in chat conversations. Our proposal builds a profile corresponding to a specific phase identified in the most common models of online predatory communication. Then, the approach finds the parts of the conversation most similar to that phase. We discuss the parameter settings of the proposed method and present some experimental results, using the corpus of the PAN-2012 competition. The preliminary results obtained show some evidence about the usefulness of character n-grams profiles to the detection of predatory lines in written conversations.





Braña, Juan Pablo; Litterio, Alejandra; Fernández, Alejandro
Centro de Altos Estudios en Tecnología Informática (CAETI)

“FSAL: Lexicón de dominio específico para los Mercados Financieros Argentinos”

Existen múltiples escenarios que resultan propicios para desarrollar e implementar técnicas de Machine Learning para detectar cómo las noticias del ámbito de las finanzas impactan en los mercados y en el proceso de toma de decisiones cuando se trata de comprar o vender una acción u otro título financiero. En las últimas décadas, se ha estudiado cómo el Análisis de Sentimiento basado en lexicones en combinación con técnicas de Machine Learning puede ser utilizado para implementar estrategias de Trading Algorítmico. El presente trabajo tiene como objetivo mostrar que un lexicón de dominio específico especialmente diseñado por expertos en el área de finanzas (FSAL) obtiene mejores resultados que un lexicón de propósitos generales (SDAL). En primer lugar presentamos un “lexicón a medida”, en segundo lugar, mostramos, en base al experimento llevado a cabo, que nuestro lexicón supera los resultados obtenidos en comparación a los resultados de un lexicón de propósitos generales aplicado sobre un corpus compuesto por tweets previamente clasificado de manera colaborativa por expertos en finanzas. Nuestro enfoque metodológico se basa en una perspectiva híbrida donde se combina el uso de un lexicón a medida con estrategias de aprendizaje supervisado. Finalmente, presentamos algunas conclusiones preliminares y consideraciones sobre trabajos futuros.





Carlos G. Velázquez 1, Leticia C. Cagnina 1,2, Marcelo L. Errecalde 1
1 LIDIC - Universidad Nacional de San Luis. San Luis, Argentina.
2 Consejo Nacional de Investigaciones Cient ́ıficas y T ́ecnicas (CONICET)

“On the Use of Wikipedia’s Quality Metrics”

Developing metrics to estimate the information quality of Wikipedia articles is an interesting and important research area. In this article, we review some of the main aspects to be considered when using quality metrics for Wikipedia and propose a new quality metric based on the “external support” of an article. The rationale behind this metric is identified, a definition of the metric is presented and some implementation aspects are described. Preliminary results show the feasibility of our proposal and its potential to discriminate high quality versus low quality Wikipedia’s articles.





Garciarena Ucelay, María José; Villegas, María Paula; Cagnina, Leticia; Errecalde, Marcelo
Laboratorio de Investigación y Desarrollo en Inteligencia Computacional Universidad Nacional de San Luis

“Representaciones de documentos para la tarea de Perfilado de Autor: estudio preliminar usando un corpus formal en español”

El Perfilado de Autor es la tarea de predecir características del autor de un texto dado. Esta tarea está creciendo en importancia debido a las potenciales aplicaciones en seguridad, criminología y marketing, entre otros. Dos puntos fundamentales a tener en cuenta para la mayor parte de las tareas de clasificación son la calidad/tamaño de la colección utilizada para realizar el entrenamiento/prueba de los modelos y su inherente representación. En este trabajo realizaremos un estudio preliminar comparando distintas representaciones, desde las clásicas hasta las más recientes y elaboradas, de forma tal de analizar la robustez de ellas cuando se utiliza un corpus de textos formales en idioma español. Los primeros resultados obtenidos muestran que representaciones más simples podrían ser más adecuadas para este tipo de corpus. Además, con este trabajo se pretende realizar un nuevo aporte, ya que, a nuestro entendimiento, este tipo de estudio no se ha realizado para textos formales en español debido a la falta de datos con los cuales experimentar.





Braña, Juan Pablo; Litterio, Alejandra; Fernández, Alejandro

Centro de Altos Estudios en Tecnología Informática (CAETI)
“Sistema en Tiempo Real de Análisis de Sentimiento para la clasificación de opiniones financieras en los Mercados Argentinos”

Las noticias financieras tienen un alto impacto en el movimiento de precios de títulos que cotizan en los mercados bursátiles. Analizar esas noticias en tiempo real puede brindar a los inversores importantes herramientas en la toma de decisiones de compra y venta de dichos instrumentos, en especial, en operaciones automáticas conocidas como Trading Algorítmico. El propósito de este trabajo es mostrar la arquitectura de un software que permite recolectar noticias y opiniones financieras, políticas y económicas desde Twitter en el marco de los mercados de valores de Argentina, procesarlas con técnicas de Natural Language Processing (NLP), clasificarlas con un algoritmo de Machine Learning (ML): Random Forest en positivas o negativas, generar un índice de sentimiento el cual es correlacionado con los movimientos bursátiles en tiempo real. El enfoque metodológico colaborativo consta de una interfaz web, donde especialistas clasifican tweets para generar un corpus de entrenamiento y se utiliza un lexicón de dominio específico en el campo de las finanzas (FSAL – Financial Sentiment Analysis Lexicon). Se emplea la plataforma de estadística computacional R para las tareas de NLP, ML y cálculos de indicadores. El sistema operativo sobre el cual se implementa este software es GNU/Linux Debian.





Zamora, Sofía; Acuña, Diego
Instituto de Literatura y Ciencias del Lenguaje, Pontificia Universidad Católica de Valparaíso

“ANMOP: una herramienta para el análisis léxico-gramatical y retórico-discursivo del género”

Esta herramienta surge en respuesta a la necesidad de optimizar los análisis léxico-gramaticales y retórico-discursivos de distintos géneros discursivos, en concreto, el Trabajo Final de Grado (TFG). En este sentido, se propone un sistema informático para analizar documentos utilizando técnicas relacionadas con Natural Language Processing (NLP). El sistema fue desarrollado utilizando el lenguaje de programación PHP para la ejecución de las acciones de éste y los lenguajes HTML/Javascript para la parte visual del sistema. ANMOP permite el etiquetado retórico-discursivo de un corpus de manera semiautomática, por medio de la aplicación del modelo de análisis retórico-discursivo del TFG (Venegas, Zamora & Galdames, en prensa). Asimismo, se posibilita la aplicación de algunas herramientas de NLP (tales como Connexor, FreeLing, NTK) en los textos etiquetados, con el fin de describir variables léxico-gramaticales, como etiquetado morfosintáctico, lematización, búsqueda de n-gramas, entre otros. Otra aplicación de ANMOP, actualmente en exploración, corresponde al análisis de género en contextos didácticos, en donde algunas de las herramientas del sistema permiten la retroalimentación correctiva de la escritura del género TFG. Debido a la flexibilidad de la plataforma en términos de la indexación de los documentos que se ingresan para análisis, es posible extender las capacidades de análisis del sistema sin mayores complicaciones. La plataforma fue diseñada de tal forma que expone una interfaz simple de análisis de texto, lo que permite proyectar la incorporación de nuevos algoritmos y herramientas de análisis de una manera rápida y eficiente.





Nazar, Rogelio
Instituto de Literatura y Ciencias del Lenguaje, Pontificia Universidad Católica de Valparaíso

“Implementación en código abierto de un algoritmo estadístico para la inducción automática de taxonomías”

En esta presentación describo una implementación en código abierto de un algoritmo estadístico para la inducción de taxonomías a partir de corpus lexicográficos y textuales. Concretamente, se trata de una taxonomía de sustantivos generales, es decir con encunciados del tipo "la bicicleta es un tipo de vehículo", etc. El diseño de la estrategia es el resultado de proyectos de investigación Fondecyt (11140686 y 11140704) en colaboración con Irene Renau, cuyos resultados parciales se presentan también en este mismo foro. En distintas publicaciones hemos descrito y evaluado los resultados de la inducción de taxonomías en diferentes lenguas y también la aplicación de estas taxonomías a la resolución de problemas específicos dentro de la lingüística computacional, tales como el modelamiento del comportamiento colocacional de las unidades léxicas o de la estructura argumental de los predicados. En esta demo de software solo presentaré un segmento de mi aporte individual al proyecto, que consiste en la implementación del algoritmo en el lenguaje Perl para sistemas operativos Linux-Debian. Esta nueva versión estable, cuyo código fuente se ofrece al público, está ya disponible online en la web del proyecto: http://www.tecling.com/taxo





Castro, Ana; González, Emmy; López, Benjamín; Nazar, Rogelio; Obreque, Javier; Renau, Irene
Instituto de Literatura y Ciencias del Lenguaje, Pontificia Universidad Católica de Valparaíso

“Verbos en contexto: automatización de patrones sintáctico­semánticos con técnicas de análisis de corpus”

En esta propuesta, presentamos el estado de avance de un proyecto en curso dedicado al análisis del léxico en castellano, en particular, el análisis de verbos. Dicho proyecto se fundamenta en la concepción del vocabulario como una pieza de un sistema comunicativo complejo que incorpora no solo el significado intrínseco de una palabra, sino en conexión con su contexto de aparición. Las palabras no tienen, según nuestro enfoque, un significado aislado ​a priori, ​sino que, teniendo en potencia una serie de posibles usos, activan uno de ellos en función del contexto comunicativo (Malinowski 1923[1943], Wittgenstein 1921[2007], Harris 1954[1985], Halliday 1978, Sinclair 1999, Hanks 2013 y otros). Así, el verbo ​cubrir no tiene un significado ​per se: ​en la frase ​ "La madre cubrió al niño con una manta" significa ‘tapar, poner algo encima de otra cosa’, mientras que en la frase ​"El reportero cubrió la noticia"​ significa ‘transmitir, comunicar (un suceso)’. Por el momento, con vistas a limitar y hacer viable una primera aproximación al problema, contemplamos la diferencia entre ambas frases solo en términos de contexto sintagmático, entendiendo por tal la combinación de elementos sintácticos y semánticos: la estructura oracional y las características semánticas de los argumentos verbales. Específicamente, el proyecto tiene un doble objetivo: configurar una base de datos de análisis de verbos, que denominamos «diccionario de patrones​»​, elaborado mediante el análisis manual de corpus; e implementar una metodología de análisis automático de corpus con el fin de reproducir el procedimiento manual. Este segundo objetivo tiene una gran cantidad de aplicaciones prácticas vinculadas al procesamiento del lenguaje natural, en áreas dispares como el etiquetado automático de corpus (sintáctico y semántico), la enseñanza de lengua asistida por computador, la lexicografía o la creación de ontologías y otros recursos léxicos.





Nazar, Rogelio; Renau, Irene
Instituto de Literatura y Ciencias del Lenguaje, Pontificia Universidad Católica de Valparaíso

“Jaguar: una herramienta en código abierto para la extracción de información textual”

Presentamos Jaguar 2.0, una herramienta de análisis estadístico y computacional de textos que permite la extracción de cantidades masivas de datos procedentes de los textos procesados por el programa. Este sistema consiste en una “caja de herramientas” que permite al usuario hacer distintas operaciones de análisis estadístico de textos y extracción de información. Asimismo, es posible programar tareas en distintos niveles de desempeño, desde el usuario no experto hasta el ingeniero computacional. La nueva versión es más completa y eficiente que la anterior, e incorpora más niveles de análisis como la información morfosintáctica de las lenguas analizadas y también mayores posibilidades de automatización, como el análisis cluster o la clasificación de diversos elementos textuales.





Aguilar, César
Pontificia Universidad Católica de Chile

“Una propuesta para extraer contextos definitorios en un corpus de medicina: resultados preliminares”

En este trabajo se presenta una metodología para extraer contextos definitorios desde corpus de biomedicina en español, con el fin de generar los siguientes productos: (i) un listado de candidatos a término, (ii) un listado de candidatos a contexto definitorio, y (iii) una taxonomía de términos biomédicos basada en relaciones de hiponimia/hiperonimia. Nuestro método permite crear un sistema capaz de extraer tales contextos, el cual puede verse como un módulo que cubriría las primeras etapas a seguir para construir una ontología basada en información textual.





Castillo Fadic, Natalia
Facultad de Letras - Pontificia Universidad Católica de Chile

“Desarrollo de un instrumento fonético acústico al servicio de las personas con condiciones crónicas de salud”

En Chile, un elevado porcentaje de personas con enfermedades crónicas cardiovasculares no logra realizar un automanejo eficiente, que le permita compensarse metabólicamente y evitar complicaciones. Un factor que dificulta este automanejo es la baja literacidad en salud (LS), que corresponde al grado en que las personas son capaces de acceder, comprender, evaluar y comunicar información para comprometerse con las demandas de salud, con el fin de promover y mantener una buena salud a lo largo de su vida. Uno de los aspectos involucrados en la LS es el lingüístico, con énfasis en el nivel léxico, que se asocia a las dificultades para comprender las explicaciones del personal de salud y seguir sus instrucciones. La distancia constatada entre el léxico del personal de salud y el de los pacientes a través de la aplicación de test de disponibilidad léxica en los centros de interés 1) el cuerpo humano, 2) la salud y 3) la diabetes da cuenta de la necesidad de contribuir a la promoción de un acceso efectivo de los pacientes a la salud. Puesto que la evaluación de los distintos componentes de la LS es una tarea compleja para la que difícilmente se dan las condiciones en los centros de atención primaria, desarrollamos un instrumento de evaluación que puede ser usado por el personal de salud de nuestra comunidad de modo sencillo y expedito, para determinar si el paciente conoce los vocablos más relevantes en relación con su condición. Para ello, se elaboró un listado de vocablos meta a partir de métodos cuantitativos y cualitativos y se programó un script en Praat, basado en la previa determinación de qué variables suprasegmentales presentan correlación significativa con la familiaridad léxica. Este script dio origen a una aplicación independiente y amigable con el usuario, que puede utilizarse sin necesidad de saber usar el programa de origen. Cuando el instrumento indique que el paciente desconoce los vocablos relevantes, podrá realizarse una instancia de mediación lingüística que traduzca a la lengua común las unidades léxicas de la lengua especializada y facilite, así, el acceso de las personas con condiciones crónicas de salud la información mínima necesaria para ejercer un autocuidado eficaz.





Barahona Gamboa, Hazel
Universidad de Costa Rica

“Representación ontológica de la meronimia e hiponimia en un corpus del léxico gastronómico”

El objetivo de este trabajo consiste en representar por medio de los formalismos ontológicos las relaciones léxico-semánticas de un corpus del léxico específico de Costa Rica, con la finalidad de mostrar otra aplicación de los postulados de Basic Formal Ontology (Smith, 2014), aplicables no solo a las ontologías biomédicas sino también a la rigurosidad de un corpus lingüístico basado en la experiencia y en el uso de la lengua por parte de los hablantes. El corpus recopilado consta de 596 recetas, 4562 ingredientes extraídos por medio de un programa computacional denominado Gastronimias. Las relaciones meronímicas e hiponímicas obtenidas se basan en la organización is_a bajo la clasificación de continuantes independientes. Como resultado se obtuvo una representación ontológica en dos niveles para las relaciones léxico-semánticas.





Koza, Walter
Instituto de Literatura y Ciencias del Lenguaje, Pontificia Universidad Católica de Valparaíso

“La serie enumerativa en español. Formalización y detección automática”

Se presenta una formalización de la estructura de la serie enumerativa en español para una posterior implantación computacional. Este fenómeno, estudiado por autores como Luc (2001) y Cortés (2008), entre otros, puede definirse como una construcción textual compuesta por una matriz (un elemento que es expandido por la enumeración), un enumerador (elemento sintáctico que permite que la enumeración pueda insertarse en la cláusula) y una enumeración (una coordinación de, al menos, tres elementos con la misma función sintáctica. Cada elemento de una enumeración se denomina ‘enumerando’ y estos se relacionan con un ‘enumeratema’ (Ho-Dac, Péry-Woodley & Tanguy, 2010), estableciendo una relación de hiperonimia-hiponimia (e.g. ‘los días lunes, martes y miércoles’, donde ‘días’ es el enumeratema y ‘lunes’, ‘martes’ y ‘miércoles’ los enumerandos). Sobre esta descripción, se realizó una formalización que permitió una implantación computacional. Para ello, se recurrió al programa NooJ (Silbertztein, 2005, 2016) y dicho método fue probado en un corpus compuesto por entradas de Wikipedia relacionadas con el dominio médico, logrando 100% de precisión, 52,50% de exhaustividad y 68,65% de medida F. Se plantean los aportes del presente estudio para los estudios gramaticales y la lingüística computacional, a la vez que se establecen nuevos lineamientos de trabajo.





Alves, Lucimara
Instituto de Literatura y Ciencias del Lenguaje, Pontificia Universidad Católica de Valparaíso

“La lexicografía y las nuevas tecnologías: utilización de herramientas computacionales en la creación de diccionarios”

Resumen disponible en breve.





Lobos, Ignacio
Instituto de Literatura y Ciencias del Lenguaje, Pontificia Universidad Católica de Valparaíso

“Descripción léxico-gramatical de movidas retóricas en Trabajos Finales de Grado: el caso de Ingeniería Civil Informática”

Resumen disponible en breve.





Arriagada, Patricio; Nazar, Rogelio
Pontificia Universidad Católica de Valparaíso

“Clasificación automática de nombres propios utilizando pistas cotextuales”

En este trabajo presentamos una metodología para la clasificación automática de nombres propios en las categorías de antropónimo, topónimo y nombre organización. Nuestra propuesta se basa en analizar el carácter predictor de los elementos del contexto léxico de los sustantivos. Observamos que determinados verbos como por ejemplo "considerar", suelen tener como sujeto a un humano y no a un lugar. Pero esto puede variar en función del corpus, ya que en uno de geopolítica podemos encontrar contextos como "Washington considera el envío de tropas sobre el terreno". Por la naturaleza del problema, adoptamos un análisis cuantitativo de la coocurrencia de unidades léxicas, tanto de verbos como de otras categorías gramaticales en un corpus de dimensión media, la edición en castellano de la revista Le Monde Diplomatique. Con fines de referencia, realizamos un estudio comparativo del desempeño de varios sistemas de clasificación sobre este mismo corpus. Con la metodología cuantitativa propuesta conseguimos una precisión comparativamente alta en la clasificación de nombres propios, con alrededor de 20 puntos porcentuales por encima de Freeling, que es uno de los sistemas más utilizados actualmente para esta tarea.





Acosta, Nicolás; Nazar, Rogelio; Renau, Irene
Instituto de Literatura y Ciencias del Lenguaje, Pontificia Universidad Católica de Valparaíso

“Creación de nuevas reglas en el software de asistencia a la redacción Estilector”

El programa Estilector se desarrolló en la Pontificia Universidad Católica de Valparaíso en el marco de un proyecto Unidad de Mejoramiento de la Docencia Universitaria (Vicerrectoría Académica) y en su primera versión se presentó como un prototipo de software online diseñado para la ayudar a los estudiantes a detectar errores en sus redacciones. En esta ocasión, presentamos ahora un nuevo diseño de su implementación computacional, que facilitará la integración del trabajo colaborativo para la mejora de este programa. Dada la naturaleza del algoritmo en que el programa se sustenta, es necesario un trabajo colaborativo entre expertos en lingüística y expertos en informática. Para ello, hemos organizado la implementación mediante un esquema modular, separando así una parte nuclear del código y una serie de módulos independientes en forma de sistemas de reglas lingüísticas que se clasifican a su vez según tema, como por ejemplo, problemas relacionados con el uso de preposiciones, de mayúsculas, puntuación, problemas con marcadores discursivos, etc. Esta organización modular facilita la colaboración entre programadores y lingüistas ya que provee un sistema de plantillas para que el lingüista provea las reglas gramaticales y las distintas informaciones relativas al caso (ejemplos de uso correcto, fuentes, referencias bibliográficas, etc.) y para que el programador pueda traducir esas reglas al código Perl, que es el lenguaje de programación en el que está implementado Estilector. Un aspecto también importante de este nuevo diseño modular es que abre la puerta a una futura versión multilingüe, ya que separa el código de la información lingüística. El programa se encuentra actualmente en funcionamiento en línea: http://www.estilector.com/





Martínez, Ricardo
Facultad de Filosofía y Humanidades, Universidad de Chile

“Análisis computacional de la red social de la escena literaria chilena actual”

El análisis de redes sociales ("social network analysis") ha sido utilizado recientemente para determinar empíricamente y con datos robustos la constitución y configuración de escenas musicales (Crossley 2008, 2009, 2015). Se entiende por "escena" a una comunidad que comparte una forma de expresión artística y que se halla compuesta, en el caso de las escenas musicales, por agentes como músicos, creadores, intérpretes, periodistas, diseñadores, medios de prensa, radios, productoras, entre otros. Una "escena" en este entendido, surge cuando los agentes/actores de una comunidad alcanzan un grado de clausura ("clousure") y densidad ("density") determinados. En el presente estudio se proyecta el método de análisis de las escenas musicales para la escena literaria chilena actual (escritoras y escritores que han publicado textos literarios entre los años 2009-2013) en Chile, caracterizando los elementos (actores) centrales de la red, sus vinculaciones internas y sus nodos centrales, con herramientas de la lingüística computacional.





Venegas, René


“Análisis automático de la estructura retórico-discursiva en el género tesis de licenciatura”

Resumen disponible en breve.





Ramos, Andres1,2; Allende-Cid, Héctor1; Koza, Walter1; Alfaro, Rodrigo1
1 Pontificia Universidad Cat ́olica de Valparaíso
2 Universidad de Valparaíso

“A Machine Learning approach for the Classification by Specialty of Spanish-written Medical Papers”

Due to the vast amount of text published on the Internet, the retrieval of the relevant information is a highly complex task. Automatic Document Classifications allows to access this information faster, being especially relevant in the medical area, where medical practitioners should be able to obtain relevant documents by title or domain of specialty. In this paper we present a method for medical paper classification by specialty using machine learning algorithms. In order to generate the dataset, we used the morphological analysis software Freeling and the Eagles tagset. We then represent the text of the documents using word frequency measures such as TF-IDF and TF-RFL on different Parts-of-Speech (verbs, nouns, adjective and combinations of them). In our experiments, we applied SVM, Classification Tree and Bayesian models, and we compared the results using recall, precision, F1 and Accuracy scores. The best results were obtained using the TF-RFL representation and Support Vector Machines.