Introducción a la lingüística computacional
Bienvenidos:
Ésta es la página del curso de introducción a la lingüística computacional (LC), la cual es un área interdisciplinaria que trata de vincular a la lingüística y las ciencias de la computación, con miras a desarrollar modelos de análisis y herramientas que permitan comprender, procesar y generar lenguaje natural a partir de computadoras.
Si bien para algunos puede resultar novedosa, la LC se viene gestando por lo menos desde los años 60, y en la actualidad se ha ido incrementando su campo de acción generando nuevas líneas de investigación, así como también ha ayudado a la creación de herramientas computacionales de uso común hoy en día. A grandes rasgos, podríamos decir que los correctores ortográficos, los diccionarios electrónicos, los traductores automáticos e incluso los buscadores WEB como Google son resultados vinculados con el trabajo de la LC.
Así, este curso es una introducción general al tema. Dada la vastedad de temas que se pueden tratar aquí, el objetivo principal es centrarnos en algunos tópicos que son comunes a muchas líneas de investigación en LC, priorizando sobre todo el análisis de textos, más que el análisis de voz. Lo que haremos entonces será:
Para mayores detalles, aquí pueden descargar el programa del curso, así como el temario que he estructurado para organizar los contenidos que vamos a trabajar.
Ahora bien, he procurado que los textos que vayamos a leer sean accesibles para ustedes, por lo que buena parte de este material lo encontrarán en formatos de página WEB o documentos en PDF. de este modo, para cada sesión, podrán revisar tales materiales, y en caso de consultas o dudas, podrán volver a él cuando lo requieran.
Los textos básicos que vamos a trabajar en el curso son:
1. Bird, Steven, Klein, Ewan y Loper, Edward (2010): Natural Language Processing with Python. Analyzing Text with the Natural Language Toolkit, Sebastropol, Cal., O'Reilly Media. Sitio electrónico: http://nltk.org/book/.
2. Bolshakov, Igor y Gelbukh, Alexander (2004): Computational Linguistics: Models, Resources, Applications, México, IPN-UNAM-FCE. Sitio electrónico: www.gelbukh.com/clbook/.
3. Galicia, Sofía y Gelbukh, Alexander (2007): Investigaciones en análisis sintáctico para el español, México, IPN. Sitio electrónico: www.gelbukh.com/libro-investigaciones/.
4. Gelbukh, Alexander y Sidorov, Grigori (2010): Procesamiento automático del español con enfoque en recursos léxicos grandes, México, IPN. Sitio electrónico: www.gelbukh.com/libro-procesamiento-2/.
5. Jurafsky, Daniel y Martin, James (2009): Speech and Language Processing, Second Edition, New Jersey, Prentice Hall. Sitio electrónico: www.cs.colorado.edu/~martin/slp2.html.
Respecto a la evaluación del curso, les propongo lo siguiente:
Algunas cuestiones a considerar aquí son:
Espero que este curso les sea provechoso. Suerte con todo.
Ésta es la página del curso de introducción a la lingüística computacional (LC), la cual es un área interdisciplinaria que trata de vincular a la lingüística y las ciencias de la computación, con miras a desarrollar modelos de análisis y herramientas que permitan comprender, procesar y generar lenguaje natural a partir de computadoras.
Si bien para algunos puede resultar novedosa, la LC se viene gestando por lo menos desde los años 60, y en la actualidad se ha ido incrementando su campo de acción generando nuevas líneas de investigación, así como también ha ayudado a la creación de herramientas computacionales de uso común hoy en día. A grandes rasgos, podríamos decir que los correctores ortográficos, los diccionarios electrónicos, los traductores automáticos e incluso los buscadores WEB como Google son resultados vinculados con el trabajo de la LC.
Así, este curso es una introducción general al tema. Dada la vastedad de temas que se pueden tratar aquí, el objetivo principal es centrarnos en algunos tópicos que son comunes a muchas líneas de investigación en LC, priorizando sobre todo el análisis de textos, más que el análisis de voz. Lo que haremos entonces será:
- Conocer los fundamentos teóricos de las LC como interdisciplina.
- Conocer las principales tareas y aplicaciones de la LC.
- Conocer los principales métodos lingüísticos y estadísticos aplicados por la LC.
- Conocer algunas herramientas computacionales para el tratamiento de fuentes textuales, específicamente en los niveles léxico, sintáctico y semántico.
Para mayores detalles, aquí pueden descargar el programa del curso, así como el temario que he estructurado para organizar los contenidos que vamos a trabajar.
Ahora bien, he procurado que los textos que vayamos a leer sean accesibles para ustedes, por lo que buena parte de este material lo encontrarán en formatos de página WEB o documentos en PDF. de este modo, para cada sesión, podrán revisar tales materiales, y en caso de consultas o dudas, podrán volver a él cuando lo requieran.
Los textos básicos que vamos a trabajar en el curso son:
1. Bird, Steven, Klein, Ewan y Loper, Edward (2010): Natural Language Processing with Python. Analyzing Text with the Natural Language Toolkit, Sebastropol, Cal., O'Reilly Media. Sitio electrónico: http://nltk.org/book/.
2. Bolshakov, Igor y Gelbukh, Alexander (2004): Computational Linguistics: Models, Resources, Applications, México, IPN-UNAM-FCE. Sitio electrónico: www.gelbukh.com/clbook/.
3. Galicia, Sofía y Gelbukh, Alexander (2007): Investigaciones en análisis sintáctico para el español, México, IPN. Sitio electrónico: www.gelbukh.com/libro-investigaciones/.
4. Gelbukh, Alexander y Sidorov, Grigori (2010): Procesamiento automático del español con enfoque en recursos léxicos grandes, México, IPN. Sitio electrónico: www.gelbukh.com/libro-procesamiento-2/.
5. Jurafsky, Daniel y Martin, James (2009): Speech and Language Processing, Second Edition, New Jersey, Prentice Hall. Sitio electrónico: www.cs.colorado.edu/~martin/slp2.html.
Respecto a la evaluación del curso, les propongo lo siguiente:
- Aplicación de 4 controles temáticos: 20%.
- Desarrollo de 4 trabajos parciales, para el desarrollo de una cadena de procesamiento para un corpus textual en inglés: 20%.
- Reporte final del resultado obtenido tras desarrollar la cadena de procesamiento previamente descrita: 60%.
Algunas cuestiones a considerar aquí son:
- La idea de trabajar con textos en inglés es porque el paquete de herramientas lingüísticas que vamos a usar (NLTK) tiene una enorme cantidad de recursos para esta lengua. Tomando en cuenta que este curso es una introducción, la idea es que ustedes se familiaricen los métodos, las técnicas y los procesos que se siguen en LC. Por ello, creo que vale la pena aprovechar dichos recursos para entender cómo se hacen las cosas en LC.
- No he considerado abordar el tema de procesamiento de voz, principalmente porque no es mi área, además de que muchas técnicas y recursos son paralelos a lo que se hace en procesamiento de texto. Si alguien se interesa por trabajar en dicho tema, por favor avísenme con tiempo para considerarlo.
- Cualquier consulta, estoy tanto disponible en la clase como en oficina. Para ello, por favor, manden un correo previo para pedir cita.
Espero que este curso les sea provechoso. Suerte con todo.