Clase del miércoles 16/09/2020
Saludos:
Ya están disponibles las láminas para la clase de hoy, en las que abordaremos algunas cuestiones relacionadas con el análisis de palabras en corpus, para lo cual vamos a ver dos algoritmos:
Igualmente, vamos a tratar de construir un corpus textual, para lo cual veremos algunas instrucciones que nos permitan acceder a textos en Internet, usando la URL asociada a los archivos que necesitemos descargar. Posteriormente, revisaremos cómo podemos editarlos para volverlos legibles.
Una vez hecho lo anterior, pasaremos a construir nuestro texto, y haremos algunas pruebas, en concreto calcular frecuencias de palabras, así como lematizar nuestros textos usando dos algoritmos: el de Porter y el Lancaster.
Como material de lectura complementario a esta sesión, les dejo las siguientes lecturas:
Bird, S.; Klein, E.; y Loper, E. (2009): "Proccesing Raw Text"; "Categorizing and Tagging Words" en Natural Language Processing with Python. Sitios electrónicos: http://nltk.org/book/ch02.html;
http://nltk.org/book/ch05.html.
Cualquier consulta, la vemos en la clase.
Suerte con todo.
Igualmente, vamos a tratar de construir un corpus textual, para lo cual veremos algunas instrucciones que nos permitan acceder a textos en Internet, usando la URL asociada a los archivos que necesitemos descargar. Posteriormente, revisaremos cómo podemos editarlos para volverlos legibles.
Una vez hecho lo anterior, pasaremos a construir nuestro texto, y haremos algunas pruebas, en concreto calcular frecuencias de palabras, así como lematizar nuestros textos usando dos algoritmos: el de Porter y el Lancaster.
Como material de lectura complementario a esta sesión, les dejo las siguientes lecturas:
Bird, S.; Klein, E.; y Loper, E. (2009): "Proccesing Raw Text"; "Categorizing and Tagging Words" en Natural Language Processing with Python. Sitios electrónicos: http://nltk.org/book/ch02.html;
http://nltk.org/book/ch05.html.
Cualquier consulta, la vemos en la clase.
Suerte con todo.