Clase del martes 05/11/2013
Saludos:
Les pido de antemano una disculpa por el retraso con la entrega, pero pongo a su disposición las láminas de la sesión de hoy, las cuales les ofrecen una guía para realizar la tarea les presenté al mediodía: hacer dos tipos de análisis sintácticos en corpus textuales, en concreto el corpus Brown y el corpus CoNLL 2000.
La idea es que hagan una búsqueda de patrones de estructura de frase (en concreto: frases nominales, prepositivas y verbales) en el corpus Brown, y posteriormente, traten de identificar estos mismos patrones en el CoNLL 2000, pero ahora considerando una evaluación de precisión y cobertura para determinar la calidad de sus patrones.
En torno a este método, una forma de mejorar los resultados es considerar la identificación de unigramas y bigramas que subyazcan en los patrones de frase que van a buscar. Para hacer esto, tendrán que ocupar el siguiente código que les permita crear dos clases de objetos: un parser con unigramas, y un parser con bigramas.
Para terminar, algunos puntos a recordar respecto a la entrega de su trabajo:
Suerte con todo.
Saludos:
Les pido de antemano una disculpa por el retraso con la entrega, pero pongo a su disposición las láminas de la sesión de hoy, las cuales les ofrecen una guía para realizar la tarea les presenté al mediodía: hacer dos tipos de análisis sintácticos en corpus textuales, en concreto el corpus Brown y el corpus CoNLL 2000.
La idea es que hagan una búsqueda de patrones de estructura de frase (en concreto: frases nominales, prepositivas y verbales) en el corpus Brown, y posteriormente, traten de identificar estos mismos patrones en el CoNLL 2000, pero ahora considerando una evaluación de precisión y cobertura para determinar la calidad de sus patrones.
En torno a este método, una forma de mejorar los resultados es considerar la identificación de unigramas y bigramas que subyazcan en los patrones de frase que van a buscar. Para hacer esto, tendrán que ocupar el siguiente código que les permita crear dos clases de objetos: un parser con unigramas, y un parser con bigramas.
Para terminar, algunos puntos a recordar respecto a la entrega de su trabajo:
- Fecha de entrega: viernes 15 de noviembre, máximo a las 12:00 a.m. (doce de la noche).
- El trabajo debe incluir una descripción mínima sobre el tipo de análisis que están realizando, así como del tipo de métodos que están aplicando.
- En el caso de los patrones extraídos del corpus Brown, seleccionen los 100 primeros resultados, y me los envían como un anexo de su trabajo, en formato de texto plano. Importante: no se olviden de presentar y explicar en sus trabajos la gramática que hayan elaborado para buscarlos.
- En el caso de la evaluación de precisión y cobertura, Integren a su trabajo las frecuencias que generen sus programas.
- Cualquier consulta, mándenme un correo, o lo vemos en clase.
Suerte con todo.