Tarea 1: Etiquetado de un corpus (14/10/2020)

Tarea 1 del curso: creación de un corpus con etiquetado gramatical

Saludos:

Como se los había comentado antes, en esta página podrán encontrar las instrucciones necesarias para realizar la segunda tarea del curso: generar y etiquetar un corpus especializado perteneciente al área de medicina. Para ello, les mando un correo con una invitación a una carpeta en DropBox, para que accedan a una carpeta que contiene los documentos con los que van a trabajar.

Siguiendo con nuestro esquema de hacer esta clase de tareas en equipos, les propongo que continúen laborando por pares. Así, tenemos dos grupos: uno de ellos trabaja con la colección English_Medical_Corpus01, y otro con la English_Medical_Corpus02.

Ahora, retomando las tareas que tienen que hacer, son las siguientes:

I. La primera parte es siempre obligatoria: hay que descargar ambos corpus en formato TXT (texto plano). Posteriormente, procesar tales archivos de tal forma que los puedan convertir, primero, en una cadena de caracteres, luego en una lista de palabras, y finalmente en un lista do de tokens. Para ver como pueden hacer esto, les recomiendo que lean el capítulo 3 del manual de NLTK: www.nltk.org/book/ch03.html, en concreto la sección titulada: "Reading Local Files".

II. La segunda parte consiste en transformar su corpus, ahora convertido en un listado de tokens, en un objeto con el atributo text, lo cual pueden realizar usando la siguiente instrucción:

text = nltk.Text(tokens)

Lo que quiere decir que primero tienen que asignar un nombre de variable a su objeto text, luego, ocupan la instrucción que les permite transformar su lista de tokens (aquí denominada simplemente tokens) en el objeto text.

III. Una vez que hayan convertido su corpus en un texto, van a hacer las siguientes búsquedas:

a) Búsqueda de concordancias: realicen una búsqueda de concordancias considerando estos términos:

Analysis
Disease
Disorder
Test
Treatment

b) Una vez que tengan sus concordancias, podrán deducir cuál es el contexto de aparición de sus palabras. Traten de deducir algunas de estas palabras cercanas usando la instrucción text.similar().

c) Tras buscar palabras similares en el contexto, generen un gráfico de dispersión, considerando los 5 términos iniciales de su búsqueda.

Para que tengan una mejor idea de cómo hacer esto, revisen el capítulo 1 del manual de NLTK: www.nltk.org/book/ch01.html.

III. Finalmente, conviertan su lista de tokens en un corpus etiquetado. Para hacer esto, deben volver a su lista de tokens, y aplicar la instrucción nltk.pos_tag. Un ejemplo es:

tokens = nltk.pos_tag(tokens)

En donde el nombre de variable tokens representa su listado de tokens generado previamente.

Los resultados que generen los presentarán y explicarán brevemente en un reporte, en el cual incluirán copias de pantalla de tales resultados.

Recordatorio: la fecha de entrega para el trabajo es el viernes 30 de octubre. El reporte va en formato WORD.

Cualquier consulta o detalle, me pueden enviar un correo.

Suerte con todo.