Tarea 2: Búsqueda de términos en un corpus (24/10/2017)
Saludos:
Esta clase vamos a dedicarla a la realización de la primera tarea del curso, la cual consiste en una búsqueda de términos en un corpus especializado. En este caso, vamos a trabajar con el corpus Bwananet, del cual hemos hablado en la clase del martes pasado.
La tarea consiste en lo siguiente:
Una vez que hayan obtenido resultados del corpus Bwananet, haremos una segunda exploración, pero ahora en el corpus CREA, desarrollado por la Real Academia Española. Esta segunda exploración empleará los mismos términos base de datos y base de conocimientos, pero consideramos algunos criterios diferentes, en concreto:
Finalmente, comparen los resultados que se generaron tras estas búsquedas en los corpus Bwananet y CREA, y respondan a la siguiente pregunta: ¿qué corpus ofrece datos más precisos: el CREA o Bwananet, y por qué?
La respuesta a esta pregunta la van a desarrollar en el formato de un reporte de investigación, el cual considere los siguientes rubros:
a) Un resumen o abstract que describa brevemente de qué trata el informe
b) Una descripción del problema que están tratando, basándose en las dos preguntas de investigación que nos planteamos previamente.
c) La descripción detallada de todo el procesos que siguieron en sus búsquedas, lo que conforma su metodología o método de trabajo.
d) Finalmente, incluyan los resultados que obtuvieron, y respondan a la pregunta.
Este informe lo van a redactar por equipos, en formato WORD, y me lo mandan por correo a la siguiente dirección: cesar_punto_aguilar72_arroba_gmail_punto_com.
La fecha límite para el envío de su reporte es el martes 31 de octubre, antes de las 11:59 p.m.
Cualquier duda, mándenme un correo y lo vemos.
Suerte con todo.
Esta clase vamos a dedicarla a la realización de la primera tarea del curso, la cual consiste en una búsqueda de términos en un corpus especializado. En este caso, vamos a trabajar con el corpus Bwananet, del cual hemos hablado en la clase del martes pasado.
La tarea consiste en lo siguiente:
- Vamos a revisar qué criterio de búsqueda es más eficaz para obtener información relacionada con el uso de los términos base de datos y base de conocimientos.
- Para hacer lo anterior, compararemos el uso de estos dos términos en documentos pertenecientes a las siguientes áreas de conocimiento: (i) informática, (ii) medicina y (iii) lingüística.
- Esta exploración será guiada por la siguiente pregunta de investigación: ¿Cuál criterio de búsqueda es más productivo: hacer concordancias únicamente considerando formas de palabras, o combinando tales formas con lemas y etiquetas gramaticales?
- Una vez hecha esta exploración, discutiremos los resultados en clase, por equipos.
Una vez que hayan obtenido resultados del corpus Bwananet, haremos una segunda exploración, pero ahora en el corpus CREA, desarrollado por la Real Academia Española. Esta segunda exploración empleará los mismos términos base de datos y base de conocimientos, pero consideramos algunos criterios diferentes, en concreto:
- Hagan esta búsqueda seleccionando textos de ciencia y tecnología, pertenecientes a todos los países. Señalen las frecuencias de aparición de estos términos en tales colecciones.
- Una vez hecho lo anterior, ahora comparen la frecuencia de aparición de los mismos términos, seleccionando las siguientes sub-áreas: (a) informática, (b) medicina y (c) lingüística y lenguaje. ¿Qué sub-área hace más uso de estos términos?
- Ahora, contrasten su uso entre documentos pertenecientes a los siguiente países: (i) España, (ii) Chile, (iii) México y (iv) Argentina. ¿Qué país muestra mayor frecuencia de uso en sus documentos?
Finalmente, comparen los resultados que se generaron tras estas búsquedas en los corpus Bwananet y CREA, y respondan a la siguiente pregunta: ¿qué corpus ofrece datos más precisos: el CREA o Bwananet, y por qué?
La respuesta a esta pregunta la van a desarrollar en el formato de un reporte de investigación, el cual considere los siguientes rubros:
a) Un resumen o abstract que describa brevemente de qué trata el informe
b) Una descripción del problema que están tratando, basándose en las dos preguntas de investigación que nos planteamos previamente.
c) La descripción detallada de todo el procesos que siguieron en sus búsquedas, lo que conforma su metodología o método de trabajo.
d) Finalmente, incluyan los resultados que obtuvieron, y respondan a la pregunta.
Este informe lo van a redactar por equipos, en formato WORD, y me lo mandan por correo a la siguiente dirección: cesar_punto_aguilar72_arroba_gmail_punto_com.
La fecha límite para el envío de su reporte es el martes 31 de octubre, antes de las 11:59 p.m.
Cualquier duda, mándenme un correo y lo vemos.
Suerte con todo.