miércoles, 28 de abril de 2010

Láminas y lecturas para la clase: 28/04/2010

Saludos a todos:

Para esta clase, vamos a continuar revisando métodos probabilísticos, ahora orientádonos hacia la evaluación de los resultados que generemos en una tarea de extracción y clasificación de información.

Así, los materiales que están disponibles son:

1. Las láminas de la clase de hoy.

2. Los capítulos segundo y tercero del libro de Keith van Rijsbergen (Glasgow University) sobre recuperación de información, en donde propone la técnica de Precision & Recall como un recurso útil para clasificar documentos.

3. Las láminas de una presentación hecha por Yutaka Sasaki (NaCTeM, Manchester, UK), quien también propone una clasificación de documentos usando Precision & Recall, así como redes bayesianas.

Finalmente, la Dra. Concepción Pérez de Celis nos proporcionó las láminas que ocupó en su presentación. Si les interesa este material, pueden descargarlo dando un click aquí.

Cualquier duda o comentario, son bienvenidos.

Suerte con todo.

jueves, 15 de abril de 2010

Aviso urgente

Aviso urgente:

Una disculpa de antemano: la clase de hoy se suspende, pues el Dr. Gerardo Sierra no podrá darla hoy. Espero que puedan ver este mensaje antes de llegar al salón.

Suerte con todo, y nos vemos la semana que viene.

Nuevamente, una disculpa por este inconveniente.

Lecturas y clases para la clase de hoy: 15/04/2010

Saludos a todos:

Espero que hayan tenido un feliz regreso de vacaciones. Aprovecho para darle las gracias a la Dra. Concepción Pérez de Celis Herrero (BUAP) por habernos dado la plática de la semana pasada.

En esta clase, nos enfocaremos más que nada en métodos estadísticos, los cuales nos permitirán evaluar los resultados de nuestras búsquedas de palabras, así como establecer parámetros probabilísticos para clasificar documentos. Las láminas las pueden descargar aquí.

Respecto a las lecturas, hay de dos tipos:

1. Las que serán netamente introductorias: son tres artículos:

1.1. Uno preparado por Xuerui Wang y Andrew McCallum, de la Universiad de Massachussetts, en donde describen el uso de N-gramas para identificar temas en textos.
1.2. Otro escrito por Yintang Dai y Shiyong Zhang (Universidad de Fudan, China), el cual explica cómo pueden usarse el cálculo de entropía en tareas de PLN.
1.3. Finalmente, un trabajo elaborado por Gerard Salton y sus colaboradores (A. Wong y C. S. Yang), todos afiliados a la Universidad de Cornell. Este artículo es pionero en el uso de modelos vectoriales para indexación y clasificación de grandes colecciones de documentos.

2. Las que son para profundizar (si esto les interesa):
Los capítulos 4 y 6 del manual de Jurafsky y Martin sobre PLN. El primero se enfoca en explicar qué es un N-grama y cómo se ocupa en tareas como etiquetado lingüístico. El otro capítulo describe a detalle lo que son los modelos de entropía y las máquinas ocultas de Markov para hacer tratamientos lingüísticos en textos.

Cualquier duda o comentario, lo discutimos por correo.

Suerte con todo.