jueves, 15 de abril de 2010

Lecturas y clases para la clase de hoy: 15/04/2010

Saludos a todos:

Espero que hayan tenido un feliz regreso de vacaciones. Aprovecho para darle las gracias a la Dra. Concepción Pérez de Celis Herrero (BUAP) por habernos dado la plática de la semana pasada.

En esta clase, nos enfocaremos más que nada en métodos estadísticos, los cuales nos permitirán evaluar los resultados de nuestras búsquedas de palabras, así como establecer parámetros probabilísticos para clasificar documentos. Las láminas las pueden descargar aquí.

Respecto a las lecturas, hay de dos tipos:

1. Las que serán netamente introductorias: son tres artículos:

1.1. Uno preparado por Xuerui Wang y Andrew McCallum, de la Universiad de Massachussetts, en donde describen el uso de N-gramas para identificar temas en textos.
1.2. Otro escrito por Yintang Dai y Shiyong Zhang (Universidad de Fudan, China), el cual explica cómo pueden usarse el cálculo de entropía en tareas de PLN.
1.3. Finalmente, un trabajo elaborado por Gerard Salton y sus colaboradores (A. Wong y C. S. Yang), todos afiliados a la Universidad de Cornell. Este artículo es pionero en el uso de modelos vectoriales para indexación y clasificación de grandes colecciones de documentos.

2. Las que son para profundizar (si esto les interesa):
Los capítulos 4 y 6 del manual de Jurafsky y Martin sobre PLN. El primero se enfoca en explicar qué es un N-grama y cómo se ocupa en tareas como etiquetado lingüístico. El otro capítulo describe a detalle lo que son los modelos de entropía y las máquinas ocultas de Markov para hacer tratamientos lingüísticos en textos.

Cualquier duda o comentario, lo discutimos por correo.

Suerte con todo.


No hay comentarios:

Publicar un comentario