Tratamiento de Información Textual

jueves, 6 de mayo de 2010

Láminas y materiales para la clase de hoy: 06/05/2010

Saludos a todos:

Ya están disponibles las láminas y las lecturas relacionadas con el tema que vamos a ver hoy: agrupamiento y clasificación de textos. Los pongo en el siguiente orden:

1. Aquí pueden dar un click para acceder a las láminas de la clase.

2. Un capítulo de libro de Keith van Rijsbergen (el cual cité la clase pasada), dedicado al tema de la clasificación automática de textos.

3. Un artículo escrito por un lingüista computacional italiano, Fabrizio Sebastiani, sobre clasificación de documentos usando aprendizaje automático.

4. Una presentación relacionada con el proyecto Atlás Científico, el cual emplea algoritmos de clustering y clasificación para identificar información relevante sobre ciencia.

5. Finalmente, un artículo escrito por Gerardo Sierra y un servidor, en compañía de otros dos colegas, en donde se expone un método de extracción y clasificación de definiciones, usando un árbol de decisiones.

Suerte con todo, y seguimos en contacto.

miércoles, 28 de abril de 2010

Láminas y lecturas para la clase: 28/04/2010

Saludos a todos:

Para esta clase, vamos a continuar revisando métodos probabilísticos, ahora orientádonos hacia la evaluación de los resultados que generemos en una tarea de extracción y clasificación de información.

Así, los materiales que están disponibles son:

1. Las láminas de la clase de hoy.

2. Los capítulos segundo y tercero del libro de Keith van Rijsbergen (Glasgow University) sobre recuperación de información, en donde propone la técnica de Precision & Recall como un recurso útil para clasificar documentos.

3. Las láminas de una presentación hecha por Yutaka Sasaki (NaCTeM, Manchester, UK), quien también propone una clasificación de documentos usando Precision & Recall, así como redes bayesianas.

Finalmente, la Dra. Concepción Pérez de Celis nos proporcionó las láminas que ocupó en su presentación. Si les interesa este material, pueden descargarlo dando un click aquí.

Cualquier duda o comentario, son bienvenidos.

Suerte con todo.

jueves, 15 de abril de 2010

Aviso urgente

Aviso urgente:

Una disculpa de antemano: la clase de hoy se suspende, pues el Dr. Gerardo Sierra no podrá darla hoy. Espero que puedan ver este mensaje antes de llegar al salón.

Suerte con todo, y nos vemos la semana que viene.

Nuevamente, una disculpa por este inconveniente.

Lecturas y clases para la clase de hoy: 15/04/2010

Saludos a todos:

Espero que hayan tenido un feliz regreso de vacaciones. Aprovecho para darle las gracias a la Dra. Concepción Pérez de Celis Herrero (BUAP) por habernos dado la plática de la semana pasada.

En esta clase, nos enfocaremos más que nada en métodos estadísticos, los cuales nos permitirán evaluar los resultados de nuestras búsquedas de palabras, así como establecer parámetros probabilísticos para clasificar documentos. Las láminas las pueden descargar aquí.

Respecto a las lecturas, hay de dos tipos:

1. Las que serán netamente introductorias: son tres artículos:

1.1. Uno preparado por Xuerui Wang y Andrew McCallum, de la Universiad de Massachussetts, en donde describen el uso de N-gramas para identificar temas en textos.
1.2. Otro escrito por Yintang Dai y Shiyong Zhang (Universidad de Fudan, China), el cual explica cómo pueden usarse el cálculo de entropía en tareas de PLN.
1.3. Finalmente, un trabajo elaborado por Gerard Salton y sus colaboradores (A. Wong y C. S. Yang), todos afiliados a la Universidad de Cornell. Este artículo es pionero en el uso de modelos vectoriales para indexación y clasificación de grandes colecciones de documentos.

2. Las que son para profundizar (si esto les interesa):
Los capítulos 4 y 6 del manual de Jurafsky y Martin sobre PLN. El primero se enfoca en explicar qué es un N-grama y cómo se ocupa en tareas como etiquetado lingüístico. El otro capítulo describe a detalle lo que son los modelos de entropía y las máquinas ocultas de Markov para hacer tratamientos lingüísticos en textos.

Cualquier duda o comentario, lo discutimos por correo.

Suerte con todo.

miércoles, 24 de marzo de 2010

Material para la clase: 25/03/2010

Saludos a todos:

Ya están disponibles las láminas de la clase de hoy. Esta sesión (y otra más) estarán dedicadas al tema de la indización, enfocándonos principalmente en cómo aprovechar técnicas de PLN para hacer estar tarea.

Complementario a esto, aquí van algunas lecutras interesantes:

1. Un manual de indización escrito por James D. Anderson para la National Information Standards Organization.

2. Un artículo escrito por Isidoro Gil Leiva y José V. Rodríguez Muñoz, en donde tratan el uso de descriptores para tareas de indización.

3. Otro artículo de Gil Leiva y Rodríguez Muñoz, el cual muestra una panorámica sobre los distintos procesos de indización automática que se siguen hoy en día.

Finalmente, aquí va la referencia a un artículo en línea elaborado por María Jesús Lamarca Lapuente, en donde ofrece una explicación muy clara sobre lo que es indización, y algunas relaciones que tiene con PLN: www.hipertexto.info/documentos/indiz_automat.htm.

Seguimos en contacto. Suerte con todo.

jueves, 18 de marzo de 2010

Material para la clase: 18/03/2010

Saludos:

Aquí están las láminas para la clase de hoy. Básicamente, se trata de un complemento a lo que vimos la sesión pasada sobre metadatos. En esta sesión, hoy trabajarán con XML.

Como material anexo, les presento las notas de un curso que dio Marti Hearst y colaboradores sobre metadados facetados, que es justo la integración de metadatos con sistemas de búsquedas que identifican facetas asociadas.

Suerte con todo.

jueves, 11 de marzo de 2010

Láminas para la clase: 11/03/2010

Saludos a todos:

Ya pueden acceder a las láminas de la clase de hoy, la cual estará dedicada a dar una panorámica general sobre metadados. Al respecto, algunas lecturas que pueden resultar interesantes son:

1. Un manual preparado por la National Information Standards Organization (NISO) de los Estados Unidos, en donde se explica qué es un metadato, y cuál su formato estandar.

2. Un artículo escrito por Eva María Méndez, de la Universidad Carlos III de Madrid, en donde plantea el uso de metadatos como un recurso para generar tesauros y otros recursos para clasificación de conocimiento.

3. Finalmente, un artículo en colaboración entre Achim Steinacker (University of Technology of Darmstadt, Alemania), Amir Gahvam (University of Ottawa, Canadá) y Ralf Steinmetz (GNRCIT, Alemania), en donde explican el uso de metadatos para crear recursos WEBs.

Nota: ¿avances con la tarea de la clase pasada? Espero ver sus propuestas.

Suerte con todo.