Tratamiento de Información Textual: 2010

jueves, 6 de mayo de 2010

Láminas y materiales para la clase de hoy: 06/05/2010

Saludos a todos:

Ya están disponibles las láminas y las lecturas relacionadas con el tema que vamos a ver hoy: agrupamiento y clasificación de textos. Los pongo en el siguiente orden:

1. Aquí pueden dar un click para acceder a las láminas de la clase.

2. Un capítulo de libro de Keith van Rijsbergen (el cual cité la clase pasada), dedicado al tema de la clasificación automática de textos.

3. Un artículo escrito por un lingüista computacional italiano, Fabrizio Sebastiani, sobre clasificación de documentos usando aprendizaje automático.

4. Una presentación relacionada con el proyecto Atlás Científico, el cual emplea algoritmos de clustering y clasificación para identificar información relevante sobre ciencia.

5. Finalmente, un artículo escrito por Gerardo Sierra y un servidor, en compañía de otros dos colegas, en donde se expone un método de extracción y clasificación de definiciones, usando un árbol de decisiones.

Suerte con todo, y seguimos en contacto.

miércoles, 28 de abril de 2010

Láminas y lecturas para la clase: 28/04/2010

Saludos a todos:

Para esta clase, vamos a continuar revisando métodos probabilísticos, ahora orientádonos hacia la evaluación de los resultados que generemos en una tarea de extracción y clasificación de información.

Así, los materiales que están disponibles son:

1. Las láminas de la clase de hoy.

2. Los capítulos segundo y tercero del libro de Keith van Rijsbergen (Glasgow University) sobre recuperación de información, en donde propone la técnica de Precision & Recall como un recurso útil para clasificar documentos.

3. Las láminas de una presentación hecha por Yutaka Sasaki (NaCTeM, Manchester, UK), quien también propone una clasificación de documentos usando Precision & Recall, así como redes bayesianas.

Finalmente, la Dra. Concepción Pérez de Celis nos proporcionó las láminas que ocupó en su presentación. Si les interesa este material, pueden descargarlo dando un click aquí.

Cualquier duda o comentario, son bienvenidos.

Suerte con todo.

jueves, 15 de abril de 2010

Aviso urgente

Aviso urgente:

Una disculpa de antemano: la clase de hoy se suspende, pues el Dr. Gerardo Sierra no podrá darla hoy. Espero que puedan ver este mensaje antes de llegar al salón.

Suerte con todo, y nos vemos la semana que viene.

Nuevamente, una disculpa por este inconveniente.

Lecturas y clases para la clase de hoy: 15/04/2010

Saludos a todos:

Espero que hayan tenido un feliz regreso de vacaciones. Aprovecho para darle las gracias a la Dra. Concepción Pérez de Celis Herrero (BUAP) por habernos dado la plática de la semana pasada.

En esta clase, nos enfocaremos más que nada en métodos estadísticos, los cuales nos permitirán evaluar los resultados de nuestras búsquedas de palabras, así como establecer parámetros probabilísticos para clasificar documentos. Las láminas las pueden descargar aquí.

Respecto a las lecturas, hay de dos tipos:

1. Las que serán netamente introductorias: son tres artículos:

1.1. Uno preparado por Xuerui Wang y Andrew McCallum, de la Universiad de Massachussetts, en donde describen el uso de N-gramas para identificar temas en textos.
1.2. Otro escrito por Yintang Dai y Shiyong Zhang (Universidad de Fudan, China), el cual explica cómo pueden usarse el cálculo de entropía en tareas de PLN.
1.3. Finalmente, un trabajo elaborado por Gerard Salton y sus colaboradores (A. Wong y C. S. Yang), todos afiliados a la Universidad de Cornell. Este artículo es pionero en el uso de modelos vectoriales para indexación y clasificación de grandes colecciones de documentos.

2. Las que son para profundizar (si esto les interesa):
Los capítulos 4 y 6 del manual de Jurafsky y Martin sobre PLN. El primero se enfoca en explicar qué es un N-grama y cómo se ocupa en tareas como etiquetado lingüístico. El otro capítulo describe a detalle lo que son los modelos de entropía y las máquinas ocultas de Markov para hacer tratamientos lingüísticos en textos.

Cualquier duda o comentario, lo discutimos por correo.

Suerte con todo.

miércoles, 24 de marzo de 2010

Material para la clase: 25/03/2010

Saludos a todos:

Ya están disponibles las láminas de la clase de hoy. Esta sesión (y otra más) estarán dedicadas al tema de la indización, enfocándonos principalmente en cómo aprovechar técnicas de PLN para hacer estar tarea.

Complementario a esto, aquí van algunas lecutras interesantes:

1. Un manual de indización escrito por James D. Anderson para la National Information Standards Organization.

2. Un artículo escrito por Isidoro Gil Leiva y José V. Rodríguez Muñoz, en donde tratan el uso de descriptores para tareas de indización.

3. Otro artículo de Gil Leiva y Rodríguez Muñoz, el cual muestra una panorámica sobre los distintos procesos de indización automática que se siguen hoy en día.

Finalmente, aquí va la referencia a un artículo en línea elaborado por María Jesús Lamarca Lapuente, en donde ofrece una explicación muy clara sobre lo que es indización, y algunas relaciones que tiene con PLN: www.hipertexto.info/documentos/indiz_automat.htm.

Seguimos en contacto. Suerte con todo.

jueves, 18 de marzo de 2010

Material para la clase: 18/03/2010

Saludos:

Aquí están las láminas para la clase de hoy. Básicamente, se trata de un complemento a lo que vimos la sesión pasada sobre metadatos. En esta sesión, hoy trabajarán con XML.

Como material anexo, les presento las notas de un curso que dio Marti Hearst y colaboradores sobre metadados facetados, que es justo la integración de metadatos con sistemas de búsquedas que identifican facetas asociadas.

Suerte con todo.

jueves, 11 de marzo de 2010

Láminas para la clase: 11/03/2010

Saludos a todos:

Ya pueden acceder a las láminas de la clase de hoy, la cual estará dedicada a dar una panorámica general sobre metadados. Al respecto, algunas lecturas que pueden resultar interesantes son:

1. Un manual preparado por la National Information Standards Organization (NISO) de los Estados Unidos, en donde se explica qué es un metadato, y cuál su formato estandar.

2. Un artículo escrito por Eva María Méndez, de la Universidad Carlos III de Madrid, en donde plantea el uso de metadatos como un recurso para generar tesauros y otros recursos para clasificación de conocimiento.

3. Finalmente, un artículo en colaboración entre Achim Steinacker (University of Technology of Darmstadt, Alemania), Amir Gahvam (University of Ottawa, Canadá) y Ralf Steinmetz (GNRCIT, Alemania), en donde explican el uso de metadatos para crear recursos WEBs.

Nota: ¿avances con la tarea de la clase pasada? Espero ver sus propuestas.

Suerte con todo.

jueves, 4 de marzo de 2010

Láminas y lecturas para la clase: 04/03/2010

Saludos a todos:

Aquí están las láminas para la clase de hoy. Del mismo modo, las lecturas que la complementan son:

1. El capítulo 19 del manual de Jurafsky y Martin, el cual da una introducción a la semántica léxica computacional. Nota: Revisen la parte dedicada a relaciones léxicas (hiponimia, hiperonimia, meronimia, sinonimia, etc.), porque van a requerir saber estas relaciones para realizar la tarea que programamos hoy.

2. Un artículo escrito por Christiane Fellbaum (Princeton University), el cual describe a grandes rasgos qué es WordNet. El texto de Fellbaum puede darles pistas sobre cómo resolver la tarea de hoy.

3. Otro artículo, elaborado por Chris Baker, Charles Fillmore y John Lowe (Berkeley University), en donde describen de manera general el proyecto FrameNet.

4. Finalmente, un reporte elaborado por Marie-Claude L'Homme (Université de Montréal), en donde explica el Diccionario Fundamental para Informática (DiCoInfo). El texto está en francés. Otra opción es que revisen la versión en línea. La liga viene anotada en las láminas de la clase.

Suerte con todo.

miércoles, 24 de febrero de 2010

Láminas para la clase: 25/02/2010

Saludos:

Ya pueden acceder a las láminas para la clase de mañana.

Por otro lado, las lecturas que acompañan al tema son:

1. El capítulo 22 del libro de Daniel Jurafsky y James Martin, dedicado al tema de la extracción de información.

2. Un texto escrito por Christian Jacquemin (LIMS-CNRS, Francia) y Didier Bourigault (Université de Toulouse, Francia), en cual es una introducción breve a la extracción terminológica.

3. Un artículo escrito por David Nadeau (National Research Council Canada) y Satoshi Sekine (New York University), en donde explican qué es la extracción y clasificación de entidades nombradas.

Finalmente, para la tarea que van a hacer de extracción de términos, el alrchivo que van a ocupar lo pueden descargar dando un click aquí.

Suerte con todo.

jueves, 18 de febrero de 2010

Lecturas para la sexta clase

Saludos, nuevamente:

Las lecturas que pueden revisar después sobre los temas que vamos a ver hoy son:

1. Sobre corpus lingüísticos: en este texto, un lingüista computacional, Stefan Th. Gries (University of California at Santa Barbara) sostiene una conversación con un lingüista teórico, Frederick Newmeyer (Simon Fraser University) sobre lo que es un corpus lingüístico.

2. Sobre etiquetados de corpus: Steven Bird (University of Melbourne) y Marc Liberman (University of Pennsylvania) trabajaron juntos en un proyecto sobre anotación morfo-sintáctica en corpus: el famoso PennTreeBank. En este artículo, detallan varias ideas interesantes sobre lo que es anotación sintáctica, además de buscar una propuesta "universal" (si eso es posible, claro).

3. Un capítulo de un libro del libro de Jurafsky y Martin, el cual explica cómo hacer una gramática formal para el inglés. Va mucho más allá del concepto de chunking, pero vale la pena leerlo, sobre todo porque ofrece una buena visión sobre cuál es el valor que tiene en PLN el análisis sintáctico.

Suerte con todo.

Láminas para la clase: 18/02/2010

Saludos a todos:

He aquí las láminas para la clase de hoy. En otra entrada tendrán acceso a las lecturas relacionadas con los temas que vamos a ver hoy.

Sobre la tarea de la clase pasada, Alexa y Cristina me escribieron para que les diera más pistas sobre cómo resolverla. Hoy en el transcurso de la mañana podrán ver en el blog la solución al ejercicio. De entrada, les comento: no se preocupen, por experiencia les digo que el único camino seguro para aprender expresiones regulares es la práctica: hay que equivocarse varias veces para dar con una buena solución (de hecho, aunque se vea muy abstracto, verán que al final resulta fácil, y que se pueden proponer varias soluciones para un mismo problema).

Suerte con todo.

jueves, 11 de febrero de 2010

Láminas para la clase: 11/02/2010

Saludos:

Una disculpa por el retraso: aquí están las láminas para la clase de hoy.

Respecto a las lecturas, les anexo el siguiente material:

1. Dos capítulos del manual de PLN preparado por Daniel Jurafsky y James Martin: el capítulo 2 está dedicado a explicar qué son y cómo se ocupan las expresiones regulares para modelar patrones lingüísticos; y el capítulo 3 se enfoca en el análisis de palabras. Ambos textos son muy claros, además de contar con muchos ejemplos prácticos.

2. Una guía preparada por John M. Dienhart y Henrik Kasch, de la University of Southern Denmark, en donde explican cómo ocupar expresiones regulares para hacer consultas en corpus textuales.

Suerte con todo.

miércoles, 3 de febrero de 2010

Láminas para la clase: 04/02/2010

Saludos:

Aquí pueden descargar las láminas para la clase de mañana.

Suerte con todo.

Lecturas para la cuarta clase

Saludos:

Anexo aquí las lecturas para la clase de mañana. Vale decirles que, más que lo vean como textos para leer antes de la clase, lo tomen mejor como un material de consulta que les puede ser útil, principalmente como referencias a la hora de documentar el proyecto final del curso.

Así pues, en esta ocasión seguimos profundizando con el tema de las ontologías, y añadimos dos nuevos: taxonomías facetadas y folksonomías.

Las lecturas entonces son:

1. Un artículo de Barry Smith (University of Buffalo), que explica por qué una ontología es un sistema formal de clasificación de conceptos.

2. Un artículo de Marti Hearst (University of California at Berkeley), que describe a grandes rasgos qué son las búsquedas facetadas. Además, Hearst da cuenta de un sistema que realiza esta clase de búsquedas en Internet.

3. Otro trabajo de Hearst, en colaboración con Emilia Stoica (University of California at Berkeley), en donde plantean un método para realizar búsquedas facetadas de información, usando una ontología lingüística como WordNet.

4. Finalmente, un artículo de Adam Mathes, en donde explica a detalle el concepto de folksonomía, su historia, su evolución y el impacto que tiene hoy en día en el campo de las tecnologías de la información.

En unas horas más podrán ver las láminas de la clase de mañana.

jueves, 28 de enero de 2010

Láminas para la clase: 28/01/2010

Saludos:

Aquí están las láminas para nuestra clase de hoy. Cualquier duda, lo vemos en la sesión.

miércoles, 27 de enero de 2010

Lecturas para la tercera clase

Aquí están las lecturas para la clase de mañana (20/01/2010), la cual estará dedicada a dar una introducción sobre lo que son taxonomías, tesauros, vocabularios controlados, topic maps y ontologías :

1. Un artículo escrito por Miquel Centelles, el cual fue publicado por Hipertext, un anuario electrónico dedicado a temas relacionados con Internet.

2. Otro artículo elaborado por Flor Nancy Díaz Piraquive, Luis Joyanes Aguilar y Víctor Hugo Medina García, publicado por la Social Science Research Network (2009).

3. Una tesis de maestría elaborada por Katharina Schwarz (2005), la cual fue editada por la Universidad de Utrecht (Holanda).

4. Finalmente, retomemos la segunda parte del texto escrito por Karen Spärk-Jones, dedicado justo al tema de los tesauros.

Cualquier duda, la vemos en clase.

miércoles, 20 de enero de 2010

Lecturas sobre recuperación y extracción de de información

Con relación a los temas que trataremos este próximo jueves, hay dos textos que pueden leer:

1. Uno elaborado por Karen Spärck-Jones (1935-2007), una de las investigadoras pioneras dentro del área de recuperación de información. Este texto está compuesto por dos breves tutoriales: uno sobre recuperación de información, y el otro sobre tesauros. Revisen el primer tutorial.

2. Otro elaborado por Jim Cowie y Wendy Lehnert, el cual es una introducción al tema de extracción de información.

Del mismo modo, algunas ligas interesantes relacionadas con estas cuestiones son las siguientes:

1. Una introducción general al procesamiento de lenguaje natural (PLN) hecha por Raymond Kurzwei, en donde pone énfasis en la relación lenguaje natural/descubrimiento automático de conocimiento. La liga es: www.kurzweilai.net/articles/art0311.html?printable=1.

2. Una explicación elaborada por Marti Hearst sobre lo que es minería de textos. Tal explicación cuenta con dos versiones: una corta, que da un panorama general, y otra extensa, la cual describe un proyecto de investigación llamado Linking Information for Novel Discovery and Insight (LINDI): http://people.ischool.berkeley.edu/~hearst/text-mining.html.

Cualquier duda o comentario, lo vemos en clase.

Láminas para la segunda clase: 21/01/2010

Saludos a todos:

Aquí pueden encontrar y descargar las láminas para la próxima clase del jueves. Cualquier duda o comentario, lo vemos en nuestra sesión, o por correo electrónico.

martes, 12 de enero de 2010

Láminas para la primera clase: 14/01/2010

Aquí están las láminas para la primera clase. Se trata de una introducción panorámica a los temas centrales de nuestro curso, en concreto:

1. Tratamiento de información en Internet
2. Información y lenguaje natural
3. Semántica
4. Descripción general del curso

Las láminas se encuentran en formato PDF. Cualquier duda, comentario o sugerencia, la pueden enviar a los correos de contacto.

Hasta el jueves.

Programas de cursos relacionados con el tema

En esta entrada pueden descargar algunos temarios de cursos relacionados directa o indirectamente con los contenidos que vamos a ver a lo largo de este semestre.

1. Un curso sobre Organización de la Información, impartido por Reynaldo Figueroa, dentro de esta maestría.

2. Otro curso de Reynaldo Figueroa, en colaboración con Valentino Morales, sobre Organización del Conocimiento.

3.Un curso sobre Gestión de Recursos Tecnológicos en Bibliotecas, también impartido en esta maestría.

4. La segunda parte del curso anterior.

5. Un curso sobre Terminología y Documentación, el cual estuvo a cargo de María Pozzi.

6. Finalmente, un listado de cursos ofrecidos en otras universidades, los cuales abordan cuestiones relacionadas con nuestro curso: extracción de información, clasificación automática, web semántica, ontologías, mapas conceptuales, etc.

Tratamiento de Información Textual