miércoles, 24 de febrero de 2010

Láminas para la clase: 25/02/2010

Saludos:

Ya pueden acceder a las láminas para la clase de mañana.

Por otro lado, las lecturas que acompañan al tema son:

1. El capítulo 22 del libro de Daniel Jurafsky y James Martin, dedicado al tema de la extracción de información.

2. Un texto escrito por Christian
Jacquemin (LIMS-CNRS, Francia) y Didier Bourigault (Université de Toulouse, Francia), en cual es una introducción breve a la extracción terminológica.

3. Un artículo escrito por David Nadeau (National Research Council Canada) y Satoshi Sekine (New York University), en donde explican qué es la extracción y clasificación de entidades nombradas.

Finalmente, para la tarea que van a hacer de extracción de términos, el alrchivo que van a ocupar lo pueden descargar dando un click aquí.

Suerte con todo.

jueves, 18 de febrero de 2010

Lecturas para la sexta clase

Saludos, nuevamente:

Las lecturas que pueden revisar después sobre los temas que vamos a ver hoy son:

1. Sobre corpus lingüísticos: en este texto, un lingüista computacional, Stefan Th. Gries (University of California at Santa Barbara) sostiene una conversación con un lingüista teórico,
Frederick Newmeyer (Simon Fraser University) sobre lo que es un corpus lingüístico.

2. Sobre etiquetados de corpus: Steven Bird (University of Melbourne) y Marc Liberman (University of Pennsylvania) trabajaron juntos en un proyecto sobre anotación morfo-sintáctica en corpus: el famoso PennTreeBank. En este artículo, detallan varias ideas interesantes sobre lo que es anotación sintáctica, además de buscar una propuesta "universal" (si eso es posible, claro).

3. Un capítulo de un libro del libro de Jurafsky y Martin, el cual explica cómo hacer una gramática formal para el inglés. Va mucho más allá del concepto de chunking, pero vale la pena leerlo, sobre todo porque ofrece una buena visión sobre cuál es el valor que tiene en PLN el análisis sintáctico.

Suerte con todo.

Láminas para la clase: 18/02/2010

Saludos a todos:

He aquí las láminas para la clase de hoy. En otra entrada tendrán acceso a las lecturas relacionadas con los temas que vamos a ver hoy.

Sobre la tarea de la clase pasada, Alexa y Cristina me escribieron para que les diera más pistas sobre cómo resolverla. Hoy en el transcurso de la mañana podrán ver en el blog la solución al ejercicio. De entrada, les comento: no se preocupen, por experiencia les digo que el único camino seguro para aprender expresiones regulares es la práctica: hay que equivocarse varias veces para dar con una buena solución (de hecho, aunque se vea muy abstracto, verán que al final resulta fácil, y que se pueden proponer varias soluciones para un mismo problema).

Suerte con todo.

jueves, 11 de febrero de 2010

Láminas para la clase: 11/02/2010

Saludos:

Una disculpa por el retraso: aquí están las láminas para la clase de hoy.

Respecto a las lecturas, les anexo el siguiente material:

1. Dos capítulos del manual de PLN preparado por Daniel Jurafsky y James Martin: el capítulo 2 está dedicado a explicar qué son y cómo se ocupan las expresiones regulares para modelar patrones lingüísticos; y el capítulo 3 se enfoca en el análisis de palabras. Ambos textos son muy claros, además de contar con muchos ejemplos prácticos.

2. Una guía preparada por John M. Dienhart y Henrik Kasch, de la University of Southern Denmark, en donde explican cómo ocupar expresiones regulares para hacer consultas en corpus textuales.


Suerte con todo.




miércoles, 3 de febrero de 2010

Láminas para la clase: 04/02/2010

Saludos:

Aquí pueden descargar las láminas para la clase de mañana.

Suerte con todo.

Lecturas para la cuarta clase

Saludos:

Anexo aquí las lecturas para la clase de mañana. Vale decirles que, más que lo vean como textos para leer antes de la clase, lo tomen mejor como un material de consulta que les puede ser útil, principalmente como referencias a la hora de documentar el proyecto final del curso.

Así pues, en esta ocasión seguimos profundizando con el tema de las ontologías, y añadimos dos nuevos: taxonomías facetadas y folksonomías.

Las lecturas entonces son:

1. Un artículo de Barry Smith (University of Buffalo), que explica por qué una ontología es un sistema formal de clasificación de conceptos.

2. Un artículo de Marti Hearst (University of California at Berkeley), que describe a grandes rasgos qué son las búsquedas facetadas. Además, Hearst da cuenta de un sistema que realiza esta clase de búsquedas en Internet.

3. Otro trabajo de Hearst, en colaboración con Emilia Stoica (U
niversity of California at Berkeley), en donde plantean un método para realizar búsquedas facetadas de información, usando una ontología lingüística como WordNet.

4. Finalmente, un artículo de Adam Mathes, en donde explica a detalle el concepto de folksonomía, su historia, su evolución y el impacto que tiene hoy en día en el campo de las tecnologías de la información.

En unas horas más podrán ver las láminas de la clase de mañana.