jueves, 31 de diciembre de 2009

Lecturas para la primera clase

He aquí algunas lecturas propuestas para la primera clase, las cuales se abocarán a ofrecer un panorama general de dos temas que vamos a tratar:

I. Internet vista como una red conceptual clasificada por su contenido semántico.

II. Una panorámica general de lo que es procesamiento del lenguaje natural.

Para el primer tema, la lectura consiste en una serie de láminas preparadas por Ivan Herman, las cuales fueron material para un seminario sobre WEB semántica.


Para el segundo tema, tenemos dos lecturas:

1. La primera es el capítulo introductorio del manual elaborado por Daniel Jurafsky y James Martin, titulado
Speech and Language Processing (Prentice-Hall, 2009).

2. La segunda es un artículo mío, publicado en el 2009, en donde expongo a grandes rasgos el estado del arte de las tecnologías del lenguaje en México, considerando sus líneas principales de investigación, así como sus grupos más representativos. Si les interesa este tema, la ficha completa es:

Sierra G. (2009). “Visión interdisciplinaria del Grupo de Ingeniería Lingüística en la prospectiva de las tecnologías del lenguaje en México”. En El dominio de la lingüística, más allá de las ciencias exactas y naturales (ISBN 978-607-02-0875-1), Colección “Aprender a aprender”, Centro de Investigaciones Interdisciplinarias en Ciencias y Humanidades, UNAM.

Cualquier duda o comentario, lo vemos en clase.

miércoles, 30 de diciembre de 2009

Introducción al curso

El objetivo general de este curso es ofrecer una visión sintetizada y práctica sobre el acceso, procesamiento y clasificación de información bibliográfica proveniente de fuentes textuales, tanto impresas como electrónicas, con miras a generar taxonomías de forma (semi-)automática.

A partir de este objetivo general, se desprenden los siguiente objetivos particulares:

  1. Conocer modelos y métodos para procesar información proveniente de documentos científicos y técnicos, que consideren aspectos lingüísticos y computacionales.

  2. Explotar herramientas que le permitan organizar tal información, obtenida a partir de procesamiento hecho previamente.

  3. Finalmente, aplicar estos modelos, métodos y herramientas a problemas concretos sobre clasificación de información bibliográfica propia de dominios científicos y/o técnicos.

Un punto importante a señalar sobre el curso, es el hecho de establecer algunos límites respect a los temas que se tratarán:

i)
El curso desarrolla un enfoque orientado hacia la búsqueda, identificación y extracción de información bibliográfica usando métodos y técnicas propias de las tecnologías de lenguaje (TsL). En particular, se pondrá énfasis en cómo puede ser explotada dicha información para la creación de taxonomías.

ii) Ligado con el punto anterior, el curso tomará
un matiz netamente práctico, de modo que se verán cuestiones tales como la conformación de repositorios textuales, la anotación textual basada en XML, la ubicación de unidades lingüísticas relevantes, etc.

iii) Asimismo, se abordarán brevemente otras líneas de investigación, estrechamente relacionadas con la extracción de información y generación de taxonomías: terminología, minería de textos, ingeniería del conocimiento, desarrollo de ontologías, entre las más relevantes.

Presentación

Bienvenidos al blog diseñado para el curso sobre tratamiento de información textual y generación de taxonomías. En este sitio electrónico podrán encontrar:

1. El temario propuesto para este curso.

2. El cronograma de actividades para el semestre.

3. Las presentaciones preparadas para una de nuestras clases, en formato PDF.

4. Materiales tales como lecturas, referencias a sitios electrónicos, videos, herramientas electrónicas, etc.


5.
Comentarios, observaciones y avisos sobre a alguna actividad o tema relacionado con el curso.

Este curso será impartido por el Dr. Gerardo Sierra, investigador titular del Instituto de Ingeniería de la UNAM. Igualmente, el auxiliar del Dr. Sierra será el Dr. César Aguilar,profesor asociado de la Facultad de Lenguas y Letras de la Universidad Autónoma de Querétaro (UAQ).

Los datos de contacto son los siguientes:

Dr. Gerardo Sierra

Dirección: Cubículo 3, Basamento, Torre de Ingeniería, Instituto de Ingeniería, Ciudad Universitaria, Del. Coyoacán, México D.F.

Teléfono: (+0155)-5623-3500, ext. 1008


Correo electrónico: gsierram@iingen.unam.mx

Sitio WEB: www.iingen.unam.mx

Dr. César Aguilar

Dirección: Centro de Estudios Lingüísticos y Literarios, Facultad de Lenguas y Letras, Centro Universitario, Cerro de las Campanas s/n, Querétaro, Querétaro.

Teléfono: (01-442)-192-1200, exts., 6113 y 6114.

Correo electrónico: CAguilar@iingen.unam.mx

Sitio WEB: http://cesaraguilar.weebly.com/index.html