20 mar 2012

Minería de textos, para extraer oro de la información.

El Instituto de Ingeniería de la UNAM desarrolla un sistema para obtener información valiosa de manera automática y eficaz, a partir de innumerables documentos generados cotidianamente en las empresas e instituciones
Se dice que hay "oro" escondido en las montañas de documentos que cualquier empresa o institución genera diariamente: información valiosa enterrada en cada texto y que, de ser extraída, serviría, por ejemplo, para hacer análisis de rentabilidad, identificar competencias, monitorear el mercado e, incluso, detectar fraudes.
Sin embargo, leer y analizar esa enorme cantidad de texto en poco tiempo sería, además de tortuoso, humanamente imposible. Por ello, es necesario instrumentar mecanismos que procesen los documentos de manera eficaz y automática. Esto se puede lograr mediante la minería de textos.
Para obtener la información valiosa de las montañas de documentos, la minería de textos pasa, como la minería tradicional, por una serie de etapas.
La minería de textos delimita su yacimiento recopilando los documentos que se quieren procesar, aún cuando no se conozca la información que de ellos se obtendrá.
Segudamente se pre-procesan los documentos para poder manipularlos; primero se estandarizan en un mismo formato electrónico y después, mediante algoritmos, el texto se fragmenta en partes más sencillas. Esto sirve para identificar las palabras representativas o clave de cada documento.
Posteriormente se construyen matrices o tablas y se aplican algoritmos de agrupamiento que, bajo ciertos criterios previamente establecidos, descubren las coincidencias y asociaciones existentes entre las matrices.

No hay comentarios: