Español      Français      English 

EVALTEC, Gestión de Investigación y Desarrollo Tecnológico, S.L.

Gestión de proyectos - Comercialización de tecnologías - Internacionalización

 

La Minería de Textos

 

La minería de textos es un proceso de extracción de conocimiento a partir de grandes volúmenes de información, no necesariamente estructurada, que incorpora la comprensión del contenido de los documentos, es decir, su “entendimiento”. La información puede obtenerse de cualquier fuente como bases de datos, documentos internos, internet, correo, noticias, etc. y tratarse posteriormente.

 

Esto supone que tareas como la clasificación de documentos, la lectura de correo, síntesis de contenidos de expedientes e informes, análisis de noticias y comentarios, etc. pueden realizarse de forma automática.

 

Las fases de la Minería de Textos

 

Hay tres fases fundamentales del proceso de minería de textos:

1 -   La extracción de la información.

2 -   La clusterización o agrupamiento.

3 -   La categorización.

 

En general, el procedimiento de trabajo se inicia con la extracción de la información, es decir, el análisis lingüístico de las fuentes primarias. Para esta fase es necesario un conocimiento previo del idioma, de los caracteres especiales y de los términos relativos al área de conocimiento que se este analizando.

 

Posteriormente es necesario clasificar la información, bien a través de unos criterios de clasificación de los que ya se disponga, o a través de un clusterizador que sugiera automáticamente un número de grupos y criterios para clasificar la información de manera óptima.

 

El proceso de categorización canalizará la información dentro de los diversos grupos o clusters determinados anteriormente.

 

Taxonomías y “cartuchos”

 

Las taxonomías son las estructuras linguísticas y conceptuales que conforman un área del saber.

 

Una parte fundamental de las herramientas de minería de textos son los “cartuchos”. Cada “cartucho” contiene la información relativa a los criterios que se aplican en los procesos de extracción, clusterización y categorización. Es decir, contiene relaciones, da relevancia a ciertas expresiones, tiene terminología específica, verbos modales y juicios, o estructura típica que presenta la información. Posibilitan la comprensión del lenguaje escrito en áreas técnicas, comerciales o del saber determinadas. En definitiva, son concreciones prácticas de las taxonomías.

 

Aplicaciones de la Minería de Textos

 

Las nuevas herramientas de minería de textos permiten por tanto grandes economías de coste y tiempo en procesos tales como análisis de fondos documentales y cartografía documental, rutaje de documentación, alimentación de bases de conocimiento, vigilancia tecnológica, gestión de información en CRMs, etc.

 

Tal y como se ha señalado anteriormente, en base a estos procedimientos, actividades como la clasificación de documentos, la lectura de correo, síntesis de contenidos de expedientes e informes, análisis de noticias, etc. pueden automatizarse.

 

 

Fuente: Presentación de la Dra Elicet Cruz ©2004 - IALE Tecnología.   *   ialetecnologia.com

 

 

EVALTEC, Gestión de Investigación y Desarrollo Tecnológico, S.L. - C.I.F.: B-83399204 - ©2002-2018

Inscrita en el Registro Mercantil de Madrid, Tomo 18.001, Folio 56, Sección 8, Hoja M-311087