blog análisis datos

La ilusión del análisis de datos "no estructurados"

Blog |

Análisis de datos "no estructurados"

Habitualmente se suele distinguir entre datos estructurados, semi-estructurados y no-estructurados. Los primeros son aquellos que están organizados de una forma clara en cuanto a campos, registros y relaciones, con formatos prediseñados. Habitualmente los valores para un determinado campo son números en un intervalo y con un formato específico, o etiquetas lingüísticas dentro de unos valores posibles o en lo que técnicamente puede denominarse "lenguaje regimentado" (en el sentido Fregeano de la ‘Conceptografía’). 

Los datos no-estructurados son aquellos que no tienen estas características. No están sujetos a formatos predefinidos, como puede ser un video o imagen abiertos o un texto libre. Cuando hay algún tipo de homogeneidad, limitación u organización suelen denominarse semi-estructurados. 

datos-blog

Aprovechamiento 

Hoy en día es habitual que se hable de análisis de datos estructurados y no-estructurados, pero es una afirmación incierta, imprecisa e inadecuada en varios aspectos. La palabra "análisis" nos evoca el tratamiento numérico o estadístico básico, lo cuál es evidentemente muy restrictivo e inicial. Desde mi punto de vista debería hablarse de "aprovechamiento" que es un concepto más amplio, que va más allá del procesamiento numérico y que evoca un fin útil y no meramente un proceso descriptivo.  

Actualmente no hay herramientas que puedan manipular directamente datos no-estructurados. Y las técnicas disponibles tampoco de una forma completa. Por ejemplo, es posible aplicar técnicas generales de Procesamiento de Lenguaje Natural a un documento o conjunto de documentos, pero para poder trabajar con ellos, debemos preprocesarlos, es decir estructurarlos, convertir cada documento en un vector dónde cada componente, representa la frecuencia (inversa, TF-IDF) de aparición de cada término presente en dicho documento y probablemente se han eliminado los signos de puntuación, se han desechado las palabras "vacías" (stop words), como artículos, pronombres, etc. y se han reducido muchos términos a su raíz léxica (stemming o lematización), verbos, plurales, géneros… 

Otro ejemplo podría ser el procesamiento inteligente de imágenes, que podríamos considerar datos semi-estructurados, ya que al tratar una colección todas suelen tener un formato similar. 

Esta conversión imprescindible de datos no-estructurados a estructurados implica una inevitable pérdida de representatividad, de semántica en el caso de texto, lo que aunque facilita su procesamiento computacional, aleja aun más los datos de la fidelidad en su descripción de una determinada realidad. 

Es por ello que se debe ser muy cuidadoso en este proceso de preprocesado y transformación de no-estructurados a estructurados, con el fin de minimizar estas pérdidas de representatividad y así maximizar las posibilidades de aprovechamiento de los mismos. Por otra parte, se debe seguir investigando en el desarrollo de modelos, técnicas y herramientas que nos acerquen al tratamiento real de datos no-estructurados. 

Ejemplo Twitter 

Supongamos que estamos tratando de aprovechas un hilo de Twitter y nos encontramos con algo irónico sobre un político como ‘este es muy listo, no creo que fuera mejor si ganara’ y lo preprocesamos para manipularlo computacionalmente, quedaría algo como ‘ser… listo… creer… ser… mejor… si… ganar…’, esta conversión llevaría a una evidente y sustancial pérdida en la semántica inicial del mensaje. En el caso no de un microtexto, sino de un texto más grande, esta pérdida puede ser sustancial y condicionar los resultados de las técnicas que se usen, sobre todo si éstas son lexicográficas basadas en las apariciones de los diferentes términos.  

Lo primero que se suele hacer con los datos no-estructurados es estructurarlos…