El uso impreciso de los términos "datos", "información" y "conocimiento"
Conceptos y definiciones
En el a veces mal llamado "mundo dirigido por datos", es cada vez más frecuente encontrarnos con un uso impreciso e inadecuado de los términos "datos", "información" y "conocimiento". Es habitual oír expresiones del tipo "análisis de información", "conocimiento de datos" y otras muchas similares, que no reflejan de forma exacta a lo que queremos referirnos.
Dato:
Si consultamos el diccionario de la RAE, encontramos tres acepciones de la palabra "dato":
1. Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho. A este problema le faltan datos numéricos.
2. Documento, testimonio, fundamento.
3. Información dispuesta de manera adecuada para su tratamiento por una computadora.
Información:
La RAE nos presenta 8 acepciones muy dispersas de la palabra ‘información’, pero las más relevantes en nuestro contexto son:
- Comunicación o adquisición de conocimientos que permiten ampliar o precisar los que se poseen sobre una materia determinada.
- Conocimientos comunicados o adquiridos mediante una información.
Conocimiento:
En cuanto al término conocimiento ocurre algo similar, pero podemos destacar:
- Entendimiento, inteligencia, razón natural.
- Noción, saber o noticia elemental de algo.
- Saber o sabiduría.
Conclusiones
Desde mi punto de vista, estas definiciones son ambiguas, imprecisas y mezclan conceptos muy relevantes en el ámbito del aprovechamiento inteligente de datos masivos.
Tres niveles de abstracción
- De una forma más técnica, se suele entender como "dato" una representación simbólica (numérica, alfabética, gráfica, …) del valor de un atributo o característica cuantitativa o cualitativa, que describe un hecho empírico, un suceso o una cualidad, atributo o característica de una entidad (persona, objeto, organización...).
- La información, en cambio puede verse como la representación o visualización de un conjunto organizado de datos ordenados, distribuidos, procesados o tratados según algún criterio o método.
- La asimilación inteligente de datos y/o información produce conocimiento, en cierto sentido de ‘sabiduría’, que nos permitirá anticiparnos a situaciones futuras, bien sea mediante predicciones, pronósticos, estimaciones, estudio de tendencias, etc. , conceptos que precisaremos en posteriores entradas.
Ejemplo entorno hospitalario
Por último, permítase un ejemplo que represente estos tres niveles de abstracción descritos. Imaginemos un entorno hospitalario. En este contexto, los datos serían la materia prima inicial, las historias clínicas electrónicas de los pacientes, las imágenes radiológicas, los informes de urgencias, los datos de ocupación de camas o de UCI, etc. La información sería por ejemplo un gráfico de tarta que mostrase el nivel de ocupación de la UCI por meses u otro que nos permitiese visualizar el porcentaje de detección de tumores en imágenes radiológicas. Conocimiento sería, por ejemplo, el que proporcionara un sistema automático que hubiera sido capaz de extraer a partir de los datos y la información anteriores una regla del tipo: ‘si el paciente pasa más de 15 días en UCI probablemente se infecte con la bacteria x’. Esto nos permitiría anticiparnos a situaciones futuras de forma automática ya que, por ejemplo, el sistema de gestión hospitalaria podría lanzar un mensaje de aviso (early warning) sobre esta posibilidad cuando un paciente lleve más de ese tiempo en cuidados intensivos.
Usemos de forma más precisa estos términos y no hablemos salvo en casos muy específicos de ‘analizar información’, se analizan los datos y se visualiza o usa la información para tomar decisiones (las personas), por ejemplo en los cuadros de mando o dashboards y debemos avanzar hacia la obtención automática de conocimiento mediante sistemas computacionales, a partir de datos e información.