Ciencia de Datos en las organizaciones

La crisis de la inteligencia de datos

Los algoritmos de ciencia de datos han cobrado mucha actualidad. Se venden sinnúmero de cursos y todo parece indicar la panacea del conocimiento adquirido a través de la inteligencia artificial como instrumento para adivinar lo que consumimos, lo que queremos consumir y hasta lo que pensamos. Lo que pocos saben es que este monstruo aparentemente indestructible tiene un eslabón tan débil que logra destruir la mayoría de las iniciativas de sus fanáticos seguidores en el mundo real.

Los científicos de datos solemos luchar por extraer esa jugosa información escondida que llueve permanentemente de todos lados. La realidad indica que muchos de los esfuerzos no son precisamente exitosos, y para peor de males el proceso suele consumir bastante dinero. La moda, la facilidad de acceso a ciertas herramientas para trabajar con los datos, y la animosidad de muchos que se suben a la nueva ola de “estudiemos los datos para vender más y mejor” hace que la tarea de hacer minería de datos se convierta en un monstruo que no solo devora los datos a su paso… también devora la economía de las organizaciones ingenuas. La pregunta entonces es, ¿cómo evitar ser devorados junto con nuestros datos? ¿Cómo evitar que la ciencia de datos devore recursos empresariales útiles para algo que a la postre resulta bastante inútil?

Las aplicaciones de ciencia de datos muchas veces devoran recursos útiles de manera inútil

La clave del problema es bastante simple y complejo a la vez. Pasa básicamente por administrar la calidad de los datos que consumimos. Debemos alimentar nuestras estrategias con datos que generen información confiable y por supuesto esto no es nada nuevo bajo el cielo. Entonces, ¿por qué es tan difícil solucionarlo? ¿por qué caemos en las mismas fallas de siempre?

Según la doctora Fatimah Sidi y su equipo de la universidad de Putra en Malasia, el problema de datos ha sido ampliamente estudiado y hasta existen varias clasificaciones de los incontables problemas que una empresa puede hallar cuando intenta hacer que produzcan información de negocios útil. En su publicación “Data Quality: A survey of Data Quality Dimensions”, logra identificar la escalofriante cantidad de 40 razones halladas sistemáticamente como fuente indiscutible de estos problemas, a los cuales etiqueta como “dimensiones de calidad de datos”. El estudio confirma que muchos creen que el poder de sus decisiones recae fundamentalmente en la calidad de sus especialistas y las técnicas que se apliquen. Pero la realidad es que el mayor impacto en las consecuencias desastrosas, lo realiza la calidad en los datos que se usan como base. El foco y la mayor inversión, según sus hallazgos, debe darse en la garantía de que los procesos industriales de donde se extraen los datos, puedan administrar esas cuarenta dimensiones de manera adecuada.

Otra cuestión detectada por los mencionados especialistas de la Facultad de Ciencias y Tecnología de la Información, es que no hay gran consenso entre los expertos sobre el peso relativo de las dimensiones que ellos detectaron. Esto impide una evaluación precisa de cómo impacta individualmente cada una. Por ello prescriben la necesidad de mayor profundización y concientización de la problemática. En tanto, el camino está trazado y los especialistas prometen seguir la pista hasta poder ayudar a la comunidad con determinaciones más contundentes a pesar de la ambigüedad y confusión reinante.

Daniela López De Luise

Academia Nacional de Ciencias de Buenos Aires

Académica coordinadora CETI