Cómo la calidad de los datos puede matar su proyecto de ciencia de datos ... si no tiene cuidado.


Si "Data Scientist es el trabajo más sexy del siglo XXI", entonces la calidad de los datos es el aspecto menos atractivo, pero eso no quita su importancia crítica.

Con la creciente inversión en Inteligencia Artificial y Aprendizaje Automático, y las historias de éxito casi a diario en las noticias, las organizaciones en las industrias tradicionales están invirtiendo en ciencia de datos como nunca antes.

Sin embargo, muchas de estas empresas deben lidiar con sistemas heredados, la falta de habilidades básicas de datos entre sus empleados y la mala calidad de los datos.

Las consecuencias de la mala calidad de los datos pueden ser enormes.En un estudio de investigación publicado en MIT Sloan Management Review, se dice que las compañías están perdiendo alrededor del 15% al 25% de sus ingresos debido a la mala calidad de los datos.

La mala calidad de los datos incluso se ha citado como un factor en los desastres, incluida la explosión del transbordador espacialChallengery el derribo de un Airbus iraní por parte delUSS Vincennes².


Una consecuencia de la mala calidad de los datos es que los trabajadores del conocimiento pierden hasta el 50% de su tiempo tratando con problemas de calidad de datos mundanos.Para los científicos de datos, este número puede llegar al 80%.

Una estrategia de contratar científicos de datos y señalarlos a los problemas comerciales probablemente no producirá los resultados esperados si no existen bases sólidas de datos.Un estribillo común es "basura, basura" (GIGO), lo que significa que si los datos utilizados para entrenar un modelo son de muy baja calidad, es poco probable que produzca resultados precisos.

Una encuesta de Kaggle en 2017 de profesionales en el dominio de Data Science3 mostró que Dirty Data era su desafío número uno (ver Figura 1).

Figura 1 - Encuesta Kaggle 2017 ML & DS - ¿Qué barreras se enfrentan en el trabajo?

Aunque hay varias formas en que los científicos de datos pueden abordar los problemasde calidad de datos,la calidad de los datos debe ser una prioridad de toda la organización.

Más allá de la importancia de los datos de calidad en los modelos de formación de aprendizaje automático, la calidad de los datos afecta la inteligencia empresarial, la información de gestión y todos los procesos o decisiones que dependen de que los datos de la organización sean correctos.


¿Qué queremos decir con calidad de datos?

La calidad de los datos es un término muy amplio, pero puede considerarse en seis dimensiones clave4:


Integridad¿Seregistran todos los conjuntos de datos y elementos de datos?

Ejemplo: para un sitio web de comercio electrónico, ¿hay un registro para cada cliente que ha creado una cuenta en la plataforma?


Consistencia¿Podemos hacer coincidir el conjunto de datos en las fuentes de datos?

Ejemplo: para una compañía aérea de ejemplo, ¿el número de pasaporte en la tarjeta de embarque de un pasajero es el mismo que en su pasaporte?


Unicidad¿Hay una vista única de atributos de datos únicos?

Ejemplo: en el caso de una empresa de fabricación, ¿hay una entrada única para cada proveedor de la cadena de suministro en los datos maestros del proveedor?


Validez¿Los datos coinciden con las reglas definidas?

Ejemplo: ¿La nacionalidad del cliente se enmarca en un conjunto definido de nacionalidades?


Precisión¿Los datos reflejan el valor real?

Ejemplo: un cliente ingresa un código postal incorrecto cuando ordena que se entregue un artículo.


Puntualidad¿Los datos están disponibles cuando se requieren después de haber sido ingresados o recopilados?

Ejemplo: ¿Las transacciones financieras están disponibles a tiempo para que un modelo de detección de fraude detecte transacciones fraudulentas, antes de que se realicen más transacciones?

Hay muchas formas en que los datos de baja calidad pueden introducirse en una base de datos, algunos de estos incluyen:


Errores de entrada de datos,debido a la falta de validación en el punto de entrada de datos, por ejemplo, una aplicación web front-end.


Migración o integración de sistemas fuente, lo que causa inconsistencias entre los datos que provienen de sistemas dispares.


Las canalizaciones de datos complejaspueden introducirdatosinconsistentes e inoportunos a través de transformaciones que los datos pueden sufrir.


Falta de datos maestros organizacionales, querepresentan la información más valiosa acordada en toda una organización, y la administración de dichos datos a través de la administración de datos maestros (MDM).


¿Qué tan bueno es suficientemente bueno?

En cualquier organización, es seguro que los datos nunca serán 100% perfectos.Siempre habrá inconsistencias por error humano, error de la máquina o por pura complejidad debido al creciente volumen, velocidad y variedad de datos que las compañías ahora manejan.

Entonces eso lleva a la pregunta, ¿qué tan bueno es lo suficientemente bueno para los propósitos de la ciencia de datos?

Esto depende de los requisitos del negocio en la precisión de un modelo para su problema comercial.Se requiere una explicación sobre el significado de términos como precisión y recuperación a los interesados no técnicos para comprender si la calidad de los datos y el rendimiento del modelo son lo suficientemente altos como para satisfacer las demandas del negocio.

Además, existen muchas técnicas que el científico de datos puede usar en el proceso de procesamiento de datos al desarrollar un modelo de aprendizaje automático para abordar problemas de calidad de datos.

Éstos incluyen:

•            Imputación de valores perdidos

•            Detección de valores atípicos

•            Estandarización de datos y desduplicación

•            Manejo de diferentes cantidades de datos.

•            Transformación analítica de variables de entrada.

•            Selección de variables para modelado predictivo.

•            Evaluación de la calidad del modelo.


Sin embargo, estos enfoques solo pueden obtener un equipo de ciencia de datos hasta el momento, y es responsabilidad de todos mejorar la calidad de los datos en una organización.


¿Cómo puede abordar una organización los problemas de calidad de datos?

Cultura de calidad de datos

Establecer una cultura sólida de calidad de datos es primordial y debe iniciarse en la parte superior de la organización.Hay una guía de nueve pasos para las organizaciones que desean mejorar la calidad de los datos.

•    Declarar un compromiso de alto nivel con unacultura decalidad de datos.

•    Impulsar la reingeniería de procesos a nivel ejecutivo

•    Gastar dinero para mejorar el entorno de entrada de datos

•    Gaste dinero para mejorar la integración de aplicaciones

•    Gastar dinero para cambiar cómo funcionan los procesos

•    Promover la conciencia del equipo de extremo a extremo.

•    Promover la cooperación interdepartamental.

•    Celebrar públicamente la excelencia en la calidad de los datos.

•    Mide y mejora continuamente la calidad de los datos


Procesos de calidad de datos


La buena calidad de los datos comienza en el punto de entrada.Validar los problemas de calidad de los datos lo antes posible en una tubería de datos, ya que reduce la necesidad de que las aplicaciones posteriores dupliquen el esfuerzo en la limpieza de datos.Tomemos, por ejemplo, una aplicación que toma pedidos de entrega de clientes.Hacer que la aplicación front-end valide las direcciones de correo electrónico, las direcciones postales y los detalles de pago correctos significará que cualquier procesamiento posterior de los datos no tendrá que corregir tantos problemas de calidad de datos.


Automatizar el perfil y la validación de datosen cada etapa de la canalización de datos puede ayudar a identificar problemas desde el principio y ahorrar tiempo en la identificación manual de problemas más adelante.Los ingenieros de datos que escriben scripts simples para garantizar que los recuentos de filas, las relaciones de tabla y los tipos de datos esperados coincidan, merecen la pequeña cantidad de tiempo en el desarrollo inicial.

No reinventes la rueda.Aproveche los estándares internacionales(por ejemplo, los códigos de país ISO 3166–1 y los códigos de moneda ISO 4217) o los estándares específicos del país para los datos de referencia (por ejemplo, el archivo de dirección de código postal (PAF) de Royal Mail).


Software de calidad de datos

Existe una gran cantidad de soluciones de software para administrar y mejorar la calidad de los datos, como Talend e Informatica, que incluyen una gama de funciones críticas, como la creación de perfiles, análisis, estandarización, limpieza, coincidencia, enriquecimiento y monitoreo.Un informe de Gartner de 2019 (ver Figura 2) evalúa a 15 proveedores de herramientas de calidad de datos en función de su capacidad de ejecución y la integridad de la visión.

Figura 2: Cuadrante mágico de Gartner 2019 para herramientas de calidad de datos

Algunos de estos proveedores, como CLAIRE de Informática, han incorporado recientemente el aprendizaje automático y la inteligencia artificial en su oferta de productos.


¿Cómo pueden ayudar el aprendizaje automático y la inteligencia artificial a mejorar la calidad de los datos?

Además de depender de datos de buena calidad, un número cada vez mayor de usuarios tempranos está recurriendo al aprendizaje automático y la inteligencia artificial para automatizar los procesos de limpieza de datos.Algunas de las aplicaciones de ML & AI para la calidad de datos son:


Reconocimiento deentidades con nombre: para recuperar entidades importantes de datos no estructurados, como personas, organizaciones y ubicaciones, el Reconocimiento de entidades con nombre (NER) es una técnica de procesamiento del lenguaje natural para automatizar este proceso.Digamos, por ejemplo, que tenía un campo de dirección no estructurado que contenía la dirección Ciudad, NER podría usarse para extraer esta información útil.


Vinculación de registros (coincidencia): la vinculación de registros probabilísticos se ha utilizado durante muchos años en una variedad de industrias, incluidos los grupos médicos, gubernamentales, del sector privado y de investigación.Si bien este método puede producir resultados útiles, ahora es posible mejorar la precisión mediante el aprendizaje automático o algoritmos de redes neuronales.


Clasificación de texto: otra técnica de procesamiento del lenguaje natural, la Clasificación de texto se puede utilizar para automatizar la clasificación de texto no estructurado.Tomemos, por ejemplo, una base de datos que contenga quejas de clientes no estructuradas, la clasificación de texto podría usarse para clasificar las quejas por tema (por ejemplo, entrega tardía, embalaje dañado, descripción del producto inexacta)


El futuro de la calidad de los datos en el aprendizaje automático y la inteligencia artificial

A medida que avanzamos en la nueva década, más compañías implementarán modelos de aprendizaje automático para tomar decisiones críticas de negocios y utilizarán un mayor volumen de datos de una variedad más amplia de fuentes.Probablemente veremos algunos incidentes de alto perfil en los que las decisiones han sido tomadas por modelos capacitados en datos de baja calidad, lo que lleva a multas regulatorias y costosos procesos de rectificación.

Las organizaciones que han hecho el trabajo duro mediante la introducción de una cultura de calidad de datos y comenzaron a automatizar la administración de sus datos utilizando ML & AI verán los beneficios y tendrán una tasa de éxito mucho mayor en la ejecución de iniciativas de ciencia de datos.

Referencias

1. Redman T. Aprovechando la oportunidad en la calidad de los datos (2017)

https://sloanreview.mit.edu/article/seizing-opportunity-in-data-quality/

2. Fisher, C. y Kingma, B. Crítica de la calidad de los datos como se ejemplifica en dos desastres (2001)

https://www.sciencedirect.com/science/article/abs/pii/S0378720601000830

3. Kaggle El estado de la ciencia de datos y el aprendizaje automático (2017)

https://www.kaggle.com/surveys/2017

4. Dimensiones de calidad de datos de Experian (2020)

https://www.experian.co.uk/business/glossary/data-quality-dimensions/

5. Svolba G. 7 formas en que los métodos analíticos mejoran la calidad de los datos (2019)

https://blogs.sas.com/content/hiddeninsights/2019/04/02/7-ways-analytical-methods-improve-data-quality/

6. Kimball, R., Thornthwaite, W., Mundy, J. y Becker, B. El lector de Kimball Group: herramientas implacablemente prácticas para el almacenamiento de datos y la inteligencia empresarial (2015)

7. Inteligencia artificial de Informatica para la interrupción basada en datos (2017)

https://www.informatica.com/content/dam/informatica-com/en/collateral/white-paper/artificial-intelligence-for-data-driven-disruption_white-paper_3328en.pdf

8. Wilson, D. Más allá del enlace de registros probabilísticos: uso de redes neuronales y características complejas para mejorar el enlace de registros genealógicos (2011).Más allá de la vinculación de registros probabilísticos: uso de redes neuronales y características complejas para mejorar la vinculación de registros genealógicos

Avenida O'Higgins Poniente N°77 OF. 1701,

Concepción, Chile

+569 5708 5606

christian.rocha@biobioapps.cl

Este sitio web utiliza cookies. Consulta nuestra política de privacidad para obtener más información.