MlOps: FindMatches y machine learning en integración de datos con Glue

Cuando hablamos de MlOps, nos referimos a un conjunto de prácticas para desarrollar, poner en producción y mantener modelos de machine learning con relativa confiabilidad. Este concepto viene de prácticas de desarrollo de software o DevOps.

Los modelos de machine learning son desarrollados y probados en contextos experimentales diferentes, cuando el modelo es eficiente y supera las pruebas técnicas que anuncian su calidad, MlOps nos ayuda a poner en producción el modelo administrando el ciclo de vida del mismo. Esto implica orquestar la información que alimenta el modelo, los sistemas de consumo (API's, Reporteadores entre otros).

En los procesos de integración de datos, particularmente en la formación de lagos de datos, es común la ausencia de llaves que permitan unificar las diferentes fuentes de información. Para no ir tan lejos, algunos casos de uso a continuación:

    • Las bases de datos de comercio internacional, tienen los nombres de las empresas importadoras y exportadoras escritos de diferentes formas, con SA, S.A, letras truncadas etc.
    • Algunas bases de datos tienen mal escritos los barrios, ciudades, distritos etc. lo que vuelve difícil los procesos de integración de información.
    • La información de un cliente en una base de datos, puede no necesariamente coincidir con el mismo cliente en otra base de datos, ya sea por temas ortográficos o de tipeo.

Por lo general, si el sistema se estuviese construyendo a corto plazo y para un reporte esporádico, la estandarización de la información se haría manualmente. Pero en la construcción de sistemas vivos esta no es una opción.

En la arquitectura AWS Amazon Web Service, contamos con AWS Data Glue, una potente herramienta para desarrollar transformaciones de datos y procesos ETL. Dentro de sus funcionalidades contamos con ML transformations y en este grupo encontramos una funcionalidad llamada FINDMACHES.

Esta transformación requiere que entrenemos un modelo de machine learning que reconocerá casos bien y mal clasificados. Para ello, debemos crear un archivo que informe al sistema cuando un caso tiene errores.

Estos modelos de machine learning que aprenden de los errores, se denominan aprendizaje por reforzamiento. Lo valioso de AWS Data Glue, es la gran cantidad de MlOps disponibles. Intrínsecamente el modelo que creamos para limpiar los duplicados y estandarizar los textos, es auto-administrable dentro de la aplicación. informa cuando pierde su potencia y puede ser calibrado a diferentes niveles de precisión.

En nuestros experimentos controlados, la utilidad / rendimiento computacional y técnico de esta alternativa es 25% mas eficiente en comparación con su homólogo en AZURE y 32% en comparación con su homólogo en Google usando datos de 1.2 TB.

Queremos acompañar tus procesos de migración a la nube con nuestros expertos en MlOps y DataOps. ¿Entramos en contacto?

Cristina Contreras

Cristina Contreras

Cristina tiene estudios en psicología y estadística. Tiene más de 11 años de experiencia en modelamiento predictivo de comportamiento humano en escenarios de consumo y compra

Artículos Relacionados

Retos de gobierno de datos en e-commerce y marketplaces

Durante la primera década de este siglo los retos organizacionales consistían en conectar...

CONTINUAR LEYENDO

LeanStartup & Analytics: Innovación centrada en datos

Cuando hablamos de Lean Startup, nos referimos a una metodología para innovación y desarrollo de...

CONTINUAR LEYENDO

Madurez analítica en empresas de Colombia y México (Parte 2)

En nuestro anterior blog (Madurez analítica en empresas de Colombia y México parte 1) revisamos los...

CONTINUAR LEYENDO