Ciencia de datos e investigación aplicada

MlOps: FindMatches y machine learning en integración de datos con Glue

Escrito por Cristina Contreras | 11/10/2021 11:40:41 PM

Cuando hablamos de MlOps, nos referimos a un conjunto de prácticas para desarrollar, poner en producción y mantener modelos de machine learning con relativa confiabilidad. Este concepto viene de prácticas de desarrollo de software o DevOps.

Los modelos de machine learning son desarrollados y probados en contextos experimentales diferentes, cuando el modelo es eficiente y supera las pruebas técnicas que anuncian su calidad, MlOps nos ayuda a poner en producción el modelo administrando el ciclo de vida del mismo. Esto implica orquestar la información que alimenta el modelo, los sistemas de consumo (API's, Reporteadores entre otros).

En los procesos de integración de datos, particularmente en la formación de lagos de datos, es común la ausencia de llaves que permitan unificar las diferentes fuentes de información. Para no ir tan lejos, algunos casos de uso a continuación:

    • Las bases de datos de comercio internacional, tienen los nombres de las empresas importadoras y exportadoras escritos de diferentes formas, con SA, S.A, letras truncadas etc.
    • Algunas bases de datos tienen mal escritos los barrios, ciudades, distritos etc. lo que vuelve difícil los procesos de integración de información.
    • La información de un cliente en una base de datos, puede no necesariamente coincidir con el mismo cliente en otra base de datos, ya sea por temas ortográficos o de tipeo.

Por lo general, si el sistema se estuviese construyendo a corto plazo y para un reporte esporádico, la estandarización de la información se haría manualmente. Pero en la construcción de sistemas vivos esta no es una opción.

En la arquitectura AWS Amazon Web Service, contamos con AWS Data Glue, una potente herramienta para desarrollar transformaciones de datos y procesos ETL. Dentro de sus funcionalidades contamos con ML transformations y en este grupo encontramos una funcionalidad llamada FINDMACHES.

Esta transformación requiere que entrenemos un modelo de machine learning que reconocerá casos bien y mal clasificados. Para ello, debemos crear un archivo que informe al sistema cuando un caso tiene errores.

Estos modelos de machine learning que aprenden de los errores, se denominan aprendizaje por reforzamiento. Lo valioso de AWS Data Glue, es la gran cantidad de MlOps disponibles. Intrínsecamente el modelo que creamos para limpiar los duplicados y estandarizar los textos, es auto-administrable dentro de la aplicación. informa cuando pierde su potencia y puede ser calibrado a diferentes niveles de precisión.

En nuestros experimentos controlados, la utilidad / rendimiento computacional y técnico de esta alternativa es 25% mas eficiente en comparación con su homólogo en AZURE y 32% en comparación con su homólogo en Google usando datos de 1.2 TB.

Queremos acompañar tus procesos de migración a la nube con nuestros expertos en MlOps y DataOps. ¿Entramos en contacto?