MlOps: FindMatches y machine learning en integración de datos con Glue

Publicado por Cristina Contreras 11/10/2021 06:40:41 PM 2 minutes to read

Cuando hablamos de MlOps, nos referimos a un conjunto de prácticas para desarrollar, poner en producción y mantener modelos de machine learning con relativa confiabilidad. Este concepto viene de prácticas de desarrollo de software o DevOps.

Los modelos de machine learning son desarrollados y probados en contextos experimentales diferentes, cuando el modelo es eficiente y supera las pruebas técnicas que anuncian su calidad, MlOps nos ayuda a poner en producción el modelo administrando el ciclo de vida del mismo. Esto implica orquestar la información que alimenta el modelo, los sistemas de consumo (API's, Reporteadores entre otros).

En los procesos de integración de datos, particularmente en la formación de lagos de datos, es común la ausencia de llaves que permitan unificar las diferentes fuentes de información. Para no ir tan lejos, algunos casos de uso a continuación:

- Las bases de datos de comercio internacional, tienen los nombres de las empresas importadoras y exportadoras escritos de diferentes formas, con SA, S.A, letras truncadas etc.
- Algunas bases de datos tienen mal escritos los barrios, ciudades, distritos etc. lo que vuelve difícil los procesos de integración de información.
- La información de un cliente en una base de datos, puede no necesariamente coincidir con el mismo cliente en otra base de datos, ya sea por temas ortográficos o de tipeo.

Por lo general, si el sistema se estuviese construyendo a corto plazo y para un reporte esporádico, la estandarización de la información se haría manualmente. Pero en la construcción de sistemas vivos esta no es una opción.

En la arquitectura AWS Amazon Web Service, contamos con AWS Data Glue, una potente herramienta para desarrollar transformaciones de datos y procesos ETL. Dentro de sus funcionalidades contamos con ML transformations y en este grupo encontramos una funcionalidad llamada FINDMACHES.

Esta transformación requiere que entrenemos un modelo de machine learning que reconocerá casos bien y mal clasificados. Para ello, debemos crear un archivo que informe al sistema cuando un caso tiene errores.

Estos modelos de machine learning que aprenden de los errores, se denominan aprendizaje por reforzamiento. Lo valioso de AWS Data Glue, es la gran cantidad de MlOps disponibles. Intrínsecamente el modelo que creamos para limpiar los duplicados y estandarizar los textos, es auto-administrable dentro de la aplicación. informa cuando pierde su potencia y puede ser calibrado a diferentes niveles de precisión.

En nuestros experimentos controlados, la utilidad / rendimiento computacional y técnico de esta alternativa es 25% mas eficiente en comparación con su homólogo en AZURE y 32% en comparación con su homólogo en Google usando datos de 1.2 TB.

Queremos acompañar tus procesos de migración a la nube con nuestros expertos en MlOps y DataOps. ¿Entramos en contacto?

América del Sur

México y Centroamérica

Machine learning, Data Science, DataOps, MlOps, AWS

Cristina Contreras

Cristina tiene estudios en psicología y estadística. Tiene más de 11 años de experiencia en modelamiento predictivo de comportamiento humano en escenarios de consumo y compra

IA vs DS: Diferencias e intersecciones del mundo tecnológico (Parte 2)

Poblicado por Adrián Lara | 23/02/2024 07:24:04 PM

A pesar de constituir dos campos fundamentales que impulsan la innovación tecnológica actual, la...

CONTINUAR LEYENDO

Retos de gobierno de datos en e-commerce y marketplaces

Poblicado por Cristina Contreras | 7/11/2021 11:15:43 AM

Durante la primera década de este siglo los retos organizacionales consistían en conectar...

CONTINUAR LEYENDO

IA vs DS: Diferencias e intersecciones del mundo tecnológico (Parte 1)

Poblicado por Adrián Lara | 23/02/2024 07:26:46 PM

La Inteligencia Artificial (IA) y la Ciencia de Datos (DS) son dos campos de conocimiento que...

CONTINUAR LEYENDO

MlOps: FindMatches y machine learning en integración de datos con Glue

Cristina Contreras

Recent posts

Publicaciones por etiqueta

Artículos Relacionados

IA vs DS: Diferencias e intersecciones del mundo tecnológico (Parte 2)

Retos de gobierno de datos en e-commerce y marketplaces

IA vs DS: Diferencias e intersecciones del mundo tecnológico (Parte 1)

Grow your business more quickly
with our solutions for inbound and ecommerce

MlOps: FindMatches y machine learning en integración de datos con Glue

Cristina Contreras

¿CÓMO PODEMOS AYUDARTE?

Recent posts

Publicaciones por etiqueta

Artículos Relacionados

IA vs DS: Diferencias e intersecciones del mundo tecnológico (Parte 2)

Retos de gobierno de datos en e-commerce y marketplaces

IA vs DS: Diferencias e intersecciones del mundo tecnológico (Parte 1)

Grow your business more quickly with our solutions for inbound and ecommerce

Grow your business more quickly
with our solutions for inbound and ecommerce