Ciencia de datos e investigación aplicada

Machine Learning e inferencia: el sesgo del muestreo no probabilístico

Escrito por Lucie Poisson | 13/11/2025 02:00:00 PM

Vivimos una paradoja en la investigación de mercados y el big data: recogemos datos más rápido que nunca gracias a herramientas de machine learning y analítica avanzada, pero muchas veces no podemos decir nada con certeza.

¿Por qué? Porque seguimos atrapados en una idea vieja:

“Como no usamos una muestra probabilística, no podemos inferir”.

Eso fue cierto… hace décadas. Hoy hay métodos modernos y robustos que permiten hacer inferencia aún con muestreo no probabilístico (como encuestas online, CRM, paneles). Pero aquí viene el problema real 👇

 

Pensamiento estadístico en peligro

En el boom de los cursos cortos de ciencia de datos y analítica predictiva, muchos profesionales se forman en técnicas de machine learning sin comprender los fundamentos inferenciales. 

Y esto es grave.

🎯 Porque una investigación de mercados sin pensamiento estadístico no es neutra:

  • Puede llevar a conclusiones equivocadas.
  • Puede hacerte tomar malas decisiones de negocio.
  • Y sí: puede arrastrar tu estudio del anonimato al desprestigio.

 

Entonces... ¿cómo inferir con muestreo no probabilístico?

Hay herramientas estadísticas desarrolladas en las últimas dos décadas que permiten corregir el sesgo de selección. No son milagrosas, pero son poderosas si se usan bien:

 

 

1. Postestratificación: Ajustando con lo que sí sabemos.

Este método consiste en reponderar la muestra según proporciones conocidas de la población (edad, sexo, región, etc.).

Pros:

  • Fácil de aplicar con buena información auxiliar.
  • Corrige parcialmente el sesgo.

⚠️ Contras:

  • Solo funciona si las variables que usas explican bien el sesgo de selección.
  • No corrige si hay diferencias ocultas entre muestra y población.

💡 Útil cuando tienes buenos datos del censo o registros confiables.

 

2. Raking o calibración: Ajustar sin sobreajustar.

Similar a la postestratificación, pero ajusta iterativamente múltiples variables para que la muestra refleje la población.

Pros:

  • Flexible con muchas variables.
  • Se usa en grandes encuestas internacionales.

⚠️ Contras:

  • Puede producir pesos extremos.
  • Requiere software o rutina especializada.

💡 Ideal si trabajas con varias fuentes auxiliares y quieres precisión sin modelos complejos.

 

3. Modelos de propensión de inclusión: ¿Quién responde y por qué? 

Aquí se estima la probabilidad de que una persona esté en la muestra, usando variables observadas. Luego se corrige el sesgo con pesos inversos a esa probabilidad.

Pros:

  • Permite ajustar por múltiples variables.
  • Acerca la lógica del diseño observacional a la causalidad.

⚠️ Contras:

  • Supone que capturaste todas las variables relevantes para la selección (difícil).
  • Pueden surgir pesos extremos si las probabilidades son muy pequeñas.

💡Perfecto cuando tienes información auxiliar rica y quieres un ajuste más técnico.🔮 Modelo de resultado

Modelar directamente el resultado (por ejemplo, intención de compra) según características. ✔️ Útil si conoces bien el fenómeno. ⚠️ Pero... cuidado con pensar que un buen R² es sinónimo de inferencia válida.

 

4. Modelos de resultado: Predecir lo que no observamos. 

En vez de ajustar la selección, este enfoque modela directamente el valor esperado del resultado (como una media o proporción) dado un conjunto de variables.

Pros:

  • Útil cuando conoces bien el fenómeno (comportamiento del consumidor, por ejemplo).
  • Puedes usar machine learning para mejorar precisión.

⚠️ Contras:

  • Si el modelo está mal especificado, los resultados se distorsionan.
  • No captura la incertidumbre por selección no aleatoria.

💡 Ideal si tienes experiencia modelando y buen histórico de datos.

 

5. Estimadores doblemente robustos: Dos caminos, una meta.

Combinan el modelo de propensión y el de resultado. Lo poderoso: basta con que uno de los dos modelos esté bien especificado para que la estimación sea válida.

Pros:

  • Mucho más resistente al error de especificación.
  • Ampliamente usado en epidemiología y economía aplicada.

⚠️ Contras:

  • Requiere más trabajo técnico y validación.
  • La implementación puede ser más sofisticada.

💡 Recomendado cuando el estudio es crítico y se justifica una inversión analítica mayor.

 

Una encuesta online no es excusa para una inferencia floja.

La calidad de una investigación no depende del tamaño de muestra ni del algoritmo que uses. Depende de si entendiste cómo tus datos llegaron ahí y qué suposiciones estás haciendo para generalizar. 👉 Y eso no se enseña en 12 horas de curso online.

 

Lo que hace falta: más estadística, menos moda.

Necesitamos volver a poner el pensamiento estadístico en el centro del proceso de investigación de mercados y la analítica de datos. Hoy, integrar técnicas de big data, behavioral sciences y modelos predictivos sólidos es clave para generar conocimiento válido y ético.