Regresión Lineal Simple

A continuación, vamos a detallar de una forma sencilla y detallada cómo aplicar la Regresión Lineal Simple para predecir ventas en función de una sola variable —en este caso, va a ser el gasto en publicidad (Ads)— en un contexto de e-commerce.

Veremos los conceptos, los pasos para implementar la regresión y un ejemplo práctico para entender cómo se vería en la realidad.

1. ¿Qué es la Regresión Lineal Simple?

La Regresión Lineal Simple es una técnica estadística que permite estimar la relación entre una variable independiente (X) y una variable dependiente (Y). En notación estándar:

          Y=β0+β1X+ε

  • Y: Variable dependiente que se quiere predecir (en este caso, las ventas de tu e-commerce).
  • X: Variable independiente que usamos para explicar o predecir Y (por ejemplo, gasto en publicidad).
  • β0 y β1: Parámetros del modelo (intercepto y pendiente) que debemos estimar a partir de los datos.
  • ε : Término de error o residuo, que representa la parte de Y que no se explica por X.

Con esta ecuación, la idea es predecir las ventas (Y) para un determinado nivel de inversión en ads (X).

2. ¿Por qué usar Regresión Lineal Simple en e-commerce?

  1. Simplicidad: Es fácil de entender y de interpretar. Además, cuando tienes una relación clara entre dos variables                   (publicidad ventas), puede darte insights rápidos.
  2. Rapidez de implementación: Con poca infraestructura estadística, puedes montar un modelo y empezar a predecir.
  3. Toma de decisiones: Te ayuda a responder a preguntas como: “¿Cuánto debo invertir en ads para alcanzar €X en ventas?”.

Atención: Ten en cuenta que correlación no implica causalidad. Que tus ventas suban cuando sube la inversión en ads podría deberse a varios factores (estacionalidad, branding, calidad de la campaña, etc.).

Aun así, la regresión es un primer paso sólido para entender la relación.

3. Pasos para aplicar Regresión Lineal Simple al e-commerce

3.1 Reunir los datos

  • Historial de ventas: Puede ser ingresos mensuales, semanales o diarios de tu e-commerce.
  • Gasto en publicidad: Cuánto invertiste en ads en el mismo período (Google Ads, Facebook Ads, TikTok, etc.).
  • Periodo de análisis: Definir un intervalo (por ejemplo, 12 meses o 1 año de datos semanales) que sea representativo y que no mezcle etapas muy diferentes de tu negocio (por ejemplo, antes y después de un rediseño total de tu web, sin aislar el cambio).

3.2 Verificar la relación entre X e Y

  • Haz un diagrama de dispersión (scatter plot) con X (gasto) en el eje horizontal e Y (ventas) en el eje vertical.
  • Observa si los puntos parecen seguir una tendencia lineal (ascendente o descendente). Si la relación no parece lineal (por ejemplo, es curvilínea), puede que necesites otro tipo de modelo (regresión polinómica o logarítmica).

3.3 Ajustar el modelo (training)

  • Normalmente, se utiliza el método de Mínimos Cuadrados Ordinarios (Ordinary Least Squares, OLS) para encontrar los coeficientes β0 y β1.
  • Herramientas:
    • Excel (con la función de Análisis de Datos o fórmulas de tendencia).
    • Librerías de Python: statsmodels, sklearn.linear_model.LinearRegression.
    • R: Función lm().

3.4 Evaluar el modelo

  • Coeficiente de Determinación (R²): Indica qué proporción de la variabilidad de Y se explica por X. Cuanto más cercano a 1, mejor el ajuste (aunque hay que tener cuidado con la sobreinterpretación).
  • p-value de β1: Verifica si la pendiente es estadísticamente distinta de cero (si es menor de 0,05, solemos considerar que hay relación significativa entre gasto en ads y ventas).
  • Análisis de residuos: Verifica si se cumple la homocedasticidad (los residuos no deben aumentar o reducirse de forma sistemática a medida que aumenta X) y si están distribuidos de forma aproximadamente normal.

3.5 Uso del modelo para predecir (inference)

  • Una vez validado, tu modelo te permitirá introducir un valor de gasto en publicidad (X) y obtener una estimación de ventas (Y).
  • También podrás construir intervalos de confianza (la predicción no es un valor puntual, sino un rango probable).

4. Ejemplo Práctico

Imagina que tienes los siguientes datos mensuales (12 puntos de datos simplificados):

Mes Gasto en Ads (X) Ventas (Y)
1 2,000 10,000
2 2,500 12,500
3 3,000 13,500
4 3,500 14,500
5 4,000 16,000
6 4,500 17,000
7 3,000 13,700
8 3,200 14,100
9 2,800 11,600
10 4,000 15,200
11 5,000 18,500
12 6,000 19,800

(Ejemplo hipotético, solo para ilustrar).

  • Paso 1: Trazas un scatter plot y notas cierta relación lineal: a mayor gasto, mayores ventas.
  • Paso 2: Ajustas la regresión lineal:Ventas=β0+β1×(Gasto en ads)
  • Paso 3: Supón que el software de análisis te da un resultado como:β^0=5000,  β^1=3
  • Esto significaría una ecuación aproximada:Ventas=5,000+3×(Gasto en ads)
  • Interpretación:
    • Intercepto (β^0=5,000): Cuando el gasto en ads es 0, se esperan ventas de $5,000 (basado en este modelo simplificado).
    • Pendiente (β^1=3): Por cada dólar adicional invertido en ads, las ventas se incrementan en promedio 3€, según la relación histórica observada.
  • Paso 4: Predicción. Si gastas 4,000€ en ads: Ventas=5,000+3×4,000=5,000+12,000=17,000
    • Significa que, según el modelo, esperas ventas promedio de 17,000€.
  • Paso 5: Validar la bondad del ajuste.
    • Si R2R^2 es alto (digamos 0,85), indica que el 85% de la variabilidad en ventas se explica por la variación en el gasto en publicidad.
    • Revisa los residuos para confirmar que el modelo no esté omitiendo patrones sistemáticos.

Importante: Este resultado es muy “limpio”. En la realidad, hay más ruido (promociones, estacionalidad, reputación de marca, etc.), y es normal que la regresión no explique todo.

5. Limitaciones y consideraciones

  1. Monocausalidad: Asumir que “ventas = f(gasto en ads)” ignora otros factores como la competencia, la reputación de marca, la estacionalidad o la calidad del producto.
  2. Estacionalidad: En e-commerce, hay meses con picos (p.ej. Black Friday, Navidad). Podrías necesitar variables dummies o modelos de series temporales.
  3. Cambios estructurales: Si tu tienda cambió significativamente (rediseño, categoría de producto nueva), los datos pasados pueden no predecir bien el futuro.
  4. Causalidad vs. correlación: Un buen R² no garantiza que el gasto en ads “cause” el aumento de ventas; puede haber un tercer factor impulsando ambas variables.
  5. Datos suficientes: En e-commerce, el tamaño de la muestra (tiempo de recolección) y la calidad de la atribución publicitaria son cruciales. Sin datos confiables, el modelo puede sesgarse.

6. Recomendaciones para mejorar tu modelo

  1. Incluir más variables (Regresión Múltiple)
    • Sumar factores como precio promedio, visitas orgánicas, número de productos en el catálogo, reseñas, etc.
    • Un modelo con más variables puede explicar mejor las ventas (pero también con más complejidad).
  2. Controlar factores estacionales
    • Usar dummies (variables binarias) para señalar meses de alta demanda o feriados.
  3. Monitorear continuamente
    • Ajustar y reentrenar el modelo cada cierto tiempo conforme cambien las condiciones del mercado.
  4. Analizar la elasticidad de la publicidad
    • Saber si cada dólar adicional en ads sigue produciendo el mismo efecto en ventas (en muchos casos, hay rendimientos decrecientes).
  5. Aplicar pruebas con A/B Testing
    • Validar si realmente subir el gasto en ads en un canal específico produce el incremento esperado (para acercarte más a la causalidad).

7. Conclusión

La Regresión Lineal Simple es una herramienta poderosa y, a la vez, accesible para modelar la relación entre el gasto en publicidad y las ventas en un e-commerce.

Aunque es un primer paso y no refleja toda la complejidad de la realidad, puede ayudarte a:

  • Entender si hay correlación entre tu inversión publicitaria y las ventas.
  • Estimar cuántas ventas adicionales podrías lograr con un cambio incremental en el gasto de anuncios.
  • Comunicar a nivel ejecutivo un modelo “básico pero accionable” que demuestre el retorno potencial de invertir en publicidad.

Eso sí, mantén siempre en mente sus limitaciones: no es la fórmula mágica que explica todos los movimientos de ventas, y se basa en muchos supuestos estadísticos (linealidad, no autocorrelación, homocedasticidad de residuos, etc.).

Aun así, con una buena práctica de recolección de datos, un análisis crítico y la incorporación de otras técnicas más avanzadas (regresión múltiple, modelos de atribución, test A/B), tendrás un panorama más completo para la toma de decisiones en tu negocio de e-commerce.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio