4.10 Recta de regresión y predicción

En el subtema 4.4 conociste la recta de regresión de y sobre x, la que sirve para predecir y sabiendo x. Pero la vida no siempre pregunta en esa dirección. A veces lo que conoces es la y y lo que necesitas estimar es la x: sabes la nota final que quiere sacar un alumno y quieres estimar cuántas horas «debería» haber estudiado. Para ese caso hay otra recta distinta.

El subtema NM 4.10 cierra el bloque de estadística descriptiva con la recta de regresión de x sobre y. Aprenderás cuándo usar cada una de las dos rectas, por qué no son la misma despejada, y la advertencia central del IB: cada recta de regresión está hecha para predecir una variable concreta, y usar la equivocada da estimaciones poco fiables.

Dos rectas de regresión, no una

Por qué hay dos rectas

La recta de regresión de y sobre x (la de 4.4) se obtiene haciendo mínima la suma de los cuadrados de las distancias verticales de los puntos a la recta. Esa elección no es caprichosa: como se quiere predecir y, el error que importa es el error en y, que se mide en vertical.

Pero si lo que se quiere predecir es x, el error relevante es el error en x, que se mide en horizontal. La recta que hace mínima la suma de los cuadrados de las distancias horizontales es, en general, una recta distinta: es la recta de regresión de x sobre y.

Las dos rectas de regresión

Regresión de y sobre x: ecuación y = ax + b. Minimiza las distancias verticales. Se usa para predecir y a partir de un valor conocido de x.
Regresión de x sobre y: ecuación x = cy + d. Minimiza las distancias horizontales. Se usa para predecir x a partir de un valor conocido de y.

Ambas pasan por el punto de las medias (x̄, ȳ) y comparten el mismo coeficiente de correlación r. Salvo que la correlación sea perfecta (r = ±1), las dos rectas son distintas y se cortan justo en (x̄, ȳ).

💡 Idea clave: la recta de x sobre y no es la de y sobre x con la x despejada. Son dos rectas calculadas con criterios de mínimos cuadrados diferentes. Solo coincidirían si todos los puntos estuvieran exactamente sobre una recta (r = ±1); cuanto más débil es la correlación, más se separan entre sí.

Elegir la recta correcta

La regla es sencilla y no admite excepciones: la variable que quieres estimar debe ser la variable respuesta de la recta que uses. Es decir, debe ser la que está «sola» a la izquierda de la ecuación.

Qué te dan	Qué quieres estimar	Recta que debes usar
Un valor de x	El valor de y	Regresión de y sobre x: y = ax + b
Un valor de y	El valor de x	Regresión de x sobre y: x = cy + d

Ejemplo 1 — identificar la recta adecuada. Un estudio relaciona la temperatura media diaria x (°C) con el número de bebidas frías vendidas y en un quiosco. Indica qué recta de regresión usar en cada caso: (a) se prevé una temperatura de 30 °C y se quiere estimar las ventas; (b) un día se vendieron 240 bebidas y se quiere estimar qué temperatura hizo.

(a) Se conoce x (temperatura) y se quiere estimar y (ventas): la variable respuesta es y. Recta de y sobre x.
(b) Se conoce y (ventas) y se quiere estimar x (temperatura): la variable respuesta es x. Recta de x sobre y.

Predicciones con la recta de x sobre y

Usar la recta x = cy + d

La recta de regresión de x sobre y se obtiene de la calculadora gráfica igual que la otra: se introducen las dos listas, pero asignando la variable y al papel de variable explicativa y la x al de variable respuesta. La calculadora devuelve los coeficientes c y d de la ecuación x = cy + d. Para predecir, se sustituye el valor conocido de y y se calcula x.

Ejemplo 2 — predecir x a partir de y. Para ocho días se registró la temperatura x (°C) y las bebidas frías vendidas y. La calculadora da la recta de regresión de x sobre y: x = 0,05y + 8. Un día se vendieron 360 bebidas. Estima la temperatura de ese día.

Se conoce y = 360 y se quiere x: la recta de x sobre y es la correcta.
Sustituir: x = 0,05 × 360 + 8.
0,05 × 360 = 18; luego x = 18 + 8 = 26 °C.
Se estima que ese día la temperatura media fue de unos 26 °C.

Ejemplo 3 — las dos rectas dan estimaciones distintas. Para el mismo conjunto de datos, la recta de y sobre x es y = 16x − 56 y la de x sobre y es x = 0,05y + 8. Comprueba que ambas pasan por el punto de las medias (x̄, ȳ) = (26, 360) y muestra que «despejar» una no da la otra.

Recta de y sobre x en x = 26: y = 16 × 26 − 56 = 416 − 56 = 360 = ȳ. ✓ Pasa por (26, 360).
Recta de x sobre y en y = 360: x = 0,05 × 360 + 8 = 18 + 8 = 26 = x̄. ✓ Pasa por (26, 360).
Si se despeja x de y = 16x − 56 se obtiene x = (y + 56)/16 = 0,0625y + 3,5.
Esa recta despejada (pendiente 0,0625) no coincide con la de x sobre y (pendiente 0,05): son rectas diferentes. Solo se cortan en el punto de las medias (26, 360).

Cuándo una predicción es fiable

Tener la recta correcta no garantiza una buena predicción. La fiabilidad depende de dos cosas que ya conoces del subtema 4.4:

La fuerza de la correlación. Si |r| es alto (cercano a 1), los puntos se ciñen bien a la recta y la predicción es ajustada. Si |r| es bajo, la recta resume mal la nube y cualquier predicción es muy incierta.
El rango de los datos. Predecir dentro del rango observado (interpolación) es razonable; predecir fuera (extrapolación) es arriesgado, porque la relación lineal puede no mantenerse.

El IB añade una advertencia específica de este subtema: no siempre se puede predecir de forma fiable y a partir de x usando la recta de x sobre y (ni al revés). Cada recta está optimizada para predecir su propia variable respuesta. Usar la recta de x sobre y para estimar un valor de y obliga a despejar la y, y el resultado ya no es la recta que minimiza el error en y: la predicción pierde fiabilidad.

Ejemplo 4 — usar la recta equivocada. Con las rectas del Ejemplo 3, se quiere estimar las bebidas vendidas un día de 22 °C. Compara estimar y con la recta correcta y con la recta de x sobre y mal usada.

Recta correcta (y sobre x, predice y): y = 16 × 22 − 56 = 352 − 56 = 296 bebidas.
Recta de x sobre y, despejando y: de x = 0,05y + 8 se despeja y = (x − 8)/0,05 = 20x − 160. Para x = 22: y = 20 × 22 − 160 = 440 − 160 = 280 bebidas.
Las dos cifras, 296 y 280, no coinciden: difieren en 16 bebidas. La estimación válida es la de la recta de y sobre x; la otra es menos fiable porque esa recta no fue ajustada para minimizar el error en y.
Conclusión: para estimar y se usa la recta de y sobre x; para estimar x, la de x sobre y. Nunca se despeja una para hacer el trabajo de la otra.

Error frecuente

Quedarse con una sola recta y despejar la variable que falte. Es el fallo más penalizado del subtema 4.10. Si tienes y = ax + b y te piden estimar x conociendo y, despejar x de esa ecuación no es la recta de x sobre y: es una recta distinta y la estimación es menos fiable. La regla, sin excepciones: la variable que quieres estimar tiene que estar despejada en la recta que uses. Otro error habitual: dar una predicción sin comentar su fiabilidad cuando r es bajo o cuando hay extrapolación; el IB espera ese comentario crítico.

Para el examen

Antes de tocar la calculadora, identifica qué variable te dan y cuál te piden. La que te piden es la variable respuesta y manda qué recta calcular: piden y → regresión de y sobre x; piden x → regresión de x sobre y. En la calculadora gráfica, la recta de x sobre y se obtiene metiendo la lista de las y como variable explicativa y la de las x como respuesta. Comprueba siempre que tu recta pase por (x̄, ȳ): es una verificación rápida y gratuita. Y cuando entregues una predicción, añade una frase sobre su fiabilidad: ¿es interpolación o extrapolación?, ¿es fuerte la correlación? Esa frase suele valer una marca.