4.4 Correlación lineal y diagramas de dispersión

Hasta ahora has descrito una variable cada vez: una columna de estaturas, una de notas. Pero muchas de las preguntas interesantes son sobre parejas de variables: ¿estudiar más horas se traduce en mejor nota?, ¿a más temperatura, más helados vendidos? El subtema NM 4.4 introduce las herramientas para responderlas: el diagrama de dispersión, el coeficiente de correlación y la recta de regresión.

Aprenderás a leer la nube de puntos, a interpretar el coeficiente r de Pearson sin calcularlo a mano, a trazar la recta de ajuste óptimo y a usar la recta de regresión de y sobre x para hacer predicciones. Y, sobre todo, a no caer en la trampa más cara de toda la estadística: confundir que dos cosas vayan juntas con que una cause la otra. Correlación no es causalidad, y el IB lo pregunta una y otra vez.

Diagramas de dispersión y correlación

Variables bidimensionales y el diagrama de dispersión

Una variable bidimensional recoge, para cada individuo, un par de valores (x, y). El diagrama de dispersión los representa: cada par es un punto en el plano. La forma de esa nube de puntos es lo primero que hay que mirar, porque sugiere si existe una relación y de qué tipo.

Por convención, la variable que se considera causa o explicación se coloca en el eje horizontal (variable x, explicativa o independiente) y la que depende de ella en el vertical (variable y, respuesta o dependiente). Por ejemplo, horas de estudio en el eje x y nota del examen en el eje y.

Tipos de correlación

La correlación describe cómo se relacionan las dos variables. Se clasifica por su sentido y por su fuerza.

Por el sentido	Aspecto de la nube
Correlación positiva	Al crecer x, y tiende a crecer: la nube sube de izquierda a derecha.
Correlación negativa	Al crecer x, y tiende a decrecer: la nube baja de izquierda a derecha.
Correlación cero (nula)	No se aprecia tendencia lineal: la nube no sube ni baja de forma clara.

La fuerza dice cuánto se ciñen los puntos a una línea recta. Una correlación es fuerte si los puntos están muy alineados, débil si están alineados pero con bastante dispersión, y ninguna si la nube no insinúa recta alguna. Así, una nube puede tener «correlación positiva fuerte», «correlación negativa débil», etc.

💡 Ojo a la palabra «lineal»: toda esta clasificación se refiere a relaciones lineales. Dos variables pueden estar perfectamente relacionadas por una curva (por ejemplo y = x²) y aun así tener correlación lineal casi nula. La ausencia de correlación lineal no significa ausencia de relación.

El coeficiente de correlación de Pearson

El ojo es subjetivo: lo que para uno es «fuerte» para otro es «moderado». El coeficiente de correlación lineal de Pearson, que se representa con r, pone un número a esa apreciación.

El coeficiente r de Pearson

El coeficiente r es un número que cumple siempre −1 ≤ r ≤ 1 y mide la fuerza y el sentido de la relación lineal entre dos variables:

El signo de r da el sentido: r > 0 correlación positiva, r < 0 negativa.
El valor absoluto de r da la fuerza: cuanto más cerca de 1, más fuerte; cuanto más cerca de 0, más débil.
r = ±1: todos los puntos están exactamente sobre una recta. r = 0: no hay relación lineal.

En el examen del IB el coeficiente r se obtiene con la calculadora gráfica (regresión lineal); no se calcula a mano. Y solo es informativo para relaciones lineales.

Una guía orientativa habitual: |r| por encima de 0,8 suele leerse como correlación fuerte; entre 0,5 y 0,8, moderada; por debajo de 0,5, débil. No son fronteras rígidas, sino una referencia para describir.

Ejemplo 1 — interpretar el coeficiente r. Para tres conjuntos de datos bidimensionales una calculadora devuelve (a) r = 0,93; (b) r = −0,42; (c) r = 0,05. Describe la correlación de cada uno.

(a) r = 0,93: signo positivo y valor cercano a 1 → correlación positiva fuerte. Los puntos están muy alineados subiendo.
(b) r = −0,42: signo negativo y valor moderado-bajo → correlación negativa débil. Tendencia descendente, pero con mucha dispersión.
(c) r = 0,05: valor casi nulo → prácticamente ninguna correlación lineal. La nube no insinúa recta.

La recta de ajuste óptimo y la regresión

Recta de ajuste óptimo a ojo

Cuando hay correlación lineal apreciable, se puede resumir la nube con una recta. La recta de ajuste óptimo trazada a ojo es la recta que mejor sigue la tendencia de los puntos, dibujada de forma que queden aproximadamente tantos por encima como por debajo. Para que la recta sea razonable, el IB pide que pase por un punto fijo: el punto de las medias (x̄, ȳ), formado por la media de las x y la media de las y.

💡 Por qué (x̄, ȳ): el punto de las medias es el «centro de gravedad» de la nube. Tanto la recta a ojo como la recta de regresión calculada por mínimos cuadrados pasan exactamente por él. Si trazas una recta a ojo que no pase por (x̄, ȳ), seguro que está mal orientada.

Ejemplo 2 — el punto de las medias. Seis alumnos registran horas de estudio x y nota y: (2, 4), (3, 5), (4, 5), (5, 7), (6, 8), (4, 7). Halla el punto por el que debe pasar la recta de ajuste óptimo.

Media de las x: (2 + 3 + 4 + 5 + 6 + 4) ÷ 6 = 24 ÷ 6 = 4.
Media de las y: (4 + 5 + 5 + 7 + 8 + 7) ÷ 6 = 36 ÷ 6 = 6.
La recta de ajuste óptimo debe pasar por el punto de las medias (4, 6).

La recta de regresión de y sobre x

Trazar la recta a ojo es impreciso. La recta de regresión de y sobre x es la recta calculada matemáticamente —por el método de mínimos cuadrados, que minimiza la suma de los cuadrados de las distancias verticales de los puntos a la recta— y por eso es objetiva y reproducible. Su ecuación tiene la forma:

y = ax + b

donde a es la pendiente y b la ordenada en el origen. Ambos los devuelve la calculadora gráfica al pedir la regresión lineal. Interpretar los parámetros importa tanto como obtenerlos:

La pendiente a indica cuánto cambia la predicción de y por cada unidad que aumenta x. Si a = 0,8 en horas-de-estudio frente a nota, cada hora extra de estudio se asocia con 0,8 puntos más de nota predicha.
La ordenada b es el valor predicho de y cuando x = 0. A veces tiene sentido (la nota base sin estudiar) y a veces no (si x = 0 cae lejos de los datos, b es solo un parámetro algebraico).

La recta de regresión de y sobre x se usa para predecir y a partir de un valor de x: se sustituye la x en la ecuación y se calcula la y.

Ejemplo 3 — usar la recta de regresión para predecir. Para los datos del Ejemplo 2, la calculadora da la recta de regresión de y sobre x: y = 0,9x + 2,4. (a) Predice la nota de un alumno que estudia 5 horas. (b) Comprueba que pasa por el punto de las medias. (c) Interpreta la pendiente.

(a) Para x = 5: y = 0,9 × 5 + 2,4 = 4,5 + 2,4 = 6,9. Se predice una nota de aproximadamente 6,9.
(b) Para x = x̄ = 4: y = 0,9 × 4 + 2,4 = 3,6 + 2,4 = 6 = ȳ. La recta pasa por (4, 6). ✓
(c) La pendiente 0,9 significa que, según el modelo, cada hora adicional de estudio se asocia con unos 0,9 puntos más en la nota predicha.

Correlación no es causalidad

Este es el punto conceptual más importante del subtema. Que dos variables estén fuertemente correlacionadas no demuestra que una sea la causa de la otra. La correlación es solo un patrón estadístico; la causa es una afirmación mucho más fuerte que la correlación, por sí sola, no puede sostener.

Hay tres explicaciones posibles para una correlación fuerte, y solo una es «x causa y»:

Causalidad directa: x sí influye en y.
Causalidad inversa: en realidad es y la que influye en x.
Variable de confusión: una tercera variable, oculta, causa a la vez x e y. Las ventas de helados y los ahogamientos en piscinas están correlacionados, pero ninguno causa el otro: ambos suben en verano. El calor es la variable de confusión.

Error frecuente

Escribir, ante un r cercano a 1, que «x causa y». El coeficiente de Pearson mide asociación, no causa. En el examen, una pregunta del tipo «¿demuestra esto que estudiar más causa mejores notas?» espera un no razonado: la correlación es compatible con esa hipótesis, pero también con una variable de confusión (por ejemplo, la motivación, que empuja a la vez a estudiar más y a rendir mejor). Otro fallo: decir que r = 0 significa «no hay relación». Significa «no hay relación lineal»; podría haber una relación curva perfecta.

Los peligros de la extrapolación

La recta de regresión se ha ajustado a los datos dentro de un rango concreto de valores de x. Interpolar —predecir para un valor de x dentro de ese rango— suele ser fiable. Extrapolar —predecir fuera del rango observado— es arriesgado: nada garantiza que la relación lineal se mantenga donde no hay datos.

Ejemplo 4 — interpolación frente a extrapolación. Una recta de regresión y = 0,9x + 2,4 se ha ajustado con datos de alumnos que estudiaron entre 2 y 6 horas. Valora la fiabilidad de predecir la nota para (a) x = 4,5 horas y (b) x = 14 horas.

(a) x = 4,5 está dentro del rango observado [2, 6]: es una interpolación. Predicción y = 0,9 × 4,5 + 2,4 = 4,05 + 2,4 = 6,45; razonablemente fiable.
(b) x = 14 está muy fuera del rango [2, 6]: es una extrapolación. La ecuación daría y = 0,9 × 14 + 2,4 = 12,6 + 2,4 = 15, una nota imposible sobre 10.
El resultado absurdo deja claro el peligro: la tendencia lineal observada entre 2 y 6 horas no tiene por qué continuar en x = 14. La predicción no es fiable.

Para el examen

Domina la regresión lineal de la calculadora: introduces las dos listas (x e y) y obtienes a, b y r de una vez. Para predecir, sustituye en y = ax + b. Tres reflejos que dan marcas: (i) si te piden valorar una predicción, comprueba siempre si la x está dentro del rango de los datos (interpolación, fiable) o fuera (extrapolación, no fiable); (ii) ante una correlación fuerte, nunca afirmes causalidad sin más; menciona la posible variable de confusión; (iii) recuerda que r solo mide relación lineal. La recta de y sobre x sirve para predecir y a partir de x; predecir al revés exige otra recta, que verás en el subtema 4.10.