4.3 Medidas de tendencia central y de dispersión

Un conjunto de datos resumido en una imagen (subtema 4.2) sigue siendo demasiado información para muchas decisiones. A menudo lo que se quiere es un solo número que diga «por dónde van los datos» y otro que diga «cuánto se dispersan». Esos dos números —una medida de tendencia central y una medida de dispersión— son la forma más compacta de describir una distribución, y son la base de casi toda la estadística posterior.

En NM 4.3 vas a manejar tres medidas de centro (media, mediana y moda) y tres de dispersión (rango intercuartil, varianza y desviación típica), aprenderás a estimar la media de datos agrupados y a identificar la clase modal, y verás una propiedad muy elegante: cómo cambian la media y la desviación típica cuando se transforman todos los datos a la vez. Recuerda la convención del IB: salvo aviso, el conjunto de datos es la población, así que la desviación típica es la poblacional.

Medidas de tendencia central

Media, mediana y moda

La media aritmética x̄ es la suma de todos los datos dividida entre cuántos hay: x̄ = (Σx) / n. Usa toda la información del conjunto, lo que la hace muy informativa, pero también la vuelve sensible: un único valor atípico la arrastra hacia sí.

La mediana es el valor central de los datos ordenados. Con n impar es el dato que ocupa la posición (n + 1)/2; con n par es la media de los dos centrales. No la afecta lo extremo que sea un atípico, solo cuántos datos hay a cada lado: es una medida robusta.

La moda es el valor (o valores) más frecuente. Es la única que tiene sentido cuando los datos no son numéricos —el color de coche más vendido— y un conjunto puede no tener moda, tener una o tener varias.

💡 Cuándo usar cada una: si la distribución es bastante simétrica y sin atípicos, la media es la mejor síntesis. Si hay atípicos o una cola larga (rentas, precios de vivienda), la mediana describe mejor «lo típico» porque no se deja arrastrar por los extremos.

Ejemplo 1 — las tres medidas y el efecto de un atípico. Los salarios mensuales, en euros, de los 7 empleados de una tienda son: 1 200, 1 250, 1 250, 1 300, 1 350, 1 400, 5 000. Calcula media, mediana y moda, y comenta.

Suma: 1 200 + 1 250 + 1 250 + 1 300 + 1 350 + 1 400 + 5 000 = 12 750.
Media: x̄ = 12 750 ÷ 7 ≈ 1 821,43 €.
Mediana: n = 7 (impar); el dato central es el 4.º de la lista ordenada = 1 300 €.
Moda: el valor que se repite es 1 250 €, dos veces. Moda = 1 250 €.
El salario de 5 000 € (un atípico) tira de la media hasta 1 821 €, por encima de lo que cobra cualquiera de los seis primeros. La mediana, 1 300 €, describe mucho mejor «lo que cobra un empleado típico».

Media de datos agrupados y clase modal

Cuando los datos vienen ya agrupados en intervalos no se conoce cada valor exacto, así que la media solo puede estimarse. Se supone que todos los datos de un intervalo valen su valor central (la marca de clase). La media estimada es entonces x̄ ≈ (Σ f·x) / (Σ f), donde x es el valor central de cada intervalo y f su frecuencia.

La clase modal es el intervalo de mayor frecuencia. Solo está bien definida si todos los intervalos tienen la misma amplitud: con amplitudes distintas, un intervalo ancho puede acumular más datos solo por ser más ancho, y la comparación de frecuencias deja de ser justa.

Media de datos agrupados

Con datos agrupados en intervalos de valores centrales x₁, x₂, ... y frecuencias f₁, f₂, ...:

x̄ ≈ (f₁x₁ + f₂x₂ + ... ) / (f₁ + f₂ + ...) = (Σ f·x) / (Σ f)

Es una estimación: el resultado exacto solo se obtendría con los datos sin agrupar. La clase modal es el intervalo de mayor f, válida solo con intervalos de igual amplitud.

Ejemplo 2 — estimar la media de datos agrupados. El tiempo diario de estudio, en horas, de 50 alumnos: 0 ≤ t < 1 (6 alumnos), 1 ≤ t < 2 (14), 2 ≤ t < 3 (18), 3 ≤ t < 4 (9), 4 ≤ t < 5 (3). Estima la media e indica la clase modal.

Valores centrales: 0,5; 1,5; 2,5; 3,5; 4,5.
Productos f·x: 6×0,5 = 3; 14×1,5 = 21; 18×2,5 = 45; 9×3,5 = 31,5; 3×4,5 = 13,5.
Σ f·x = 3 + 21 + 45 + 31,5 + 13,5 = 114. Σ f = 6 + 14 + 18 + 9 + 3 = 50.
Media estimada: x̄ ≈ 114 ÷ 50 = 2,28 horas.
El intervalo de mayor frecuencia es 2 ≤ t < 3 (18 alumnos): esa es la clase modal. Como todos los intervalos miden 1 hora, la comparación es legítima.

Medidas de dispersión

Rango intercuartil, varianza y desviación típica

Dos conjuntos pueden tener la misma media y ser muy distintos: uno con todos los datos apiñados, otro con datos muy esparcidos. La dispersión mide ese esparcimiento.

El rango intercuartil RIC = Q₃ − Q₁ abarca el 50 % central de los datos. Como ignora el 25 % de cada extremo, no le afectan los atípicos: es la medida de dispersión robusta, compañera natural de la mediana.

La desviación típica σ mide cuánto se alejan, en promedio, los datos de su media; está en las mismas unidades que los datos. La varianza σ² es simplemente su cuadrado: mide lo mismo pero en unidades al cuadrado. La relación es directa en los dos sentidos.

Varianza y desviación típica

La varianza es el cuadrado de la desviación típica, y la desviación típica es la raíz de la varianza:

σ² = (varianza) ⇔ σ = √(σ²)

Cuanto mayor es σ, más dispersos están los datos; σ = 0 significa que todos los datos son idénticos. En el examen del IB la desviación típica y la varianza se calculan con la calculadora gráfica (estadística de una variable), no a mano: la fórmula está, pero la cuenta es de la máquina.

Ejemplo 3 — comparar dispersión con la calculadora. Las puntuaciones de dos grupos en un test sobre 10 son: grupo A = {5, 5, 6, 6, 6, 7, 7}; grupo B = {2, 4, 6, 6, 8, 9, 7}. Ambos tienen la misma media; compara su dispersión.

Grupo A: suma = 5+5+6+6+6+7+7 = 42; media = 42 ÷ 7 = 6.
Grupo B: suma = 2+4+6+6+8+9+7 = 42; media = 42 ÷ 7 = 6. Las medias coinciden.
Introduciendo cada lista en la calculadora (estadística de 1 variable) se obtiene σ_A ≈ 0,756 y σ_B ≈ 2,138.
Comprobación de A a mano: desviaciones respecto a 6 son −1, −1, 0, 0, 0, 1, 1; sus cuadrados 1, 1, 0, 0, 0, 1, 1 suman 4; varianza = 4 ÷ 7 ≈ 0,571; σ = √0,571 ≈ 0,756. ✓
Misma media, pero el grupo B tiene una desviación típica casi tres veces mayor: sus notas están mucho más repartidas.

Efecto de los cambios constantes

Una propiedad muy útil —y muy preguntada— describe qué le pasa a la media y a la desviación típica cuando se transforman todos los datos a la vez. Hay que distinguir sumar de multiplicar.

Transformación de todos los datos	Efecto en la media x̄	Efecto en la desviación típica σ
Sumar (o restar) una constante c	La media cambia en c: x̄ → x̄ + c	No cambia
Multiplicar por una constante k	La media se multiplica por k: x̄ → k·x̄	Se multiplica por \|k\|: σ → \|k\|·σ

La razón es intuitiva. Sumar la misma cantidad a todos los datos desplaza la distribución entera sin estirarla ni encogerla: el centro se mueve, pero las distancias entre datos quedan idénticas, así que la dispersión no varía. Multiplicar por una constante escala la distribución: tanto el centro como las distancias se estiran (o encogen) en la misma proporción, de modo que la desviación típica se multiplica por ese factor.

💡 Y la varianza: como la varianza es σ², al multiplicar los datos por k la varianza se multiplica por k² (no por k). Sumar una constante sigue sin afectarla. Cuidado con confundir el factor de la desviación típica (k) con el de la varianza (k²).

Ejemplo 4 — aplicar los cambios constantes. Un conjunto de temperaturas en grados Celsius tiene media 18 °C y desviación típica 4 °C. Se convierten a Fahrenheit con la fórmula F = 1,8·C + 32. Halla la media y la desviación típica en grados Fahrenheit.

La transformación es: multiplicar por 1,8 (factor k) y luego sumar 32 (constante c).
Media: primero se multiplica, 18 × 1,8 = 32,4; luego se suma 32: 32,4 + 32 = 64,4 °F.
Desviación típica: la multiplicación por 1,8 la afecta, la suma de 32 no. σ = 4 × 1,8 = 7,2 °F.
Si pidieran la varianza en Fahrenheit: σ² = 7,2² = 51,84 °F², o bien la varianza original 4² = 16 multiplicada por 1,8² = 3,24, que da 16 × 3,24 = 51,84. ✓

Cuartiles de datos discretos

Para datos discretos sin agrupar, el procedimiento del IB para los cuartiles es: ordenar, hallar la mediana y luego tomar Q₁ como la mediana de la mitad inferior y Q₃ como la mediana de la mitad superior. Cuando n es impar, el dato central no se incluye en ninguna de las dos mitades. Conviene saber que la calculadora gráfica también devuelve Q₁ y Q₃ en su estadística de una variable, y es la vía rápida en el examen.

Ejemplo 5 — cuartiles de datos discretos. El número de libros leídos en un trimestre por 9 alumnos es: 1, 2, 2, 3, 4, 4, 5, 7, 8. Halla la mediana, Q₁, Q₃ y el RIC.

n = 9 (impar): la mediana es el 5.º dato = 4.
Mitad inferior (sin el central): 1, 2, 2, 3. Q₁ = media de los dos centrales = (2 + 2)/2 = 2.
Mitad superior: 4, 5, 7, 8. Q₃ = (5 + 7)/2 = 6.
RIC = Q₃ − Q₁ = 6 − 2 = 4 libros.

Error frecuente

Olvidar el orden de las operaciones al aplicar una transformación lineal. En F = 1,8·C + 32 hay que multiplicar la media antes de sumar 32 (la media de 18 da 64,4, no 50 + 32). Y el error gemelo: aplicar el «+32» a la desviación típica. Sumar una constante nunca toca la dispersión; solo la multiplicación lo hace. Tercer fallo clásico: escalar la varianza por k en lugar de por k². Memoriza: media sensible a todo; desviación típica sensible solo al factor multiplicativo; varianza, al factor multiplicativo al cuadrado.

Para el examen

Aprende a usar la estadística de una variable de tu calculadora gráfica: introduces la lista (con frecuencias si las hay) y obtienes de golpe x̄, σ, n, mínimo, Q₁, mediana, Q₃ y máximo. Es lo que el IB espera en la Prueba 2. Atención a la notación de la pantalla: la calculadora muestra dos desviaciones típicas, σ_x (poblacional) y s_x (muestral); en NM AA, salvo aviso, se usa σ_x. Para datos agrupados, introduce los valores centrales como datos y las frecuencias como pesos: la media que devuelve es la media estimada.