4.2 Presentación de datos

Una lista de doscientas estaturas no dice nada a simple vista: es ruido. La estadística descriptiva existe para convertir ese ruido en una imagen que el ojo entienda en segundos. El subtema NM 4.2 reúne las herramientas con las que se hace esa traducción: tablas de frecuencias, histogramas, gráficos de frecuencia acumulada y diagramas de caja. Cada una responde a una pregunta distinta sobre la misma información.

El criterio para elegir entre ellas depende, en buena medida, de si los datos son discretos o continuos —la distinción que viste en 4.1— y de qué quieres averiguar: cómo se reparten los valores, dónde están los cuartiles, o cómo se comparan dos grupos. Al terminar sabrás construir e interpretar cada representación y usar la frecuencia acumulada para extraer mediana, cuartiles, percentiles y rango intercuartil sin tener que ordenar los datos a mano.

Tablas de frecuencia e histogramas

Distribuciones de frecuencia con intervalos de clase

Cuando los datos son continuos y hay muchos, no tiene sentido una fila por valor: se agrupan en intervalos de clase. El IB pide escribir los intervalos con desigualdades, de forma que cada dato caiga en uno y solo uno, sin huecos ni solapamientos. La notación habitual es:

Intervalos de clase sin huecos

Un intervalo de la forma 10 ≤ x < 20 incluye el extremo izquierdo (10 sí entra) y excluye el derecho (20 no entra). El intervalo siguiente arranca exactamente donde acaba el anterior: 20 ≤ x < 30. Así un dato que valga exactamente 20 pertenece al segundo intervalo, sin ambigüedad.

Escribir «10–20» y «20–30» a secas es incorrecto: el valor 20 cabría en los dos. Las desigualdades cierran ese hueco lógico.

El valor central (o marca de clase) de un intervalo es la media de sus dos extremos: para 10 ≤ x < 20 es (10 + 20)/2 = 15. Lo necesitarás en 4.3 para estimar la media de datos agrupados.

Ejemplo 1 — construir una tabla de frecuencias. Estos son los tiempos, en minutos, que 24 alumnos tardaron en resolver un problema: 7, 12, 9, 15, 22, 18, 11, 6, 14, 19, 25, 13, 8, 16, 21, 10, 17, 23, 12, 9, 20, 14, 11, 18. Agrúpalos en intervalos de amplitud 5 empezando en 5 ≤ x < 10.

5 ≤ x < 10: 7, 9, 6, 8, 9 → frecuencia 5.
10 ≤ x < 15: 12, 11, 14, 13, 10, 12, 14, 11 → frecuencia 8.
15 ≤ x < 20: 15, 18, 19, 16, 17, 18 → frecuencia 6.
20 ≤ x < 25: 22, 21, 23, 20 → frecuencia 4.
25 ≤ x < 30: 25 → frecuencia 1.
Comprobación: 5 + 8 + 6 + 4 + 1 = 24. ✓ Coincide con el número de alumnos.

Histogramas

El histograma representa una distribución de frecuencias de datos continuos. Sobre el eje horizontal van los intervalos de clase y la altura de cada barra es su frecuencia. A diferencia de un diagrama de barras, las barras de un histograma están pegadas, sin separación, porque la variable es continua y los intervalos se tocan. En NM AA los intervalos siempre tienen igual amplitud, lo que permite leer la frecuencia directamente como altura.

💡 Barras pegadas o separadas: un histograma (datos continuos) lleva las barras juntas; un diagrama de barras (datos discretos o categóricos) las lleva separadas. Si en un examen ves un «histograma» con huecos entre barras, casi seguro que el dibujo está mal hecho.

La forma del histograma resume mucho de un vistazo: si es aproximadamente simétrico, con un pico central y bajadas parejas a ambos lados, los datos podrían seguir una distribución normal (lo verás en el Tema 4 más adelante). Si tiene una cola larga a la derecha se dice asimétrico positivo; si la cola larga está a la izquierda, asimétrico negativo.

Ejemplo 2 — interpretar la forma. Con la tabla del Ejemplo 1, las frecuencias por intervalo son 5, 8, 6, 4, 1. Describe la forma del histograma y di qué intervalo es el más frecuente.

La barra más alta corresponde a 10 ≤ x < 15, con frecuencia 8: es el intervalo modal.
A su izquierda hay una barra (frecuencia 5); a su derecha, frecuencias decrecientes 6, 4, 1.
La cola larga está a la derecha (valores altos poco frecuentes): la distribución es asimétrica positiva.
Al no ser simétrica, no sería razonable modelizar estos tiempos con una distribución normal.

Frecuencia acumulada y diagramas de caja

Frecuencia acumulada y su gráfico

La frecuencia acumulada de un valor es el número de datos que son menores o iguales que él. Se obtiene sumando las frecuencias de forma progresiva. Con datos agrupados, la frecuencia acumulada se asigna al extremo superior de cada intervalo, porque solo al llegar a ese extremo se sabe con certeza cuántos datos lo han alcanzado o no.

El gráfico de frecuencia acumulada (también llamado ojiva) se dibuja llevando al eje horizontal el extremo superior de cada intervalo y al vertical la frecuencia acumulada, y uniendo los puntos con una curva suave creciente. Su utilidad práctica es enorme: permite leer mediana, cuartiles y cualquier percentil sin ordenar los datos uno a uno.

Leer cuartiles y percentiles en la ojiva

Con n datos en total, sobre el eje vertical del gráfico de frecuencia acumulada:

Mediana (Q₂): entra por la altura n/2, cruza la curva y baja al eje horizontal.
Primer cuartil (Q₁): entra por la altura n/4.
Tercer cuartil (Q₃): entra por la altura 3n/4.
Percentil k: entra por la altura (k/100) × n.

El rango es máximo − mínimo y el rango intercuartil es RIC = Q₃ − Q₁.

Ejemplo 3 — leer la frecuencia acumulada. Las masas, en kg, de 80 paquetes se agrupan así: 0 ≤ m < 2 (8 paquetes), 2 ≤ m < 4 (20), 4 ≤ m < 6 (30), 6 ≤ m < 8 (15), 8 ≤ m < 10 (7). Calcula la tabla de frecuencias acumuladas y estima la mediana.

Frecuencia acumulada en m = 2: 8. En m = 4: 8 + 20 = 28. En m = 6: 28 + 30 = 58. En m = 8: 58 + 15 = 73. En m = 10: 73 + 7 = 80. ✓
La mediana entra por la altura n/2 = 80 ÷ 2 = 40.
La acumulada pasa de 28 (en m = 4) a 58 (en m = 6): la altura 40 cae dentro del intervalo 4 ≤ m < 6.
Interpolando linealmente: dentro de ese intervalo hace falta llegar de 28 a 40, es decir 12 paquetes de los 30 del tramo. Mediana ≈ 4 + (12/30) × 2 = 4 + 0,8 = 4,8 kg.

Diagramas de caja y bigotes

El diagrama de caja y bigotes resume un conjunto de datos con cinco números: mínimo, Q₁, mediana, Q₃ y máximo. La caja va de Q₁ a Q₃ —su longitud es el RIC— con una raya interior en la mediana. Los bigotes se extienden hasta los valores extremos que no sean atípicos. Si hay valores atípicos (criterio de 1,5 × RIC, visto en 4.1), se marcan aparte con una cruz (X) y el bigote correspondiente se detiene en el último dato no atípico.

Ejemplo 4 — construir un diagrama de caja con atípico. Los goles por partido de un equipo en 11 jornadas son, ordenados: 0, 1, 1, 2, 2, 2, 3, 3, 4, 5, 11. Halla los cinco números y di qué se marca con cruz.

n = 11 (impar): la mediana es el 6.º dato = 2.
Q₁: mediana de los 5 primeros (0, 1, 1, 2, 2), el 3.º dato = 1.
Q₃: mediana de los 5 últimos (3, 3, 4, 5, 11), el 3.º dato = 4.
RIC = 4 − 1 = 3; 1,5 × RIC = 4,5. Valla superior = 4 + 4,5 = 8,5; valla inferior = 1 − 4,5 = −3,5.
El dato 11 supera 8,5: es atípico y se marca con una X. El bigote derecho llega solo hasta 5 (último no atípico).
Cinco números del diagrama: mínimo 0, Q₁ = 1, mediana = 2, Q₃ = 4, máximo no atípico = 5; y una X en 11.

Comparar dos distribuciones

La gran fuerza de los diagramas de caja es la comparación. Dibujados uno sobre otro con la misma escala, dos diagramas dejan ver de un golpe qué grupo tiene la mediana más alta, cuál está más disperso (caja o rango más largos) y cuál es más simétrico.

Qué comparar	Cómo se lee en el diagrama de caja
Centro	Posición de la raya de la mediana: más a la derecha, valores típicos mayores.
Dispersión	Longitud de la caja (RIC) y de los bigotes (rango): más larga, datos más dispersos.
Simetría	Mediana centrada en la caja y bigotes parecidos → simétrica; mediana desplazada → asimétrica.

La simetría es además la pista que permite decidir si los datos podrían seguir una distribución normal: una caja con la mediana bien centrada y bigotes de longitud similar es compatible con la normalidad; una caja muy descentrada la descarta.

Error frecuente

Estirar el bigote hasta el valor atípico. Si un dato es atípico se marca con una X y el bigote se detiene en el dato más extremo que no lo es. Otro fallo habitual: confundir longitud de la caja con cantidad de datos. La caja abarca el 50 % central de los datos siempre; que sea larga indica más dispersión, no más individuos. Y los bigotes no representan el resto de los datos uno a uno: solo marcan hasta dónde llegan los extremos.

Para el examen

En la Prueba 2 es muy frecuente la cadena «gráfico de frecuencia acumulada → diagrama de caja». Lee Q₁, mediana y Q₃ en la ojiva trazando líneas horizontales desde n/4, n/2 y 3n/4, y úsalos para dibujar la caja. Recuerda que la frecuencia acumulada se sitúa siempre en el extremo superior del intervalo. Cuando te pidan comparar dos distribuciones, no describas cada una por separado: usa frases comparativas explícitas («la mediana de A es mayor que la de B», «B tiene un RIC mayor, luego está más dispersa»). El IB premia la comparación, no la descripción doble.