4.1 Población, muestra y tipos de datos

Antes de calcular una media o dibujar un histograma hace falta tener datos, y los datos no caen del cielo: alguien los recoge, decide a quién pregunta y elige cómo medir. Esas decisiones, que parecen administrativas, condicionan por completo lo que el análisis posterior puede afirmar. Un sondeo electoral hecho solo a la salida de un teatro un martes por la tarde no se arregla con estadística más sofisticada: está roto desde el origen. El subtema NM 4.1 abre el Tema 4 precisamente porque enseña a mirar de dónde vienen los datos antes de fiarse de ellos.

En este subtema vas a distinguir entre la población que quieres conocer y la muestra que realmente observas, a clasificar los datos según sean discretos o continuos, a juzgar la fiabilidad de una fuente y a reconocer las técnicas de muestreo más habituales con sus puntos fuertes y débiles. Cerrarás aprendiendo el criterio numérico que el IB usa para señalar un dato como valor atípico. Todo ello es la base sobre la que se apoyan los subtemas 4.2 y 4.3.

Población, muestra y tipos de datos

Población frente a muestra

La población es el conjunto completo sobre el que se quiere concluir algo: todos los alumnos de Bachillerato de España, todas las bombillas fabricadas en una planta durante un año, todos los robles de un bosque. La muestra es el trozo de esa población que de verdad se observa. Se trabaja con muestras porque examinar la población entera suele ser inviable: costaría demasiado dinero, demasiado tiempo o, en el caso de pruebas destructivas (¿cuánto aguanta una bombilla hasta fundirse?), destruiría justo lo que se quiere vender.

💡 Convención del examen: en el IB, salvo que el enunciado diga explícitamente que te dan una muestra, el conjunto de datos que aparece en la pregunta se considera la población. Esto importa en NM 4.3, donde la desviación típica se calcula como desviación típica poblacional, no muestral.

El objetivo de tomar una muestra es que sea representativa: que las proporciones y los rasgos que tiene se parezcan a los de la población. Una muestra representativa permite generalizar; una muestra deformada lleva a conclusiones falsas por muy correcta que sea la aritmética posterior.

Datos discretos y datos continuos

Los datos numéricos se dividen en dos familias. Los datos discretos proceden de un recuento y solo toman valores aislados, casi siempre enteros: el número de hermanos de un alumno, los goles marcados en un partido, las llamadas recibidas en una hora. Entre dos valores consecutivos no hay nada: nadie tiene 2,4 hermanos.

Los datos continuos proceden de una medición y pueden tomar cualquier valor dentro de un intervalo: la estatura de una persona, la masa de una manzana, el tiempo que tarda un corredor. Que registres 1,72 m no significa que la estatura «salte» de 1,71 a 1,72; significa que tu cinta métrica no distingue más allá del centímetro. La precisión la limita el instrumento, no la magnitud.

Rasgo	Datos discretos	Datos continuos
Origen	Recuento	Medición
Valores posibles	Aislados (normalmente enteros)	Cualquiera dentro de un intervalo
Ejemplos	Goles, hermanos, libros leídos	Estatura, masa, tiempo, temperatura
Presentación habitual (4.2)	Tabla de frecuencias, diagrama de barras	Intervalos de clase, histograma

Ejemplo 1 — clasificar variables. Indica si cada variable es discreta o continua: (a) número de mensajes enviados por un alumno en un día; (b) tiempo de reacción ante un estímulo, en segundos; (c) talla de calzado europea; (d) temperatura corporal en grados.

(a) Se obtiene contando mensajes: solo valores enteros. Es discreta.
(b) Se obtiene midiendo el tiempo, que admite 0,184 s o 0,1843 s según el cronómetro. Es continua.
(c) Aunque existan tallas «40,5», forman una lista de valores aislados fijados por convención; no hay infinitos valores intermedios. Es discreta.
(d) Se obtiene midiendo: 36,7 °C, 36,74 °C... Es continua.

Error frecuente

Pensar que «discreto» significa «pequeño» y «continuo» significa «grande», o fijarse en si el número que ves tiene decimales. El dinero (3,47 €) tiene decimales y aun así es discreto: no existe un valor entre 3,47 € y 3,48 €. La distinción real es el origen del dato: ¿se ha contado (discreto) o se ha medido (continuo)? Pregúntate eso, no si hay coma decimal.

Fiabilidad de las fuentes y técnicas de muestreo

Fuentes de datos, errores y sesgo

Una vez recogidos, los datos pueden tener defectos que ningún cálculo posterior arregla. Conviene saber identificarlos:

Datos faltantes. Algún individuo no contesta una pregunta o se pierde un registro. Si los huecos no son al azar (por ejemplo, los de renta más alta evitan declararla), eliminarlos sin más introduce sesgo. Hay que dejar constancia de cuántos faltan y por qué.
Errores de registro. Un cero de más, una unidad equivocada (kg en lugar de g), una coma mal puesta. Suelen delatarse como valores imposibles o como atípicos extremos.
Sesgo de muestreo. La forma de elegir a los individuos favorece sistemáticamente a unos sobre otros. Una encuesta sobre hábitos de lectura hecha solo dentro de una biblioteca sobreestima cuánto lee la población.

💡 Idea clave: el sesgo no es un dato malo suelto, es un defecto del método. No se corrige aumentando el tamaño de la muestra; una muestra sesgada grande solo da una respuesta equivocada con más precisión aparente.

Técnicas de muestreo

El IB pide conocer cinco formas de elegir una muestra y valorar su eficacia, es decir, cuánto tienden a producir una muestra representativa frente a lo costosas o complicadas que son.

Técnica	En qué consiste	Punto fuerte / punto débil
Aleatorio simple	Cada individuo tiene la misma probabilidad de ser elegido; se sortean (números aleatorios, bombo).	Sin sesgo si el sorteo es limpio / exige una lista completa de la población.
Por conveniencia	Se elige a quien está a mano (los primeros que pasan, los compañeros de clase).	Rápido y barato / muy expuesto al sesgo; rara vez representativo.
Sistemático	Se ordena la población y se toma uno de cada k a partir de un arranque aleatorio.	Sencillo y reparte la muestra / se sesga si la lista tiene un patrón periódico que coincide con k.
Por cuotas	Se fija de antemano cuántos elegir de cada grupo y el encuestador rellena las cuotas como puede.	Asegura presencia de cada grupo / dentro de cada cuota la elección no es aleatoria, así que puede sesgarse.
Estratificado	Se divide la población en estratos (grupos homogéneos) y se toma una muestra aleatoria de cada uno, proporcional a su tamaño.	Muy representativo, respeta la estructura de la población / requiere conocer bien los estratos de antemano.

Ejemplo 2 — muestreo sistemático. Un instituto tiene 800 alumnos en una lista numerada y se quiere una muestra de 40. Describe cómo seleccionarla sistemáticamente.

Calcula el intervalo de muestreo: k = 800 ÷ 40 = 20. Se tomará uno de cada 20.
Elige al azar un arranque entre 1 y 20; supón que sale el 7.
La muestra son los alumnos con número 7, 27, 47, 67, ..., sumando 20 cada vez.
El último es 7 + 20 × 39 = 7 + 780 = 787. Hay exactamente 40 alumnos seleccionados.

Ejemplo 3 — muestreo estratificado. Un centro tiene 1º (540 alumnos), 2º (360 alumnos) y bachillerato nocturno (300 alumnos). Se quiere una muestra estratificada de 80. ¿Cuántos de cada estrato?

Total de la población: 540 + 360 + 300 = 1 200 alumnos.
Fracción de muestreo: 80 ÷ 1 200 = 1/15 ≈ 0,0667.
De 1º: 540 × (1/15) = 36. De 2º: 360 × (1/15) = 24. Del nocturno: 300 × (1/15) = 20.
Comprobación: 36 + 24 + 20 = 80. ✓ Cada estrato aporta una parte proporcional a su tamaño.

Valores atípicos: el criterio del 1,5 × RIC

Un valor atípico (en inglés outlier) es un dato que se separa claramente del resto. El IB no lo deja a juicio personal: fija un criterio numérico. Sea Q₁ el primer cuartil, Q₃ el tercero y RIC = Q₃ − Q₁ el rango intercuartil. Un dato es atípico cuando dista del cuartil más próximo más de 1,5 × RIC.

Criterio de valor atípico (IB)

Un dato es un valor atípico si cumple alguna de estas condiciones:

Está por debajo de Q₁ − 1,5 × RIC, o
Está por encima de Q₃ + 1,5 × RIC.

Esos dos números, Q₁ − 1,5 × RIC y Q₃ + 1,5 × RIC, se llaman vallas (o límites). Todo lo que cae fuera de ellas es atípico; todo lo que cae dentro, no.

Ejemplo 4 — detectar valores atípicos. Las edades de los socios de un club de ajedrez son: 11, 12, 12, 13, 14, 15, 16, 18, 19, 21, 24, 47. Determina si hay valores atípicos. (Datos ya ordenados; n = 12.)

Mediana: con n = 12 (par), está entre el 6.º y el 7.º dato: (15 + 16)/2 = 15,5.
Q₁: mediana de la mitad inferior (los 6 primeros: 11, 12, 12, 13, 14, 15), entre el 3.º y el 4.º: (12 + 13)/2 = 12,5.
Q₃: mediana de la mitad superior (los 6 últimos: 16, 18, 19, 21, 24, 47), entre el 3.º y el 4.º: (19 + 21)/2 = 20.
RIC = Q₃ − Q₁ = 20 − 12,5 = 7,5. Entonces 1,5 × RIC = 1,5 × 7,5 = 11,25.
Vallas: inferior = 12,5 − 11,25 = 1,25; superior = 20 + 11,25 = 31,25.
Ningún dato baja de 1,25. El valor 47 supera 31,25, así que 47 es un valor atípico; ningún otro lo es.

Detectar un atípico no significa borrarlo. Hay que preguntarse qué es: si 47 fuese un error de teclado por 17, se corrige; si de verdad hay un socio de 47 años, el dato es válido y se conserva, aunque convenga comentarlo. Un atípico es una señal de alarma que pide una decisión informada, no una orden de eliminación.

Para el examen

Cuando una pregunta de la Prueba 1 o 2 pida valores atípicos, sigue siempre el mismo guion: (i) ordena los datos; (ii) halla Q₁, Q₃ y RIC; (iii) calcula las dos vallas Q₁ − 1,5·RIC y Q₃ + 1,5·RIC; (iv) compara cada dato sospechoso con ellas. Escribe el factor como 1,5, nunca 1,5 % ni 15. Y si te preguntan qué hacer con un atípico, la respuesta correcta nunca es «borrarlo sin más»: hay que valorar si es un error o un dato real.