4.13 Teorema de Bayes (solo NS)

El teorema de Bayes responde a una pregunta que aparece constantemente en la ciencia, la medicina y la toma de decisiones: ¿cómo cambia lo que creo sobre algo cuando recibo un dato nuevo? Hasta ahora, con el árbol de probabilidad de NM 4.6, sabías recorrer las ramas de arriba abajo: primero la causa, después el efecto. Bayes te enseña a recorrerlas al revés: observas el efecto y quieres deducir cuál es la causa más probable que lo produjo.

Esa inversión es más sutil de lo que parece. Una prueba médica que casi nunca falla puede, sin embargo, dar muchísimos más falsos positivos que verdaderos positivos si la enfermedad es rara. El teorema de Bayes (TANS 4.13) es la herramienta que cuantifica con exactitud esa paradoja y convierte la intuición —a menudo equivocada— en un cálculo riguroso.

De la probabilidad condicionada al teorema de Bayes

Probabilidad a priori y a posteriori

Imagina que quieres saber si una persona elegida al azar padece cierta enfermedad. Antes de hacerle ninguna prueba, tu mejor estimación es la prevalencia: la proporción de población que la padece. Esa es la probabilidad a priori, P(A). Después le haces un test y sale positivo. Esa información te obliga a revisar tu estimación: ya no vale la prevalencia general, sino la probabilidad de estar enfermo condicionada al resultado positivo. Eso es la probabilidad a posteriori, P(A|B).

El teorema de Bayes es, sencillamente, la fórmula que conecta ambas. Parte de la definición de probabilidad condicionada, que ya conoces:

P(A|B) = P(A∩B) / P(B) y P(B|A) = P(A∩B) / P(A)

De la segunda igualdad se despeja la intersección: P(A∩B) = P(A)·P(B|A). Al sustituirla en la primera obtenemos la forma básica del teorema.

Teorema de Bayes (forma básica)

Para dos sucesos A y B con P(B) ≠ 0:

P(A|B) = [ P(A) · P(B|A) ] / P(B)

El numerador es la probabilidad a priori P(A) multiplicada por la verosimilitud P(B|A) —lo bien que la causa A explica la evidencia B—. El denominador P(B) es la probabilidad total de observar la evidencia, sea cual sea su causa. El cociente devuelve la probabilidad a posteriori P(A|B).

El denominador: la probabilidad total

En la práctica casi nunca te dan P(B) directamente. Lo que conoces son las ramas del árbol: las probabilidades a priori y las verosimilitudes. Para reconstruir P(B) se usa el teorema de la probabilidad total. La idea es geométrica: si los sucesos A₁, A₂, …, Aₙ forman una partición del espacio muestral —no se solapan y entre todos lo cubren—, entonces el suceso B queda troceado en tantas piezas como ramas haya, y P(B) es la suma de todas ellas.

Teorema de Bayes con partición de 2 o 3 sucesos

Si A₁, A₂, …, Aₙ es una partición del espacio muestral (la guía AA limita el caso a un máximo de tres sucesos), la probabilidad total de la evidencia es:

P(B) = P(A₁)·P(B|A₁) + P(A₂)·P(B|A₂) + … + P(A_n)·P(B|A_n) = Σ P(A_i)·P(B|A_i)

Y la probabilidad a posteriori de cada causa Aₖ se obtiene tomando su rama en el numerador y la suma completa en el denominador:

P(A_k|B) = [ P(A_k)·P(B|A_k) ] / [ Σ P(A_i)·P(B|A_i) ]

💡 Lectura del árbol: cada producto P(Aᵢ)·P(B|Aᵢ) es exactamente la probabilidad de una rama completa del árbol de probabilidad de NM 4.6: bajas por la rama de la causa y luego por la rama del efecto, multiplicando. El teorema de Bayes no es una fórmula nueva que memorizar de cero, sino el árbol leído de abajo arriba.

Conexión con sucesos independientes

Si A y B fueran independientes, conocer B no aportaría ninguna información sobre A: tendríamos P(B|A) = P(B) y, al sustituir en la fórmula de Bayes, P(A|B) = P(A)·P(B)/P(B) = P(A). La probabilidad a posteriori coincidiría con la a priori. Esto confirma una idea importante: el teorema de Bayes solo cambia tus creencias cuando la evidencia y la causa están relacionadas. Cuanto más fuerte sea esa dependencia, mayor será la revisión.

Ejemplo 1 — Bayes con dos urnas. Una caja contiene la urna I (3 bolas rojas y 2 azules) y la urna II (1 roja y 4 azules). Se elige una urna al azar y de ella se extrae una bola, que resulta roja. ¿Cuál es la probabilidad de que la urna elegida fuera la I?

Sucesos a priori: P(I) = P(II) = 1/2 (elección al azar entre dos urnas).
Verosimilitudes: P(roja|I) = 3/5; P(roja|II) = 1/5.
Probabilidad total de sacar roja: P(roja) = P(I)·P(roja|I) + P(II)·P(roja|II) = (1/2)·(3/5) + (1/2)·(1/5) = 3/10 + 1/10 = 4/10 = 2/5.
Teorema de Bayes: P(I|roja) = [ P(I)·P(roja|I) ] / P(roja) = (3/10) / (2/5) = (3/10)·(5/2) = 15/20 = 3/4 = 0,75.
Interpretación: la probabilidad a priori era 1/2; tras ver una bola roja sube a 3/4, porque la urna I tiene más rojas y, por tanto, explica mejor la evidencia.

La prueba diagnóstica: por qué un positivo no significa estar enfermo

El planteamiento clínico

La aplicación más célebre del teorema de Bayes es la interpretación de pruebas médicas. Una prueba diagnóstica se caracteriza por dos números:

La sensibilidad: P(positivo | enfermo). Es la capacidad de detectar la enfermedad cuando existe. Una sensibilidad de 0,98 significa que el test acierta en el 98 % de los enfermos y solo deja escapar un 2 % (falsos negativos).
La especificidad: P(negativo | sano). Es la capacidad de descartar la enfermedad cuando no existe. Su complemento, 1 − especificidad, es la tasa de falsos positivos: sanos a los que el test marca por error.

El paciente, en cambio, no quiere saber la sensibilidad: quiere saber el valor predictivo positivo, P(enfermo | positivo). Y esa es justo la probabilidad invertida que devuelve Bayes.

Error frecuente

Confundir P(positivo|enfermo) con P(enfermo|positivo) y dar por hecho que, si la prueba tiene un 99 % de sensibilidad, un positivo implica un 99 % de probabilidad de estar enfermo. Son dos cantidades distintas y el teorema de Bayes existe precisamente porque no coinciden. Cuando la enfermedad es rara, el valor predictivo positivo puede ser sorprendentemente bajo —a veces inferior al 10 %— aunque la prueba sea casi perfecta. La prevalencia (la probabilidad a priori) pesa tanto como la calidad del test.

Ejemplo 2 — la paradoja del test médico. Una enfermedad afecta al 0,5 % de la población. Una prueba tiene sensibilidad 0,99 (P(+|enfermo) = 0,99) y tasa de falsos positivos 0,04 (P(+|sano) = 0,04). Una persona elegida al azar da positivo. ¿Cuál es la probabilidad de que esté realmente enferma?

Probabilidades a priori: P(E) = 0,005 (enferma); P(S) = 1 − 0,005 = 0,995 (sana). Forman una partición de dos sucesos.
Verosimilitudes: P(+|E) = 0,99; P(+|S) = 0,04.
Aportación de la rama "enferma y positiva": P(E)·P(+|E) = 0,005 × 0,99 = 0,00495.
Aportación de la rama "sana y positiva": P(S)·P(+|S) = 0,995 × 0,04 = 0,0398.
Probabilidad total de dar positivo: P(+) = 0,00495 + 0,0398 = 0,04475.
Teorema de Bayes: P(E|+) = 0,00495 / 0,04475 ≈ 0,1106, es decir, alrededor del 11,1 %.
Interpretación: aunque el test es muy fiable, un positivo solo eleva la probabilidad de estar enfermo del 0,5 % al 11 %. La razón es puramente aritmética: como hay 199 sanos por cada enfermo, el pequeño 4 % de falsos positivos genera muchos más positivos (0,0398) que el 99 % de aciertos sobre los pocos enfermos (0,00495).

💡 Pensar con frecuencias: el mismo cálculo en una población de 100 000 personas es transparente. Hay 500 enfermos y 99 500 sanos. El test detecta 500 × 0,99 ≈ 495 enfermos, y marca por error 99 500 × 0,04 = 3 980 sanos. De los 495 + 3 980 = 4 475 positivos, solo 495 están enfermos: 495/4 475 ≈ 11,1 %. Traducir las probabilidades a frecuencias concretas es la mejor forma de comprobar un resultado de Bayes.

El caso de tres sucesos

La guía AA permite particiones de hasta tres sucesos. El procedimiento es idéntico: el denominador suma tres ramas en lugar de dos. Aparece, por ejemplo, cuando una pieza puede provenir de tres líneas de producción, o cuando una población se divide en tres grupos de riesgo.

Magnitud	Símbolo	Qué responde
Probabilidad a priori	P(A_i)	Cuán probable es la causa antes de ver la evidencia.
Verosimilitud	P(B\|A_i)	Cuán bien la causa A_i explica la evidencia B.
Probabilidad total	P(B)	Cuán probable es observar la evidencia, sumando todas las causas.
Probabilidad a posteriori	P(A_i\|B)	Cuán probable es la causa después de ver la evidencia.

Ejemplo 3 — tres proveedores (partición de 3). Una fábrica monta móviles con baterías de tres proveedores. El proveedor X suministra el 50 %, el Y el 30 % y el Z el 20 %. La proporción de baterías defectuosas es 2 % en X, 3 % en Y y 5 % en Z. Se detecta una batería defectuosa. ¿Cuál es la probabilidad de que provenga del proveedor Z?

A priori: P(X) = 0,50; P(Y) = 0,30; P(Z) = 0,20. Verosimilitudes: P(D|X) = 0,02; P(D|Y) = 0,03; P(D|Z) = 0,05.
Ramas: P(X)·P(D|X) = 0,50 × 0,02 = 0,0100; P(Y)·P(D|Y) = 0,30 × 0,03 = 0,0090; P(Z)·P(D|Z) = 0,20 × 0,05 = 0,0100.
Probabilidad total de defecto: P(D) = 0,0100 + 0,0090 + 0,0100 = 0,0290.
Teorema de Bayes: P(Z|D) = 0,0100 / 0,0290 ≈ 0,3448, alrededor del 34,5 %.
Interpretación: aunque Z solo aporta el 20 % de las baterías, su mayor tasa de defectos eleva su probabilidad a posteriori hasta casi un 35 %. Como comprobación, P(X|D) = 0,0100/0,0290 ≈ 0,3448 y P(Y|D) = 0,0090/0,0290 ≈ 0,3103; las tres suman 1.

Ejemplo 4 — actualizar con una segunda prueba. Retomamos al paciente del Ejemplo 2, que ya dio positivo (probabilidad de enfermedad 0,1106). Le repiten una prueba independiente con las mismas características y vuelve a dar positivo. ¿Cuál es ahora la probabilidad de que esté enfermo?

La probabilidad a posteriori del primer test se convierte en la nueva probabilidad a priori: P(E) = 0,1106; P(S) = 0,8894.
Verosimilitudes (la prueba no cambia): P(+|E) = 0,99; P(+|S) = 0,04.
Ramas: P(E)·P(+|E) = 0,1106 × 0,99 = 0,109494; P(S)·P(+|S) = 0,8894 × 0,04 = 0,035576.
Probabilidad total: P(+) = 0,109494 + 0,035576 = 0,14507.
Teorema de Bayes: P(E|+) = 0,109494 / 0,14507 ≈ 0,7548, alrededor del 75,5 %.
Interpretación: dos positivos consecutivos elevan la probabilidad del 11 % al 75 %. El teorema de Bayes encadena evidencias de forma natural: la salida de un cálculo es la entrada del siguiente. Por eso en medicina se confirman los resultados con una segunda prueba.

Para el examen

En la Prueba 2 de NS las preguntas de Bayes casi siempre se apoyan en un árbol de probabilidad. Dibújalo siempre: pon las causas a priori en el primer nivel y las verosimilitudes en el segundo. Tres reflejos rinden marcas seguras: (i) identifica con claridad qué es la causa y qué es la evidencia —Bayes invierte el sentido del árbol—; (ii) el denominador es siempre la suma de TODAS las ramas que producen la evidencia, no solo la que te interesa; (iii) trabaja con fracciones exactas o con al menos cuatro cifras decimales en los pasos intermedios y redondea solo al final, porque el numerador y el denominador suelen ser números pequeños y un redondeo prematuro distorsiona el cociente. Comprueba el resultado verificando que las probabilidades a posteriori de todas las causas suman 1.