SOL512: Probabilidad e Inferencia para Estadística Social
2026-05-11
Tu compañero te dice: “Un intervalo de confianza al 95% significa que hay un 95% de probabilidad de que la media poblacional \(\mu\) esté dentro del intervalo.” ¿Es correcta esta interpretación? Si no lo es, Corrígela
Esta interpretación es incorrecta
¿Por qué?
Interpretación correcta
Si repitiéramos el proceso de muestreo y construcción del intervalo un número muy grande de veces, el 95% de esos intervalos contendría el verdadero valor de \(\mu\).
En notación formal:
\[\mathbb{P}\!\left(\bar{X} - Z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + Z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\right) = 1 - \alpha\]
La probabilidad describe el comportamiento del procedimiento a lo largo de muestras repetidas, no la probabilidad de que \(\mu\) caiga en un intervalo ya observado.
Si quieres reducir el margen de error de un IC a la mitad, sin cambiar el nivel de confianza ni la varianza, ¿qué debes hacer con el tamaño muestral \(n\)? Justifica usando la fórmula del margen de error.
Fórmula del margen de error:
\[\text{ME} = Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]
\[\rightarrow \text{ME}^{*} = \dfrac{\text{ME}}{2}\]
\[\frac{\text{ME}}{2} = Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n^{*}}}\]
\[{\sqrt{n^*}} = \frac{z_{\alpha/2}\cdot\sigma}{\text{ME}/2} = 2\cdot\underbrace{\frac{z_{\alpha/2}\cdot\sigma}{\text{ME}}}_{=\,\sqrt{n}} = 2\sqrt{n}\]
\[{\sqrt{n^*}} = 2\sqrt{n}\]
Elevando al cuadrado ambos lados:
\[\boxed{n^{*} = 4n}\]
Conclusión
Para reducir el margen de error a la mitad es necesario cuadruplicar el tamaño muestral.
Esto ocurre porque el error estándar \(\frac{\sigma}{\sqrt{n}}\) decrece a una tasa de \(\frac{1}{\sqrt{n}}\): se necesita un aumento cuadrático en \(n\) para lograr una reducción lineal en el ME.
| ME deseado | \(n\) requerido |
|---|---|
| ME | \(n\) |
| ME / 2 | \(4n\) |
| ME / 3 | \(9n\) |
Pamela, estudiante de sociología, está obsesionada con la (in)eficiencia del Transantiago. Para su seminario de Sociología Urbana, registró durante 15 días laborales los minutos que esperó en el paradero del recorrido 524 a la misma hora de la mañana:
Asume que, según un estudio previo, la desviación estándar poblacional del tiempo de espera en este recorrido es conocida e igual a \(\sigma = 11.43\) minutos
Estadísticos descriptivos:
| Cantidad | Valor |
|---|---|
| \(n\) | 15 |
| Media muestral \(\bar{x}\) | 13.8 |
| Mediana muestral | 10 |
| dev. est. poblacional \(\sigma\) (conocida) | 11.43 |
| Error Estándar \(\frac{\sigma}{\sqrt{n}}\) | 2.95 |
n = 15 | media = 13.8 | mediana = 10 | sigma = 11.43 | ee = 2.951
Construye un Intervalo de confianza al 95% para la media poblacional del tiempo de espera. Recuerda que asumimos \(\sigma\) conocida. (I) Escribe el código en R que harías y (II) Reporta el resultado numérico aproximado usando los valores de la tabla de arriba
Como \(\sigma\) es conocida, usamos la distribución normal estándar.
Paso 3 — Error estándar (con \(\sigma\) conocida):
Usando los valores de la tabla del enunciado:
\[\bar{x} = 13.8, \quad \frac{\sigma}{\sqrt{n}} = 2.95, \quad z_{0.025} = 1.96\]
Límite inferior: \[\text{IC}_{\inf} = 13.8 - 1.96 \times 2.95 = 13.8 - 5.782 \approx 8.02\]
Límite superior: \[\text{IC}_{\sup} = 13.8 + 1.96 \times 2.95 = 13.8 + 5.782 \approx 19.58\]
\[\boxed{\text{IC}_{95\%}(\mu) \approx (8.02,\ 19.58) \text{ minutos}}\]
Interpretación
Con un 95% de confianza, el tiempo de espera promedio en el recorrido 524 se encuentra entre 8.02 y 19.58 minutos.
Pamela también quiere reportar un intervalo de confianza al 95% para la mediana del tiempo de espera. Sin embargo, no existe fórmula cerrada simple (tipo \(\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}\)) para construir un IC de la mediana.
- ¿Qué método propondrías para estimar este IC? Justifica brevemente por qué no podemos usar el mismo enfoque que en 2a?
El intervalo \(\bar{x} \pm z_{\alpha/2} \cdot \sigma/\sqrt{n}\) descansa en el Teorema Central del Límite (TLC):
\[\bar{X}_n \sim N(\mu, \frac{\sigma^2}{n})\]
Este resultado es específico de la media muestral.
Para la mediana no existe una expresión cerrada equivalente que entregue su distribución muestral y su error estándar en el caso general.
Consecuencia
No podemos aplicar \(\bar{x} \pm Z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\) porque no conocemos analíticamente el Error Estándar (\(\frac{\sigma}{\sqrt{n}}\)) de la mediana. Necesitamos un método computacional: Bootstrap.
- Describe los pasos que habría que seguir para construir el IC. Puedes usar palabras, pseudocódigo o una mezcla
Extraer de espera (\(n = 15\)) una muestra aleatoria con reemplazo del mismo tamaño \(n\).
Calcular la mediana de esa muestra: \(\bar{x}_b = \text{median}(X_b)\).
Repetir pasos 1 y 2 un número grande de veces (\(B = 5000\)).
Los \(B\) resultados \(\{\bar{x}_1, \ldots, \bar{x}_B\}\) forman la distribución bootstrap de la mediana.
El IC al 95% son los percentiles 2.5% y 97.5% de esa distribución.
Important
Intuición: la variabilidad de la mediana entre muestras bootstrap aproxima su variabilidad muestral real, sin necesitar ninguna fórmula teórica.
replicate(B, expr)
- Indica una función de R (de la tabla de referencia) que sería clave para implementar este método y explica brevemente para qué la usarías
replicate(B, expr) evalúa una expresión B veces y devuelve los resultados como vector, por lo que es ideal para iterar el remuestreo sin escribir un for loop explícito.
set.seed(123) # fijamos semilla para reproducibilidad
# Un paso bootstrap: remuestrear y calcular la mediana
bs_mediana <- function(x) {
muestra_b <- sample(x, size = length(x), replace = TRUE)
median(muestra_b)
}
# Iterar B = 5000 veces
B <- 5000
dist_boot <- replicate(B, bs_mediana(espera))
# IC al 95% por percentiles de la distribución bootstrap
ic_boot <- quantile(dist_boot, probs = c(0.025, 0.975))
cat("IC Bootstrap 95% para la mediana:",
round(ic_boot[1], 2), "a", round(ic_boot[2], 2), "minutos")IC Bootstrap 95% para la mediana: 9 a 11 minutos
sample(x, size, replace)
- Indica una función de R (de la tabla de referencia) que sería clave para implementar este método y explica brevemente para qué la usarías
sample(x, size, replace) ejecuta el remuestreo con reemplazo en cada iteración bootstrap — es quien genera cada muestra \(X_b\).
set.seed(123)
# Un paso bootstrap usando sample() explícitamente
bs_mediana_v2 <- function(x) {
muestra_b <- sample(x, size = length(x), replace = TRUE)
median(muestra_b)
}
# Se itera con un for loop (sin replicate)
B <- 5000
dist_boot_v2 <- numeric(B)
for (i in 1:B) {
dist_boot_v2[i] <- bs_mediana_v2(espera)
}
ic_boot_v2 <- quantile(dist_boot_v2, probs = c(0.025, 0.975))
cat("IC Bootstrap 95% para la mediana:",
round(ic_boot_v2[1], 2), "a", round(ic_boot_v2[2], 2), "minutos")IC Bootstrap 95% para la mediana: 9 a 11 minutos
Mediana muestral observada : 10 minutos
Error estándar bootstrap : 0.824 minutos
IC Bootstrap 95% : ( 9 , 11 ) minutos
Con un 95% de confianza, el tiempo de espera mediano en el recorrido 524 se encuentra entre 9 y 11 minutos.
| Estadístico | Estimado | IC inf 95% | IC sup 95% | Método |
|---|---|---|---|---|
| Media | 13.8 | 8.02 | 19.58 | Normal (\(\sigma\) conocida) |
| Mediana | 10 | 9 | 11 | Bootstrap |
El IC de la mediana es más estrecho y más representativo del tiempo de espera típico, dado el sesgo producido por los valores atípicos (38 y 45 minutos).