Luego de repasar algunos rudimentos de distribuciones estadísticas, es
conveniente ver algo de inferencia estadística. Es la parte de la estadística
que permite deducir propiedades de una población, a partir de una muestra de la
misma.
Acá hay algunos conceptos que habitualmente conducen a
error. Básicamente, como decíamos antes, cuando estudiamos una muestra una de
las cosas que hay que realizar es una serie de pruebas para establecer si la
misma proviene de una población donde la variable tiene una distribución
normal. Esto implica que existe una población teórica (e imposible de
aprehender) desde la cual se toma la muestra. En esta muestra verificaremos
propiedades similares a la de la población, pero no idénticas. Por ejemplo, si
calculamos la media en la muestra de glucemias con la que trabajamos
anteriormente veremos que:
> mean(glucemias)
[1] 90.03842
Su promedio no es exactamente 90, que es lo esperado
conociendo la media real, pero está muy cerca. Esto nos puede llevar a una pregunta.
Si tomamos muchas muestras de la misma población y calculamos sus promedios,
¿cuánto se alejarán éstos de la media poblacional? Es aquí que surge la idea
conceptualmente diferente de la que hablaba antes. Existe una distribución que
se puede ajustar a los valores de nuestra muestra para describirla, pero lo que
nos interesa en realidad, es una distribución teórica que muestra cómo se
distribuirían los promedios si tomáramos muchas muestras respecto de la media
poblacional. Inicialmente, es fácil imaginar que la mayoría de los promedios
estarán cerca de la media y si bien obtendremos por azar valores alejados,
éstos se irán haciendo menos y menos probables a medida que nos alejamos de
ella. Esto es muy importante, existe una distribución teórica de medias
muestrales alrededor de la media poblacional. Esta distribución tiene a su vez
una media (la media poblacional o “verdadera” media) y un desvío estándar, que
en general se denotan usando las letras griegas µ y σ para diferenciarlas y
resaltar que en general son valores teóricos desconocidos y a estimar.
Éste es el razonamiento básico subyacente en lo que solemos
ver como Intervalo de Confianza (ojo que su acrónimo en español “IC” puede
confundirse con el de Information Component que nos interesa, pero no es lo
mismo).
Si tuviéramos información acerca de la media poblacional y
su desvío estándar, podríamos calcular que tan probable es obtener un promedio
determinado para una muestra tomada. Como no lo tenemos, lo inferimos. Quiero
decir, vamos al revés. En lugar de ir de la información de la población para
evaluar la muestra, vamos de la información que hay en la muestra para evaluar
cómo será la población.
Si tuviéramos los datos de la población, calcularíamos la
media y el desvío estándar de ella, mediríamos a qué distancia en términos de
sd se encuentra la media de nuestra muestra y buscaríamos la probabilidad de
encontrar un valor así de alejado de la media poblacional. Como no conocemos la
media y el sd poblacional, usamos la media muestral para estimar la poblacional
y para estimar el sd poblacional hacemos una corrección del sd muestral. Esta
corrección hará que el sd sea más estrecho, como sería de esperar si tuviéramos
toda la población y obviamente, está relacionada al tamaño de la muestra (n).
Este nuevo valor del sd es llamado Error Standard (se) y se
trata del valor que usamos para estimar el sd poblacional. Entonces con esto
podemos calcular un intervalo de confianza para una muestra. SI luego del
análisis preliminar concluimos que nuestra muestra proviene de una población
con distribución de valores normal, podemos usar aproximadamente 2 errores
estándar (sabemos por lo visto en el post anterior que el valor exacto es de 1.959964 sd) hacia la
derecha y 2 errores estándar hacia la izquierda del promedio para establecer un
intervalo de confianza de 95%. Entre las características que podemos usar para
verificar si se cumple el principio de normalidad, uno muy importante es el
tamaño de la muestra. Cuanto mayor el tamaño muestral, menos dependemos del
resto de los supuestos.
Este intervalo de confianza tiene el siguiente significado:
si tomáramos muchas muestras con el mismo método que tomamos la primera, el 95%
de las medias se encontraría en ese rango y además, lo que es más importante,
en ese rango se encuentra la media poblacional con un 95% de probabilidad.
Veamos esto con las glucemias. Usaremos la función “mean” y
“length” ya vistas, la función “sd” que calcula el desvío estándar y la función
“sqrt” que nos da la raíz cuadrada.
> nG=length(glucemias)
> meanG=mean(glucemias)
> sdG=sd(glucemias)
> seG=sdG/sqrt(nG)
> sdG
[1] 9.519673
> seG
[1] 0.9519673
Vemos que el sd es de 9.52, cercano a 10 que es el valor
poblacional, pero el se es mucho menor, cercano a 0.92. Para obtener el intervalo
de confianza acerca de nuestra media hacemos lo siguiente:
> LimInf=meanG-1.959964*seG
> LimSup=meanG+1.959964*seG
> LimInf
[1] 88.1726
> LimSup
[1] 91.90424
El límite inferior es de 88.17 y el superior de 91.90. Como
dijimos antes, esto quiere decir entre otras cosas que la media poblacional
“real” se encuentra en ese rango con un 95% de probabilidad. Sabemos que esto
es lo que ocurre en la realidad, pues la media poblacional es de 90 mg/dl,
según lo predeterminado por la simulación con la que generamos los datos
muestrales.
También, nos dice otra cosa muy importante: Si en otro
momento tomamos otra muestra y al calcular el promedio encontramos que se
encuentra fuera de ese rango, podemos tener la “confianza” de que es improbable
que esos valores provengan de la misma población. Mejor dicho, la probabilidad
de que provengan de la misma población es inferior al 5%.
Bueno, hasta aquí los conceptos de estadística “clásica” que
son importantes para entender lo que viene de generación de señales con el
paquete PhViD.
No obstante, para entenderlo más acabadamente hay que tener
nociones de inferencia Bayesiana.
No hay comentarios:
Publicar un comentario