domingo, 23 de octubre de 2011

Yo infiero, tu infieres


Luego de repasar algunos rudimentos de distribuciones estadísticas, es conveniente ver algo de inferencia estadística. Es la parte de la estadística que permite deducir propiedades de una población, a partir de una muestra de la misma.

Acá hay algunos conceptos que habitualmente conducen a error. Básicamente, como decíamos antes, cuando estudiamos una muestra una de las cosas que hay que realizar es una serie de pruebas para establecer si la misma proviene de una población donde la variable tiene una distribución normal. Esto implica que existe una población teórica (e imposible de aprehender) desde la cual se toma la muestra. En esta muestra verificaremos propiedades similares a la de la población, pero no idénticas. Por ejemplo, si calculamos la media en la muestra de glucemias con la que trabajamos anteriormente veremos que:

> mean(glucemias)
[1] 90.03842

Su promedio no es exactamente 90, que es lo esperado conociendo la media real, pero está muy cerca. Esto nos puede llevar a una pregunta. Si tomamos muchas muestras de la misma población y calculamos sus promedios, ¿cuánto se alejarán éstos de la media poblacional? Es aquí que surge la idea conceptualmente diferente de la que hablaba antes. Existe una distribución que se puede ajustar a los valores de nuestra muestra para describirla, pero lo que nos interesa en realidad, es una distribución teórica que muestra cómo se distribuirían los promedios si tomáramos muchas muestras respecto de la media poblacional. Inicialmente, es fácil imaginar que la mayoría de los promedios estarán cerca de la media y si bien obtendremos por azar valores alejados, éstos se irán haciendo menos y menos probables a medida que nos alejamos de ella. Esto es muy importante, existe una distribución teórica de medias muestrales alrededor de la media poblacional. Esta distribución tiene a su vez una media (la media poblacional o “verdadera” media) y un desvío estándar, que en general se denotan usando las letras griegas µ y σ para diferenciarlas y resaltar que en general son valores teóricos desconocidos y a estimar.

Éste es el razonamiento básico subyacente en lo que solemos ver como Intervalo de Confianza (ojo que su acrónimo en español “IC” puede confundirse con el de Information Component que nos interesa, pero no es lo mismo).
Si tuviéramos información acerca de la media poblacional y su desvío estándar, podríamos calcular que tan probable es obtener un promedio determinado para una muestra tomada. Como no lo tenemos, lo inferimos. Quiero decir, vamos al revés. En lugar de ir de la información de la población para evaluar la muestra, vamos de la información que hay en la muestra para evaluar cómo será la población.

Si tuviéramos los datos de la población, calcularíamos la media y el desvío estándar de ella, mediríamos a qué distancia en términos de sd se encuentra la media de nuestra muestra y buscaríamos la probabilidad de encontrar un valor así de alejado de la media poblacional. Como no conocemos la media y el sd poblacional, usamos la media muestral para estimar la poblacional y para estimar el sd poblacional hacemos una corrección del sd muestral. Esta corrección hará que el sd sea más estrecho, como sería de esperar si tuviéramos toda la población y obviamente, está relacionada al tamaño de la muestra (n).
 Este nuevo valor del sd es llamado Error Standard (se) y se trata del valor que usamos para estimar el sd poblacional. Entonces con esto podemos calcular un intervalo de confianza para una muestra. SI luego del análisis preliminar concluimos que nuestra muestra proviene de una población con distribución de valores normal, podemos usar aproximadamente 2 errores estándar (sabemos por lo visto en el post anterior que el valor exacto es de 1.959964 sd) hacia la derecha y 2 errores estándar hacia la izquierda del promedio para establecer un intervalo de confianza de 95%. Entre las características que podemos usar para verificar si se cumple el principio de normalidad, uno muy importante es el tamaño de la muestra. Cuanto mayor el tamaño muestral, menos dependemos del resto de los supuestos.

Este intervalo de confianza tiene el siguiente significado: si tomáramos muchas muestras con el mismo método que tomamos la primera, el 95% de las medias se encontraría en ese rango y además, lo que es más importante, en ese rango se encuentra la media poblacional con un 95% de probabilidad.
Veamos esto con las glucemias. Usaremos la función “mean” y “length” ya vistas, la función “sd” que calcula el desvío estándar y la función “sqrt” que nos da la raíz cuadrada.

> nG=length(glucemias)
> meanG=mean(glucemias)
> sdG=sd(glucemias)
> seG=sdG/sqrt(nG)
> sdG
[1] 9.519673
> seG
[1] 0.9519673

Vemos que el sd es de 9.52, cercano a 10 que es el valor poblacional, pero el se es mucho menor, cercano a 0.92. Para obtener el intervalo de confianza acerca de nuestra media hacemos lo siguiente:

> LimInf=meanG-1.959964*seG
> LimSup=meanG+1.959964*seG
> LimInf
[1] 88.1726
> LimSup
[1] 91.90424

El límite inferior es de 88.17 y el superior de 91.90. Como dijimos antes, esto quiere decir entre otras cosas que la media poblacional “real” se encuentra en ese rango con un 95% de probabilidad. Sabemos que esto es lo que ocurre en la realidad, pues la media poblacional es de 90 mg/dl, según lo predeterminado por la simulación con la que generamos los datos muestrales.
También, nos dice otra cosa muy importante: Si en otro momento tomamos otra muestra y al calcular el promedio encontramos que se encuentra fuera de ese rango, podemos tener la “confianza” de que es improbable que esos valores provengan de la misma población. Mejor dicho, la probabilidad de que provengan de la misma población es inferior al 5%.

Bueno, hasta aquí los conceptos de estadística “clásica” que son importantes para entender lo que viene de generación de señales con el paquete PhViD.
No obstante, para entenderlo más acabadamente hay que tener nociones de inferencia Bayesiana.

No hay comentarios:

Publicar un comentario en la entrada