Voy
a hablar un poco acerca de distribuciones de probabilidad. Este es un tema
extenso así que solamente trataré los puntos que me parecen necesarios para
entender los demás.
Como
vimos en el post sobre nociones de independencia, en las tablas de 2 x 2 existe un valor observado para
cada celda interna, que es el que anotamos a partir de las observaciones, y un
valor esperado que podemos calcular y es a su vez el valor más probable bajo la
hipótesis de que las variables son independientes.
Entonces,
queda configurada una “distancia” entre el valor esperado y el observado.
Intuitivamente puede verse que a mayor diferencia del valor observado respecto
del esperado, menos probable se hace el mismo si las variables fueran
independientes y por lo tanto se hace cada vez más difícil aceptar esta
hipótesis. Cuando la distancia es demasiada (y para ello se define un punto de
corte), rechazamos la hipótesis de independencia y aceptamos que hay asociación
entre las variables, pues de otro modo sería sumamente improbable obtener esa
configuración de celdas.
Ahora
bien: ¿Cómo se mide esa distancia y cómo se hace para saber el valor de
probabilidad de obtener esa diferencia? Aquí entran las distribuciones de
probabilidad. Usándolas, podemos traducir entre distancia medida en términos
comunes y probabilidad asociada a la misma.
Para
tablas de 2 x 2, en general se usa la distribución de chi cuadrado, porque las
propiedades que tienen estas tablas establecen que este método sea adecuado la
mayor parte de las veces. Pero otras veces, lo adecuado es elegir otras
distribuciones para medir la distancia observada y eso depende de la situación
a la que nos enfrentemos.
Para
dar una noción más intuitiva del uso de las distribuciones de probabilidad, voy
a ejemplificar con la distribución llamada Normal que es posiblemente la más
escuchada.
Es
de esperar que la mayoría de nosotros haya visto alguna vez una de esas reglas
que sirven para medir en diferentes escalas. Por ejemplo, una regla que de un
lado tiene una escala en centímetros y del otro en pulgadas.
Una
regla así, nos podría servir como método para traducir entre una escala y otra.
Es fácil ver en la imagen que si medimos algo que mide 1 pulgada, medirá
aproximadamente 2,5 centímetros. Algo así pasa con las distribuciones de
probabilidad, vale decir que podríamos medir una distancia en centímetros y
traducir a probabilidades. Para eso, vamos a usar una herramienta que se
consigue en cualquier ferretería estadística. ;)
Esta
regla tendrá, al menos inicialmente, una escala en centímetros. Pero posee
algunas características particulares. En primer lugar, el valor 0 no está
colocado en un extremo sino en el centro de la misma. En segundo lugar, los
centímetros son positivos hacia la derecha del cero pero se hacen cada vez más
negativos hacia la izquierda del mismo.
Como
esta no es una regla cualquiera, tiene además la particularidad de que se le
pueden acoplar diferentes escalas en el borde opuesto al de los números, de
forma de poder traducir de escala en centímetros a cualquier otra.
En
esta oportunidad, le acoplaremos una curva de probabilidad Normal:
Como
ven, esta nueva escala es bastante rara. Básicamente, a diferencia de lo que
ocurre con la escala en centímetros, su grosor es máximo en el centro o valor 0
y éste se va adelgazando a medida que nos alejamos del mismo hasta hacerse
mínimo más allá de los 3 centímetros de distancia respecto del centro.
Obviamente, el área cubierta por la figura en cada segmento también disminuye.
También podemos ver que la figura es simétrica hacia ambos lados.
Lo interesante (como veremos) es que si asumimos que el área total de la figura es 100%, su forma es tal que es posible saber exactamente qué porcentaje del área queda encerrada en cada segmento medido en centímetros. En primer lugar, es fácil darse cuenta que cualquiera de las 2 mitades contiene un área de 50%. Entre 0 y 1 cm queda determinada un área de 34% del total y dada su simetría lo mismo ocurre entre 0 y -1 cm. Por lo tanto, entre -1 y 1 cm queda un área de 68%.
Lo interesante (como veremos) es que si asumimos que el área total de la figura es 100%, su forma es tal que es posible saber exactamente qué porcentaje del área queda encerrada en cada segmento medido en centímetros. En primer lugar, es fácil darse cuenta que cualquiera de las 2 mitades contiene un área de 50%. Entre 0 y 1 cm queda determinada un área de 34% del total y dada su simetría lo mismo ocurre entre 0 y -1 cm. Por lo tanto, entre -1 y 1 cm queda un área de 68%.
Varios
rangos que podríamos verificar serían:
Rango en cm
|
Porcentaje
del área |
0 a 1
|
34%
|
-1 a 1
|
68%
|
0 a 2
|
47,7%
|
-2 a 2
|
95,4%
|
0 a 3
|
49,9%
|
-3 a 3
|
99,7%
|
-1 a 3
|
84%
|
Todo el rango
menor o igual a cero
|
50 %
|
Todo el rango
menor o igual a 2
|
97,7%
|
La
verdad es que si bien estuvimos hablando en términos de porcentajes, también
estuvimos hablando en términos de probabilidades. El principio fundamental es
que no debemos nunca usar un destornillador para sacar un clavo. Vale decir,
cada herramienta tiene una situación de aplicación para lo cual fue diseñada.
Así,
lo más importante antes de hacer una medición con la herramienta que mostramos,
es saber si nuestros datos pueden ser medidos con la misma o debe usarse otra.
Sabemos por lo que leímos en muchas publicaciones, que muchos valores en
medicina tendrían una gráfica de distribución normal y por lo tanto simétrica
alrededor de la media. (La palabra “tendría” es condicional aquí, pues hay
situaciones en las que esto no se cumple).
Vamos
a usar R para simular datos con distribución normal y reforzar lo que venimos
hablando. Pretendamos que estamos
midiendo valores de glucemia en una población sana en mg/dl y que el rango
normal va de 70 a 110 mg/dl. Usaremos el valor intermedio del rango como media
(90 mg/dl) y un desvío estándar de 10 mg/dl.
La
función “rnorm” sirve para generar números aleatorios según la distribución
normal y toma como argumentos la media y el desvío estándar (sd), además del
número de observaciones o “casos” que queremos. Pediremos 100 casos:
> n=100
> media=90
> sd=10
> glucemias=rnorm(n,media,sd)
Luego,
graficaremos la densidad de distribución de nuestros datos de la siguiente
manera:
plot(density(glucemias))
Obtendremos
una gráfica más o menos así:
Posiblemente
la gráfica sea medio torcida, pero vemos que es bastante parecida a la normal
(si en lugar de un n de 100 usáramos 1000 o 10000, veríamos que cada vez es más
parecida).
Como
suponemos que es aceptable usar la distribución normal para estudiar los datos
(aquí este supuesto es obviamente correcto pues los datos fueron generados por
simulación) mediremos la probabilidad de obtener valores dentro de determinados
rangos y los compararemos con la tabla de probabilidad normal aportada más
arriba.
Para
obtener los valores dentro de un determinado rango, tomaremos nuestro objeto
“glucemias” que contiene nuestros datos y lo “cortaremos” según necesidad. Para
tomar segmentos de una lista de valores contenida en un objeto, se usa el
nombre del objeto seguido de corchetes (“[ ]”), y dentro de los corchetes irá
la instrucción que indica dónde cortaremos.
> glucemias[glucemias<=90]
Esto nos dará la lista de valores de glucemia que tienen valor menor o igual a nuestra media, que es el valor de 90 mg/dl.
Como tenemos 100 casos totales, el número de casos en un segmento será también el porcentaje del total de casos contenido en ese segmento.
Para saber el número de casos que hay en la lista de valores sin tener que contarlos a mano usamos la instrucción “length”, envolviendo a la instrucción anterior de la siguiente manera:
> length(glucemias[glucemias<=90])
Rango en sd
|
Porcentaje
del área esperada |
Cantidad obtenida en el rango
|
Instrucción
|
0 a 1
|
34%
|
31
|
length(glucemias[glucemias<=100])-
length(glucemias[glucemias<=90])
|
-1 a 1
|
68%
|
64
|
length(glucemias[glucemias<=100])-
length(glucemias[glucemias<=80])
|
0 a 2
|
47,7%
|
49
|
length(glucemias[glucemias<=110])-
length(glucemias[glucemias<=90])
|
-2 a 2
|
95,4%
|
99
|
length(glucemias[glucemias<=110])-
length(glucemias[glucemias<=70])
|
0 a 3
|
49,9%
|
49
|
length(glucemias[glucemias<=120])-
length(glucemias[glucemias<=90])
|
-3 a 3
|
99,7%
|
100
|
length(glucemias[glucemias<=120])-
length(glucemias[glucemias<=60])
|
-1 a 3
|
84%
|
82
|
length(glucemias[glucemias<=120])-
length(glucemias[glucemias<=80])
|
Todo el rango
menor o igual a la media
|
50 %
|
51
|
length(glucemias[glucemias<=90]) |
Todo el rango
menor o igual a 2 sd
|
97,7%
|
100
|
length(glucemias[glucemias<=110])
|
Es interesante verificar que al obtener una muestra de una población, a pesar de tener la variable medida una distribución expresamente normal en esa población, su distribución en la muestra será aproximada pero no exactamente normal.
Habitualmente el procedimiento será inverso, se tomará una muestra de una población y deberán realizarse algunas evaluaciones para determinar si se cumplen los supuestos que indican que la distribución normal es pasible de ser aplicada sin incurrir en violaciones de los mismos que, en general, conducirían a resultados y conclusiones erróneas.
¿Pero, para qué utilicé la analogía de los centímetros? Y ¿Por qué en una tabla puse los rangos en centímetros y en otra en sd (desvíos estándar)?
Existe una distribución normal especial, denominada “Normal(0,1)”, en donde la media es igual a cero y el desvío estándar igual a 1. Si bien cualquier probabilidad puede ser calculada computacionalmente sin recurrir al uso de tablas, es útil saber que las tablas de probabilidad normal que a veces se ven publicadas y algunos tuvimos que usar alguna vez, están expresadas según la Normal(0,1). Aunque tengamos una media y sd diferentes, cualquier valor puede ser fácilmente convertido a esa escala mediante una cuenta en donde restamos el valor de la media y luego lo dividimos por el desvío estándar:
Así, sabemos a cuántos desvíos estándar está nuestro valor, respecto de la media y podemos buscarlo en las tablas. En R podemos usar el comando “pnorm” con el resultado de ese valor, para obtener la probabilidad de obtenerlo. El resultado será evaluado como si se tratara de uno obtenido de una Normal(0,1) (salvo que indiquemos otros argumentos). Por ejemplo, si la cuenta anterior diera un resultado de 2 (sería el caso si con las glucemias usáramos el valor de 110 mg/dl), sabríamos que este valor está a 2 sd respecto de la media. Usamos “pnorm” para establecer la probabilidad de obtener un valor así, tomado de una distribución normal:
> pnorm(2)
[1] 0.9772499
Tal vez hubiéramos esperado que el valor estuviera cerca del 95% (a esta altura la mayoría se imaginará que cuando hablo de 95% y 0.95 me refiero a lo mismo. En realidad las probabilidades se expresan en valores de 0 a 1. Para transformarlas en porcentaje se multiplican por 100), de acuerdo a los conocimientos que suelen transmitirnos. En realidad, la función da la probabilidad de obtener un valor igual o menor a 2, no entre ±2sd o lo que es lo mismo, entre 2 y -2. Si queremos obtener esto último, debemos restarle la probabilidad de obtener un valor menor o igual a -2, de la siguiente manera:
> pnorm(2)-pnorm(-2)
[1] 0.9544997
Como ven, está cercana a 95%, aunque no exacta. Si quisiéramos obtener el valor para ±sd que nos da exactamente el 95% de probabilidad, usamos “qnorm” indicándole el valor 0.975 (o sea 97,5%, que es el valor que deja 2,5% hacia la derecha, pues queremos que nos quede un 2,5% a la izquierda).
> qnorm(0.975)
[1] 1.959964
Ahora volvemos a utilizar “pnorm” con ese valor:
> pnorm(1.959964)-pnorm(-1.959964)
[1] 0.95
Exactamente 95%.
Bueno, acá quiero que respiren un poco, se estiren y despejen un poco la cabeza. Vamos a pasar a un punto importante.
Cuando hacemos cualquier estudio, la mayoría de las veces queremos generalizar el resultado. Vale decir, puede ser que las conclusiones nos interesen solamente para ser aplicadas para esos pacientes y ese momento particular, pero habitualmente queremos que sean útiles para usarlas en otros pacientes. Esto implica que las conclusiones serán utilizables para aplicar a otros pacientes similares en otras regiones, en bases de datos históricas, y en pacientes que aún no han llegado, pero llegarán en el futuro. Esto quiere decir que cuando tomo una muestra, no solamente lo hago porque es impracticable estudiar a toda la población de interés por una cuestión de recursos sino que esa población es una población teórica que la mayoría de las veces no existe al momento de realizar el estudio.
Hasta el momento, con lo que tenemos, solamente podemos describir nuestra muestra en términos de media y desvío estándar. Ahora, si queremos evaluar cuán aplicable es mi resultado a otros pacientes no incluidos en el estudio, debemos usar otro razonamiento y realizar un salto conceptual para entrar en el terreno de la inferencia estadística.
No hay comentarios:
Publicar un comentario