sábado, 1 de octubre de 2011

2 x 2 = ¡Tablas!

 Cuando queremos comparar 2 variables categóricas muchas veces se utilizan tablas de 2 x 2. Luego, suelen aplicarse métodos para evaluar el grado de asociación (o más bien de independencia) entre ambas variables. Estos métodos asumen que para cualquier tabla, existe una distribución de los casos dentro de las celdas que es la más probable y que, aunque no sea la misma que la que tenemos originalmente, puede ser calculada. Cuanto más alejada mi tabla de la calculada, menos probable es lo observado respecto de lo esperado y mayor evidencia encuentro para asumir asociación.



Veremos esto en más detalle:


Primero que nada, vamos a describir la anatomía básica de una tabla de 2 x 2.
Las variables se colocan indicando los 2 resultados posibles, ya sea “Sí” y “No”, o “positivo” y “negativo”, o “éxito” y “fracaso”, o “presente” y “ausente”, etc . De tal modo que la intersección de los resultados determina 4 celdas con las combinaciones posibles de resultados (Tabla 1). Es común que estas celdas sean etiquetadas usando las letras "a", "b", "c" y "d", sobre todo a la hora de referirse a ellas con fines explicativos.
Adyacentes a estas 4 celdas, a la derecha y debajo de las mismas, se calculan los totales de filas y columnas. Las celdas en la columna y la fila que contienen estos totales se denominan "marginales". Finalmente, la celda que representa la intersección de estas marginales contiene el total general.


Tabla 1




Marginales


Variable 1



No
Total
Variable 2
a
b

No
c
d

Marginales
Total


Total general






Ahora bien, vamos a usar un ejemplo básico.
Imaginemos que tenemos 2 monedas y que lanzamos cada una 100 veces. Luego de cada tirada anotamos el resultado como "cara" o "ceca" (así me enteré que el término es "ceca" y no "seca" como esperaba http://es.wikipedia.org/wiki/Cara_o_cruz).
Antes de obtener los resultados intuimos que hay un resultado esperado, aunque no necesariamente el resultado que obtengamos sea idéntico a él. Vale decir, como sabemos que la probabilidad de obtener cara o ceca es del 50%, es esperable que obtengamos cualquiera de los resultados la mitad de las veces. Por lo tanto, bajo la distribución esperada, las marginales deberían totalizar 50 ocurrencias para cada una de las posibilidades en cada moneda (Tabla 2).


Tabla 2




Marginales


Moneda 1



Cara
Ceca
Total
Moneda 2
Cara


50
Ceca


50
Marginales
Total
50
50
100





A su vez, como lo que ocurre con una moneda no influencia lo que ocurre con la otra, es esperable que las combinaciones de ocurrencias (por ejemplo: moneda 1 = “cara” y moneda 2 = “cara”, o moneda 1 = “cara” y moneda 2 = “ceca”) también se distribuyan siguiendo esa probabilidad, y obtengamos cada combinación ¼ de las veces. La tabla obtenida es la tabla “esperada” (Tabla 3), aunque como ya dijimos el resultado real no sea exactamente igual. No obstante, intuitivamente podemos saber que no se hallará muy alejado de eso.


Tabla 3

Moneda 1

Cara
Ceca
Total
Moneda 2
Cara
25
25
50
Ceca
25
25
50

Total
50
50
100




Imaginaremos un resultado posible si realmente nos tomáramos el trabajo de arrojar las monedas (Tabla 4).
Para facilitar las cosas, vamos a ir alterando el resultado de las celdas internas pero no el de las marginales.
Es fácil ver que éste es un resultado posible porque el mismo no se halla muy alejado del esperado.


Tabla 4

Moneda 1

Cara
Ceca
Moneda 2
Cara
26
24
50
Ceca
24
26
50

50
50
100




Ahora bien, alterando un poco más los valores, obtenemos otra tabla (Tabla 5). Éste resultado se halla más alejado del esperado y ya es más difícil decir si en una experiencia real existen chances de obtener un resultado como este.


Tabla 5

Moneda 1

Cara
Ceca
Moneda 2
Cara
30
20
50
Ceca
15
35
50

50
50
100




Yendo al extremo, creamos la tabla más alejada de la esperada y nos damos cuenta que este resultado es sumamente improbable.


Tabla 6

Moneda 1

Cara
Ceca
Moneda 2
Cara
50
0
50
Ceca
0
50
50

50
50
100


Resumiendo, en la siguiente figura podemos ver las 4 últimas tablas y verificar que hay cada vez más diferencia entre la primer tabla, que muestra la distribución esperable según la probabilidad conocida, y las subsiguientes. Esto indica algún tipo de gradiente de probabilidad que puede medirse en términos de distancia entre una tabla y otra. Vale decir, a mayor distancia entre la tabla esperada y otra tabla, menor la probabilidad de obtener el resultado de la última solamente por azar.

Este procedimiento puede ser aplicado a cualquier tabla. Claro que lo que tendremos es una tabla con los resultados observados luego de poner nuestros datos en la misma. Para medir la diferencia entre la tabla observada y la esperada, es necesario calcular los valores de esta última.
A continuación, describiremos un procedimiento general para calcular los valores esperados de cualquier tabla.

No hay comentarios:

Publicar un comentario