Epidemiologa y Estadstica.
Regresin logstica
Anlisis multivariado
Parte prctica: STATA
Indice
Introduccin ......................................................................................................................... 1
Comandos ............................................................................................................................ 3
Modelo con una variable ....................................................................................................... 3
Modelo con una variables con 2 o mas categorias................................................................. 7
Modelo con dos variables categricas...................................................................................9
Modelo con una variables categorica y una continua .......................................................... 10
Introduccin
A continuacin, les proponemos ejercitar la teora de anlisis multivariado con un ejemplo y
utilizando el programa STATA.
Comencemos!
Utilizaremos los datos de la base de Sndrome Metablico, que tienen disponible en el espacio
de esta unidad de Anlisis multivariado, y evaluaremos el efecto que el sexo posee sobre el
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 1
sndrome metablico y si, dicho efecto difiere segn la edad, es decir, ajustaremos por el
efecto de la edad en tener sndrome metablico.
Para comenzar
Abra la base "Sndrome Metablico" con STATA.
La base posee las siguientes variables:
id_persona: Identificador nico
sex: Sexo 0= femenino
Sexo 1= Masculino
sm: Diagnstico de Sndrome Metablico: 0= No; 1= Si
age2: 17 (0) Entre 17 y 44 aos
45 (1) Entre 45 y 83 aos
otrocriterio: 0= tiene menos de 2 criterios para Sndrome Metablico.
1= tiene 2 o ms criterios para Sndrome Metablico.
bmi: 0= Si BMI <25
1= BMI >=25
tas: Tensin Arterial Sistlica: Variable continua con el valor de la toma
agecat: edad categorizada en 3 grupos
17 (0) = entre 17 y 44 aos;
45 (1) = entre 45 y 59 aos
60 (2) = entre 60 y 83 aos
hta: es hipertenso? 0= No; 1= Si
edad: Variable continua con el valor
Delgado: 0= BMI >=25
1= BMI <25
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 2
Recuerde abrir el Log al comenzar a trabajar.
Comandos
En este prctico, veremos los siguientes comandos:
TAB
Logit
Logistic
Veamos, cada uno en detalle, a continuacin
TAB
tab variable1 variable2, col row chi2
Realiza la tabla de 2x2 con los nmeros absolutos de las observaciones. La primera variable
que se escribe va en las filas (row) y la segunda en las columnas, presenta los porcentajes en
las filas y las columnas y realiza el test de chi2.
Logit
logit variable1 variable2
Produce un modelo de regresin logstica y nos da la estimacin del log odds.
Logistic
logistic variable 1 variable 2
Presenta el modelo de regresin logstica con los estimados como odds ratios.
Modelo con una variable
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 3
Modelamos la ocurrencia de sndrome metablico segn sexo.
Con los siguientes comandos del STATA, obtendremos la tabla de contingencia para estas dos
variables explicativas por separado (bivariado).
Analicemos el porcentaje para las filas (row) y el chi2.
tab sm sex, col row chi2
| sex
sm | 0 1| Total
-----------+----------------------+----------
0| 123 64 | 187
| 65.78 34.22 | 100.00
| 78.85 62.75 | 72.48
-----------+----------------------+----------
1| 33 38 | 71
| 46.48 53.52 | 100.00
| 21.15 37.25 | 27.52
-----------+----------------------+----------
Total | 156 102 | 258
| 60.47 39.53 | 100.00
| 100.00 100.00 | 100.00
Pearson chi2(1) = 8.0159 Pr = 0.005
Ahora, evaluemos el odds ratio de de tener sndrome metablico en hombres comparado con
mujeres.
mhodds sm sex
Maximum likelihood estimate of the odds ratio
Comparing sex==1 vs. sex==0
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 4
----------------------------------------------------------------
Odds Ratio chi2(1) P>chi2 [95% Conf. Interval]
----------------------------------------------------------------
2.213068 7.98 0.0047 1.257076 3.896080
Podemos ver que, el odds de tener sndrome metablico en los hombres, es 2,21 veces el de
las mujeres con una p<0.0047 y un intervalo de confianza del 95% de 1,257 a 3,896.
Ahora, intentaremos producir el mismo resultado utilizando los comandos de regresin
logstica.
1. Primero, obtendremos los coeficientes:
logit sm sex
Iteration 0: log likelihood = -151.79599
Iteration 1: log likelihood = -147.87495
Iteration 2: log likelihood = -147.84455
Iteration 3: log likelihood = -147.84455
Logistic regression Number of obs = 258
LR chi2( 1) = 7.90
Prob > chi2 = 0.0049
Log likelihood = -147.84455 Pseudo R2 = 0.0260
sm Coef. Std. Err. z P>|z| [95% Conf. Interval]
sex .7943799 .2835029 2.80 0.005 .2387244 1.350035
_cons -1.315677 .1960436 -6.71 0.000 -1.699915 -.9314383
Este output nos est mostrando:
Number of obs: Numero de observaciones: 258
LR chi2: el likelihood ratio chi2 test para la hiptesis nula que ninguna de las variables
en el modelo est asociada con la variable de resultado. En este caso, slo hay una
variable en el modelo, por lo tanto, en este caso particular es el test de la hiptesis
nula que sexo no se asocia con el sndrome metablico.
Prob > chi2: el valor de p para el likelihood ratio test
Pseudo R2: es una estimacin de lo viene que predice el modelo. No lo utilizaremos,
en general, en regresin logstica.
La tabla nos muestra lo siguiente:
En la primera columna vemos los nombres de las variables.
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 5
Los valores en la columna de Coef (coeficientes) representan el log (OR) para el efecto
de hipertensin (1,774) y la constante que es el log odds en los que tienen sndrome
metablico.
La siguiente columna muestra los errores estndar de los coeficientes.
La columna z nos da el resultado del estadstico del Wald test y, luego, su
correspondiente valor de P y, finalmente los intervalos de confianza de los
coeficientes.
Para obtener el OR del efecto del sexo sobre el hecho de tener sndrome metablico,
debemos obtener los exponenciales del coeficiente. Sin embargo, STATA permite obtener
automticamente el estimado del odds ratio, lo que es muy conveniente.
------------------------------------------------------------------------------
logistic sm sex
. logistic sm sex
Logistic regression Number of obs = 258
LR chi2( 1) = 7.90
Prob > chi2 = 0.0049
Log likelihood = -147.84455 Pseudo R2 = 0.0260
sm Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
sex 2.213068 .6274113 2.80 0.005 1.269629 3.857562
Observen que la constante no es mostrada cuando se utiliza el comando logistic
El error estndar para el OR es slo aproximado y no debe utilizarse para los clculos, sino
que debe utilizarse el obtenido de los coeficientes.
El estadstico z (test de Ward) es igual al anterior porque, en realidad, est derivado utilizando
el error estndar de los coeficientes.
De igual modo los intervalos de confianza estn derivados de los log odds ratio.
No los calculen utilizando el error estndar de esta tabla!.
Asimismo, observen que el resultado del Odds ratio es exactamente igual al obtenido con el
anlisis univariado aunque, los intervalos de confianza, varan muy poco.
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 6
Modelo con una variables con 2 o mas categorias
Modelamos la ocurrencia de sndrome metablico segn edad (en 3 categorias).
En este caso utilizaremos la variable agecat que tiene tres categoras.
Para poder hacer esto, le tienen que indicar a STATA que esta es una variable categrica, sino
la tratar como una variable numrica. Siempre STATA har esto si encuentra una variable
con ms de dos categoras, cualquiera sea la codificacin numrica que le hayan puesto (1,2,3,
etc., o 17,45,60 como en este caso).
Un punto importante: STATA slo reconocer las variables
para incluirlas en un modelo de regresin logstica si estn
creadas como numricas. No podrn utilizar una variable,
aunque sea dicotmica, si la han codificado por ejemplo: sexo: mas,
fem.
Para decirle a STATA que esa variable es categrica deben tipear xi: antes del comando logit
(o logistic), e: i. antes del nombre de la variable:
xi:logit sm i.agecat
i.agecat _Iagecat_0-2 (naturally coded; _Iagecat_0 omitted)
Iteration 0: log likelihood = -151.79599
Iteration 1: log likelihood = -132.7885
Iteration 2: log likelihood = -132.03524
Iteration 3: log likelihood = -132.03186
Iteration 4: log likelihood = -132.03186
Logit estimates Number of obs = 258
LR chi2(2) = 39.53
Prob > chi2 = 0.0000
Log likelihood = -132.03186 Pseudo R2 = 0.1302
------------------------------------------------------------------------------
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 7
sm | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_Iagecat_1 | 1.374012 .4012193 3.42 0.001 .5876369 2.160388
_Iagecat_2 | 2.060602 .353549 5.83 0.000 1.367659 2.753545
_cons | -2.006535 .2662768 -7.54 0.000 -2.528428 -1.484642
------------------------------------------------------------------------------
Veamos el output con los Odds ratios
xi:logistic sm i.agecat
i.agecat _Iagecat_0-2 (naturally coded; _Iagecat_0 omitted)
Logistic regression Number of obs = 258
LR chi2(2) = 39.53
Prob > chi2 = 0.0000
Log likelihood = -132.03186 Pseudo R2 = 0.1302
------------------------------------------------------------------------------
sm | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_Iagecat_1 | 3.951172 1.585286 3.42 0.001 1.79973 8.674498
_Iagecat_2 | 7.850694 2.775606 5.83 0.000 3.926147 15.69819
------------------------------------------------------------------------------
Notarn que hay slo dos OR, pero eran tres categoras.
Recuerden que el OR siempre se refiere al ratio de dos Odds.
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 8
En este caso, el Odds que se utiliza como basal, es el de la categora con menor valor
de codificacin (en este caso los de 17 a 45 aos).
El odds ratio para sndrome metablico es de 3,95 para los que estn entre 45 y 60
aos, comparado con la categora de 17 a 45.
El odds ratio para sndrome metablico es de 7,85 para los que mayores de 60 aos,
comparado con la categora de 17 a 45.
Hay dos valores de p del Wald test (cada uno para cada resultado de odds ratio) que testea si
ese odds ratio es significativamente diferente a 1. En este caso, los dos odds ratio son
significativos (<0,001).
El estadstico del likelihood ratio es 39,53 con 2 grados de libertad con un valor de p<0,001).
Observarn que hay slo un valor de likelihood ratio test y p valor. Este test evala la
significancia de la variable agecat testeando simultneamente los dos parmetros en el
modelo.
Veamos ahora cmo funciona el modelo si incluimos las dos variables
Modelo con dos variables categricas
Modelamos la ocurrencia de sndrome metablico segn sexo y edad (en 3 categoras).
xi: logistic sm sex i.agecat
i.agecat _Iagecat_0-2 (naturally coded; _Iagecat_0 omitted)
Logistic regression Number of obs = 258
LR chi2( 3) = 51.20
Prob > chi2 = 0.0000
Log likelihood = -126.19776 Pseudo R2 = 0.1686
sm Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
sex 2.92922 .9408607 3.35 0.001 1.560801 5.49739
_Iagecat_1 4.610805 1.922205 3.67 0.000 2.036658 10.43844
_Iagecat_2 9.2617 3.443857 5.99 0.000 4.468699 19.19554
Observarn que en el modelo con slo sexo, el OR estimado para los hombres de tener
sndrome metablico era de 2,21. Despus de controlar por el efecto de edad como variable
dicotmica, el OR aument a 2,97. Por lo tanto, la edad confunda negativamente el efecto
del sexo.
El efecto de sexo es significativo: miren el valor de p del Ward test y los intervalos de
confianza.
Los odds ratios de la categora de edad entre 45 y 60 aos y de mayores de 60 aos eran: 3,85
y 7,95 respectivamente, fjense y ahora son 4,61 y 9,26 respectivamente, por lo que tambin
hay un pequeo efecto confundidor del sexo sobre la edad.
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 9
Los efectos siguen siendo significativos: miren el Ward test y los intervalos de confianza.
Veamos ahora qu ocurre con una variable categrica y una contnua
Modelo con una variables categorica y una continua
Modelamos la ocurrencia de sndrome metablico segn sexo y edad como continua.
Veamos ahora cmo funciona el modelo si utilizamos la edad como variable numrica
continua y no categrica:
logistic sm sex edad
logistic sm sex edad
Logistic regression Number of obs = 258
LR chi2(2) = 57.23
Prob > chi2 = 0.0000
Log likelihood = -123.18283 Pseudo R2 = 0.1885
------------------------------------------------------------------------------
sm | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
sex | 3.058403 .9998955 3.42 0.001 1.611418 5.804721
edad | 1.062259 .0101897 6.30 0.000 1.042474 1.082419
------------------------------------------------------------------------------
El odds ratio de tener sndrome metablico entre los hombres comparados con las mujeres es
de 3,1 (significativo, con un intervalo de confianza de 1,611 a 5,804), cuando ajustamos por
edad como variable continua. En cuanto a la edad, podemos decir que, por cada ao de
incremento en la edad, el Odds de tener sndrome metablico aumenta en un 6%, siendo este
aumento significativo -poco probable que se deba al azar!-, con un intervalo de confianza que
va del 4 al 8% de aumento, cuando ajustamos por sexo.
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 10
Muy bien!, ya estn listos para hacer un anlisis
multivariado de regresin logstica y listos para realizar
la actividad de esta unidad
Nos seguimos encontrando en el espacio del curso!
Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 11