100% encontró este documento útil (1 voto)
128 vistas11 páginas

Práctica de STATA en Análisis Multivariado

Este documento presenta una guía práctica para realizar análisis de regresión logística multivariada utilizando el programa STATA. Explica comandos como TAB, Logit y Logistic para crear tablas de contingencia, modelar la asociación entre variables categóricas y estimar odds ratios. Luego, aplica estos métodos a un conjunto de datos sobre síndrome metabólico para evaluar el efecto del sexo y la edad en la presencia de esta condición.

Cargado por

pbchanta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
128 vistas11 páginas

Práctica de STATA en Análisis Multivariado

Este documento presenta una guía práctica para realizar análisis de regresión logística multivariada utilizando el programa STATA. Explica comandos como TAB, Logit y Logistic para crear tablas de contingencia, modelar la asociación entre variables categóricas y estimar odds ratios. Luego, aplica estos métodos a un conjunto de datos sobre síndrome metabólico para evaluar el efecto del sexo y la edad en la presencia de esta condición.

Cargado por

pbchanta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 11

Epidemiologa y Estadstica.

Regresin logstica
Anlisis multivariado
Parte prctica: STATA

Indice

Introduccin ......................................................................................................................... 1
Comandos ............................................................................................................................ 3
Modelo con una variable ....................................................................................................... 3
Modelo con una variables con 2 o mas categorias................................................................. 7
Modelo con dos variables categricas...................................................................................9
Modelo con una variables categorica y una continua .......................................................... 10

Introduccin

A continuacin, les proponemos ejercitar la teora de anlisis multivariado con un ejemplo y


utilizando el programa STATA.

Comencemos!

Utilizaremos los datos de la base de Sndrome Metablico, que tienen disponible en el espacio
de esta unidad de Anlisis multivariado, y evaluaremos el efecto que el sexo posee sobre el

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 1


sndrome metablico y si, dicho efecto difiere segn la edad, es decir, ajustaremos por el
efecto de la edad en tener sndrome metablico.

Para comenzar

Abra la base "Sndrome Metablico" con STATA.

La base posee las siguientes variables:

id_persona: Identificador nico

sex: Sexo 0= femenino

Sexo 1= Masculino

sm: Diagnstico de Sndrome Metablico: 0= No; 1= Si

age2: 17 (0) Entre 17 y 44 aos

45 (1) Entre 45 y 83 aos

otrocriterio: 0= tiene menos de 2 criterios para Sndrome Metablico.

1= tiene 2 o ms criterios para Sndrome Metablico.

bmi: 0= Si BMI <25

1= BMI >=25

tas: Tensin Arterial Sistlica: Variable continua con el valor de la toma

agecat: edad categorizada en 3 grupos

17 (0) = entre 17 y 44 aos;

45 (1) = entre 45 y 59 aos

60 (2) = entre 60 y 83 aos

hta: es hipertenso? 0= No; 1= Si

edad: Variable continua con el valor

Delgado: 0= BMI >=25

1= BMI <25

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 2


Recuerde abrir el Log al comenzar a trabajar.

Comandos

En este prctico, veremos los siguientes comandos:

TAB
Logit
Logistic

Veamos, cada uno en detalle, a continuacin

TAB

tab variable1 variable2, col row chi2

Realiza la tabla de 2x2 con los nmeros absolutos de las observaciones. La primera variable
que se escribe va en las filas (row) y la segunda en las columnas, presenta los porcentajes en
las filas y las columnas y realiza el test de chi2.

Logit

logit variable1 variable2


Produce un modelo de regresin logstica y nos da la estimacin del log odds.

Logistic

logistic variable 1 variable 2


Presenta el modelo de regresin logstica con los estimados como odds ratios.

Modelo con una variable

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 3


Modelamos la ocurrencia de sndrome metablico segn sexo.

Con los siguientes comandos del STATA, obtendremos la tabla de contingencia para estas dos
variables explicativas por separado (bivariado).

Analicemos el porcentaje para las filas (row) y el chi2.

tab sm sex, col row chi2


| sex

sm | 0 1| Total

-----------+----------------------+----------

0| 123 64 | 187

| 65.78 34.22 | 100.00

| 78.85 62.75 | 72.48

-----------+----------------------+----------

1| 33 38 | 71

| 46.48 53.52 | 100.00

| 21.15 37.25 | 27.52

-----------+----------------------+----------

Total | 156 102 | 258

| 60.47 39.53 | 100.00

| 100.00 100.00 | 100.00

Pearson chi2(1) = 8.0159 Pr = 0.005

Ahora, evaluemos el odds ratio de de tener sndrome metablico en hombres comparado con
mujeres.

mhodds sm sex

Maximum likelihood estimate of the odds ratio

Comparing sex==1 vs. sex==0

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 4


----------------------------------------------------------------

Odds Ratio chi2(1) P>chi2 [95% Conf. Interval]

----------------------------------------------------------------

2.213068 7.98 0.0047 1.257076 3.896080

Podemos ver que, el odds de tener sndrome metablico en los hombres, es 2,21 veces el de
las mujeres con una p<0.0047 y un intervalo de confianza del 95% de 1,257 a 3,896.

Ahora, intentaremos producir el mismo resultado utilizando los comandos de regresin


logstica.

1. Primero, obtendremos los coeficientes:

logit sm sex

Iteration 0: log likelihood = -151.79599


Iteration 1: log likelihood = -147.87495
Iteration 2: log likelihood = -147.84455
Iteration 3: log likelihood = -147.84455

Logistic regression Number of obs = 258


LR chi2( 1) = 7.90
Prob > chi2 = 0.0049
Log likelihood = -147.84455 Pseudo R2 = 0.0260

sm Coef. Std. Err. z P>|z| [95% Conf. Interval]

sex .7943799 .2835029 2.80 0.005 .2387244 1.350035


_cons -1.315677 .1960436 -6.71 0.000 -1.699915 -.9314383

Este output nos est mostrando:

Number of obs: Numero de observaciones: 258


LR chi2: el likelihood ratio chi2 test para la hiptesis nula que ninguna de las variables
en el modelo est asociada con la variable de resultado. En este caso, slo hay una
variable en el modelo, por lo tanto, en este caso particular es el test de la hiptesis
nula que sexo no se asocia con el sndrome metablico.
Prob > chi2: el valor de p para el likelihood ratio test
Pseudo R2: es una estimacin de lo viene que predice el modelo. No lo utilizaremos,
en general, en regresin logstica.

La tabla nos muestra lo siguiente:

En la primera columna vemos los nombres de las variables.

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 5


Los valores en la columna de Coef (coeficientes) representan el log (OR) para el efecto
de hipertensin (1,774) y la constante que es el log odds en los que tienen sndrome
metablico.
La siguiente columna muestra los errores estndar de los coeficientes.
La columna z nos da el resultado del estadstico del Wald test y, luego, su
correspondiente valor de P y, finalmente los intervalos de confianza de los
coeficientes.

Para obtener el OR del efecto del sexo sobre el hecho de tener sndrome metablico,
debemos obtener los exponenciales del coeficiente. Sin embargo, STATA permite obtener
automticamente el estimado del odds ratio, lo que es muy conveniente.

------------------------------------------------------------------------------

logistic sm sex

. logistic sm sex

Logistic regression Number of obs = 258


LR chi2( 1) = 7.90
Prob > chi2 = 0.0049
Log likelihood = -147.84455 Pseudo R2 = 0.0260

sm Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

sex 2.213068 .6274113 2.80 0.005 1.269629 3.857562

Observen que la constante no es mostrada cuando se utiliza el comando logistic


El error estndar para el OR es slo aproximado y no debe utilizarse para los clculos, sino
que debe utilizarse el obtenido de los coeficientes.

El estadstico z (test de Ward) es igual al anterior porque, en realidad, est derivado utilizando
el error estndar de los coeficientes.

De igual modo los intervalos de confianza estn derivados de los log odds ratio.

No los calculen utilizando el error estndar de esta tabla!.

Asimismo, observen que el resultado del Odds ratio es exactamente igual al obtenido con el
anlisis univariado aunque, los intervalos de confianza, varan muy poco.

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 6


Modelo con una variables con 2 o mas categorias

Modelamos la ocurrencia de sndrome metablico segn edad (en 3 categorias).

En este caso utilizaremos la variable agecat que tiene tres categoras.

Para poder hacer esto, le tienen que indicar a STATA que esta es una variable categrica, sino
la tratar como una variable numrica. Siempre STATA har esto si encuentra una variable
con ms de dos categoras, cualquiera sea la codificacin numrica que le hayan puesto (1,2,3,
etc., o 17,45,60 como en este caso).

Un punto importante: STATA slo reconocer las variables


para incluirlas en un modelo de regresin logstica si estn
creadas como numricas. No podrn utilizar una variable,
aunque sea dicotmica, si la han codificado por ejemplo: sexo: mas,
fem.

Para decirle a STATA que esa variable es categrica deben tipear xi: antes del comando logit
(o logistic), e: i. antes del nombre de la variable:

xi:logit sm i.agecat
i.agecat _Iagecat_0-2 (naturally coded; _Iagecat_0 omitted)

Iteration 0: log likelihood = -151.79599

Iteration 1: log likelihood = -132.7885

Iteration 2: log likelihood = -132.03524

Iteration 3: log likelihood = -132.03186

Iteration 4: log likelihood = -132.03186

Logit estimates Number of obs = 258

LR chi2(2) = 39.53

Prob > chi2 = 0.0000

Log likelihood = -132.03186 Pseudo R2 = 0.1302

------------------------------------------------------------------------------

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 7


sm | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Iagecat_1 | 1.374012 .4012193 3.42 0.001 .5876369 2.160388

_Iagecat_2 | 2.060602 .353549 5.83 0.000 1.367659 2.753545

_cons | -2.006535 .2662768 -7.54 0.000 -2.528428 -1.484642

------------------------------------------------------------------------------

Veamos el output con los Odds ratios

xi:logistic sm i.agecat

i.agecat _Iagecat_0-2 (naturally coded; _Iagecat_0 omitted)

Logistic regression Number of obs = 258

LR chi2(2) = 39.53

Prob > chi2 = 0.0000

Log likelihood = -132.03186 Pseudo R2 = 0.1302

------------------------------------------------------------------------------

sm | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Iagecat_1 | 3.951172 1.585286 3.42 0.001 1.79973 8.674498

_Iagecat_2 | 7.850694 2.775606 5.83 0.000 3.926147 15.69819

------------------------------------------------------------------------------

Notarn que hay slo dos OR, pero eran tres categoras.

Recuerden que el OR siempre se refiere al ratio de dos Odds.

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 8


En este caso, el Odds que se utiliza como basal, es el de la categora con menor valor
de codificacin (en este caso los de 17 a 45 aos).
El odds ratio para sndrome metablico es de 3,95 para los que estn entre 45 y 60
aos, comparado con la categora de 17 a 45.
El odds ratio para sndrome metablico es de 7,85 para los que mayores de 60 aos,
comparado con la categora de 17 a 45.

Hay dos valores de p del Wald test (cada uno para cada resultado de odds ratio) que testea si
ese odds ratio es significativamente diferente a 1. En este caso, los dos odds ratio son
significativos (<0,001).

El estadstico del likelihood ratio es 39,53 con 2 grados de libertad con un valor de p<0,001).
Observarn que hay slo un valor de likelihood ratio test y p valor. Este test evala la
significancia de la variable agecat testeando simultneamente los dos parmetros en el
modelo.

Veamos ahora cmo funciona el modelo si incluimos las dos variables

Modelo con dos variables categricas

Modelamos la ocurrencia de sndrome metablico segn sexo y edad (en 3 categoras).

xi: logistic sm sex i.agecat


i.agecat _Iagecat_0-2 (naturally coded; _Iagecat_0 omitted)

Logistic regression Number of obs = 258


LR chi2( 3) = 51.20
Prob > chi2 = 0.0000
Log likelihood = -126.19776 Pseudo R2 = 0.1686

sm Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

sex 2.92922 .9408607 3.35 0.001 1.560801 5.49739


_Iagecat_1 4.610805 1.922205 3.67 0.000 2.036658 10.43844
_Iagecat_2 9.2617 3.443857 5.99 0.000 4.468699 19.19554

Observarn que en el modelo con slo sexo, el OR estimado para los hombres de tener
sndrome metablico era de 2,21. Despus de controlar por el efecto de edad como variable
dicotmica, el OR aument a 2,97. Por lo tanto, la edad confunda negativamente el efecto
del sexo.

El efecto de sexo es significativo: miren el valor de p del Ward test y los intervalos de
confianza.

Los odds ratios de la categora de edad entre 45 y 60 aos y de mayores de 60 aos eran: 3,85
y 7,95 respectivamente, fjense y ahora son 4,61 y 9,26 respectivamente, por lo que tambin
hay un pequeo efecto confundidor del sexo sobre la edad.

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 9


Los efectos siguen siendo significativos: miren el Ward test y los intervalos de confianza.

Veamos ahora qu ocurre con una variable categrica y una contnua

Modelo con una variables categorica y una continua

Modelamos la ocurrencia de sndrome metablico segn sexo y edad como continua.

Veamos ahora cmo funciona el modelo si utilizamos la edad como variable numrica
continua y no categrica:

logistic sm sex edad


logistic sm sex edad

Logistic regression Number of obs = 258

LR chi2(2) = 57.23

Prob > chi2 = 0.0000

Log likelihood = -123.18283 Pseudo R2 = 0.1885

------------------------------------------------------------------------------

sm | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

sex | 3.058403 .9998955 3.42 0.001 1.611418 5.804721

edad | 1.062259 .0101897 6.30 0.000 1.042474 1.082419

------------------------------------------------------------------------------

El odds ratio de tener sndrome metablico entre los hombres comparados con las mujeres es
de 3,1 (significativo, con un intervalo de confianza de 1,611 a 5,804), cuando ajustamos por
edad como variable continua. En cuanto a la edad, podemos decir que, por cada ao de
incremento en la edad, el Odds de tener sndrome metablico aumenta en un 6%, siendo este
aumento significativo -poco probable que se deba al azar!-, con un intervalo de confianza que
va del 4 al 8% de aumento, cuando ajustamos por sexo.

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 10


Muy bien!, ya estn listos para hacer un anlisis
multivariado de regresin logstica y listos para realizar
la actividad de esta unidad

Nos seguimos encontrando en el espacio del curso!

Unidad 3 Anlisis multivariado Parte prctica: STATA Pgina 11

También podría gustarte