Análisis mediante variables instrumentales para establecer causalidad en investigaciones observacionales

Sebastian Sguiglia

doi:10.51987/evidencia.v27i1.7097

open access

Enviado: 2023-10-26

DOI: 10.51987/evidencia.v27i1.7097

Artículo especial

Publicado: 2023-12-29

Análisis mediante variables instrumentales para establecer causalidad en investigaciones observacionales

Sebastian Sguiglia⁺⁻

Servicio de Medicina Familiar y Comunitaria, Hospital Italiano de Buenos Aires; Departamento de Medicina, Instituto Universitario Hospital Italiano de Buenos Aires

https://orcid.org/0000-0002-5218-5241

Análisis de la Aleatorización Mendeliana Epidemiología Factores de confusión epidemiológicos Estudios observacionales como asunto Causalidad

Texto completo

Cómo citar

Sguiglia, S. (2023). Análisis mediante variables instrumentales para establecer causalidad en investigaciones observacionales. Evidencia Actualizacion En La práctica Ambulatoria, 26(4), e007097. https://doi.org/10.51987/evidencia.v27i1.7097

Resumen

La identificación de relaciones causales es uno de los problemas fundamentales de la investigación científica en medicina y es necesaria para poder ejercerla en forma efectiva. Sin embargo, desde el punto de vista práctico es difícil establecer la existencia de relaciones causales en estudios de carácter observacional, en gran parte por la presencia de factores de confusión. El análisis a través de variables instrumentales es una de las estrategias que permite controlar el efecto confundidor y documentar la presencia de relaciones causa-efecto en estas situaciones. En este artículo, el autor resume los principales supuestos del análisis a través de variables instrumentales, haciendo foco en la aleatorización mendeliana.

Causalidad y confusión

La causalidad es uno de los conceptos filosóficos más importantes para la investigación científica en el ámbito de la salud. Cada vez que nos referimos a los imprecisamente llamados factores de riesgo modificables para el desarrollo de ciertas enfermedades (p. ej., la influencia del tabaquismo sobre la probabilidad de desarrollo de cáncer de pulmón) o bien a los efectos de un tratamiento (p. ej., la efectividad de las estatinas para reducir la mortalidad cardiovascular en prevención secundaria) estamos infiriendo relaciones causales. El conocimiento de las causas es fundamental desde el punto de vista práctico, de manera tal que podemos afirmar que es imposible ejercer la medicina y la salud pública en forma efectiva sin algún conocimiento de éstas1, 2, 3, 4, 5, 6.

Sin embargo, desde una perspectiva operativa, es difícil establecer la presencia de una relación causal entre diferentes variables cuando estamos en el contexto de una investigación observacional en la que no podemos manipular la exposición para lograr la intercambiabilidad necesaria entre las observaciones (p. ej., personas participantes) que nos permitiría asegurar que, si recibieran la misma intervención, ambos grupos desarrollarían en promedio el mismo resultado. Uno de los principales problemas (aunque no el único) para estimar un efecto causal en este contexto es la existencia de factores de confusión7. Un factor de confusión es un factor causal (o causa en común) de la variable de exposición (p. ej., tabaquismo, una intervención preventiva o terapéutica) y de la variable de resultado en estudio (p. ej., mortalidad). Las relaciones causales entre las variables de interés en una investigación pueden ser representadas en gráficos acíclicos dirigidos causales (conocidos como DAG, por sus iniciales en inglés), lo que permite identificar la estructura de confusión. Cuando no es controlada a través del diseño del estudio o bien mediante alguna estrategia del análisis, esta estructura tiene el potencial de generar una asociación estadística que puede ser interpretada de manera errónea como una asociación causal entre ambas variables (la potencial causa y su resultado)3, 4, 5.

A los fines de este artículo, supongamos que estamos interesados en conocer si la suplementación de vitamina D mejora resultados de salud (lo que refleja un pensamiento de inferencia causal), entre ellos, la mortalidad por todas las causas. Entonces, leemos en un estudio de cohorte que existe una asociación estadística entre recibir suplementos de vitamina D y la mortalidad (las personas suplementadas mueren menos). ¿Es atribuible esta menor mortalidad a la suplementación con vitamina D? ¿O puede haber una tercera variable que esté explicando la asociación que estamos observando, por ejemplo, un mayor nivel educativo? En efecto, podría ocurrir que no exista efecto causal entre la suplementación con vitamina D y el descenso de la mortalidad, pero que las personas que tengan mayor nivel educativo (o mayor nivel socioeconómico, o mayor acceso al sistema de salud, etc.) tengan a la vez más chances de recibir suplementos de vitamina D y menor riesgo de morir, y de este modo se genere una asociación estadística no causal entre ambas variables (verFigure 1).

En términos generales, las variables de confusión podrían actuar de tres formas: 1) a través de una asociación estadística no causal (mal llamada asociación espuria, ya que realmente existe, pero es generada por la estructura de confusión), es decir, que no exista una influencia de la suplementación sobre la muerte, 2) a través de un cambio de magnitud: que la suplementación con vitamina D reduzca efectivamente la mortalidad, pero que la presencia del nivel educativo distorsione la estimación, aumentando o disminuyendo su magnitud sin que ese cambio tenga un significado causal, o 3) a través de un cambio de direccionalidad: que la suplementación con vitamina D por sí misma aumente la mortalidad, pero el nivel educativo distorsione de tal manera la estimación, simulando que esta intervención tiene un efecto protector8, 9.

¿Cómo establecer relaciones causales en ciencias de la salud?

Hay diversas estrategias para controlar el efecto de las variables de confusión. Los experimentos o ensayos clínicos aleatorizados logran este objetivo mediante la asignación de la intervención (p. ej., intervención terapéutica o preventiva) en forma aleatoria. Siguiendo el ejemplo de este artículo, supongamos que reclutamos a un grupo de personas y las asignamos de manera aleatoria a recibir suplementos de vitamina D o placebo. Además, asumimos que los participantes adhieren en forma completa a la intervención asignada, que no hay pérdidas en el seguimiento y que desconocen si están recibiendo o no los suplementos. En este caso, no existe ningún factor de confusión o causal en común entre la asignación del tratamiento y el desenlace, debido a que la asignación del tratamiento ocurrió por azar. Por lo tanto, ambos grupos son intercambiables y toda diferencia observada en el desenlace final es atribuible en forma directa a haber recibido los suplementos vitamínicos en lugar del placebo. Si bien este enfoque permite establecer la existencia de relaciones causales, su principal desventaja es que no siempre es factible llevar a cabo un ensayo clínico aleatorizado, ya sea por sus costos, por dificultades logísticas o por la presencia de limitaciones éticas5, 8.

En los estudios observacionales por lo general se intenta controlar el efecto de los factores de confusión a nivel del diseño o del análisis a través de distintas estrategias como la estratificación, el emparejamiento o los modelos de regresión multivariable. Estos enfoques tienen en común la búsqueda del cierre de las puertas traseras que conectan entre sí el tratamiento y el desenlace a través de terceras variables, para dejar abierta únicamente la puerta delantera que va desde el tratamiento hacia el resultado. Los DAG ayudan a identificar los posibles factores de confusión que es necesario controlar. Una limitación de estas estrategias es que puede haber factores de confusión desconocidos, no contemplados en el estudio y que pueden sesgar los resultados. Por lo tanto, la intercambiabilidad de los grupos en este tipo de estrategias es un supuesto no verificable4, 8.

Otra alternativa es el análisis de variable instrumental, que intenta reproducir las condiciones de un experimento en forma natural a partir de datos observacionales1, 3, 10. Para que la implementación de este diseño sea válida tienen que cumplirse tres condiciones fundamentales:

Relevancia. Debe elegirse una variable llamada instrumental o instrumento que está asociada con la variable de exposición en estudio. A modo de ejemplo, consideremos que se introduce un descuento en el precio de los suplementos de vitamina D en un seguro de salud, que hace que los afiliados sean más propensos a comprarlos y tomarlos (ver Figure 2).
Exclusión. La variable instrumental no debe estar asociada a la variable de resultado a través de algún camino causal diferente al de la variable de exposición que está siendo estudiada. En nuestro ejemplo, en lugar de mortalidad por todas las causas, tomemos otro desenlace más inmediato como un descenso de la tensión arterial sistólica (TAS). Asumimos que el descuento en los suplementos no actúa en forma directa sobre la TAS o a través de ninguna otra variable, sino sólo a través de un aumento en el consumo de suplementos.
Independencia. No debe existir otra variable que sea una causa en común de la variable instrumental y de la variable de resultado. En nuestro ejemplo, no debe haber ninguna variable que haya influido sobre la decisión de introducir el descuento y que a su vez pueda estar influyendo de manera directa o indirecta sobre la TAS, por ejemplo un cambio en los programas preventivos del seguro de salud. Muchas veces se engloban las condiciones de independencia y exclusión bajo un concepto común denominado validez3.

Además de estos tres supuestos principales, existe una cuarta condición que es necesario asumir para que la medida de efecto que calculamos mediante el análisis de variable instrumental represente el efecto causal del tratamiento sobre el desenlace: la homogeneidad del efecto o bien la monotonicidad. En la homogeneidad del efecto se asume que el efecto de la variable de exposición sobre el desenlace es constante entre los individuos. Si se cumple esta condición, el efecto de la suplementación de la vitamina D sobre la tensión arterial será en promedio el mismo en todas las personas, independientemente de que la persona haya recibido o no un descuento o de otras variables. Por lo tanto, el efecto del descuento sobre la tensión arterial (que obtenemos mediante el análisis de variable instrumental) reflejará adecuadamente el efecto de los suplementos sobre la tensión arterial en toda la población. En muchos casos, la homogeneidad es un supuesto difícil de sostener, por lo que se puede recurrir a una condición alternativa: la monotonicidad, que asume que el efecto de la variable instrumental sobre la variable de exposición tiene siempre la misma dirección o bien es cero. Es decir, el descuento aumenta la probabilidad de que los socios tomen los suplementos o la mantiene constante, pero no la disminuye. En este caso, el efecto del descuento en el precio de los suplementos sobre la tensión arterial reflejará el efecto de la medicación en quienes adhieren o responden de forma favorable al descuento, en lugar de reflejar el efecto en toda la población. Hay personas que deciden tomar o no tomar los suplementos de vitamina D de manera independiente de la presencia del descuento en el precio, a quienes se conoce como siempre tomadores o nunca tomadores. Estos sujetos no contribuyen a la medida de efecto calculado mediante el análisis de variable instrumental. Hay un último grupo de personas que reacciona de forma adversa al descuento, optando por no tomar los suplementos en su presencia, a quienes se conoce como desafiantes. El supuesto de monotonicidad asume que estas personas no existen en el contexto del estudio, por lo que tampoco contribuyen a la medida de efecto1.

Supongamos que en nuestro estudio la introducción del descuento en el precio de los suplementos se asocia efectivamente con un descenso en la tensión arterial de los socios (ver Figure 2). Si se cumplen las condiciones mencionadas, este descenso en la mortalidad puede ser atribuido con plenitud a la suplementación con vitamina D. Por lo tanto, este tipo de análisis permite establecer una relación de causa-efecto entre la variable de exposición y la variable de resultado a partir de datos observacionales, ya que a diferencia de otros enfoques no requiere la medición o el ajuste por otras variables. Sin embargo, como veremos en la próxima sección, de las cuatro condiciones mencionadas, la relevancia es la única que puede ser comprobada empíricamente en el contexto de un estudio observacional, mientras que las otras pueden ser difíciles de argumentar1, 3.

El análisis de variable instrumental se utiliza con frecuencia en economía y en otras ciencias sociales. Si bien es menos conocido en medicina, el análisis por intención de tratar de los ensayos clínicos sigue la misma lógica. En la Table 1 describimos cómo se aplican las cuatro condiciones mencionadas anteriormente a un experimento o ensayo clínico aleatorizado.

Table 1.Aplicación de los supuestos del análisis de variable instrumental a un ensayo clínico aleatorizado
Supongamos nuevamente que estamos ante un ensayo en el cual los investigadores asignan con una proporción 1:1 a los participantes en dos grupos, de los cuales uno recibe suplementación con vitamina D y el otro recibe placebo. En este ejemplo, la variable de exposición es la toma del suplemento de vitamina D y la variable de interés, la mortalidad por todas las causas. La asignación del tratamiento funciona como variable instrumental. Los supuestos se aplican de la siguiente manera:
1) *Relevancia:* la asignación del tratamiento (variable instrumental) se asocia con el tratamiento (variable de exposición). En otras palabras, las personas que fueron asignadas al grupo vitamina D tienen más chances de tomar los suplementos que las personas asignadas al grupo placebo. Este supuesto se puede evaluar empíricamente con el grado de adherencia al tratamiento.
2) *Exclusión:* el enmascaramiento de la intervención (doble ciego) asegura que los dos grupos son tratados y se comportan de forma idéntica, más allá de la suplementación con vitamina D. En este sentido, la asignación del tratamiento no actúa sobre la mortalidad por todas las causas a través de otro camino que no sea la suplementación con vitamina D.
3) *Independencia:* como la asignación es al azar, podemos asumir que no existe ninguna causa común entre la asignación al tratamiento y la mortalidad por todas las causas.
4) *Homogeneidad:* el efecto de la suplementación de vitamina D sobre la mortalidad global es el mismo en los distintos estratos de la variable instrumental. Es decir, esperamos que tenga el mismo efecto promedio tanto en las personas que fueron asignadas al grupo vitamina D como en las personas que fueron asignadas al grupo placebo, si decidieran cambiarse de rama. Además, el efecto de la suplementación sería el mismo en las personas no tratadas, si estas recibieran el tratamiento. Si optamos por la *monotonicidad*, asumimos que el hecho de estar asignado al grupo suplementación con vitamina D aumenta la probabilidad de tomar el suplemento o bien la deja constante, pero no se produce el efecto de que la asignación a recibir la suplementación disminuya las chances de seguir el tratamiento, lo cual en el contexto de un ensayo clínico donde los participantes brindan su consentimiento para participar, sería poco esperable.
Podemos ver en este ejemplo que en el contexto de un ensayo clínico aleatorizado se cumplen los cuatro supuestos del análisis de variable instrumental. El desafío de este tipo de análisis en estudios observacionales es encontrar una situación en la cual la primera condición sea verificada y las otras tres sean lo suficientemente creíbles1.

Condiciones del análisis de variable instrumental

¿Cómo podemos estar seguros de que se cumplen las condiciones para el análisis de variable instrumental en un estudio observacional? Como fue mencionado, la relevancia es relativamente sencilla de demostrar, ya que está dada por el grado de correlación entre la variable instrumental y la variable de interés. Cuando la asociación es fuerte (es decir, un cambio en la variable instrumental está acompañada por un cambio similar en la variable de exposición), se dice que el instrumento es fuerte y cuando esta es débil, que el instrumento es débil. En general se prefiere un instrumento fuerte1, 3.

A diferencia de la relevancia, la validez no puede ponerse a prueba en forma empírica. Para asegurar que no exista ninguna causa en común entre la variable instrumental y la variable de resultado, la primera debería tener cierto carácter aleatorio o por lo menos ser externa al sistema de causas que se está evaluando. Algunos ejemplos de variables instrumentales utilizadas en la literatura científica son el precio de los medicamentos, la lotería para la relación entre riqueza material y longevidad, la preferencia de los profesionales por algún tratamiento o la asignación al azar de los genes durante la herencia1, 3.

En medicina, la aleatorización mendeliana es una aplicación del análisis de variable instrumental que aprovecha los mecanismos de la herencia descubiertos por Gregor Mendel, por los cuales los genes de una persona son asignados al azar durante la gametogénesis y la fecundación. Como los genes son asignados en forma aleatoria, esto asegura que no exista ninguna causa en común entre estos, que son utilizados como variable instrumental, y la variable de resultado (aunque con ciertos matices, como se comenta más adelante). Sin embargo, el supuesto de que un determinado gen no tiene efectos sobre el resultado por caminos diferentes a la variable de exposición puede tener mayor o menor plausibilidad biológica, pero es imposible de demostrar en forma empírica, ya que no podemos descartar que estén involucrados otros caminos causales. Esto sería equivalente a que en un ensayo clínico sean asignados al azar no solamente el tratamiento de interés si no muchos otros tratamientos cuyos efectos no consideramos y decidamos atribuir el efecto de todos los tratamientos a uno de ellos. Es difícil encontrar en la vida real un instrumento que sea perfecto; por este motivo han sido desarrollado métodos estadísticos que permiten llevar a cabo un análisis de variable instrumental con un instrumento débil o incluso con un instrumento no completamente válido3, 11, 12.

Un ejemplo interesante de aleatorización mendeliana es un estudio que pretendió evaluar si el consumo regular de alcohol aumentaba la tensión arterial. Para esto, utilizaron como variable instrumental un gen que codifica la enzima aldehído deshidrogenasa 2 (ALDH2) que interviene en el metabolismo del alcohol. Las personas que heredan el alelo A de este gen carecen de la enzima y tienen una respuesta adversa al consumo de alcohol, motivo por el cual tienden a evitar su consumo. Este gen representa un instrumento que cumple con los supuestos de relevancia y validez, ya que es asignado al azar durante la gametogénesis y es poco probable que afecte a la hipertensión arterial a través de otros mecanismos que no sean el consumo de alcohol¹. En el estudio se observó que las personas que heredaban el alelo A tenían menores valores de tensión arterial. Por lo tanto, este trabajo no sólo muestra el rol causal del consumo de alcohol en la hipertensión arterial; además, al presentar un mecanismo de acción claro del gen, permite que sus efectos puedan replicarse como una intervención en el mundo real (p. ej., a través de la indicación de un medicamento que genere una reacción fisiológica adversa al consumo de alcohol, aunque en este caso la intervención sería poco factible)12, 13.

Reflexiones finales

En definitiva, el análisis de variable instrumental en general y la aleatorización mendeliana, en especial, son estrategias que contribuyen a identificar relaciones de causa-efecto en muchas áreas de estudio, como la salud, en base a datos observacionales y complementan los enfoques de otros estudios epidemiológicos. Al igual que otros diseños, tienen sus fortalezas, ya que permiten controlar el efecto confundidor, y también sus debilidades, que se relacionan principalmente con la dificultad para encontrar un instrumento que sea a la vez relevante y válido, así como con el hecho de que no todas las relaciones causales identificadas pueden ser reproducibles mediante intervenciones en el mundo real, lo cual limita su aplicabilidad.

Nota

¹Podría existir una violación al supuesto de independencia, si se tiene en cuenta que algunas poblaciones tienen mayor probabilidad de heredar un determinado gen y, en simultáneo, menor probabilidad de tener hipertensión arterial por otros motivos. Por esta razón en los estudios de aleatorización mendeliana, la ascendencia genética funciona como factor de confusión y se suele controlar ya sea mediante restricción (seleccionando individuos con una misma ascendencia) o mediante la estratificación12.

Agradecimientos

A Sergio Terrasa y Santiago Esteban por sus valiosos comentarios durante la preparación de este manuscrito.

Citas

Hernán M A, Robins J M, Causal Inference: What If. Chapman Hall: Boca Raton; 2023.
Pearl J, Mackenzie D, El libro del porqué. La nueva ciencia de la causa y el efecto. Pasado y Presente: Barcelona, España; 2020.
Huntington-Klein N, The Effect: An Introduction to Research Design and Causality | The Effect. The Effect: An Introduction to Research Design and Causality | The Effect. 2023.
Herbert R D, Research Note: Causal inference. J Physiother. 2020; 66(4):273-280. PubMed
Hernán M A, Hsu J, Healy B, A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks. CHANCE. 2019; 32(1):42-51.
Bunge M, Filosofía para médicos. GEDISA: Barcelona, España; 2012.
Hernán M A, Sauer B C, Hernández-Díaz S, Specifying a target trial prevents immortal time bias and other self-inflicted injuries in observational analyses. J Clin Epidemiol. 2016; 79:70-75. PubMed
Quispe A M, Alvarez-Valdivia M G, Loli-Guevara S, Metodologías Cuantitativas 2: Sesgo de confusión y cómo controlar un confusor. Rev Cuerpo Med HNAAA. 2020; 15(2020):205-217.
Hulley S B, Cummings S R, Browner W S, Designing Clinical Research. Wolters Kluwer/Lippincott Williams & Wilkins; 2013.
Muñoz A M, Giraldo N D, Jaimes-Barragán F, Ronda clínica y epidemiológica. Uso de variables instrumentales en investigación médica. Iatreia. 2013; 26(3):371-380.
Ancira-Moreno M, Smith N, Lamadrid-Figueroa H, Alcances de la aleatorización mendeliana para el control de confusores no observables en epidemiología. Gac Sanit. 2022; 36(3):274-281.
Davies N M, Holmes M V, Smith G D, Reading Mendelian randomisation studies: a guide, glossary, and checklist for clinicians. BMJ. 2018; 362:601-601. PubMed
Chen L, Smith G D, Harbord R M, Alcohol intake and blood pressure: a systematic review implementing a Mendelian randomization approach. PLoS Med. 2008; 5(3):52-52. PubMed

Métricas

Vistas en formato PDF

266

|

Otras vistas

1

[R217966729769045] Hernán M A, Robins J M, Causal Inference: What If. Chapman Hall: Boca Raton; 2023.

[R217966729769048] Pearl J, Mackenzie D, El libro del porqué. La nueva ciencia de la causa y el efecto. Pasado y Presente: Barcelona, España; 2020.

[R217966729769036] Huntington-Klein N, The Effect: An Introduction to Research Design and Causality | The Effect. The Effect: An Introduction to Research Design and Causality | The Effect. 2023.

[R217966729769041] Herbert R D, Research Note: Causal inference. J Physiother. 2020; 66(4):273-280. PubMed

[R217966729769035] Hernán M A, Hsu J, Healy B, A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks. CHANCE. 2019; 32(1):42-51.

[R217966729769034] Bunge M, Filosofía para médicos. GEDISA: Barcelona, España; 2012.

[R217966729769042] Hernán M A, Sauer B C, Hernández-Díaz S, Specifying a target trial prevents immortal time bias and other self-inflicted injuries in observational analyses. J Clin Epidemiol. 2016; 79:70-75. PubMed

[R217966729769046] Quispe A M, Alvarez-Valdivia M G, Loli-Guevara S, Metodologías Cuantitativas 2: Sesgo de confusión y cómo controlar un confusor. Rev Cuerpo Med HNAAA. 2020; 15(2020):205-217.

[R217966729769047] Hulley S B, Cummings S R, Browner W S, Designing Clinical Research. Wolters Kluwer/Lippincott Williams & Wilkins; 2013.

[R217966729769033] Muñoz A M, Giraldo N D, Jaimes-Barragán F, Ronda clínica y epidemiológica. Uso de variables instrumentales en investigación médica. Iatreia. 2013; 26(3):371-380.

[R217966729769037] Ancira-Moreno M, Smith N, Lamadrid-Figueroa H, Alcances de la aleatorización mendeliana para el control de confusores no observables en epidemiología. Gac Sanit. 2022; 36(3):274-281.

[R217966729769044] Davies N M, Holmes M V, Smith G D, Reading Mendelian randomisation studies: a guide, glossary, and checklist for clinicians. BMJ. 2018; 362:601-601. PubMed

[R217966729769040] Chen L, Smith G D, Harbord R M, Alcohol intake and blood pressure: a systematic review implementing a Mendelian randomization approach. PLoS Med. 2008; 5(3):52-52. PubMed

Análisis mediante variables instrumentales para establecer causalidad en investigaciones observacionales

Texto completo

Cómo citar

Descargar Cita

Resumen

Causalidad y confusión

¿Cómo establecer relaciones causales en ciencias de la salud?

Condiciones del análisis de variable instrumental

Reflexiones finales

Nota

Agradecimientos

Citas

Métricas

Artículos más leídos del mismo autor/a