Desarrollo y validación de un modelo accesible de edad biológica por niveles para la salud de la población.

Primer autor: Serene TOH, licenciada en Ciencias. — Directora global de Ciencia de Datos y Modelización, Elfie Inc.
Autor correspondiente: Jean-Francois LEGOURD, MSc. — Director de Producto, Elfie Inc.
Afiliaciones:
Elfie Inc., División de Ciencia de Datos Sanitarios Globales
Los modelos actualesde edad biológica a menudo no logran transmitir el riesgo de una manera que sea interpretable y aplicable para la población general. Se necesita una medida holística que integre factores relacionados con el estilo de vida, fisiológicos y biomarcadores para motivar la prevención. Utilizando datos de mortalidad vinculados a la NHANES, desarrollamos y validamos una métrica interpretable de «edad biológica» derivada de datos conductuales, antropométricos y de biomarcadores, escalable en entornos con diferente disponibilidad de datos.
Analizamos los datos de la NHANES 2005-2009 con vinculación a la mortalidad hasta 2019 (Centros para el Control y la Prevención de Enfermedades [CDC], 2025). Se incluyeron adultos de ≥20 años con datos completos sobre factores de riesgo conductuales, fisiológicos y bioquímicos. Los modelos de riesgos proporcionales de Cox ponderados por la encuesta estimaron las asociaciones con la mortalidad no accidental, teniendo en cuenta el complejo diseño de muestreo (Cox, 1972; Lumley, 2004; Therneau y Grambsch, 2000). Las asociaciones no lineales se evaluaron con splines cúbicos naturales (Wood, 2017); los modelos finales conservaron formas lineales para la mayoría de las variables. Tanto los modelos simplificados como los completos demostraron una fuerte discriminación y calibración cuando se validaron en NHANES 2010-2011.
El modelo completo incluyó el azúcar en sangre (HbA1c), la TFGe, la presión arterial, el tabaquismo, las horas de sueño, el gasto metabólico total por semana, los antecedentes de enfermedades cardíacas, el sexo y la edad (muestra analítica: 7775 adultos; 1106 muertes). El azúcar en sangre, el promedio de horas de sueño, el tabaquismo y la edad fueron predictores significativos; el colesterol LDL no mostró ninguna asociación independiente. Para abordar la falta de biomarcadores, también estimamos un modelo simplificado que incluía solo la edad, el sexo, el tabaquismo, el promedio de horas de sueño, el gasto metabólico total por semana y los antecedentes de enfermedades cardíacas (n = 14 387; 2164 muertes). La discriminación siguió siendo fuerte. Ambos modelos se validaron externamente con NHANES 2010-2011: el modelo completo alcanzó una concordancia de 0,870 y una pendiente de calibración de ~1,03; el modelo simplificado alcanzó una concordancia de 0,858 y una pendiente de ~1,03. La edad biológica predijo con fuerza la mortalidad (HR por año ≈1,09-1,11).
La métrica de la edad biológica puede derivarse de un modelo rico en biomarcadores o de un modelo mínimo que utilice únicamente variables fácilmente disponibles. La validación externa confirma su generalización. El marco de dos niveles equilibra la precisión y la viabilidad, lo que respalda su uso en la salud de la población, el asesoramiento a los pacientes o la vigilancia de la salud pública.
La edad cronológica es una medida fundamental en epidemiología y práctica clínica, pero no logra captar plenamente la heterogeneidad del riesgo biológico. Dos personas de 60 años pueden tener trayectorias muy diferentes en cuanto a morbilidad y mortalidad, dependiendo de sus estilos de vida, comorbilidades y biología subyacente. El concepto de «edad biológica» pretende reflejar esta divergencia agregando múltiples factores de riesgo en un único indicador que refleje con mayor precisión el estado fisiológico del individuo (Klemera y Doubal, 2006; Levine, 2013; Liu et al., 2018).
Muchos modelos existentes de edad biológica, como los relojes epigenéticos, los índices de fragilidad y los índices compuestos de biomarcadores, requieren paneles de biomarcadores extensos o producen resultados que son puntuaciones de riesgo abstractas en lugar de estimaciones intuitivas de la «edad» (Levine, 2013; Liu et al., 2018). Para la salud pública y la comunicación clínica, la interpretabilidad y la escalabilidad son fundamentales (Ganna e Ingelsson, 2015).
Proponemos un marco de edad biológica de dos niveles: un modelo completo que incorpora medidas de biomarcadores cuando están disponibles, y un modelo simplificado que se basa únicamente en variables fáciles de obtener (edad, sexo, IMC, historial médico y variables relacionadas con el estilo de vida, como el promedio de horas de sueño, la actividad física, el tabaquismo y el consumo de alcohol). Utilizando los datos de la NHANES 2005-2009 con resultados de mortalidad a largo plazo vinculados (CDC, 2025), desarrollamos ambos modelos, derivamos una métrica de edad biológica escalando los coeficientes de regresión de Cox en relación con el coeficiente de edad (Klemera y Doubal, 2006) y, a continuación, validamos ambos en una cohorte separada de la NHANES 2010-2011. Nuestro objetivo: producir una medida de la edad biológica robusta, interpretable y generalizable, adecuada para un uso amplio.
Analizamos los datos de la Encuesta Nacional de Examen de Salud y Nutrición, una encuesta representativa a nivel nacional de la población civil no institucionalizada de los Estados Unidos realizada por el Centro Nacional de Estadísticas de Salud (NCHS) y los Centros para el Control y la Prevención de Enfermedades (CDC, 2025). La NHANES recopiló información mediante entrevistas estructuradas, exámenes físicos y pruebas de laboratorio realizadas en centros de examen móviles, con protocolos detallados publicados en otros lugares [CDC, 2025; https://www.cdc.gov/nchs/nhanes/index.htm].
Tras las exclusiones, en la NHANES 2005-2009, la muestra analítica completa del modelo incluía a 7775 adultos (1106 fallecidos), y el modelo simplificado contaba con 14 387 adultos (2164 fallecidos). En la cohorte de validación, los tamaños de las muestras eran más reducidos.
Todos los protocolos NHANES fueron aprobados por el Comité de Ética en Investigación del NCHS, y se obtuvo el consentimiento informado por escrito de todos los participantes. Los datos analíticos utilizados aquí son anónimos y están disponibles públicamente.
El seguimiento de la mortalidad se determinó mediante la vinculación con el Índice Nacional de Defunciones (NDI) hasta el 31 de diciembre de 2019, según lo proporcionado por el NCHS. La mortalidad por todas las causas (no accidental) fue el resultado principal. El tiempo de seguimiento fue el número de meses transcurridos entre el examen y la muerte o censurado en diciembre de 2019. Los datos sobre la causa de la muerte se utilizaron para excluir las muertes accidentales; los demás casos de mortalidad reflejan el riesgo de mortalidad asociado a la edad.
Todos los análisis incorporaron el complejo diseño de muestreo utilizando ponderaciones de la encuesta, estratos y unidades de muestreo primarias, lo que garantizó estimaciones representativas a nivel nacional (Lumley, 2004, 2023). Las variables continuas se expresaron como medias (± DE) y las variables categóricas como porcentajes ponderados, tablas complementarias S1 y S2.
El tiempo de supervivencia se definió como los meses transcurridos desde el examen inicial hasta la muerte o la censura el 31 de diciembre de 2019. La mortalidad no accidental se modeló utilizando una regresión de riesgos proporcionales de Cox ponderada por encuesta, svycoxph en R (Cox, 1972; Therneau y Grambsch, 2000). Los predictores candidatos incluyeron la edad, el sexo, el tabaquismo, el gasto metabólico total por semana, el promedio de horas de sueño por día, la presión arterial sistólica (PAS), la presión arterial diastólica (PAD), el azúcar en sangre (HbA1c), la TFGe y los antecedentes autoinformados de diabetes y enfermedades cardíacas. Se evaluaron el índice de masa corporal (IMC), el consumo medio de alcohol, el colesterol de lipoproteínas de baja densidad (LDL-C), el colesterol de lipoproteínas de alta densidad (HDL-C), los triglicéridos y la proteína C reactiva (PCR), pero se excluyeron de los modelos finales debido a la falta de asociación independiente con la mortalidad.
Las relaciones no lineales se evaluaron utilizando residuos de Martingale y pruebas χ² de Wald de términos spline (Therneau y Grambsch, 2000; Wood, 2017; Royston y Sauerbrei, 2007), figura complementaria S3 y tabla S4. Aunque la edad mostró una fuerte evidencia estadística de no linealidad, mantuvimos una especificación lineal para la edad cronológica con el fin de permitir la derivación de una métrica de riesgo equivalente a la edad interpretable (edad biológica). Se mantuvieron los términos spline no lineales para el azúcar en sangre, lo que mejoró el ajuste del modelo sin afectar a la interpretabilidad. Los nudos se colocaron en los percentiles ponderados de la encuesta, por ejemplo, HbA1c en [35º, 65º].
En la práctica, la mayoría de las covariables mostraron un comportamiento casi lineal; solo se utilizaron términos spline simplificados (df = 1-2) cuando los diagnósticos respaldaban claramente la no linealidad.
La hipótesis de riesgos proporcionales se evaluó utilizando residuos de Schoenfeld (Therneau y Grambsch, 2000), tabla complementaria S6. No se observaron violaciones en el modelo completo, mientras que en el modelo simplificado, la edad, el sexo, el tabaquismo, el sueño o los antecedentes de enfermedades cardíacas no presentaban violaciones, la actividad física (kcal_kg_semana) mostraba evidencia de riesgos no proporcionales (p = 0,008), aunque el efecto era modesto y el modelo general mostraba una buena discriminación y calibración. Dado que la actividad no era el objetivo principal, mantuvimos la forma lineal simple y lo señalamos como una limitación.
Variance inflation factors (VIFs), supplementary table S7, were below 5 for all variables except the spline terms for sugar intake, which showed VIFs between 7.9 and 9.6. This is expected because spline basis functions are mathematically correlated with each other and does not indicate problematic multicollinearity (Wood, 2017). Pairwise correlations among non-spline predictors were all <0.4, suggesting no evidence of collinearity that would bias estimates or impair model stability.
De cada modelo ajustado (simple y completo), extrajimos los coeficientesβi. La contribución al riesgo de mortalidad de todos los predictores, excepto la edad cronológica, se sumó como una puntuación de riesgo. La edad biológica del individuo i se obtuvo escalando los coeficientes en relación con la edad cronológica (Klemera y Doubal, 2006; Levine, 2013):
BioAgei = Agei + jagejXijage
Para los modelos en los que la edad se modeló mediante splines, utilizamos métodos de inversión numérica (es decir, resolviendo el valor de la edad que equivale al predictor lineal completo) para mantener la coherencia.
Aplicamos los coeficientes fijos de los modelos NHANES 2005-2009 al conjunto de datos de validación para calcular las puntuaciones de riesgo individuales y la edad biológica. La validación utilizó el índice C de Harrell y la pendiente de calibración para evaluar la discriminación y la calibración (Harrell et al., 1996) y las curvas de supervivencia de Kaplan-Meier estratificadas por cuartiles de BioAge.
All analyses were conducted in R 4.5.1 (R Core Team, 2024), using the survey, survival, and splines packages. Two-sided p-values <0.05 were considered statistically significant.
Figura 1. Flujo de participantes para los conjuntos de datos de desarrollo y validación.


Las características iniciales de los participantes en NHANES 2005-2009 y NHANES 2010-2011 se presentan en la Tabla complementaria 1 y la Tabla 2, respectivamente. En general, la muestra de validación es de mayor edad, tiene un eGRF y un gasto metabólico total semanal más elevados, pero las distribuciones de todas las demás covariables fueron en gran medida comparables.
Durante un seguimiento medio de 11 años (IQR 9,67-12,42), se produjeron un total de 6844 muertes entre los 16 878 participantes incluidos en el modelo simplificado, y 1106 muertes entre los 77775 participantes en el modelo analítico completo que requería datos de biomarcadores.
En el modelo que incluía la edad, el sexo, el tabaquismo, el promedio de horas de sueño al día, el gasto metabólico total semanal y los antecedentes de enfermedades cardíacas, todos los predictores se asociaron significativamente con el riesgo de mortalidad (Tabla 1).
Este modelo demostró una excelente discriminación, con una estadística de concordancia de 0,87 (SE 0,005).
Tabla 1. Resultados del modelo simplificado de Cox (n = 14 387; eventos = 2164)

Concordancia (estadística C) = 0,87 (SE 0,005)
Modelo analítico completo (incluidos biomarcadores con splines):
El modelo completo incorporó términos spline para el azúcar en sangre (HbA1c) y demostró una no linealidad significativa (Royston y Sauerbrei, 2007), tabla 2.
Este modelo demostró una excelente discriminación, con una estadística de concordancia de 0,873 (SE 0,007). Las pruebas de Wald confirmaron fuertes desviaciones de la linealidad para el azúcar en sangre; consulte la tabla complementaria 3.
Tabla 2. Resultados completos del modelo de Cox (n = 7775; eventos = 1106)

Concordancia (estadística C) = 0,873 (SE 0,007)
Modelo simplificado
En la cohorte de validación externa NHANES 2010-2011 (n = 5478; 589 muertes), el modelo de riesgo simplificado siguió mostrando un sólido rendimiento predictivo. La discriminación del modelo siguió siendo excelente, con un índice C de 0,858 (SE ≈ 0,011). El análisis de calibración mostró una pendiente de 1,03 (IC del 95 %: 0,87-1,20), lo que indica una buena concordancia entre los riesgos previstos y los observados. La estratificación del riesgo utilizando terciles del riesgo previsto arrojó una clara separación en las probabilidades de supervivencia a 5 años (riesgo bajo: 99,6 %, riesgo medio: 98,7 %, riesgo alto: 89,1 %).
Modelo completo
En la cohorte de validación rica en biomarcadores (NHANES 2010-2011; n = 2390; 229 muertes), el modelo completobasado en splines también predijo de forma sólida la mortalidad. La discriminación fue fuerte, con un índice C de 0,870 (SE ≈ 0,018). La calibración fue casi ideal (pendiente = 1,03, IC del 95 %: 0,87-1,20). Las curvas de Kaplan-Meier en los grupos de riesgo previstos mostraron una separación gradual y monótona, lo que confirmó la transportabilidad estable del modelo.
Tabla 3. Rendimiento del modelo en cohortes de derivación y validación

Resumen
Tanto el modelo simplificado como el completo de edad biológica demostraron una excelente discriminación y una calibración satisfactoria en la cohorte independiente NHANES 2010-2011, lo que confirma su solidez y generalización.


La distribución de la edad biológica en relación con la edad cronológica (ΔEdad) se centró de forma más negativa para el modelo simplificado, con una diferencia media de -2,98 años (DE 4,82), mientras que el modelo completo tiene una diferencia media de 4,09 años (DE 6,22), estimada con las ponderaciones de la encuesta NHANES.


Las curvas de Kaplan-Meier mostraron una clara separación de las curvas de supervivencia entre los terciles de riesgo. Los grupos de alto riesgo tuvieron una supervivencia sustancialmente menor que los grupos de riesgo medio y bajo.
Derivamos y validamos la Edad Biológica, una puntuación transparente del riesgo de mortalidad expresada en términos equivalentes a la edad. Tanto el modelo simple como el complejo demostraron una excelente discriminación y calibración (Harrell et al., 1996). El modelo simple es parsimonioso e interpretable, mientras que el modelo complejo integra biomarcadores para mejorar ligeramente el rendimiento.
Entre los puntos fuertes de este estudio se incluyen el uso de cohortes NHANES amplias y representativas a nivel nacional (2005-2009 para el desarrollo del modelo y 2010-2011 para la validación externa), con exámenes estandarizados, medidas de laboratorio y vinculación de la mortalidad hasta 2019. Las cohortes relativamente recientes mejoran la relevancia para las poblaciones contemporáneas en comparación con estudios más antiguos. La disponibilidad de ponderaciones de la encuesta permitió realizar inferencias a nivel de población, y nuestro enfoque analítico incorporó modelos spline flexibles para captar asociaciones no lineales. Los rigurosos diagnósticos del modelo (por ejemplo, pruebas de riesgos proporcionales, comprobaciones de multicolinealidad, evaluaciones residuales) y la validación externa refuerzan aún más la confianza en los resultados.
Sin embargo, hay que tener en cuenta varias limitaciones. En primer lugar, es posible que existan factores de confusión residuales y errores de medición, especialmente en el caso de las exposiciones autodeclaradas, como el tabaquismo, el consumo de alcohol y la actividad física. En segundo lugar, el uso de datos completos para las variables de laboratorio puede introducir un sesgo si los datos faltantes no son aleatorios, aunque la ponderación de la encuesta y los análisis de sensibilidad mitigan esta preocupación; en futuros trabajos se podría aplicar la imputación múltiple. En tercer lugar, los biomarcadores se midieron en un único momento de referencia, lo que impidió evaluar las trayectorias intraindividuales y los procesos dinámicos del «ritmo de envejecimiento». En cuarto lugar, no se modelaron los riesgos competitivos y no se examinó la mortalidad por causas específicas. En quinto lugar, la prueba de riesgos proporcionales sugirió una no proporcionalidad para la actividad física (kcal/kg/semana, p = 0,008). Mantuvimos esta variable en forma lineal por simplicidad, pero reconocemos que se trata de una limitación que puede atenuar la estimación del efecto a lo largo del tiempo. En sexto lugar, el uso de puntuaciones de riesgo lineales limitadas y el truncamiento para el ajuste de splines representa una simplificación pragmática, pero puede introducir una especificación errónea del modelo; no obstante, los análisis de sensibilidad respaldaron la solidez de los resultados principales.
Aunque el presente estudio aprovecha la amplitud y representatividad de la NHANES, varios ámbitos relevantes para el envejecimiento holístico no pudieron validarse debido a la estructura de los datos, las limitaciones de medición o la insignificancia estadística tras el ajuste multivariable.
La ausencia o falta de significación debe interpretarse con cautela, dadas las limitaciones conocidas de la NHANES, como el sesgo de los autoinformes, la confusión de la medicación y la medición en un único momento. A continuación resumimos los principales factores omitidos o atenuados y explicamos tanto su relevancia biológica como la justificación de su inclusión en el modelo de edad biológica de Elfie para apoyar el autocontrol y la detección precoz de los riesgos modificables.
Arquitectura del sueño (porcentajes de sueño REM y sueño profundo)
NHANES registra la duración total del sueño, pero carece de datos derivados de la polisomnografía sobre las fases del sueño, incluidas la fase REM y el sueño de ondas lentas (profundo), que no están disponibles en las oleadas relacionadas con la mortalidad. Cohortes longitudinales como los estudios MrOS y Wisconsin Sleep demuestran que una menor proporción de REM y una reducción del sueño profundo predicen de forma independiente la mortalidad por todas las causas y la mortalidad cardiovascular, y están mecánicamente relacionadas con la recuperación metabólica deteriorada y la neurodegeneración (Yaffe, Laffan, Harrison, Redline y Ensrud, 2019; Lauderdale et al., 2020). Debido a la ausencia de estos datos, nuestro modelo no pudo cuantificar este componente restaurador del sueño. Elfie incorpora métricas de REM y sueño profundo derivadas de dispositivos portátiles para animar a los usuarios a controlar la recuperación nocturna y detectar el deterioro de la calidad del sueño a lo largo del tiempo.
Variabilidad de la frecuencia cardíaca (VFC)
Aunque NHANES incluye la frecuencia cardíaca en reposo, carece del muestreo continuo de ECG necesario para calcular los índices de VFC. La reducción de la VFC es un predictor sólido e independiente de la mortalidad cardiovascular y por todas las causas (Tsuji et al., 1996; Hillebrand et al., 2013). Por lo tanto, Elfie mantiene la VFC como un dato fisiológico en su implementación vinculada al dispositivo, donde funciona tanto como marcador de salud cardiovascular como indicador intuitivo de autovigilancia de la resistencia al estrés y el equilibrio de la recuperación.
Adherencia a la medicación
NHANES recopila inventarios de medicamentos, pero no proporciona datos longitudinales sobre la adherencia. Sin embargo, una adherencia constante reduce sustancialmente la mortalidad cardiovascular y por todas las causas (Simpson, Eurich, Majumdar, Padwal y Johnson, 2006). En Elfie, la adherencia se supervisa mediante sistemas de seguimiento y recordatorios de reposición integrados en la aplicación. La inclusión de la adherencia tiene por objeto no solo mejorar la validez predictiva, sino también promover la participación sostenida en las rutinas de tratamiento y la detección temprana de patrones de no adherencia.
Calidad de la dieta
Aunque NHANES proporciona registros alimentarios de 24 horas, carece de índices longitudinales completos, como el Índice Alternativo de Alimentación Saludable (AHEI-2010), en todas las oleadas vinculadas. La calidad de la dieta sigue siendo un factor determinante fundamental de la longevidad: las puntuaciones más altas del AHEI se asocian con una mortalidad por todas las causas entre un 20 % y un 30 % menor y una mortalidad cardiovascular más de un 40 % menor (Chiuve et al., 2012). Elfie integra una puntuación nutricional derivada del Sistema de Perfil Nutricional Modificado de la Agencia de Normas Alimentarias (FSAm-NPS), diseñado para motivar la autoevaluación y la mejora gradual de la dieta.
Estado de vacunación
NHANES carece de datos longitudinales coherentes sobre vacunación en sus cohortes vinculadas a la mortalidad. La inmunización, especialmente contra la gripe y la enfermedad neumocócica, reduce las muertes relacionadas con infecciones y cardiovasculares en adultos mayores (Udell et al., 2013). En el momento de realizar este estudio, Elfie sigue desarrollando el seguimiento y los recordatorios de vacunación dentro de su módulo de atención preventiva, fomentando la autogestión proactiva de la cobertura de inmunización. Las futuras versiones de Elfie integrarán esta dimensión.
Medidas cognitivas y de salud mental
Las herramientas validadas, como PHQ-9, GAD-7 o EQ-5D, no están presentes en las oleadas vinculadas de NHANES, lo que limita nuestra capacidad para captar el estrés psicosocial y el deterioro cognitivo como factores que impulsan el envejecimiento biológico. Los síntomas depresivos y la baja calidad de vida relacionada con la salud son predictores bien establecidos de morbilidad y mortalidad (Penninx et al., 2001). Las futuras versiones de Elfie integrarán instrumentos de cribado digital de formato breve para el estado de ánimo, la ansiedad y el estrés percibido, lo que facilitará el reconocimiento precoz y las intervenciones de autocuidado.
Índice de masa corporal (IMC)
En este análisis, el IMC no fue significativo tras el ajuste multivariable, lo que concuerda con la «paradoja de la obesidad» observada en cohortes de mayor edad. Las medidas de adiposidad central, como la relación cintura-cadera, suelen estar más estrechamente relacionadas con la mortalidad (Zhou et al., 2021). Sin embargo, Elfie mantiene deliberadamente el IMC —ajustado por origen étnico— como indicador principal para el usuario debido a su accesibilidad, interpretabilidad y valor educativo a la hora de promover la concienciación sobre el peso. Cuando es posible, se anima a los usuarios a realizar un seguimiento de su índice de grasa corporal en lugar del IMC para diferenciar entre los cambios en la masa magra y la masa grasa, lo que favorece el establecimiento de objetivos realistas y la detección temprana de tendencias adversas en la composición corporal.
Colesterol LDL
La ausencia de una asociación independiente con el LDL probablemente refleje un sesgo en el tratamiento y la supervivencia; la reducción del LDL está causalmente relacionada con la disminución de los eventos ateroscleróticos (Cholesterol Treatment Trialists’ Collaboration, 2010). Elfie mantiene el LDL como un factor derivado de laboratorio en su nivel avanzado para mejorar la comprensión del usuario sobre el riesgo cardiovascular y fomentar la realización oportuna de pruebas de lípidos.
Consumo de alcohol
No se observó ningún efecto direccional consistente en la NHANES. Metaanálisis recientes indican que ningún nivel de consumo de alcohol confiere un beneficio neto para la salud (GBD 2016 Alcohol Collaborators, 2018). Elfie mantiene este factor conductual principalmente para la concienciación personal, lo que permite a los usuarios visualizar sus patrones de consumo y recibir comentarios motivadores para reducir su ingesta.
Frecuencia cardíaca en reposo
Tras ajustar los datos en función de la actividad física y la presión arterial, la frecuencia cardíaca en reposo perdió significación estadística. No obstante, las frecuencias en reposo más altas siguen siendo un indicador consistente de mayor riesgo de mortalidad (Zhang, Shen y Qi, 2016). Elfie incluye la frecuencia cardíaca en reposo de los dispositivos portátiles como una señal en tiempo real del estado físico, el estrés y el estado de recuperación, lo que motiva a los usuarios a mejorar su actividad y su eficiencia cardiorrespiratoria.
⸻
Resumen
Estas limitaciones ponen de relieve que NHANES, aunque es excepcionalmente representativo y muy valioso para la validación, no puede abarcar todas las dimensiones del envejecimiento biológico relevantes para la participación en la salud preventiva. Por lo tanto, el marco de la edad biológica de Elfie va más allá del conjunto de datos de NHANES al integrar métricas conductuales, fisiológicas y de adherencia seleccionadas específicamente para promover el autocontrol, la detección temprana de factores de riesgo y la participación sostenida de los usuarios en comportamientos de mejora de la salud que los conjuntos de datos epidemiológicos por sí solos no pueden captar.
Al traducir modelos de supervivencia complejos a una escala intuitiva equivalente a la edad, la edad biológica ofrece una potente herramienta de comunicación para proporcionar información personalizada sobre los riesgos (Ganna e Ingelsson, 2015). Los médicos pueden utilizar la edad biológica para ilustrar los efectos acumulativos de los factores de riesgo modificables, proporcionando un punto de referencia con el que es fácil identificarse y que complementa las estimaciones de riesgo absoluto convencionales. Las agencias de salud pública podrían aplicar el modelo simplificado en entornos con pocos recursos o en encuestas de población en las que los datos de biomarcadores son limitados, mientras que el modelo completo podría servir en contextos clínicos o de investigación que requieran una mayor precisión. Para establecer su generalización, será importante seguir validando la edad biológica en cohortes contemporáneas, poblaciones diversas y con resultados de mortalidad por causas específicas. La integración en plataformas de salud digitales también podría permitir una retroalimentación personalizada del riesgo en tiempo real a gran escala.
Conceptualización: Jean-François Legourd, Otávio Berwanger
Metodología: Serene Toh, Jean-François Legourd
Curación de datos y análisis formal: Serene Toh
Validación: Serene Toh
Redacción – Borrador original: Serene Toh
Redacción, revisión y edición: Otávio Berwanger, Jean-François Legourd
Supervisión y supervisión científica: Otávio Berwanger
Financiación y administración del proyecto: Jean-François Legourd
Todos los autores aprobaron la versión final del manuscrito y aceptan ser responsables del trabajo presentado.
Este estudio utilizó datos disponibles públicamente de la Encuesta Nacional de Examen de Salud y Nutrición (NHANES) de los Estados Unidos, realizada por los Centros para el Control y la Prevención de Enfermedades (CDC).
Los datos están disponibles en https://www.cdc.gov/nchs/nhanes/ bajo acuerdos de uso público abierto.
Los datos vinculados al seguimiento de la mortalidad se obtuvieron de los archivos vinculados a la mortalidad de uso público del Centro Nacional de Estadísticas de Salud (NCHS), disponibles en https://www.cdc.gov/nchs/data-linkage/mortality-public.htm.
Todo el código estadístico utilizado para la estimación y validación del modelo está disponible previa solicitud razonable al autor correspondiente (jf@elfie.co).
Jean-François Legourd y Serene Toh están afiliados a Elfie Inc., que ha apoyado este estudio. Los autores declaran no tener ningún otro conflicto de intereses.
Los autores utilizaron herramientas de inteligencia artificial (OpenAI ChatGPT) para ayudar en la redacción y edición de este manuscrito, concretamente para mejorar la gramática, la claridad y la coherencia ortográfica.
Además, se emplearon herramientas de IA para generar plantillas de scripts R para la transformación de datos y la preparación de modelos relacionados con los análisis de riesgos proporcionales de Cox.
Todo el código generado por la IA fue revisado, probado y validado por los autores antes de su uso en los análisis finales.
No se utilizó ningún sistema de inteligencia artificial para el modelado estadístico autónomo, la interpretación de resultados o la toma de decisiones.
Los autores asumen toda la responsabilidad por la integridad, reproducibilidad y exactitud de todos los análisis y contenidos presentados.
Este trabajo ha contado con el apoyo de Elfie Inc., una empresa estadounidense dedicada a la tecnología sanitaria, que integra el modelo como la función «Edad biológica de Elfie» en su plataforma gratuita de compromiso con la salud, accesible a millones de usuarios en todo el mundo, en su misión de salud pública para fomentar el autocontrol.
Los autores agradecen al Centro Nacional de Estadísticas de Salud (NCHS) y a los Centros para el Control y la Prevención de Enfermedades (CDC) de EE. UU. por proporcionar acceso abierto a la Encuesta Nacional de Examen de Salud y Nutrición (NHANES) y sus archivos de mortalidad vinculados. El programa NHANES representa una inversión pública única en investigación poblacional abierta, longitudinal y rica en datos que ha permitido realizar miles de estudios independientes en todo el mundo.
Reconocemos que Estados Unidos sigue siendo uno de los pocos países que ofrece conjuntos de datos tan completos y de libre acceso sobre salud y mortalidad, lo que fomenta en gran medida la colaboración científica mundial y acelera la innovación metodológica. Esperamos que surjan cohortes comparables, longitudinales, diversas y de libre acceso a nivel internacional para mejorar la inclusión, la representatividad y el progreso en la investigación sobre la salud de la población.
Benetos, A., Petrovic, M. y Strandberg, T. (2019). Manejo de la hipertensión en pacientes mayores y frágiles. Circulation Research, 124(7), 1045-1060. https://doi.org/10.1161/CIRCRESAHA.118.313236
Centros para el Control y la Prevención de Enfermedades (CDC). (2025). Encuesta Nacional de Examen de Salud y Nutrición (NHANES): Acerca de la NHANES. Centro Nacional de Estadísticas de Salud. https://www.cdc.gov/nchs/nhanes/index.htm
Chiuve, S. E., Fung, T. T., Rimm, E. B., Hu, F. B., McCullough, M. L., Wang, M., Stampfer, M. J. y Willett, W. C. (2012). Índice alternativo de alimentación saludable y mortalidad. The Journal of Nutrition, 142(6), 1003-1008. https://doi.org/10.3945/jn.111.157222
Colaboración de Investigadores sobre el Tratamiento del Colesterol. (2010). Eficacia y seguridad de una reducción más intensiva del colesterol LDL: metaanálisis de datos de 170 000 participantes en 26 ensayos aleatorizados. The Lancet, 376(9753), 1670-1681. https://doi.org/10.1016/S0140-6736(10)61350-5
Cox, D. R. (1972). Modelos de regresión y tablas de mortalidad. Revista de la Real Sociedad Estadística: Serie B (Metodológica), 34(2), 187-220.
Colaboración sobre factores de riesgo emergentes. (2009). Principales lípidos, apolipoproteínas y riesgo de enfermedad vascular. JAMA, 302(18), 1993-2000. https://doi.org/10.1001/jama.2009.1619
Ganna, A., & Ingelsson, E. (2015). Predictores de mortalidad a 5 años en 498 103 participantes del Biobanco del Reino Unido: un estudio prospectivo basado en la población. The Lancet, 386(9993), 533-540. https://doi.org/10.1016/S0140-6736(15)60175-1
Colaboradores del GBD 2016 sobre el alcohol. (2018). Consumo de alcohol y carga para 195 países y territorios, 1990-2016: un análisis sistemático para el Estudio sobre la Carga Global de Morbilidad 2016. The Lancet, 392(10152), 1015-1035. https://doi.org/10.1016/S0140-6736(18)31310-2
Goldwasser, P., y Feldman, J. (1997). Asociación entre la albúmina sérica y el riesgo de mortalidad. The American Journal of Medicine, 103(6), 495-502. https://doi.org/10.1016/S0002-9343(97)00236-9
Harrell, F. E. Jr., Lee, K. L., & Mark, D. B. (1996). Multivariable prognostic models: Issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Statistics in Medicine, 15(4), 361–387. https://doi.org/10.1002/(SICI)1097-0258(19960229)15:4<361::AID-SIM168>3.0.CO;2-4
Hillebrand, S., Gast, K. B., de Mutsert, R., Swenne, C. A., Jukema, J. W., Middeldorp, S., … Dekker, J. M. (2013). Variabilidad de la frecuencia cardíaca y primer evento cardiovascular en poblaciones sin enfermedad cardiovascular conocida: metaanálisis y metarregresión dosis-respuesta. European Heart Journal, 34(38), 2679-2686. https://doi.org/10.1093/eurheartj/eht185
Klemera, P., & Doubal, S. (2006). Un nuevo enfoque del concepto y el cálculo de la edad biológica. Mecanismos del envejecimiento y el desarrollo, 127(3), 240-248. https://doi.org/10.1016/j.mad.2005.10.004
Levine, M. E. (2013). Modelización de la tasa de envejecimiento: un enfoque de estimación de la edad biológica utilizando múltiples biomarcadores. The Journals of Gerontology: Series A, 68(6), 667-674. https://doi.org/10.1093/gerona/gls233
Liu, Z., Kuo, P. L., Horvath, S., Crimmins, E., Ferrucci, L. y Levine, M. E. (2018). Una nueva medida del envejecimiento captura el riesgo de morbilidad y mortalidad en diversas subpoblaciones de NHANES IV: un estudio de cohorte. PLOS Medicine, 15(12), e1002718. https://doi.org/10.1371/journal.pmed.1002718
Loprinzi, P. D., y Cardinal, B. J. (2011). Asociación entre la actividad física medida objetivamente y el sueño, NHANES 2005-2006. Salud mental y actividad física, 4(2), 65-69. https://doi.org/10.1016/j.mhpa.2011.08.001
Lumley, T. (2004). Análisis de muestras de encuestas complejas. Revista de Software Estadístico, 9(1), 1-19. https://doi.org/10.18637/jss.v009.i08
Lumley, T. (2023). survey: Análisis de muestras de encuestas complejas (paquete R versión 4.3.2). https://CRAN.R-project.org/package=survey
Myers, J., Prakash, M., Froelicher, V., Do, D., Partington, S. y Atwood, J. E. (2002). Capacidad de ejercicio y mortalidad entre hombres derivados para pruebas de esfuerzo. The New England Journal of Medicine, 346(11), 793-801. https://doi.org/10.1056/NEJMoa011858
Penninx, B. W. J. H., Guralnik, J. M., Mendes de Leon, C. F., Pahor, M., Visser, M., Corti, M. C., Wallace, R. B. y Berkman, L. F. (2001). Eventos cardiovasculares y mortalidad en hombres y mujeres mayores con depresión: un estudio prospectivo basado en la comunidad. Archives of General Psychiatry, 58(3), 221-227. https://doi.org/10.1001/archpsyc.58.3.221
Equipo central de R. (2024). R: Un lenguaje y entorno para la computación estadística. Fundación R para la Computación Estadística. https://www.R-project.org/
Rehm, J., Gmel, G., Gmel, G., et al. (2017). La relación entre las diferentes dimensiones del consumo de alcohol y la carga de morbilidad: una visión general. Addiction, 112(1), 101-107. https://doi.org/10.1111/add.13455
Royston, P., y Sauerbrei, W. (2007). Creación de modelos multivariables: un enfoque pragmático del análisis de regresión basado en polinomios fraccionarios para modelar variables continuas. Wiley. https://doi.org/10.1002/9780470722184
Simpson, S. H., Eurich, D. T., Majumdar, S. R., Padwal, R. S. y Johnson, J. A. (2006). Metaanálisis de la asociación entre la adherencia al tratamiento farmacológico y la mortalidad. JAMA, 296(21), 2643-2653. https://doi.org/10.1001/jama.296.21.2643
Therneau, T. M. y Grambsch, P. M. (2000). Modelización de datos de supervivencia: ampliación del modelo de Cox. Springer-Verlag. https://doi.org/10.1007/978-1-4757-3294-8
Tsuji, H., Venditti, F. J., Manders, E. S., Evans, J. C., Larson, M. G., Feldman, C. L. y Levy, D. (1996). Reducción de la variabilidad de la frecuencia cardíaca y del riesgo de mortalidad en una cohorte de personas mayores. Circulation, 94(11), 2850-2855. https://doi.org/10.1161/01.CIR.94.11.2850
Udell, J. A., Zawi, R., Bhatt, D. L., Keshtkar-Jahromi, M., Gaughran, F., Phrommintikul, A., … Cannon, C. P. (2013). Asociación entre la vacunación contra la gripe y los resultados cardiovasculares en pacientes de alto riesgo: un metaanálisis. JAMA, 310(16), 1711-1720. https://doi.org/10.1001/jama.2013.279206
Wood, S. N. (2017). Modelos aditivos generalizados: una introducción con R (2.ª ed.). CRC Press. https://doi.org/10.1201/9781315370279
Yaffe, K., Laffan, A. M., Harrison, S. L., Redline, S. y Ensrud, K. E. (2019). Trastornos respiratorios del sueño, hipoxia y riesgo de deterioro cognitivo leve y demencia en mujeres mayores. JAMA Neurology, 76(6), 653-660. https://doi.org/10.1001/jamaneurol.2018.4719
Zhang, D., Shen, X. y Qi, X. (2016). Frecuencia cardíaca en reposo y mortalidad por todas las causas y cardiovascular en la población general: un metaanálisis. Heart, 102(8), 701-708. https://doi.org/10.1136/heartjnl-2015-308963
Zhou, B., Carrillo-Larco, R. M., Danaei, G., Riley, L. M., Paciorek, C. J., Stevens, G. A., … Ezzati, M. (2021). Tendencias mundiales en el índice de masa corporal, el bajo peso, el sobrepeso y la obesidad entre 1975 y 2016: un análisis conjunto de 2416 estudios de medición basados en la población. JAMA Network Open, 4(9), e2128938. https://doi.org/10.1001/jamanetworkopen.2021.28938
Características basales ponderadas
Tabla S1: Variables continuas y binarias para el modelo simple con NHANES 2005-2009

Tabla S2: Variables continuas y binarias para el modelo simple con NHANES 2010-2011







Los residuos de Martingale indicaron que los términos lineales eran adecuados para el tabaquismo, las horas de sueño, el gasto metabólico total, la TFGe y la PA sistólica, mientras que el azúcar en sangre mostró una clara no linealidad, lo que respalda el uso de funciones spline para estas variables en el modelo final.
Fórmula principal
Edad biológica = ChronoAge + Delta
donde:
• ChronoAge: edad cronológica
• Delta = ∑ (βi*zi*fi) / βage
• βi: impacto de la edad del factor i;
• zi: valor estandarizado del factor i; recortado [−3,+3] para suprimir valores atípicos
• fi: frescura del factor i; fi∈[0,1] (1 = totalmente fresco, 0 = demasiado rancio)
• Delta mantenido dentro de [−12,+12] años para proteger la credibilidad: si | Σ(βi * zi * fi) | > 12, recalcular con BioAge = Edad + Σ(εi * zi * fi)/βedad, donde εi = βi * ( 12 / | Σ(βi * zi * fi) | ) ;
• Solo se calcula si hay al menos 3 factores cuyos fi > 50 %.
El nivel de precisión de la edad biológica depende de los factores de frescura (fi).
Precisión = promedio (fi) * mín ( recuento(fi>0) / 5, 1 )
donde:
• Una precisión del 100 % requiere al menos 5 factores nuevos.