Artículo original

Detección automatizada de factores determinantes del embarazo en la adolescencia

Automated detection of determining factors of pregnancy in adolescence

Bernardo Céspedes-Panduro1* https://orcid.org/0000-0002-9606-1478

Zoraida Judith Huamán-Gutiérrez2 https://orcid.org/0000-0002-5533-2454

1Doctor en Estadística Matemática. Docente Auxiliar. Investigador. Departamento de Estadística, Facultad de Ciencias Matemáticas, Universidad Nacional Mayor de San Marcos, Lima, Perú.

2Doctor en Estadística Matemática. Docente Principal. Investigador. Departamento de Estadística, Facultad de Ciencias Matemáticas, Universidad Nacional Mayor de San Marcos, Lima, Perú.

email *Autor para la correspondencia. Correo electrónico: bcespedesp@unmsm.edu.pe

RESUMEN

Introducción: las adolescentes embarazadas tienen menos probabilidades de construir relaciones sentimentales estables, y más de sufrir trastornos emocionales. También, son más susceptibles a presentar diversas complicaciones durante el embarazo y el parto.

Objetivo: evaluar las técnicas de aprendizaje automático para determinar factores de riesgo del embarazo en adolescentes.

Métodos: se realizó una investigación con diseño correlacional causal. Los datos se obtuvieron de la Encuesta Demográfica y de Salud Familiar - ENDES 2021 Nacional y Departamental, que abarcó los años 2018 a 2020. En el momento de las entrevistas, su base de datos contenía información de 16 825 mujeres adolescentes peruanas de 12 a 19 años de edad, las cuales constituyeron el universo de estudio. Se implementaron nueve algoritmos: máquina de soporte vectorial, regresión logística binaria, árbol de decisión, refuerzo adaptativo, potenciación del gradiente, refuerzo de gradiente extremo, árboles extremadamente aleatorios, agregación de arranque, y bosque aleatorio. Se consideraron sus métricas como variables a tener en cuenta en la evaluación, la precisión, y el área bajo la curva.

Resultados: el algoritmo más preciso fue el bosque aleatorio (0,965825), seguido por la potenciación del gradiente (0,963744), el árbol de decisión, y las máquinas de vectores de soporte (0,963155, ambos).

Conclusiones: el bosque aleatorio fue la técnica más precisa; además de la identificación de los factores en cuestión, se distinguieron los tres más importantes. Este estudio es un precedente valioso para la aplicación de las técnicas de aprendizaje automático en la predicción de diversas variables necesarias para mejorar la gestión pública.

Palabras clave: automatización; bases de datos estadísticos; embarazo en adolescencia; factores de riesgo.

ABSTRACT

Introduction: pregnant adolescents are less likely to form stable romantic relationships and are more likely to suffer emotional disorders. They are also more susceptible to various complications during pregnancy and childbirth.

Objective: to evaluate machine learning techniques to determine risk factors for teenage pregnancy.

Methods: a research with a causal correlational design was carried out. The data was obtained from the Demographic and Family Health Survey - ENDES 2021 National and Departmental, which covered the years 2018 to 2020. At the time of the interviews, their database contained information on 16,825 Peruvian adolescent women aged 12 to 19 years, who constituted the study universe. Nine algorithms were implemented: support vector machine, binary logistic regression, decision tree, adaptive boosting (AdaBoost), gradient boosting, extreme gradient boosting (XGBoost), extremely random trees (ExtraTrees), bootstrap aggregation, and random forest. Their metrics were considered as variables to be taken into account in the evaluation, precision, and the area under the curve.

Results: The most accurate algorithm was the random forest (0.965825), followed by gradient boosting (0.963744), decision tree, and support vector machines (0.963155, both).

Conclusions: the random forest was the most accurate technique; in addition to the identification of the factors in question, the three most important ones were distinguished. This study is a valuable precedent for the application of machine learning techniques in the prediction of various variables necessary to improve public management.

Keywords: automation; pregnancy in adolescence; risk factors; statistical databases.

Recibido: 09/08/2024

Aprobado: 23/09/2024

Publicado: 15/01/2025

INTRODUCCIÓN

En Perú, la proporción de la fecundidad en la adolescencia con respecto a la fecundidad total ha aumentado. Este es el resultado de descensos menos significativos y oscilantes en las cifras de embarazos entre las mujeres de 12 a 17 años; aun cuando se observa un descenso estable de las tasas globales de fecundidad.(1)

Según la Encuesta Demográfica y de Salud Familiar - ENDES 2021 Nacional y Departamental,(1) entre 2018 y 2020 la fecundidad de las adolescentes peruanas disminuyó 0,5 puntos porcentuales (de 2,8 % a 2,3 %). Esta disminución no es particularmente sustancial, si se tienen en cuenta las consecuencias graves del embarazo en la adolescencia. El cual, desde el punto de vista social, incide en la elevación de los indicadores de abandono escolar en la educación secundaria, aumenta la susceptibilidad a la participación en redes delictivas o de explotación sexual comercial,(2) y en última instancia reduce las perspectivas de empleo a largo plazo; con ello, merman los ingresos económicos de la unidad familiar y se fomenta un nivel de pobreza más profundo.(2,3) Este fenómeno también genera importantes costes sociales.(3)

Del mismo modo, en determinadas regiones y grupos sociales la gestación precoz se observa como un fenómeno cultural. Sin embargo, en las grandes ciudades, estos embarazos no suelen ser bien recibidos; solo se dan entre novios que no conviven, o en el seno de parejas consentidas, y suelen culminar con la desprotección de la mujer y el niño, lo que implica la maternidad en solitario. Numerosos embarazos culminan en abortos practicados por personas sin formación profesional adecuada, y en condiciones insalubres, debido a la escasez y altos costes de los servicios médicos especializados y al hecho de que el aborto está prohibido en Perú.(1)

Las adolescentes embarazadas tienen menos probabilidades de construir relaciones sentimentales estables, y más de sufrir trastornos emocionales; entre ellos, depresión, acompañada en ocasiones de ideación suicida,(3) y abuso de sustancias.(2) Por otra parte, en comparación con las mujeres adultas, desde el punto de vista biológico las adolescentes son más susceptibles a presentar diversas complicaciones durante el embarazo y el parto: preeclampsia,(4,5) anemia(4), parto prematuro,(5,6,3) neonatos bajos de peso,(6,5) y mortalidad materna y perinatal altas.(5,3)

En 1956, Davis y Blake(7) iniciaron las investigaciones sobre los determinantes de la fecundidad, e introdujeron un modelo de once variables intermedias influyentes, clasificadas en tres grupos. En 1978, Bongaarts(8) identificó siete factores que podían influir directamente sobre la probabilidad de fecundidad; los denominó determinantes intermedios de la fecundidad.

Posteriormente, en 2006, Di Cesare y Rodríguez-Vignoli(9) propusieron un modelo basado en el de Bongaarts,(8) y categorizaron los factores influyentes en dos grupos: variables intermedias (determinantes próximos), que pertenecen a los factores más cercanos al sujeto; y factores subyacentes (determinantes indirectos), asociados a variables socioculturales, ambientales, familiares, e individuales. Este modelo incorporó las variables intermedias posteriores: edad de la primera relación sexual, uso de anticonceptivos, y estado civil. Los determinantes influyentes en la variación de los niveles de fecundidad a través de determinantes próximos de la fecundidad en la adolescencia, se clasifican en tres categorías: socioculturales, familiares, e individuales.(9)

En la actualidad, para trabajar con grandes bases de datos se utilizan técnicas de aprendizaje automático mediante procedimientos matemáticos. Los resultados se prueban en una base de datos diferente a la empleada para entrenar el modelo, y se obtienen métricas disímiles a partir de la matriz de clasificación o confusión.

En la presente investigación se analizaron las técnicas de clasificación sobre la predicción existente más utilizadas en el aprendizaje automático; de ese modo, se eligió la que diferencia mejor el embarazo en la adolescencia. Tanto en el sector público como privado de la salud, este conocimiento es imprescindible para la gestión administrativa de recursos y la ejecución de acciones preventivas encaminadas a reducir las tasas de embarazos en la adolescencia y sus repercusiones negativas para la sociedad.

Por ello, el objetivo de los autores fue evaluar las técnicas de aprendizaje automático para determinar factores de riesgo del embarazo en adolescentes.

MÉTODOS

Se realizó una investigación con diseño correlacional causal(10) Los datos se obtuvieron de la Encuesta Demográfica y de Salud Familiar - ENDES 2021 Nacional y Departamental,(1) que abarcó los años 2018 a 2020. Dirigida por el Instituto Nacional de Estadística e Informática (INEI), en el momento de las entrevistas –el año escolar 2019-2020– su base de datos contenía información de 16 825 mujeres adolescentes peruanas de 12 a 19 años de edad.

Las mujeres que informaron haberse embarazado en edades entre 12 y 19 años se clasificaron como casos de embarazos en la adolescencia.

Se utilizaron ocho variables independientes, agrupadas de la siguiente manera: variables intermedias (edad en la primera relación sexual, ¿ha tenido una primera unión?, ¿ha estado casada o ha convivido?, ¿alguna vez usó cualquier método anticonceptivo o usa alguno actualmente); factores socioculturales y ambientales (etnia, área de residencia, y región de residencia); factores familiares (número de miembros del hogar, e índice de riqueza); factores individuales (migración, conocimiento del ciclo ovulatorio, ¿ha escuchado hablar de planificación familiar por medios de comunicación?, número deseado de hijos, edad –en años cumplidos–, empleo en los últimos 12 meses, educación –en años académicos–, ¿actualmente asiste a la escuela, colegio, instituto, o universidad?

Para el análisis, se revisaron las variables en el conjunto de datos de ENDES y se eliminaron las que no se consideraron significativas: las relacionadas con la fecha de la entrevista, y la identificación (ID) del caso y el conglomerado.

Se identificaron las diferentes categorías que debe incluir cada variable; los datos faltantes se imputaron mediante la función missForest de la librería missForest del programa estadístico R. Se ejecutó el análisis exploratorio de datos (EDA, por sus siglas en inglés) univariado y bivariado con el programa estadístico Python. Se convirtieron los datos categóricos en números, mediante la codificación uno caliente (one hot) con el enfoque de codificación de etiquetas. Los datos se particionaron en conjuntos de entrenamiento y prueba; y a continuación se escalaron o normalizaron.

Se implementaron nueve algoritmos: máquina de soporte vectorial, regresión logística binaria, árbol de decisión, refuerzo adaptativo (AdaBoost), potenciación del gradiente (gradient boosting), refuerzo de gradiente extremo (XGBoost), árboles extremadamente aleatorios (ExtraTrees), agregación de arranque (bagging), y bosque aleatorio (random forest). Estos modelos se seleccionaron por su uso recomendado y sostenido en el tiempo, tanto para el aprendizaje automático de tareas de clasificación(11,12) como en la salud pública y la investigación en ciencias del comportamiento.(13-16)

Para probar el rendimiento de los modelos, se utilizó la matriz de confusión, en busca de un indicador de precisión y error. Se calculó el área bajo la curva característica operativa del receptor (ROC (AUC), por sus siglas en inglés), utilizada como indicador de precisión.

La curva ROC es un gráfico de la tasa de positivos verdaderos de la prueba (eje Y), frente a la correspondiente tasa de positivos falsos (eje X); es decir, sensibilidad frente a especificidad. De manera simplista, AUC es la posibilidad de que una observación seleccionada al azar de que una adolescente tuvo un embarazo se clasifique como esa.(17)

Se determinó la importancia de los predictores en el modelo mejor de los encontrados. Para analizar y procesar los datos se utilizaron los programas para IBM SPSS 26.0, R) con su interfaz R Studio), y Python con su interfaz (la aplicación Google Colaboratory con las “bibliotecas” necesarias: pandas, SciPy, keras, NumPy, scikitlearn, TensorFlow).

La investigación se apegó a los aspectos éticos establecidos en la Declaración de Helsinki.(18) Se siguieron las normas de confidencialidad establecidas para garantizar el uso de la información solo con fines científicos, sin divulgar datos específicos de los participantes en el estudio.

RESULTADOS

Los embarazos ocurrieron en 1 830 (10,90 %) de las 16 825 adolescentes entre 12 y 19 años de edad estudiadas (Tabla 1).

Tabla 1 - Distribución de la variable embarazo en la adolescencia

Embarazo en la adolescencia	Frecuencia	Porcentaje
No	1 4995	89,10
Sí	1 830	10,90
Total	16 825	100,00