Nuestros cursos:

Nuestros cursos:

5 A modo de cierre

Este trabajo conjuga la integración de datos multiómicos, es decir, aquellos que se centran en el estudio de las interacciones de los distintos factores que definen a un sujeto, tales como su genética y su epigenética. En la elaboración de los resultados se recurrió al uso y desarrollo de la IA, considerando estos dos parámetros: a) el enfoque de la medicina frente a grandes y complejos conjuntos de datos junto con las herramientas informáticas necesarias para procesarlos en el menor tiempo posible; b) la identificación de patrones que permitiesen obtener clasificaciones o predicciones con mayor precisión. Al momento de realizar ensayos clínicos, el tiempo que se pierde en la codificación de los datos médicos es muy grande. Las herramientas de la IA, por su parte, permiten acelerar y obtener una pesquisa más rápida e inteligente de aquellos datos nuevos o de mayor importancia.

Para el uso de la IA se deben respetar los siete principios éticos[1] que se mencionan a continuación: 1) intervención y supervisión humana en su aplicación y uso, 2) garantía de solidez y seguridad técnica, 3) protección en la privacidad y gestión de los datos, 4) transparencia, 5) diversidad y no discriminación, 6) bienestar social y medioambiental, y 7) rendición de cuentas.

Se partió de un universo con 400 casos y 2200 controles. Se utilizó un cuestionario con 849 variables y se evaluaron los resultados mediante machine learning y algoritmos de aprendizaje supervisado y no supervisado. El objetivo fue encontrar las variables con mayor asociación al riesgo de desarrollar enfermedad neoplásica. Posteriormente, la herramienta Azure de Microsoft identificó ocho tipos de cáncer con mayor influencia en función de la cantidad de casos en la muestra, los cuales se denominaron variables target u objetivo. Esta selección no se pudo hacer directamente con las encuestas, debido al gran número de encuestadores presenciales que participaron en la recolección de los datos.

Para ello, en una primera instancia se utilizaron ocho variables objetivo versus 88 variables independientes, se omitieron los antecedentes familiares y la medicación (véase listado 1 en Anexo II). Por otro lado, en un segundo momento, se incluyeron las variables relacionadas con estos ítems. El análisis se hizo entre ocho variables objetivo versus 849 variables independientes (véase listado 2 en Anexo II).

Para lograr un modelo adecuado que permita obtener patrones o clasificaciones verdaderas, se deben etiquetar correctamente los datos del conjunto. Al no haber un trabajo previo similar en cuanto al conjunto de datos, estos se tuvieron que “normalizar o codificar”. De igual manera se tuvo que proceder con los valores para las variables dependientes y armar los “dataset” necesarios para que los algoritmos de la IA pudiesen procesarlos. Se utilizaron protocolos ya estandarizados por la Organización Mundial de la Salud para codificar los cánceres, enfermedades (CIE-10) y los medicamentos.

En agosto de 2022, se obtuvieron los resultados del primer análisis. El estudio de los resultados llevó a ampliar el conjunto de datos, codificando los apartados antecedentes personales y medicación, para evaluar si los nuevos cruces de variables arrojarían nuevos datos con mayor correlación entre las variables objetivo y las independientes.

Cuando se diseñó este trabajo poco se conocía acerca de los análisis por aprendizaje automático en medicina; sin embargo, en un tiempo ulterior esa información fue evolucionando y, actualmente, las publicaciones sobre este tipo de procesamiento son variadas. A pesar de ello, todas estas están fundadas en bases de datos públicas. Algunas de ellas, disponibles para estudios de cáncer, son: The Cancer Genome Atlas (TCGA), el banco de tumores de Rotterdam, Taxonomía Molecular del Consorcio Internacional del Cáncer de Mama (METABRIC, por su sigla en inglés), el conjunto de datos MITOS-ATYPIA-14, Tumor Proliferation Assessment Challenge (TUPAC) 2016 dataset, INbreast database, Lung Image Database Consortium and Image Database Resource Initiative (LIDC-IDRI) datasets, Lung Nodule Analysis (LUNA16) dataset, Breast Cancer Histopathological Image Classification (BREASTHIs) dataset 2015, Bioimaging conjunto de datos de detección de metástasis de cáncer en ganglios linfáticos (CAMELYON, por su sigla en inglés), conjunto de datos PatchCamelyon, base de datos TCGA. Por otra parte, a nivel local no existen trabajos con este precedente (116, 119).

En el caso del aprendizaje supervisado, se puede entrenar al algoritmo a través de la carga de datos de los pacientes diagnosticados mediante un profesional de la salud y garantizar su validación. Esto permitirá que, ante nuevos datos, el modelo de aprendizaje automático los analice de manera independiente, lo que hace posible la comparación de resultados.

Gracias al desarrollo de este trabajo, el aprendizaje supervisado demostró la validez del entrenamiento, más allá de que los resultados no fueron del todo novedosos. En la información dada por el “Aprendizaje supervisado”, pudo observarse que las resultantes del primer y segundo análisis fueron similares, por eso no se incluyeron en el presente trabajo. Este entrenamiento se utiliza para predicción y diagnóstico, y los mejores modelos son super vector machine y random forest (120, 121).

Los análisis de los datos de las encuestas mediante entropía y correlación positiva por aprendizaje no supervisado confirman los datos bibliográficos y, por lo tanto, validan el método de análisis utilizado. A pesar de lo anterior, se menciona que no han generado aportes de significancia al conocimiento sobre nuevos predictores de enfermedad neoplásica.

Estos resultados coinciden en que las variables target comparten las variables: IMC, peso, estatura, edad, consumo de cigarrillos, consumo de carnes blancas y rojas y los antecedentes familiares. Estos resultados coinciden con los obtenidos mediante aprendizaje supervisado.

Los dos análisis realizados mediante el modelo de correlación negativa por aprendizaje no supervisado aportaron datos relevantes, mostraron que aquellas acciones consideradas en un principio como preventivas del desarrollo de enfermedades neoplásicas en realidad también son factores predisponentes.

Es de resaltar que la correlación positiva da como resultados aquellas variables más afines a la variable objetivo, mientras que la correlación negativa muestra aquellas variables que se contraponen a las variables objetivo, es decir, las acciones que se realizan como contramedidas.

Se encontró que las siguientes variables se reiteran para cada variable objetivo: consumo de carnes rojas y blancas en cualquiera de su forma de cocción, y la cantidad que se consume de ellas; exposición solar; consumo de azúcar y edulcorantes, aceites, legumbres, encurtidos, frutas peladas; actividad física; y anticonceptivos orales. Estas variables aparecen en un doble rol, como protectores y como predisponentes para el desarrollo de enfermedad neoplásica. Se podrían explicar estos resultados desde la hormesis,[2] es decir, aquellos elementos que en bajas dosis tienen efectos protectores, mientras que en dosis altas producen efectos adversos.

Actualmente, el cáncer se considera una consecuencia de interacciones complejas entre el genoma y el ambiente. Las alteraciones genéticas y epigenéticas son dos mecanismos independientes que participan en su aparición y progresión. La desregulación epigenética de los procesos de transcripción y traducción de genes mutados, que están relacionados con el mecanismo del ciclo celular, da como resultado el crecimiento descontrolado de las células tumorales.

Los mecanismos epigenéticos regulan la expresión de los genes sin alterar las secuencias de bases del ADN. Esto establece un vínculo entre las influencias ambientales y genéticas que determinan el fenotipo. Además, las células desarrollan patrones epigenéticos especializados que son esenciales para su función y diferenciación.

Las histonas sufren numerosas modificaciones postradicionales, como metilación, desmetilación, acetilación, desacetilación, fosforilación, ubiquitinación.

El nivel de metilación, ya sea de tipo hipo o híper, está influenciado por factores internos y externos, tales como los hidrocarburos aromáticos policíclicos (HAP), un grupo amplio de sustancias químicas diferentes que se forman principalmente durante la combustión incompleta de materia orgánica. Algunos de estos tienen definidas sus propiedades carcinogénicas, mutagénicas y teratogénicas. Los HAP presentes en los alimentos representan un riesgo potencial para el consumo de alimentos contaminados. El benzo[a]pireno (BaP) es uno de los primeros carcinógenos descubiertos, y se lo encuentra por ejemplo en el humo del cigarrillo (122, 123, 124). Estos compuestos pueden unirse al ADN y formar aductos que darían como resultado causantes de mutaciones, lo cual aumenta las posibilidades de padecer cáncer (125). Existen estudios realizados sobre los alimentos que analizaron, por ejemplo, el consumo de pescados provenientes de criaderos. Si bien este alimento es considerado una fuente principal de nutrientes, podría presentar dada su procedencia niveles de toxicidad, debido a la influencia de la contaminación ambiental. También está la alerta sobre el consumo de pescados de gran porte que poseen bioacumulación de compuestos orgánicos en su carne. Con las frutas y verduras y consumo de agua ocurre algo similar. La recomendación para aquellos que quieren evitar la exposición a estos químicos y tóxicos es que consuman frutas y verduras orgánicas, de origen certificado, y evitar el consumo de carnes, utilizando barreras aislantes en aquellas actividades laborales en donde puedan verse expuestos (126, 127).

También el azúcar y los edulcorantes son ampliamente consumidos y no existe un consenso sobre la genotoxicidad o el vínculo de estos compuestos con el cáncer. En cualquier caso, vale destacar algunos como el aspartamo, acesulfamo-K que han sido señalados como genotóxicos (128).

Un factor interno muy importante y que explica algunas de las variables encontradas son los radicales libres, especies químicas que poseen uno o más electrones desapareados, capaces de existir en forma independiente y que se producen en todas las células. En la actividad física de alto rendimiento, la sobreproducción de radicales libres por las mitocondrias puede generar una baja de los niveles de las defensas antioxidantes existentes en el organismo humano y ello puede conllevar daño de los tejidos debido al desbalance entre las defensas antioxidantes y los radicales libres, lo que genera, finalmente, estrés oxidativo (129, 130, 131).

Otro factor es el ejercicio físico, que provee beneficios desde lo corporal y, también, a la psiquis. Entre estos encontramos: a) control de peso, b) reducción del riesgo de padecer enfermedades y afecciones (diabetes, presión arterial, entre otros), c) promueve el vínculo social, d) a nivel del medio interno: ayuda al estado anímico, al ciclo de sueño-vigilia (ritmo circadiano), entre otros. Como factor predisponente es aplicable en el ejercicio de alto rendimiento, que trae posibles secuelas (en el largo plazo) sobre el estado de salud del individuo debido a ser un inductor del estrés oxidativo, que se define como una situación de desequilibrio frente a un aumento de especies reactivas de oxígeno o una disminución de antioxidantes (132).

En cuanto a la exposición solar, los rayos UVB colaboran con a) el ritmo circadiano, b) mejoran el rendimiento cognitivo, c) reducen la irritabilidad y la fatiga crónica, d) contribuyen con la producción de la vitamina D, entre otros. Como factor predisponente, Merrill y Frutos (133) explican en su publicación la asociación entre la exposición solar (los rayos UVB) y la producción de la vitamina D con el linfoma de Hodgkin. Ellos aseveran que la exposición a los rayos ultravioleta B permite que el sistema tegumentario sintetice mayor cantidad de vitamina D. Las alteraciones de la producción de esta vitamina están dadas por el rango etario avanzado de los sujetos de la muestra y la raza, ya que, a mayor pigmentación, menor capacidad para producir la vitamina. La evidencia existente entre la exposición solar con el linfoma de Hodgkin demuestra que la vitamina D inducida por los rayos UVB no es un factor protector.

Entre los factores biológicos, se ha demostrado que las hormonas estrógeno y progesterona, sintetizadas por el organismo, estimulan la formación y la proliferación de tumores cancerígenos (p. ej., cánceres que expresan receptores para estas hormonas: el cáncer de seno). Los anticonceptivos son análogos sintéticos de estas hormonas y también podrían aumentar el riesgo de cáncer, como el de cuello uterino (cáncer cervical), al cambiar la susceptibilidad de las células de este a causa de una infección persistente por los tipos de HPV (virus del papiloma humano). Como protectores pueden a) mejorar afecciones de la piel (acné), b) disminuir el riesgo de padecer cáncer de ovario y de endometrio, c) disminuir el dolor menstrual y regular los ciclos ováricos y menstruales, disminuir la probabilidad de embarazo extrauterino, d) ofrecer un efecto protector a los riesgos de algunos cánceres, como la supresión de la proliferación de las células del endometrio (cáncer de endometrio); reducción del número de ovulaciones que experimenta una mujer en su vida, lo cual reduciría la síntesis de las hormonas estrógeno y progesterona (cáncer de ovario) (134).

Finalmente, Gallagher (135) concluye que los factores predisponentes de cáncer se encuentran más vinculados a una mayor exposición a drogas, químicos, radiación o infecciones; afirmación con la que coincido, puesto que se demostró a partir de los resultados de la correlación negativa que pueden ser factores predisponentes a la enfermedad neoplásica, aunque se tenga el preconcepto de que en realidad son protectores.

Se observa en la evolución de la inteligencia artificial que es una tecnología capaz de simular procesos de la inteligencia del ser humano, tales como el aprendizaje, la autocorrección y el razonamiento gracias a que los algoritmos funcionan emulando las redes neuronales del cerebro humano. Esto resulta clave al aplicar esta tecnología en el ámbito de la salud, de modo que se contribuye en el avance de la medicina, lo que beneficia tanto a los pacientes como a todos los profesionales de la salud.

Desde sus inicios, la aplicación experimental de la IA permitió analizar la información sanitaria como herramienta para gestionar los datos de los pacientes. Muchos de los avances en diagnóstico y pronóstico de enfermedades, como por ejemplo, las infecciosas, renales y reumatológicas, se lograron gracias al procesamiento e interpretación de imágenes por medio de la IA como, así también, la predicción de posibles reacciones adversas o bien la buena adhesión de un paciente al tratamiento propuesto. Estos avances también permiten dar un paso adelante y conocer los factores predisponentes para desarrollar medidas de prevención con el consiguiente beneficio de un diagnóstico precoz.

Con los resultados de los entrenamientos por aprendizaje supervisado y no supervisado se corroboraron los datos ya conocidos que validaron estas herramientas sobre su eficacia y eficiencia. Dentro de estos análisis, el aporte significativo obtenido por aprendizaje no supervisado fue el de la correlación negativa al demostrar que aquellas medidas que se supone son protectoras en realidad podrían convertirse en predisponentes, lo que revela la importancia de los contaminantes orgánicos sobre los alimentos, mayor exposición a drogas, químicos, radiación o infecciones.

Otros de los beneficios del aprendizaje automático son: facilitar las decisiones clínicas de los profesionales de la salud, contribuir de manera significativa a la prevención y a la detección temprana de enfermedades; y durante el proceso de formación de los profesionales, establecer nuevas formas de estudiar los datos obtenidos (para los que la lógica no tiene alcance), generar regulaciones para el uso de la inteligencia artificial en la medicina, reducir costos y, por sobre todo, elevar la calidad de la atención sanitaria y, en consecuencia, mejorar la calidad de vida de los usuarios.

Con este trabajo se buscaron nuevos factores predisponentes de enfermedad neoplásica. Se considera que todos los modelos desarrollados podrían resultar una herramienta potencialmente útil que permitiría obtener la ventaja del manejo de un gran número de variables y la disminución del tiempo de análisis.

Es primordial remarcar que para este trabajo se usó una base de datos propia, inclusive en la región, lo cual nos permite marcar un precedente.


  1. Comisión Europea (2018), https://tinyurl.com/2t3aac4m.
  2. Hormesis (del griego hormaein −estimular−, del prefijo horm deviene hormona) fue definida como la respuesta bifásica en que ciertos agentes químicos y físicos afectan a los seres vivos: dosis bajas provocan efectos “favorables”, dosis altas provocan efectos “adversos”. http://www.scielo.org.ar/scielo.php?script=sci_arttext&pid=S0025-76802005000100017.


Deja un comentario