Nuestros cursos:

Nuestros cursos:

4 Resultados de aprendizaje no supervisado

Figura 7. Primer y segundo análisis de resultados

Fuente: elaboración propia.

Primer análisis

4.1. Reducción de dimensionalidad

En el marco de este estudio, se aplicaron diversas técnicas de aprendizaje no supervisado para analizar y seleccionar las variables más relevantes. El primer paso consistió en realizar un análisis de reducción de dimensionalidad, con el fin de simplificar el conjunto de datos sin perder información esencial. Dentro de este proceso, se emplearon dos enfoques principales:

  1. Selección de variables por entropía de Shannon, que permitió identificar aquellas variables más informativas en función de su grado de incertidumbre.
  2. Análisis de correlación, donde se realizaron dos tipos de análisis:
    • Correlación positiva, para identificar las variables que mostraban una relación directa.
    • Correlación negativa, que permitió detectar variables con relaciones inversas.

Posteriormente, se utilizó el algoritmo de clustering (k-means) para agrupar las variables y observar patrones o similitudes entre ellas. En esta fase, se repitieron tanto la selección de variables por entropía de Shannon como el análisis de correlación. A continuación, se presentan los resultados detallados de estas selecciones y análisis.

4.1.1. Variables seleccionadas por entropía de Shannon (teoría de la información)

Se presenta el ranking de las quince variables que más información aportan a las variables objetivo.

Descripción de las variables por diagnóstico
Figura 8. Gráfico de distribución de frecuencia según la entropía del cáncer de colon

Para el cáncer de colon las variables con mayor relación en entropía son: consumo acumulado de cigarrillos, tiempo de fumador, exposición al sol en horas por mes. En las variables de hábitos alimentarios: carnes rojas cocidas, plancha, horno, parrilla, guiso al mes, carnes blancas cocidas a la parrilla al mes y consumo de bananas, naranjas, mandarinas, peras y manzanas al mes.

Figura 9. Gráfico de distribución de frecuencia según la entropía del cáncer de pulmón

Para el cáncer de pulmón las variables con mayor relación en entropía son: consumo acumulado de cigarrillos, tiempo de fumador, exposición al sol en horas por mes e hijos. En las variables de hábitos alimentarios: consumo de agua embotellada al mes, carnes rojas cocidas en plancha, guiso al mes, carnes blancas cocidas a la parrilla al mes y consumo de bananas, naranjas, mandarinas, peras y manzanas al mes.

Figura 10. Gráfico de distribución de frecuencia según la entropía del cáncer de piel

Para el cáncer de piel las variables con mayor relación en entropía son: consumo acumulado de cigarrillos, exposición al sol en horas por mes. En las variables de hábitos alimentarios: consumo de carnes rojas y blancas cocidas en plancha, guiso, horno, parrilla al mes, y consumo de aceite de girasol en las comidas.

Figura 11. Gráfico de distribución de frecuencia según la entropía del cáncer de mama

Para el cáncer de mama las variables con mayor relación en entropía son: consumo acumulado de cigarrillos, exposición al sol en horas por mes y en menor relevancia realización de estudios diagnósticos. En las variables de hábitos alimentarios: consumo de carnes rojas cocidas en plancha, guiso, horno y parrilla al mes, consumo de carnes blancas cocidas en guiso y a la plancha al mes.

Figura 12. Gráfico de distribución de frecuencia según la entropía del cáncer de cuello de útero

Para el cáncer de cuello de útero las variables con mayor relación en entropía son: consumo acumulado de cigarrillos, exposición al sol en horas por mes. En las variables de hábitos alimentarios: consumo de agua embotellada al mes, carnes rojas cocidas en plancha, horno y guiso al mes, carnes blancas cocidas en guiso y a la plancha al mes.

Figura 13. Gráfico de distribución de frecuencia según la entropía del cáncer de próstata

Para el cáncer de próstata las variables con mayor relación en entropía son: consumo acumulado de cigarrillos, exposición al sol en horas por mes y en menor relevancia tiempo de fumador. En las variables de hábitos alimentarios: consumo de agua embotellada al mes y consumo de carnes rojas cocidas en plancha, guiso, parrilla, horno y fritas al mes, carnes blancas cocidas en guiso y a la plancha al mes.

Figura 14. Gráfico de distribución de frecuencia según la entropía del cáncer linfoma

Para el linfoma las variables con mayor relación en entropía son: consumo acumulado de cigarrillos, exposición al sol en horas por mes. En las variables de hábitos alimentarios: consumo de aceites y carnes rojas cocidas en guiso, plancha, horno y parrilla al mes, carnes blancas cocidas en guiso, plancha y a la parrilla al mes y consumo de manzanas y bananas al mes.

Figura 15. Gráfico de distribución de frecuencia según la entropía de leucemia

Para leucemia las variables con mayor relación en entropía son: exposición al sol en horas por mes y consumo acumulado de cigarrillos. En las variables de hábitos alimentarios: consumo de aceites y aceites en las comidas, mariscos y carnes rojas cocidas en la plancha y parrilla al mes, carnes blancas cocidas en guiso, plancha y al horno al mes y consumo de manzanas al mes.

4.1.2. Variables seleccionadas por análisis de correlación

  • Correlación positiva (se usa la correlación estadística)

Se presentan las quince variables con la mejor correlación positiva respecto al diagnóstico positivo de cada tipo de cáncer.

Descripción de las variables por diagnóstico
Figura 16. Gráfico de distribución de frecuencia según la correlación positiva del cáncer de colon

La correlación positiva entre las variables en estudio con la variable objetivo muestra las de mayor importancia, las cuales son: edad, número de hijos, sexo masculino y tiempo como fumador, consumo de bebidas embotelladas, consumo acumulado de cigarrillos y de pan. Entre las variables finales del ranking están: antecedentes personales de leucemia, consumo de carnes rojas fritas al mes, antecedente personal de cáncer de mama y uso de manos libres con el celular.

Figura 17. Gráfico de distribución de frecuencia según la correlación positiva
del cáncer de pulmón

La correlación positiva entre las variables con el cáncer de pulmón muestra que las de mayor importancia son: consumo acumulado de cigarrillos, número de hijos, edad, consumo de cereales y hortalizas, antecedentes personales de cáncer de colon, cuello de útero y mama, tiempo como fumador, consumo de frutas con cáscara y naranjas al mes.

Entre las variables finales del ranking están: consumo de edulcorantes y aceite de oliva. También está uso del DIU como método anticonceptivo.

Figura 18. Gráfico de distribución de frecuencia según la correlación positiva del cáncer de piel

La correlación positiva entre las variables con el cáncer de piel muestra que las de mayor importancia son: consumo de aceite de girasol, cereales, frutas con cáscara y manzanas al mes, antecedente personal de cáncer de próstata y mama, portar el celular en la cartera y consumo de edulcorante.

Entre las variables finales del ranking están: consumo de carnes blancas y rojas en guiso, carnes rojas a la plancha, uso de las manos libres con el celular, sexo masculino y antecedente personal del cáncer de cuello de útero.

Figura 19. Gráfico de distribución de frecuencia según la correlación positiva del cáncer de colon

La correlación positiva entre las variables con el cáncer de mama muestra que las de mayor importancia son: sexo femenino, edad, número de hijos, antecedente personal de cáncer de colon, uso de sahumerios al mes, uso de edulcorantes, consumo de hortalizas, cereales, consumo de carnes blancas en guiso y de frutas y manzanas con cáscara al mes.

Entre las variables finales del ranking están: consumo de naranjas al mes y uso del DIU como anticonceptivo.

Figura 20. Gráfico de distribución de frecuencia según la correlación positiva
del cáncer de cuello de útero

La correlación positiva entre las variables con el cáncer de cuello de útero muestra que las de mayor importancia son: edad, sexo femenino, uso de sahumerios al mes, número de hijos, uso de edulcorantes, consumo de hortalizas, cereales, consumo de carnes blancas en guiso y de frutas y manzanas con cáscara al mes, antecedente personal de cáncer de mama, consumo de bebidas embotelladas.

Entre las variables finales del ranking están: antecedente personal de cáncer de pulmón, consumo de peras al mes y uso de aceite de girasol.

Figura 21. Gráfico de distribución de frecuencia según la correlación positiva del cáncer de colon

La correlación positiva entre las variables con el cáncer de próstata muestra que las de mayor importancia son: edad, peso, estatura, número de hijos, tiempo de fumador, consumo de aceite de girasol, consumo acumulado de cigarrillos, portar el celular en la cartera, consumo de carnes rojas al mes y bebidas embotelladas.

Entre las variables finales del ranking están: uso del preservativo, consumo de carnes rojas en guiso al mes y realización de radiografías dentales.

Figura 22. Gráfico de distribución de frecuencia según la correlación positiva del cáncer linfoma

La correlación positiva entre las variables con el linfoma muestra que las de mayor importancia son: sexo masculino, consumo de cereales, bebidas saborizadas y light, realización de radiografías dentales, estatura, cantidad de comidas al día, consumo de carnes rojas en guiso por mes y edad.

Entre las variables finales del ranking están: antecedente personal del cáncer de colon, uso de manos libres con el celular, consumo de manzanas con cáscara al mes, comidas bajas en sal, carnes rojas fritas y carnes blancas en guiso al mes.

Figura 23. Gráfico de distribución de frecuencia según la correlación positiva de leucemia

La correlación positiva entre las variables con la leucemia muestra que las de mayor importancia son: antecedente personal de linfoma y cáncer de mama, consumo de frutas, peras y manzanas con cáscara al mes, uso de sahumerios al mes y dormir con el celular.

Entre las variables finales del ranking están: desconocimiento sobre el uso de anticonceptivos, consumo de edulcorantes, bebidas saborizadas, cereales y consumo de carnes blancas en guiso por mes, portar el celular en la cartera.

  • Correlación negativa

Se presentan las quince variables que muestran la mejor correlación negativa con el diagnóstico de cada tipo de cáncer.

Descripción de las variables por diagnóstico
Figura 24. Gráfico de distribución de frecuencia según la correlación negativa del cáncer de colon

La correlación negativa entre las variables con el cáncer de colon muestra que las de mayor importancia son: estudios diagnósticos, sexo femenino, exposición a la luz solar al mes, uso de anticonceptivos orales, consumo de mariscos, dormir con el celular y ejercicio físico al mes.

Entre las variables finales del ranking están: consumo de té al mes, golosinas, frutas peladas y otras frutas al mes, uso de anticonceptivo DIU y frecuencia de radiografías.

Figura 25. Gráfico de distribución de frecuencia según la correlación negativa
del cáncer de pulmón

La correlación negativa entre las variables con el cáncer de pulmón muestra que las de mayor importancia son: estudios diagnósticos, uso de anticonceptivos orales, ejercicio físico al mes, consumo de carnes rojas al horno y carnes blancas fritas al mes, consumo de azúcar y bebidas light y dormir con el celular.

Entre las variables finales del ranking están: consumo de pan, bebidas blancas al mes, carnes rojas fritas y mariscos en guiso al mes, IMC y peso.

Figura 26. Gráfico de distribución de frecuencia según la correlación negativa del cáncer de piel

La correlación negativa entre las variables con el cáncer de piel muestra que las de mayor importancia son: exposición a la luz solar al mes, consumo de carnes blancas y rojas al horno por mes, estudios diagnósticos, uso de preservativos, consumo de legumbres, facturas, frutas peladas al mes y ejercicio físico al mes.

Entre las variables finales del ranking están: peso (en kg del sujeto), uso de azúcar, golosinas, aceites, manzanas peladas al mes y frecuencia de radiografías dentales.

Figura 27. Gráfico de distribución de frecuencia según la correlación negativa
del cáncer de mama

La correlación negativa entre las variables con el cáncer de mama muestra que las de mayor importancia son: sexo masculino, estudios diagnósticos, estatura, uso de anticonceptivos orales, consumo de aceites, azúcar, uso de aceites en comidas, consumo de carnes rojas al horno, facturas y peso.

Entre las variables finales del ranking están: realización de ejercicio físico al mes, no endulzar las infusiones, consumo de carnes blancas al horno por mes y consumo de pan.

Figura 28. Gráfico de distribución de frecuencia según la correlación negativa
del cáncer de cuello de útero

La correlación negativa entre las variables con el cáncer de cuello de útero muestra que las de mayor importancia son: sexo masculino, estudios diagnósticos, peso, consumo de facturas, legumbres, carnes rojas al horno al mes y peso.

Entre las variables finales del ranking están: consumo de aceites, carnes rojas a la parrilla por mes, uso de azúcar, pan, aceites en las comidas, uso de anticonceptivo orales e IMC.

Figura 29. Gráfico de distribución de frecuencia según la correlación negativa
del cáncer de próstata

 

La correlación negativa entre las variables con el cáncer de próstata muestra que las de mayor importancia son: estudios diagnósticos, consumo de azúcar, frutas, bananas peladas y manzanas con cáscara al mes, carnes blancas al horno por mes, cantidad de comidas, consumo de té al mes, dormir con el celular y horas de exposición al sol por mes.

Entre las variables finales del ranking están: ejercicio físico en horas al mes, consumo de legumbres y uso de DIU.

Figura 30. Gráfico de distribución de frecuencia según la correlación negativa del cáncer linfoma

La correlación negativa entre las variables con el linfoma muestra que las de mayor importancia son: consumo de aceite y en las comidas, estudios diagnósticos, sexo femenino, horas de exposición al sol por mes, frutas y bananas peladas al mes, legumbres, uso de anticonceptivos orales y frecuencia de radiografías.

Entre las variables finales del ranking están: consumo de manzanas y peras peladas al mes, aceite de oliva y de girasol, consumo de carnes rojas a la parrilla al mes.

Figura 31. Gráfico de distribución de frecuencia según la correlación negativa de leucemia

La correlación negativa entre las variables con la leucemia muestra que las de mayor importancia son: edad, uso de preservativos, estudios diagnósticos, exposición al sol en horas al mes, número de hijos, consumo de azúcar, galletas y carnes rojas al horno por mes.

Entre las variables finales del ranking están: consumo de aceites y legumbres, IMC, uso de anticonceptivos orales, tiempo de fumador y cantidad acumulada de cigarrillos.

4.2. Algoritmo de agrupamiento (clúster)

Al conjunto de datos se lo agrupa según criterios de distancia (acorde con el centroide).

  • K-means

Se divide el conjunto de datos en k grupos. Cada grupo se asocia a un centroide y los datos se corresponden con el centroide más cercano. Cada centroide representa el promedio de los elementos de cada uno de los k grupos (de ahí el nombre de la variable “k-means”).

Este algoritmo no hace ningún tipo de análisis respecto de los casos de diagnóstico positivo o negativo de cáncer, sino que, simplemente, agrupa a los pacientes en k grupos según diferentes pares de variables elegidas. El valor agregado que le da interés a este trabajo está en intentar superponer los diagnósticos positivos con alguno de los k grupos, en caso de ser posible.

Para que el resultado tenga mayor interés y valor semántico, los pacientes se dividen en k=4 grupos. En general, cada grupo corresponderá con valores bajos o altos en una y otra variable, respectivamente.

Posteriormente, se busca que, para cada tipo de cáncer, todos los casos correspondientes se agrupen en una única categoría. De este modo, los resultados serán del tipo: “Todos los casos diagnosticados como positivos para el cáncer ‘x’ presentan un valor bajo en el atributo ‘y’ y alto en el atributo ‘z’”.

En el caso de variables dicotómicas, en lugar de emplear los términos “alto” o “bajo”, resulta más adecuado utilizar “sí” o “no”, según corresponda.

En algunos casos, se visualiza que alguna variable presenta valor nulo, sin ser dicotómica y, por ello, se coloca “no” en lugar de “bajo”, ya que ofrece un resultado más enriquecedor.

Para la selección de variables en el armado de clústeres, se prueban todas las combinaciones de pares de variables que fueron seleccionadas según los criterios expuestos en el capítulo anterior. El resultado se presenta siguiendo este mismo criterio: primero, se mostrarán los resultados de clustering con las variables seleccionadas por entropía, luego aquellos basados en la correlación positiva y, finalmente, los de correlación negativa. En cada caso, se presentarán combinaciones destacables para cada tipo de cáncer que se analiza, siempre que alguna combinación cumpla los requisitos previamente establecidos.

  • K-means con variables seleccionadas con entropía

A continuación, se presenta un listado por tipo de cáncer, indicando si existen combinaciones de variables seleccionadas por entropía de Shannon, donde todos los casos diagnosticados como positivos están totalmente incluidos dentro de un mismo tipo de cáncer.

La separación en cuatro grupos se realizó con base en los siguientes criterios:

  1. Proximidad entre los datos (criterios de cercanía).
  2. Valores altos o bajos en dos variables, lo que da como resultado las cuatro combinaciones o grupos posibles, representados en la gráfica con los colores verde, rojo, azul y fucsia. Estos colores son asignaciones jerárquicas y ejemplifican los valores agrupados por el algoritmo, representan una escala nominal.

Esta clasificación permite una mayor especificidad en el análisis. No se optó por dividir en dos o tres grupos porque la información obtenida era trivial; por ejemplo, en el caso del cáncer de próstata, todos los datos recaerían en el sexo masculino.

En las gráficas, los puntos negros representan los casos de este tipo de cáncer incluidos en la muestra, mientras que las estrellas señalan el centroide de cada grupo (centro de masa), es decir, la media de los datos (promedio).

Figura 32. Clustering de diversas variables

En las gráficas correspondientes al cáncer de próstata y linfoma (entropía), se observa la agrupación de datos basada en medidas de distancia, específicamente la distancia euclidiana o norma euclidiana (la distancia entre dos puntos de una gráfica). Además, los datos están escalados, lo que significa que han sido normalizados para garantizar que la distancia euclidiana sea coherente.

Figura 33. Clustering para estudiar cáncer de próstata y linfoma

La dicotomía “poco” o “mucho” para una variable indica que, del 100 % de los casos de todos los tipos de cáncer, se puede determinar a qué grupo pertenece cada uno. Esto significa que, para un tipo específico de cáncer, todos los pacientes comparten valores categorizados como “poco” o “mucho” respecto a una variable determinada. Sin embargo, esta clasificación no implica causalidad; simplemente es una característica descripta observada en los datos.

Para algunos cánceres, esta herramienta se encontró con ciertas variables que no pudo encasillar, por lo que simplemente las eliminó. Por ejemplo, en el C-34 (cáncer de pulmón) desestimó la variable “cigarrillos acumulados”, ya que esta variable estaba tanto en el grupo de los fumadores activos como en el de fumadores pasivos.

Otra observación a partir de las tablas con los resultados (ver tablas por diagnóstico en Anexo III) muestra que todos los casos positivos de cáncer tienen siempre “poco” de las dos variables combinadas por clustering. Lo mencionado anteriormente se aplica tanto a la entropía como a la correlación positiva y negativa.

La separación en cuatro grupos aleatorios planteados por la herramienta k-means acorde con los criterios de cercanía muestra que la dispersión de los cánceres siempre da “pocos” entre las variables seleccionadas y que esto se atribuye al número de casos analizados. Como se pensó que este resultado del primer análisis podía ser un sesgo, se eliminaron las restricciones al algoritmo (sin límite en la toma de datos). Sin embargo, no se registraron cambios significativos.

Se puede concluir que este tipo de algoritmo no aporta información relevante, por lo que no se aplicó en el segundo análisis.

Segundo análisis

4.3. Reducción de dimensionalidad

4.3.1. Entropía de Shannon

Se presenta un ranking con las veinte variables que más contribuyen en términos de información a las variables objetivo asociadas con los diferentes diagnósticos de cáncer.

Figura 34. Gráfico de distribución de frecuencia según la entropía del cáncer de colon

Para el cáncer de colon las variables con mayor relación en entropía son: consumo acumulado de cigarrillos, consumo de bebidas sin alcohol en litros por mes, seguido por cantidad de ejercicios en horas por mes. Asimismo, se observa no uso de bloqueadores solares, consumo de vasos al mes de vino. Por último, se observa que las últimas cinco variables de menor influencia para este cáncer son: uso de medicamentos hipertensivos, consumo al mes de frutas, consumo de encurtidos, cantidad de pan y antecedente personal de sufrir hipertensión arterial.

Figura 35. Gráfico de distribución de frecuencia según la entropía del cáncer de pulmón

En el cáncer de pulmón las variables que más se relacionan con la entropía son: consumo acumulado de cigarrillos, consumo de bebidas sin alcohol en litros al mes, consumo de cigarrillos (más de 40 al día). Entre las variables menos influyentes se encuentran: cantidad de radiografías, consumo de bebidas sin alcohol (más de 3 litros por semana), consumo de encurtidos al mes, consumo de comidas procesadas al mes, consumo de pescados, mariscos y legumbres al mes, ejercicio físico al mes. Finalmente aparece antecedente familiar, en la línea paterna, del cáncer de útero.

Figura 36. Gráfico de distribución de frecuencia según la entropía del cáncer de piel

En el análisis para el cáncer de piel, las variables con mayor correlación son: nunca toma sol y quienes sí toman sol seguidas por consumo acumulado de cigarrillos. Entre las variables de hábitos alimentarios están: consumo de legumbres al mes, consumo de bebidas sin alcohol en litros al mes, consumo de aceite de girasol, encurtidos, hortalizas al mes, consumo de vino en cantidad de vasos por mes. Además, se destacan las variables: ejercicio físico en horas por mes y antecedente personal de melanoma.

Figura 37. Gráfico de distribución de frecuencia según la entropía del cáncer de mama

El cáncer de mama se correlaciona con mayor intensidad con las siguientes variables: antecedentes familiares, por la línea materna, en mujeres. Luego siguen en orden de importancia: no usa anticonceptivo oral, con igual peso en el sexo femenino y el masculino, y control ginecológico cada 6 meses.

Figura 38. Gráfico de distribución de frecuencia según la entropía del cáncer de cuello de útero

El cáncer de cuello de útero se correlaciona con mayor intensidad con las variables siguientes: consumo de bebidas sin alcohol en litros por mes, legumbres al mes y que nunca consume, consumo acumulado de cigarrillos. Luego siguen en orden de relevancia las variables: no usa anticonceptivo oral y diafragma. Al final de este ranking aparecen: antecedentes familiares, línea materna, mujer con este cáncer.

Figura 39. Gráfico de distribución de frecuencia según la entropía del cáncer de próstata

Para el cáncer de próstata, se desestiman las variables que se consideran tautológicas, sin embargo, las últimas variables del ranking muestran asociación con este cáncer. Estas son: consumo acumulado de cigarrillos, consumo de bebidas sin alcohol en litros al mes y consumo de frutas al mes.

Figura 40. Gráfico de distribución de frecuencia según la entropía del diagnóstico de linfoma

 

Para el linfoma, las variables con más correlación son: consumo acumulado de cigarrillos y de aceite crudo. Seguido por exposición al sol, consumo de aceite cocido, aceite crudo en las comidas, cereales y legumbres que consume por mes, cantidad de galletas, sexo femenino. De igual manera están las variables que no se corresponden, como: control ginecológico, Papanicolaou, anticonceptivo diafragma.

Figura 41. Gráfico de distribución de frecuencia según la entropía del diagnóstico de leucemia

La leucemia es un diagnóstico que se relaciona con mayor frecuencia con las siguientes variables: consumo de carnes rojas, pescados y mariscos al mes, consumo de aceite crudo y cocido. Le siguen en orden de relevancia: uso frecuente de sahumerios en la semana, consumo de bebidas sin alcohol en litros al mes, consumo de legumbres al mes, consumo de vino en vasos o no al mes, cantidad de galletas y, por último, consumo acumulado de cigarrillos.

  • Análisis por correlación positiva

Se presentan las veinte variables con la mejor correlación positiva con el diagnóstico positivo de cada tipo de cáncer.

Figura 42. Gráfico de distribución de frecuencia según correlación positiva del cáncer de colon

La correlación positiva entre las variables con la variable objetivo muestra que las de mayor importancia son: edad, uso de medicamentos antihipertensivos arteriales, antecedente familiar, línea paterna, de cáncer de hígado, páncreas, colon, en la línea directa, cáncer de cabeza y cuello, asma, antecedente personal de hipertensión arterial y no uso de bloqueadores solares.

Figura 43. Gráfico de distribución de frecuencia según correlación positiva del cáncer de pulmón

La correlación positiva entre las variables con la variable objetivo muestra que las de mayor importancia son: edad, fuma más de 40 cigarrillos al día, cantidad de Rx, antecedente familiar, línea materna, de cáncer de encéfalo, cuello de útero, melanoma, medicamentos antihiperglucemiantes, consumo de cereales, consumo de bebidas sin alcohol (más de 3l a la semana).

Figura 44. Gráfico de distribución de frecuencia según correlación positiva del cáncer de piel

La correlación positiva entre las variables con la variable objetivo muestra que las de mayor importancia son: antecedentes familiares en la línea materna y paterna para el melanoma, asma, sarcoma de Kaposi, cáncer de riñón, gastritis crónica, consumo de bebidas sin alcohol (una botella a la semana), no toma sol, no consume aceite de girasol y legumbres.

Entre las variables finales del ranking están: antecedentes familiares en la línea directa y materna para cáncer de próstata, sarcoma de Kaposi y asma.

Figura 45. Gráfico de distribución de frecuencia según correlación positiva del cáncer de mama

La correlación positiva entre las variables con la variable objetivo muestra que las de mayor importancia son: antecedente familiar de cáncer de mama por línea materna y paterna, no realizarse controles ginecológicos y Papanicolaou cada 6 meses, no uso de anticonceptivos orales, inyectables y diafragma y antecedentes familiares de cáncer de cuello de útero.

Entre las variables finales del ranking están: antecedentes familiares de obesidad en la línea paterna y no consumo de legumbres.

Figura 46. Gráfico de distribución de frecuencia según correlación positiva
del cáncer de cuello de útero

La correlación positiva entre las variables con la variable objetivo muestra que las de mayor importancia son: antecedentes personales de tumor maligno en vagina, antecedente familiar, línea materna, de cáncer de cuello de útero y mama, nivel de estudios completo primaria, edad, no consumo de legumbres, estado civil viudo, consumo de bebidas sin alcohol (más de 3 litros a la semana y en botella), no realizarse controles de ginecología y Papanicolaou cada 6 meses. Entre las variables finales del ranking están: antecedente familiar, línea directa, de cáncer de esófago, no uso de anticonceptivos orales y antecedente familiar, línea paterna, de obesidad.

Figura 47. Gráfico de distribución de frecuencia según correlación positiva del cáncer de próstata

La correlación positiva entre las variables con la variable objetivo muestra que las de mayor importancia son: antecedente familiar, línea paterna, de cáncer de próstata, edad, uso de medicamentos hipertensivos arteriales, antecedentes familiares de hipertensión arterial y asma, consumo de más de 3 litros de bebidas sin alcohol a la semana.

Entre las variables finales del ranking están: antecedentes familiares, línea materna, cáncer de riñón, línea directa, cáncer de páncreas y línea paterna, cáncer de colon.

Figura 48. Gráfico de distribución de frecuencia según correlación positiva
del diagnóstico de linfoma

La correlación positiva entre las variables con la variable objetivo nos permite ver que las de mayor importancia son: no exposición a la luz solar, consumir cereales al mes, consumo semanal de bebidas sin alcohol, consumo de carnes blancas en guiso, no consumo de legumbres, pescados y mariscos.

Entre las variables finales del ranking están: no consumir frutas y comer cereales más de 3 veces a la semana.

Figura 49. Gráfico de distribución de frecuencia según correlación positiva
del diagnóstico de leucemia

La correlación positiva entre las variables con la variable objetivo muestra que las de mayor importancia son: antecedente familiar de reflujo gastroesofágico, cáncer de colon y leucemia por línea paterna, antecedentes de gastritis crónica y celiaquía en la línea materna, uso de sahumerios más de 3 veces a la semana, consumo de bebidas sin alcohol (más de 3 litros a la semana) y no consumir legumbres.

Entre las variables finales del ranking están: consumo de carnes rojas entre 1 y 2 veces por semana, antecedentes familiares de celiaquía, asma y de obesidad por línea materna.

  • Análisis por correlación negativa

Se presentan las veinte variables que mejor se correlacionan negativamente con el diagnóstico positivo de cada tipo de cáncer.

Figura 50. Gráfico de distribución de frecuencia según correlación negativa del cáncer de colon

Nota. El dato demográfico “estado civil soltero” muestra que hay preponderancia de sujetos solteros.

La correlación negativa entre las variables con la variable objetivo muestra que las de mayor importancia son: sexo femenino, no uso de métodos anticonceptivos (diafragma, inyectables, DIU), se realiza controles ginecológicos en intervalos menores a 6 meses, no contesta sobre el consumo de bebidas sin alcohol, exposición a la luz solar entre las 12 h y las 15 h y prebronceado, consume encurtidos, consume frutas más de 3 veces a la semana, consume carnes blancas horneadas, consume cereales, no consume carnes rojas a la plancha.

Figura 51. Gráfico de distribución de frecuencia según correlación negativa del cáncer de pulmón

Nota. El dato demográfico “estado civil soltero” solo muestra que quienes respondieron eran solteros en su mayoría.

La correlación negativa entre las variables con la variable objetivo muestra que las de mayor importancia son: no haber sido fumador, uso de preservativos y anticonceptivos orales, no consumir aceite de oliva, girasol y mezclas, no usar edulcorante, no comer bananas, naranjas y peras, no responde sobre consumo de legumbres. Adquieren mayor relevancia para este análisis las variables: consumir comidas procesadas, pescados y mariscos entre 1 y 2 veces al mes, encurtidos de 1 a 2 veces a la semana y consumir carnes rojas al horno.

Figura 52. Gráfico de distribución de frecuencia según correlación negativa del cáncer de piel

La correlación negativa entre las variables con la variable objetivo muestra que las de mayor importancia son: estudios universitarios, exposición a la luz solar (después de las 16 h), prebronceado, uso de cama solar, uso de bloqueador a veces, consumo de carnes blancas y rojas al horno, consumo de comidas procesadas, encurtidos y facturas entre 1 y 2 veces al mes, no contesta sobre consumo de cereales y legumbres, no consume carnes blancas guisadas.

Figura 53. Gráfico de distribución de frecuencia según correlación negativa del cáncer de mama

Nota. El dato demográfico “estado civil soltero” solo muestra que quienes respondieron eran solteros en su mayoría.

La correlación negativa entre las variables con la variable objetivo muestra que las de mayor importancia son: sexo masculino, estatura, no usa sahumerios. No corresponde: uso de anticonceptivos orales (inyectables, diafragma, DIU), control ginecológico cada 6 meses y estudio de Papanicolaou.

Las variables que podrían ser mayores predisponentes al cáncer son: no consumo de carnes blancas guisadas y a la plancha, ni aceite de girasol, oliva y mezcla, consumo de carnes blancas entre 2 y 3 veces a la semana.

Figura 54. Gráfico de distribución de frecuencia según correlación negativa
del cáncer de cuello de útero

La correlación negativa entre las variables con la variable objetivo muestra que las de mayor importancia son: sexo masculino, uso de preservativos, consumo de carnes rojas al horno, pescados y mariscos, consumo de facturas, encurtidos y bananas, no consumo de carnes blancas a la plancha, legumbres y no uso de edulcorante.

Figura 55. Gráfico de distribución de frecuencia según correlación negativa
del cáncer de próstata

Nota. El dato demográfico “estado civil soltero” solo muestra que quienes respondieron mayormente eran solteros.

La correlación negativa entre las variables con la variable objetivo muestra que las de mayor importancia son: sexo femenino, no uso de anticonceptivos diafragma, DIU, inyectable, oral, pero sí uso de preservativo, se realiza control ginecológico cada 6 y 12 meses o menos y se realiza el estudio Papanicolaou, no haber sido fumador, uso del celular en la cartera, consumo de manzanas, bananas, frutas, consumo de aceite cocido, no consumo de carnes rojas guisadas.

Figura 56. Gráfico de distribución de frecuencia según correlación negativa
del diagnóstico de linfoma

La correlación negativa entre las variables con la variable objetivo muestra que las de mayor importancia son: sexo femenino, consumo de aceite crudo y cocido, consumo de legumbres, peras, pescados y mariscos, bebidas sin alcohol en litros al mes, no consumo de bebidas light, carnes blancas guisadas y a la plancha, no uso de anticonceptivo DIU, inyectable, diafragma y oral.

Figura 57. Gráfico de distribución de frecuencia según correlación negativa
del diagnóstico de leucemia

Nota. El dato demográfico “estado civil casado” solo muestra que quienes respondieron mayormente eran casados.

La correlación negativa entre las variables con la variable objetivo muestra que las de mayor importancia son: edad, hijos, exposición a la luz solar, prebronceado, consumo de aceite crudo y cocido, aceite de maíz, consumo de galletas, pescados y mariscos 1 a 2 veces a la semana, legumbres, carnes rojas 2 a 3 veces a la semana, endulza con azúcar, no consumo de aceite de oliva.



Deja un comentario