Para comprender los aspectos éticos que se derivan del uso del Big Data en el campo de la salud, primero es necesario reflexionar sobre algunos factores técnicos específicos de estas nuevas tecnologías, su concepción y su configuración histórica. Así, antes de abordar directamente el levantamiento de las implicaciones de este nuevo fenómeno, parece útil aproximarse a los primeros pasos de su breve historia hasta la amplitud actual con la que se aplica en las más diversas ramas. De esta manera, se discutirá cómo algunas especificidades técnicas implican peculiaridades éticas en una forma innovadora de apropiación y procesamiento de datos.
Hasta la década de 1970, las computadoras personales aún no eran una realidad. En entornos corporativos, las máquinas con sus procesadores centrales debían terminar una tarea para iniciar otra, aunque estas fueran relativamente independientes. Este paradigma de procesamiento escalar constituyó una limitación técnica para aumentar la eficiencia de las computadoras. En ese momento, las computadoras fueron concebidas como una máquina dedicada exclusivamente al almacenamiento y análisis de datos. El progresivo aumento del flujo de datos hizo que esta solución de una estructura unitaria de procesamiento y almacenamiento perdiera practicidad. En la década de 1980, se desarrolló un sistema de base de datos paralelo basado en el efecto clúster. La arquitectura que disponía que cada máquina tuviera su propio procesador y unidades de almacenamiento hizo posible una gran expansión en la capacidad de almacenamiento. Este fue el sistema que duró hasta la década de 1990 cuando, con el desarrollo de Internet, hubo una explosión en la cantidad de datos en tránsito (Chen, Mao, Liu, 2014).
A principios de la década de los 2000, la creciente cantidad de datos se veía incluso como un problema técnico, ya que los ordenadores de la época, concebidos como dispositivos independientes que almacenaban y procesaban prácticamente toda la información a la que accedían, no tenían la capacidad suficiente para seguirle el ritmo a la cantidad de datos que surgían. Sin embargo, el poder de procesamiento también ha experimentado un progreso muy rápido. El desarrollo de los dispositivos siguió las disposiciones de la Ley de Moore, según la cual, en términos sencillos, sin cambios en el costo, cada dos años se duplica la potencia de procesamiento. Con relativa rapidez, el problema de la falta de capacidad de procesamiento perdió importancia y hubo un gran aumento en la capacidad de análisis de los crecientes volúmenes de datos (Russom, 2011).
No por casualidad es de este período de donde data una de las primeras definiciones posibles de Big Data. El término aparece en un informe producido en 2001, en el que un analista, Doug Laney, definió los desafíos y oportunidades que trajo el aumento en el flujo de datos presentando un modelo de 3 V: volumen, velocidad y variedad. Aunque originalmente este modelo no se usó como una definición de Big Data, varias empresas han usado las 3 V para describirlo durante mucho tiempo (Chen, Mao, Liu, 2014).
Las primeras organizaciones en aprovechar el Big Data fueron corporaciones enfocadas en operaciones en línea, y muchos de los gigantes tecnológicos actuales (Google, Facebook, etc.) nacieron alrededor de esta tecnología. A diferencia de las empresas que existían desde antes del cambio de milenio, estas empresas, debido a que debutaron en un nuevo contexto, no tuvieron que pasar por un proceso de remodelación e integrar su área de análisis, cambiar sus fuentes de datos o alterar sus infraestructuras tecnológicas. Para estas corporaciones nacientes, las tecnologías Big Data fueron el estándar desde el momento cero (Davenport, Dyché, 2013). Este paso adelante les dio una gran ventaja tecnológica y determinó que muchas otras empresas, que habían luchado por renovar sus parques tecnológicos, se quedaran en el camino.
El fenómeno, sin embargo, no fue una realidad surgida de la noche a la mañana. Muchas grandes corporaciones en el campo de las tecnologías de la información llevan varios años incorporando nuevas formas de datos a sus sistemas, por eso lo que llama la atención del Big Data no es necesariamente su tamaño, a pesar de ser esta una de sus principales características, sino su falta de estructura, es decir, su capacidad para aprovechar nuevas fuentes de datos no estructurados, ya sea texto, voz o video, por ejemplo (Davenport, Dyché, 2013).
Luego del gran desarrollo de las corporaciones con operaciones basadas en Internet, en 2011 se publicó un informe de investigación titulado “Extracting Values from Chaos“. En él se proponía una definición de Big Data y se exponían los posibles beneficios de su uso. Este fue un evento importante para el despertar general del interés sobre el tema (Chen, Mao, Liu, 2014).
Desde entonces, prácticamente todas las grandes empresas tecnológicas trabajan en Big Data. Este movimiento estuvo acompañado por la academia, tanto por disciplinas del área, como la ingeniería de software y la informática, como por varias otras que utilizan la tecnología para apalancar la investigación en sus respectivas temáticas (Chen, Mao, Liu, 2014).
El interés de la nueva tecnología radica en la posibilidad de explorar conocimientos de diversas fuentes de información para la toma de decisiones. En la gestión empresarial y gubernamental, las promesas son muchas e incluyen: mayor eficiencia operativa; decisiones estratégicas informadas; mejora del servicio a los consumidores y ciudadanos; identificación y desarrollo de nuevos productos y servicios; mejora en la experiencia de servicio y consumo; identificación de nuevos mercados; acortamiento del tiempo necesario para introducir nuevos productos al mercado; facilidad para ajustar el cumplimiento de la normativa, entre otros (Chen, Zhang, 2014).
En general, los análisis de Big Data se utilizan para tratar conjuntos de datos que, por ser demasiado variados o demasiado grandes, se convierten en demandas muy difíciles para los métodos tradicionales (Chen, Zhang, 2014). Uno de los principales diferenciales de las tecnologías Big Data es precisamente la mayor capacidad para procesar grandes volúmenes de datos no estructurados, en tiempo real (Chen, Mao, Liu, 2014).
Además de la ganancia de eficiencia con respecto a los conjuntos de datos ya consolidados y existentes, se hace posible utilizar datos en tiempo real obtenidos de sensores y otros tipos de dispositivos. Las aplicaciones permiten, por ejemplo, el análisis en tiempo real del fraude de identidad y las evaluaciones de riesgo médico de los pacientes. Adicionalmente a este tipo de uso instantáneo y puntual, se gana mucho en la capacidad de seguimiento continuo, como, por ejemplo, para detectar cambios de percepción sobre el interés por un determinado producto o conjunto de productos o para monitorizar el funcionamiento de motores de aviones en tiempo real (Davenport, Barth, Bean, 2012).
Por lo tanto, vale la pena señalar que uno de los principales cambios en el uso de Big Data se refiere a la temporalidad del análisis. El contraste es enorme. En lugar de tratar de predecir el comportamiento analizando solo datos pasados, el monitoreo de datos en tiempo real, de manera continua, captura cualquier cambio en la tendencia y aumenta en gran medida el poder predictivo de los sistemas. En el campo de la salud, las aplicaciones son diversas. Una de las primeras aplicaciones reportadas en el campo de la salud tuvo lugar en Toronto en el Hospital for Sick Children, asociado con la Universidad de Toronto, donde se desarrollaron algoritmos de aprendizaje automático para monitorear continuamente los patrones séricos y anticipar la necesidad de transferir a los bebés prematuros hospitalizados a cuidados intensivos (Davenport, Barth, Bean, 2012).
Para obtener tales resultados en capacidad predictiva, es necesario desarrollar métodos multidisciplinarios para acceder a este conocimiento. Se utilizan herramientas matemáticas y técnicas de análisis de datos para crear aplicaciones de Big Data. Entre las herramientas matemáticas destacan los métodos de optimización, que consisten en diferentes algoritmos y estrategias computacionales cuyo objetivo es mejorar el procesamiento de los datos utilizados para resolver problemas cuantitativos. Actualmente, gran parte del esfuerzo de investigación en el campo se ha dedicado al desarrollo de estos métodos (Chen, Zhang, 2014). Un ejemplo es la técnica de reducción de datos, que ayuda en la minería de textos y la recuperación de información, lo que reduce significativamente los costos computacionales utilizados al procesar textos (Yan et al., 2011).
Entre las técnicas de análisis de datos más importantes se encuentran la minería de datos y el aprendizaje automático. La minería de datos es el conjunto de técnicas utilizadas para extraer patrones de los datos. El término minería engloba métodos y técnicas muy diversas (Chen, Zhang, 2014). Entre ellos se encuentra el reconocimiento de patrones, que, en términos simplificados, es la búsqueda de estructura en los datos bajo análisis (Bezdek, 1981). El aprendizaje automático, por otro lado, busca desarrollar algoritmos que sean capaces de evolucionar mediante el análisis de datos y la toma de decisiones sin intervención humana, realizando tareas para las que no fueron explícitamente programados. El enfoque del aprendizaje automático es poder clasificar y predecir, hacerlo con base en la información obtenida a través de datos de entrenamiento (Buczak, Guven, 2016). Brevemente, los algoritmos comunes hacen aquello para lo que están programados/ordenados, mientras que los algoritmos de aprendizaje automático reciben instrucciones para reconocer ciertos patrones en un conjunto controlado de datos y luego buscan los patrones que ellos mismos han identificado en los otros conjuntos de datos que vayan a ser analizados.
La existencia de máquinas que pueden tomar decisiones de manera autónoma, es decir, sin un comando o instrucción expresa o predecible, refuerza el hecho de que existen características técnicas específicas en el uso de Big Data que imponen problemas éticos peculiares.
Sin embargo, incluso antes de abordar las implicaciones éticas del uso de Big Data, ya existen aspectos técnicos relacionados con la recolección, almacenamiento y análisis de datos que pueden presentar limitaciones con importantes consecuencias a considerar.
En cuanto a la recopilación, en primer lugar, incluso para el estado actual de las tecnologías de procesamiento y almacenamiento, por ejemplo, el crecimiento del volumen de datos con el uso creciente de dispositivos y sensores portátiles sigue siendo crítico. En segundo lugar, para que los análisis cumplan con sus funciones, los datos deben estar libres de inconsistencias y estar completos, lo que sigue planteando un desafío en los datos agregados de diversas fuentes u obtenidos de manera no estructurada (Chen, Zhang, 2014). Además, la propia expectativa de una transformación paradigmática hacia un mundo orientado por Big Data hace que la recolección de datos crezca exponencialmente, por lo que el tiempo de procesamiento de los algoritmos se convierte cada vez más en un problema (Wu et al., 2014).
En cuanto al almacenamiento, incluso con su crecimiento constante desde la década de 1980, en algunos campos, como el financiero y el médico, muchos datos, creados y obtenidos a costos significativos, hoy en día a menudo se eliminan simplemente por falta de espacio. A pesar del gran crecimiento del poder computacional para el análisis, la tecnología de almacenamiento necesita evolucionar mucho para asegurar un buen uso en su conjunto (Chen, Zhang, 2014).
Sobre el análisis, dada la escala del volumen de información, el desafío pasa por que la capacidad de procesamiento se realice en tiempo real. La demanda de análisis de agregados de datos cada vez más grandes, en un tiempo cada vez más corto, ha estimulado la investigación y el desarrollo de mejores técnicas de computación, tanto en la línea de desarrollo de hardware como en la arquitectura de software (Chen, Zhang, 2014).
Desde el punto de vista ético, que es el ángulo de interés de este libro, estos límites técnicos indican que se trata de una tecnología propensa a errores que presenta riesgos como cualquier otra. Las bases de datos pueden generar impresiones inconsistentes o incompletas. Más que eso, debido a los algoritmos de aprendizaje automático opacos, parte de los análisis producen resultados que los humanos no pueden evaluar.
Sin embargo, a pesar de estos límites, estas tecnologías representan una nueva forma de conocer el mundo, que ya se utilizan para orientar decisiones e inducir comportamientos.
Es necesario tener presente todo esto, el poder y los límites, cuando pensamos que el uso del Big Data transforma el ser-en-el-mundo de las personas reales, transforma su entorno y la forma en que lo perciben. Todo esto plantea desafíos éticos.
En salud, el uso de Big Data es capaz de hacer más eficientes los servicios de salud y también ayuda a cambiar el paradigma al alterar la atención médica a un modelo centrado en la prevención, la atención temprana y la buena gestión. Una de las aplicaciones del Big Data en salud es el análisis de conjuntos de datos (estructurados o no) de distintas fuentes, cruzando los datos, con promesas de percepción de tendencias y creación de modelos predictivos (Andreu-Perez et al., 2015).
Como principales fuentes de datos podemos identificar la historia clínica electrónica, resultado del proceso rutinario de recogida y almacenamiento de datos en los centros de salud. Estas historias representan una fuente importante de datos estructurados sobre pacientes, exámenes, diagnósticos y medicamentos utilizados. Otra fuente de datos cada vez más importante son las redes sociales, ya que las personas comparten cada vez más información sobre su salud. Además de los registros médicos y las redes sociales, los datos cruzados sobre factores locales, como los datos climáticos, brindan más información para un posible análisis de Big Data. Adicionalmente, los datos sobre la contaminación ambiental y la temperatura de un lugar pueden informar los diagnósticos y pronósticos de individuos y poblaciones (Andreu-Perez et al., 2015).
Las prometedoras nuevas aplicaciones en el campo de la salud no pueden generar una adhesión irreflexiva, pues las tecnologías Big Data traen consigo implicaciones éticas.
Además de las preocupaciones más evidentes sobre la privacidad de las personas cuyos datos se recopilan y analizan, es necesario analizar otras dimensiones. Los altos requerimientos tecnológicos necesarios para generar inteligencia y conocimiento a partir de los datos analizados traen consigo un gran desequilibrio de saberes y poder, que ya actúa en el agravamiento de las desigualdades sociales existentes. Otro gran peligro radica en la posibilidad de que el Big Data sugiera resultados basados en correlaciones realizadas sin una comprensión amplia de las diversas dimensiones sociales del fenómeno analizado, lo que puede actuar para reforzar prejuicios y estereotipos de diferentes maneras (Zwitter, 2014).
Si bien muchas de las implicaciones éticas del uso de Big Data en salud, como la cuestión de la privacidad y los desafíos en ética e investigación, no son precisamente nuevas, la creciente difusión de estas nuevas tecnologías en todas las dimensiones de la experiencia humana demanda atención específica (Zwitter, 2014). Es a este ejercicio al que nos dedicaremos en el próximo capítulo, desde el punto de vista de la bioética.
Referencias
Andreu-Perez J., Poon C.C.Y., Merrifield R.D., Wong S.T.C., Yang G.Z. Big data for health. IEEE Journal of Biomedical and Health Informatics, 2015; 19(4), pp. 1193-1208.
Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. New York: Springer, 1981.
Buczak A.L., Guven E. A survey of data mining and machine learning methods for cyber security intrusion detection. IEEE Communications Surveys & Tutorials, 2016; 18(2), pp. 1153-1176.
Chen C.L.P., Zhang C.Y. Data-intensive applications, challenges, techniques and technologies: a survey on Big Data. Information Sciences, 2014; 275(1), pp. 314-347.
Chen M., Mao S., Liu Y. Big data: a survey. Mobile Networks and Applications, 2014; 19, pp. 171-209.
Davenport T.H., Barth P., Bean R. How “Big Data” is different. MIT Sloan Management Review, 2012; 54(1), pp. 22-24.
Davenport T.H., Dyché J. Big data in big companies. International Institute for Analytics, 2013; 3(1), pp. 1-31.
Russom P. Big data analytics. TDWI Best Practices Report, Fourth Quarter, 2011; 19(4), pp. 1-34.
Wu X., Zhu X., Wu G.Q., Ding W. Data mining with Big Data. IEEE Transactions on Knowledge and Data Engineering, 2014; 26(1), pp. 97-107.
Yan J., Liu N., Yan S., Yang Q., Fan W., Wei W., et al. Trace-oriented feature analysis for large-scale text data dimension reduction. IEEE Transactions on Knowledge and Data Engineering, 2011; 23(7), pp. 1103-1117.
Zwitter A. Big Data ethics. Big Data & Society, 2014; 1(2), pp. 1-6.







