Big Data: desenvolvimento da tecnologia e suas aplicações

Leonardo Cambraia, Monique Pyrrho, Camilo Manchola-Castillo

Para compreender os aspectos éticos que derivam do uso de Big Data no campo da saúde, é preciso antes percorrer alguns fatores técnicos específicos dessas novas tecnologias, de sua concepção e de sua configuração histórica. Assim, antes de partir diretamente para o levantamento das implicações desse novo fenômeno, parece útil abordar os primeiros passos de sua breve história até a presente amplitude com que se aplica nos mais diferentes ramos. Nesse percurso, será discutido como algumas especificidades técnicas implicam em peculiaridades éticas de um modo inovador de apropriação e processamento de dados.

Até os anos 1970, os computadores pessoais ainda não eram uma realidade. Em ambientes corporativos, as máquinas com seus processadores centrais precisavam terminar uma tarefa para começar outra, mesmo que essas fossem relativamente independentes. Esse paradigma escalar de processamento constituía uma limitação técnica para o aumento da eficiência dos computadores. Na época, os computadores eram concebidos como uma máquina dedicada exclusivamente ao armazenamento e análise dos dados. O progressivo aumento do fluxo de dados fez com que essa solução de uma estrutura unitária de processamento e armazenamento perdesse praticidade. Nos anos 1980, foi elaborado um sistema de banco de dados paralelos baseado no efeito de cluster ou aglomerado. A arquitetura que previa que cada máquina tivesse seu próprio processador e unidades de armazenamento possibilitou uma grande expansão na capacidade de armazenamento. Esse foi o sistema que perdurou até os anos 1990 quando, com o desenvolvimento da Internet, houve uma explosão na quantidade de dados em trânsito (Chen, Mao, Liu, 2014).

Já no começo dos anos 2000, a crescente quantidade de dados passou inclusive a ser vista como um problema técnico, dado que os computadores da época, concebidos como dispositivos independentes que armazenavam e processavam praticamente todas as informações que acessavam, não tinham capacidade suficiente para acompanhar essa quantidade de dados que surgia. No entanto, o poder de processamento também assistiu a um progresso muito rápido. O desenvolvimento dos dispositivos observou aquilo disposto pela Lei de Moore, segundo a qual, em termos leigos, sem alteração de custo, a cada dois anos, o poder de processamento duplica. De forma relativamente rápida, o problema da falta de capacidade de processamento perdeu em importância e testemunhou-se um grande incremento na capacidade de análises dos crescentes volumes de dados (Russom, 2011).

Não por coincidência, é desta época que data uma das possíveis primeiras definições de Big Data. O termo aparece em um relatório produzido em 2001, em que um analista, Doug Laney, definiu desafios e oportunidades trazidos pelo aumento do fluxo de dados apresentando um modelo de 3 Vs: volume, velocidade e variedade. Mesmo que tal modelo não tenha sido usado como definição de Big Data originalmente, diversas companhias usaram os 3 Vs para descrever Big Data por muito tempo (Chen, Mao, Liu, 2014).

As primeiras organizações a tirar proveito de Big Data foram as corporações com foco em operações on-line, sendo que muitas das atuais gigantes da tecnologia (Google, Facebook, etc.) nasceram em torno desta tecnologia. Diferente de companhias que já existiam desde antes da virada do milênio, essas empresas, porque estrearam já em um novo contexto, não foram obrigadas a passar por um processo de remodelação e integração de sua área analítica, não tiveram que mudar suas fontes de dados ou alterar suas infraestruturas de tecnologia. Para essas nascentes corporações, as tecnologias de Big Data foram o padrão desde o momento zero (Davenport, Dyché, 2013). Esse passo à frente lhes garantiu uma grande vantagem tecnológica e determinou que muitas outras companhias, que batalharam para renovar seus parques tecnológicos, ficassem pelo caminho.

O fenômeno, no entanto, não foi uma realidade que se ergueu do dia para a noite. Muitas grandes corporações do ramo das tecnologias informacionais já vinham adicionando novas formas de dados em seus sistemas por vários anos, de modo que o que chama atenção na Big Data não é necessariamente o seu tamanho, apesar de esta ser uma de suas principais características, mas sua falta de estrutura, ou seja, sua capacidade de aproveitamento de novas fontes de dados não estruturados, sejam texto, voz ou vídeo, por exemplo (Davenport, Dyché, 2013).

Após o grande desenvolvimento das corporações com operações baseadas na Internet, em 2011 foi publicado um relatório de pesquisa intitulado “Extracting Values from Chaos”. Nele, foi proposta uma definição de Big Data e foram apresentados os possíveis benefícios do seu uso. Esse foi um evento importante para o generalizado despertar de interesse sobre o tema (Chen, Mao, Liu, 2014).

Desde então, praticamente todas as grandes companhias de tecnologia atuam em Big Data. Esse movimento foi acompanhado pela academia, tanto por disciplinas da área, como engenharia de software e ciência da computação, quanto por diversas outras que utilizam a tecnologia para alavancar a pesquisa em suas respectivas temáticas (Chen, Mao, Liu, 2014).

O interesse na nova tecnologia reside na possibilidade de exploração de conhecimento de várias fontes de informações para o processo de tomada de decisão. Em gestão empresarial e governamental, as promessas são várias e incluem aumento de eficiência operacional; decisões estratégicas informadas; melhoria no atendimento a consumidores e cidadãos; identificação e desenvolvimento de novos produtos e serviços; melhoria na experiência de atendimento e consumo; identificação de novos mercados; diminuição do tempo necessário à introdução de novos produtos no mercado; facilidade nos ajustes de adequação a regulações, dentre outros (Chen, Zhang, 2014).

De modo geral, as análises de Big Data são utilizadas para tratar conjuntos de dados que, por serem muito variados ou grandes demais, se tornam demandas muito difíceis para métodos tradicionais (Chen, Zhang, 2014). Um dos principais diferenciais das tecnologias de Big Data é justamente o aumento da capacidade de processar grandes volumes de dados não estruturados, em tempo real (Chen, Mao, Liu, 2014).

Além do ganho de eficiência quanto a conjuntos de dados já consolidados e existentes, torna-se possível a utilização de dados em tempo real obtidos a partir de sensores e outros tipos de dispositivos. As aplicações possibilitam, por exemplo, análises de fraudes de identidade em tempo real e avaliações de risco médico de pacientes. Além desse tipo de uso instantâneo e pontual, ganha-se muito na capacidade de monitoramento contínuo, como, por exemplo, na detecção de mudanças da percepção quanto ao interesse em determinado produto ou conjunto de produtos ou no acompanhamento do funcionamento de motores de aeronaves em tempo real (Davenport, Barth, Bean, 2012).

Deste modo, é válido notar que uma das principais mudanças na utilização de Big Data é quanto à temporalidade da análise. O contraste é enorme. Em vez de tentar prever comportamentos ao analisar apenas dados passados, o monitoramento de dados em tempo real, de forma contínua, captura qualquer mudança de tendência e aumenta muito a capacidade preditiva dos sistemas. No campo da saúde, as aplicações são diversas. Uma das primeiras aplicações de que se tem relato no campo da saúde aconteceu em Toronto no Hospital para Crianças Doentes (Hospital for Sick Children, em tradução livre), associado à Universidade de Toronto, onde foram desenvolvidos algoritmos de aprendizado de máquina que se destinam a monitorar continuamente padrões séricos e antever a necessidade de transferência de bebês prematuros hospitalizados para tratamento intensivo (Davenport, Barth, Bean, 2012).

Para obter tais resultados em capacidade preditiva, é necessário o desenvolvimento de métodos multidisciplinares para acessar esse conhecimento. São utilizadas ferramentas matemáticas e técnicas de análise de dados para criar as aplicações de Big Data. Dentre as ferramentas matemáticas, destacam-se os métodos de otimização, que consistem em diferentes algoritmos e estratégias computacionais cujo objetivo é aprimorar o processamento de dados utilizados para resolver problemas quantitativos. Atualmente, muito do esforço em pesquisa no campo tem sido empreendido no desenvolvimento desses métodos (Chen, Zhang, 2014). Um exemplo é a técnica de redução de dados, que auxilia na mineração de textos e recuperação de informações, reduzindo de forma significativa os custos computacionais utilizados ao processar textos (Yan et al., 2011).

Dentre as técnicas de análise de dados mais importantes destacam-se a mineração de dados e o aprendizado de máquina. A mineração de dados é o conjunto de técnicas usadas para extrair padrões dos dados. O termo mineração abarca métodos e técnicas bem diversas (Chen, Zhang, 2014). Entre eles, figura o reconhecimento de padrões, que, em termos simplificados, é a busca por estrutura nos dados em análise (Bezdek, 1981). Já o aprendizado de máquina procura desenvolver algoritmos que sejam capazes de evoluir ao analisar dados e tomar decisões sem intervenção humana, desempenhando tarefas para as quais não foram explicitamente programados para realizar. O foco do aprendizado de máquina é conseguir classificar e predizer, fazendo isso com base em informações obtidas por meio de dados de treino (Buczak, Guven, 2016). Sucintamente, algoritmos comuns fazem o que são programados/ordenados para fazer, ao passo que algoritmos de aprendizado de máquina são instruídos a reconhecer determinados padrões em um conjunto controlado de dados e, em seguida, passam a buscar os padrões que identificaram sozinhos nos demais conjuntos de dados que venham a analisar.

A existência de máquinas que possam tomar decisões de forma autônoma, ou seja, sem um comando ou instrução expressos ou previsíveis evidencia a premissa deste breve panorama, ou seja, a de que existem características técnicas específicas no uso de Big Data que impõem problemas éticos peculiares.

No entanto, antes mesmo de abordar as implicações éticas do uso de Big Data, já existem aspectos técnicos que envolvem a coleta, armazenamento e análise de dados que podem apresentar limitações com consequências importantes a serem consideradas.

Em relação à coleta, em primeiro lugar, mesmo para o atual estado da arte em tecnologias de processamento e armazenamento, por exemplo, o crescimento do volume de dados com o uso cada vez maior de dispositivos portáteis e sensores ainda é crítico. Em segundo lugar, para que as análises possam cumprir suas funções, é necessário que os dados sejam livres de inconsistências ou incompletudes, o que continua a representar um desafio em dados agregados de fontes diversas, ou obtidos de maneira não estruturada (Chen, Zhang, 2014). Além disso, a própria expectativa de uma transformação paradigmática em direção a um mundo orientado por Big Data faz com que a coleta de dados cresça exponencialmente, de modo que o tempo de processamento dos algoritmos se torne cada vez mais um problema (Wu et al., 2014).

Em relação ao armazenamento, mesmo com seu crescimento constante desde os anos 1980, em alguns campos, como o financeiro e médico, muitos dados, criados e obtidos a custos significativos, são hoje frequentemente deletados simplesmente por falta de espaço. Apesar do grande crescimento de poder computacional para análises, a tecnologia de armazenamento precisa evoluir muito para garantir um bom uso da tecnologia como um todo (Chen, Zhang, 2014).

Quanto à análise, dada a escala do volume de informações, o desafio envolve a capacidade do processamento se dar em tempo real. A demanda por análises de agregados de dados cada vez maiores, em um tempo cada vez menor, tem estimulado a pesquisa e desenvolvimento de melhores técnicas de computação, tanto na linha de desenvolvimento de hardware, quanto na arquitetura de software (Chen, Zhang, 2014).

Do ponto de vista ético, que é o ângulo de interesse deste livro, esses limites técnicos indicam que essa é uma tecnologia sujeita a erros e que apresenta riscos, como qualquer outra. As bases de dados podem gerar impressões inconsistentes ou incompletas. Mais do que isso, devido a algoritmos opacos de aprendizagem de máquina, parte das análises produzem resultados que não podem ser avaliados por humanos.

A despeito desses limites, no entanto, essas tecnologias representam uma nova forma de conhecer o mundo, que já é usada para pautar decisões e induzir comportamentos.

É preciso ter tudo isso em mente, a potência e os limites, quando pensamos que o uso de Big Data transforma o estar-no-mundo de pessoas reais, transforma o entorno das pessoas e a maneira como elas o percebem. Tudo isso impõe desafios éticos.

Na saúde, o uso de Big Data é capaz de tornar os serviços de saúde mais eficientes e ainda auxilia na mudança de paradigma ao mudar os cuidados em saúde para um modelo com foco em prevenção, intervenção precoce e uma boa gestão. Uma das aplicações de Big Data em saúde é a análise de conjuntos de dados (estruturados ou não) de diferentes fontes, cruzando os dados, com promessas de percepção de tendências e criações de modelos preditivos (Andreu-Perez et al., 2015).

Como principais fontes de dados podemos identificar os registros eletrônicos em saúde, resultado do processo de coleta e armazenamento de dados rotineira nos centros de saúde. Eles representam uma importante fonte de dados estruturados sobre pacientes, exames, diagnósticos e medicações utilizadas. Outra fonte de dados que tem crescente importância são as redes sociais, uma vez que os indivíduos compartilham uma quantidade crescente de informações sobre sua saúde. Além de prontuários e redes sociais, dados entrecruzados a respeito de fatores locais como dados climáticos oferecem mais informações para as possíveis análises de Big Data. Adicionalmente, dados sobre a poluição e temperatura ambientais de um local podem informar os diagnósticos e prognósticos de indivíduos e populações (Andreu-Perez et al., 2015).

As promissoras novas aplicações no campo da saúde não podem gerar uma adesão irrefletida, já que as tecnologias de Big Data trazem consigo implicações éticas.

Além das mais evidentes preocupações com a privacidade dos indivíduos que possuem seus dados coletados e analisados, outras dimensões precisam ser analisadas. Os elevados requisitos tecnológicos necessários para gerar inteligência e conhecimento a partir de dados analisados trazem consigo um grande desequilíbrio de conhecimento e poder, que já atua no agravamento de desigualdades sociais já existentes. Outro grande perigo está na possibilidade de Big Data sugerir resultados com base em correlações feitas sem um amplo entendimento das diversas dimensões sociais do fenômeno analisado, o que pode atuar reforçando preconceitos e estereótipos de diversas maneiras (Zwitter, 2014).

Mesmo que muitas das implicações éticas do uso de Big Data em saúde, como a questão da privacidade e dos desafios em ética e pesquisa, não sejam exatamente novas, a crescente propagação dessas novas tecnologias em todas as dimensões da experiência humana demanda uma atenção específica (Zwitter, 2014). É a esse exercício de análise atenta que nos dedicaremos adiante, a partir da bioética.

Referências

Andreu-Perez, J., Poon, C. C. Y., Merrifield, R. D., Wong, S. T. C., Yang, G. Z. “Big Data for health”. IEEE journal of biomedical and health informatics, 19(4):1193-1208, 2015.

Bezdek, J. C. Pattern recognition with fuzzy objective function algorithms. New York: Springer, 1981.

Buczak, A. L., Guven, E. “A survey of data mining and machine learning methods for cyber security intrusion detection”. IEEE Communications Surveys & Tutorials, 18(2):1153-1176, 2016.

Chen, C. L. P., Zhang, C. Y. “Data-intensive applications, challenges, techniques, and technologies: a survey on Big Data”. Information Sciences, 275(1):314-347, 2014.

Chen, M., Mao, S., Liu, Y. “Big Data: a survey”. Mobile Networks and Applications, 19:171-209, 2014.

Davenport, T. H., Barth, P., Bean, R. “How ‘Big Data’ is different”. MIT Sloan Management Review, 54(1):22-24, 2012.

Davenport, T. H., Dyché, J. “Big Data in big companies”. International Institute for Analytics, 3(1):1-31, 2013.

Russom, P. “Big Data analytics”. TDWI Best Practices Report, 19(4):1-34, Fourth Quarter 2011.

Wu, X., Zhu, X., Wu, G. Q., Ding, W. “Data mining with Big Data”. IEEE Transactions on Knowledge and Data Engineering, 26(1):97-107, 2014.

Yan, J., Liu, N., Yan, S., Yang, Q., Fan, W., Wei, W., et al. “Trace-oriented feature analysis for large-scale text data dimension reduction”. IEEE Transactions on Knowledge and Data Engineering, 23(7):1103-1117, 2011.

Zwitter, A. “Big Data ethics”. Big Data & Society, 1(2):1-6, 2014.

Título da publicação	Big Data e saúde
Autor	Leonardo Cambraia, Monique Pyrrho, Camilo Manchola-Castillo
Título do capítulo	Big Data: desenvolvimento da tecnologia e suas aplicações
Data	junho 15, 2023
Quantidade de páginas	102
ISBN livro impresso	9781911693161
ISBN ebook	9781911693147
DOI	10.55778/ts911693147
Copyright	2023 / Editorial Teseo
Imagem de tapa	LibroLab ARTAI

Leonardo Cambraia, Monique Pyrrho e Camilo Manchola-Castillo

Nuestros cursos:

Nuestros cursos:

2 Big Data: desenvolvimento da tecnologia e suas aplicações

Referências

Deixe um comentário Cancelar resposta

Índice