Federated Learning e Bioinformática: Pesquisa no mundo dos dados sensíveis e diplomacia dos dados - Parte 2: Desafios e Possibilidades

Esta é a parte 2 do nosso texto acerca de Federated Learning, escrito por Pedro Medeiros e João Vitor Cavalcante. Caso você esteja chegando agora, dê uma olhadinha na parte 1 através do link abaixo. Boa leitura!

Exemplos relevantes do Federated Learning na bioinformática

O uso do federated learning na bioinformática é algo crescente, mas já relativamente consolidado. Empresas como a DNAstack, com a qual pudemos ter contato pessoalmente no evento Insights Lab, oferecem plataformas que intermediam o acesso a dados federados e possibilitam análises. Há grandes projetos que procuram alavancar descobertas com base em arranjos federados nas áreas de descoberta de fármacos, por exemplo, e universidades já avançam para possibilitar que seus pesquisadores possam se valer dessa estratégia. Se grandes bancos abertos eram um artigo essencial para a pesquisa até agora, arranjos políticos para o uso federated learning vai se configurando como uma necessidade competitiva.

Desafios técnicos e éticos que surgem e permanecem

Bom, ok… mais do que uma alternativa para acesso ou uma necessidade dado um novo panorama mundial, fica claro que há uma direção na adoção da tecnologia de FL. Instituições, leis, governos, pesquisadores e afins se movimentam em torno desse paradigma, mas, conforme disse Norbert Wiener, um dos pais da cibernética no seu clássico “The Human Use of Human Beings”, “Progress imposes not only new possibilities for the future but new restrictions.” (O progresso impõe não só novas possibilidades para o futuro, mas também novas restrições. Em tradução livre.). Vamos então discorrer brevemente sobre quais restrições e desafios que se impõem nesse cenário.

  1. Heterogeneidade dos Dados:
    Dados biomédicos, como genômicos e clínicos, são intrinsecamente heterogêneos, variando em formato, tamanho e qualidade. Harmonizar esses dados para treinamento de modelos de FL é complexo e requer soluções avançadas de pré-processamento e normalização. Esse, não por acaso, foi o primeiro grande desafio que enfrentamos ao utilizar essa tecnologia. Os acordos para acesso e compartilhamento devem prever também a padronização dos dados que serão disponibilizados, sobretudo se a estratégia a ser aplicada seja FL horizontal, onde um mesmo modelo treina em conjuntos de dados em federações distintas.

  2. Comunicação, Latência e Escalabilidade:
    Mais uma vez, um desafio derivado da descentralização e afastamento dos indivíduos responsáveis pela análise e desenvolvimento de quaisquer resultados. Não ter acesso aos dados originais cria incertezas que só podem ser mitigadas perante a fortes padronizações. O FL depende da transmissão eficiente de atualizações de modelos entre dispositivos ou instituições remotas. A largura de banda limitada e latências elevadas podem impactar negativamente o desempenho e a eficiência do treinamento dos modelos. Soma-se a isso que à medida que o número de participantes no FL aumenta, garantir a escalabilidade do sistema sem perder eficiência torna-se um desafio técnico significativo, exigindo algoritmos otimizados e gerenciamento de recursos. A integração entre múltiplos data centers de maneira profissional e escalada torna-se essencial.

  3. Equidade e Acesso:
    Se com a abordagem Open esses riscos são diminuídos substancialmente, ao incluir novos intermediários ele volta a ser algo mais palpável. Garantir que o acesso à pesquisa e os benefícios sejam distribuídos equitativamente, evitando viés nos dados e nos modelos, é um desafio ético importante. Isso inclui não apenas evitar a exclusão de grupos sub-representados, mas realizar esforços ativos para sua inclusão.

  4. Consentimento Informado, Transparência e Responsabilidade:
    Garantir que da fonte da coleta de dados, que pode ser de pacientes ou do acesso a patrimônio genético, até a ponta de uso e análises inclui não apenas um recurso técnico, mas uma cadeia burocrática que assegure a credibilidade das instituições e indivíduos envolvidos na pesquisa. Isso implica em harmonizar um denominador mínimo único em que as análises pretendidas estejam de acordo com os consentimentos acertados em cada um dos datasets com acesso requerido, por mais heterogêneos que sejam. Isso é especialmente crítico se levarmos em conta os dados que já existem, dados de pessoas falecidas e oriundos de fontes que nem sequer esperavam que poderiam ser utilizados para esses fins.

Possibilidades Imediatas em Bioinformática

As principal vantagens e possibilidades são óbvias: Com mais dados temos mais suporte estatístico, com mais suporte estatístico é mais fácil navegarmos pelo inferno de variáveis que compõem os sistemas biológicos. Doenças ou transtornos pouco específicos, mas com componentes genéticos distinguíveis como Transtorno do Espectro Autista, podem ser melhor estudados e distinguidos mais claramente quanto aos seus componentes, potencialmente auxiliando na identificação de subpopulações do transtorno.

Considerações Finais

Chegamos, enfim, ao fim. Este texto foi uma tentativa de percorrer os fundamentos do federated learning que mais interessam aos bioinformatas, apontar o que já tem sido feito e as possibilidades de algo que, provavelmente, irá bater na sua porta. Mais do que apenas um desenvolvimento técnico, esperamos ter dado um vislumbre das potencialidades, restrições, usos e possíveis caminhos para que você, profissional de bioinformática, possa se posicionar de maneira vantajosa nesses novos ventos que sopram.

O que vai ser daqui pra frente? Isso é assunto para um outro post. Abraços!

REFERÊNCIAS ÚTEIS