uma imagem conceitual criada por IA sobre mau uso de dados
Para falar de mau uso de dados, nada melhor do que uma imagem gerada por IA através do OpenAI DALL-E. Uso "autorizado" sob a licença de criação do usuário.

Olá, pessoal. Trabalhando muito, escrevendo menos do que gostaria, mas creio que essa seja uma ótima oportunidade para falar sobre um elefante na sala, algo progressivamente ignorado na nossa comunidade por várias razões mas que precisa ser comentado. No início desse mês (não) fui surpreendido com este post do PGC Consortium a respeito de mau uso de dados oriundos da sua pesquisa. Na própria discussão do twitter tem-se discutido a respeito de alguns aspectos, mas creio que poucos caracteres não sejam suficientes para fazer justiça ao caso e à questão maior que o envolve(link).

O PGC (Psychiatric Genomics Consortium), é uma colaboração internacional dedicada ao estudo da genética de transtornos psiquiátricos. O objetivo principal do PGC é realizar e promover estudos genômicos em larga escala para melhor entender a base genética de transtornos como esquizofrenia, transtorno bipolar, depressão maior, transtorno obsessivo-compulsivo, e outros. O consórcio reúne cientistas de diversas instituições ao redor do mundo e tem sido fundamental na identificação de variantes genéticas associadas a esses transtornos. Ao compartilhar dados e recursos, o PGC facilita pesquisas que individualmente seriam difíceis de realizar, devido ao tamanho da amostra necessário para estudos genéticos robustos.

Em resumo, os trabalhos que o PGC realiza só podem ser realizados em GRANDE escala, dependem intrinsecamente de cooperação e do acesso a milhares, centenas de milhares, milhões de pacientes. São estudos que possibilitam cálculo de PRS, por exemplo, que correlacionam a presença de certas variantes genéticas a ocorrência de doenças, no caso, psiquiátricas e que podem servir como referência para, por exemplo, acessar os riscos de uma população apresentar essas doenças e dimensionar serviços, investimentos e afins.

Esses dados, então, não surgem do nada nem estão disponíveis por si só. São fruto de trabalho, no caso, publicamente financiado e da concordância de muitas pessoas em sofrimento que concordam em ceder seu perfil genético de maneira bastante generosa já que, dado o tempo que as pesquisas levam, elas provavelmente não serão pessoalmente beneficiadas pelos resultados destas. Ficam então estes dados disponíveis na própria página do PGC para uso de outras partes, mas com um detalhe: este uso está condicionado às permissões dadas pelos próprios pacientes, resumidas na própria página de download dos dados(e na figura abaixo, caso eles mudem isso algum dia e esse link se torne inútil).

Condições de uso dos dados do PGC em 15/12/2023'
Condições de uso dos dados do PGC em 15/12/2023

E aqui nós temos uma parte frágil muito comum do nosso sistema de trabalho baseado em dados: E se eu não respeitar essas premissas, o que poderá ocorrer comigo? Em teoria, você está submetido às punições das leis locais citadas no termo. Aqui no Brasil, LGPD seria aplicável. Mas e na prática? Bom, na prática estamos fomentando a criação de empresas cujo negócio se baseia no mal uso de dados, não atribuição de autoria ou pagamento de direitos autorais. A recompensa por alimentar o seu modelo de IA com o máximo de dados possível, incluindo os com restrições de uso é atualmente o mais alto dentro da escala de valor. “Break things and move fast” é o que é dito, mesmo que as “coisas” sejam fruto da generosidade de pacientes em sofrimento.

É do panorama atual que as legislações e o controle chegam antes das possibilidades tecnológicas, sendo imprescindível que os pesquisadores e negócios tenham instâncias internas e externas consultivas para garantirem o melhor uso sob o entendimento do uso de dados, ou melhor dizendo com os termos não camuflados, do trabalho alheio. Na minha experiência de trabalho já avisei clientes e colegas a respeito de situações como essas e sempre articulei para que os locais onde trabalhei não tenham o desprazer de serem num futuro constrangidos por situações como essas.

E você, como tem lidado com essa situação? O seu negócio se baseia em dados obtidos de maneira justa e usados sob premissas éticas?


PGC Consortium - https://pgc.unc.edu/

LGPD - Lei Geral de Proteção de Dados Pessoais