Disclaimer: Este texto foi originalmente escrito por mim durante o meu período de trabalho na TauGC Bioinformatics. Embora eu seja o autor do texto, os direitos de propriedade pertencem à TauGC Bioinformatics e as imagens não foram feitas por mim. Para acessar a publicação original, clique aqui

Saiba como algumas boas práticas podem auxiliar os profissionais de bioinformática.

Autor | Pedro Medeiros

Nós já falamos aqui sobre alguns aspectos do que podemos esperar da bioinformática e, principalmente, do bioinformata na sua atividade. Hoje iremos um pouquinho além e falaremos sobre os resultados, responsabilidades e segurança do nosso trabalho.

Dentre as áreas de atuação do bioinformática estão saúde, agricultura/pecuária, produção e afins, e o que todas elas têm em comum: os dados gerados pelas análises irão, diretamente, afetar algo vivo.

Descrição da Imagem

Seus resultados serão subsídios para tomada de decisão que poderão ter consequências bastante importantes. (como o caso da atriz Angelina Jolie que optou por uma mastectomia preventiva face à detecção de uma variedade altamente oncogênica em seu DNA).

Isso traz uma responsabilidade muito grande ao nosso trabalho e dá de encontro a uma série de incertezas e conflitos.

Enquanto a academia avança nessas discussões, o que nós profissionais podemos fazer para garantir que nossos resultados refletem a máxima qualidade e para tomada de decisão?

Separamos algumas dicas em tópicos para tornar essa decisão mais fácil:

  1. Esteja de acordo com a ética específica da área de aplicação dos seus resultados

    A melhor forma de não ter conflitos éticos com dados sensíveis é não ter acesso a eles.

    As análises que você está realizando gerarão mais dados do que os requisitados pelo cliente? O que será feito com esses dados? O cliente quer acesso, por exemplo, a resultados fora do escopo específico do serviço?

    Todas essas perguntas precisam ser respondidas antes do início de qualquer pipeline e estabelecidas em contrato.

    Pode parecer fora do nosso escopo de atuação, mas ter isso claro poupará não apenas o setor jurídico em futuros litígios, mas custos de processamento, armazenamento e pessoal.

  2. Conheça suas ferramentas a fundo: Explicabilidade, Interpretabilidade e transparência

    Qualquer pessoa que já implantou uma pipeline complexa sabe o alívio que é quando ela roda pela primeira vez: inputs processados, logs e outputs gerados são a consagração do desenvolvedor.

    Mas calma, o trabalho não acabou e, na verdade, você pode estar caindo no pior dos erros: o que não surge com uma mensagem na tela.

    Em tempos onde explicabilidade e interpretabilidade são questões emergentes para inteligência artificial (IA), a transparência, onde é possível estabelecer o exato funcionamento de cada etapa da sua pipeline, dos processos da maioria dos softwares de bioinformática é o padrão.

    Conhecer esses processos é o que vai garantir que seus resultados não possuam erros ocultos oriundos de configurações mal formatadas.

  3. Reprodutibilidade, reprodutibilidade e reprodutibilidade

    Conseguir consistência nos resultados em suas pipelines é, de longe, a principal ferramenta para qualidade de suas análises. Poder ver, rever, refazer e alcançar resultados consistentes com o melhor saber científico e uso do software é o que dará a confiança para a tomada de decisão.

    Este artigoapresenta 10 orientações práticas nesse sentido que são implementadas aqui na TauGC:

    1. Para cada resultado, tenha claro como ele foi produzido.
    2. Evite ao máximo interagir com os dados manualmente no meio da pipeline.
    3. . Tenha arquivadas as versões exatas de todas ferramentas externas utilizadas.
    4. Estabeleça controle de versão em todos os scripts.
    5. Tenham armazenados todos os resultados intermediários de maneira padronizada.
    6. Caso suas análises utilizem aleatoriedade, guarde os valores das Random Seeds.
    7. Gráficos sempre devem possuir disponíveis os dados que foram utilizados na sua confecção.
    8. Gere outputs de maneira hierárquica, fazendo com que o detalhamento de cada output possa ser inspecionado de maneira individualizada.
    9. Conecte os resultados interpretados com os dados brutos utilizados em sua geração.
    10. Forneça, quando possível, acesso aos scripts, corridas e resultados de suas análises.

Em resumo, dada a importância dos resultados obtidos através da bioinformática, é essencial que o profissional esteja atento para minimizar os erros de sua análise e prover os melhores dados para tomada de decisão.

E você, no seu trabalho, segue alguma diretriz que colocamos nesse texto? Compartilhe com a gente suas melhores práticas ;)

Saiba mais: