Introdução

No ambiente da pós-graduação, aprender sozinho é algo mais do que comum, especialmente em campos técnicos como a bioinformática. Muitas vezes você não possui pares acessíveis para te ajudar e o seu orientador pode não ter o conhecimento necessário ou a disponibilidade para te guiar no dia a dia. Grande parte do aprendizado é feito por tentativa e erro, o que de fato é interessante e valoroso, mas pode ser um processo lento, frustrante e solitário em muitos sentidos. Uma das piores partes: seu aprendizado em geral morre com você, impedindo um ciclo virtuoso de ensino e colaboração. Neste blogpost, quero compartilhar parte do meu próprio processo de aprendizado, disponibilizando scripts que escrevi ao longo do meu mestrado na Universidade Federal do ABC (UFABC).

Contexto

Ao começar meu mestrado na Universidade Federal do ABC, rapidamente me deparei com a complexidade da bioinformática. Embora meu orientador fosse incrivelmente experiente e prestativo, muitas das tarefas que ele executava em minutos me tomavam horas para replicar. Isso me levou a documentar e otimizar rotinas de pesquisa num nível que antes não existia em nosso grupo pois para o meu orientador tudo aquilo era muito natural e intuitivo (o que em geral é o inverso de “padronizado”, haha) resultando em uma série de scripts pessoais que usava com frequência na minha pesquisa. Estes scripts são mais do que simples ferramentas; são um testemunho do meu percurso educacional e uma contribuição à comunidade acadêmica que me apoiou. Com frequência, requisitavam que eu desse acesso à “pasta de scripts do lab”, de maneira que agora, após o término do projeto, creio que seja uma boa hora de começar de fato a transformá-los em algo mais estruturado.

Por Que Estou Fazendo Isso?

Transparência e Ciência Aberta

Vivemos em uma era em que a transparência e o compartilhamento de conhecimento são vitais. Isso é especialmente verdadeiro na ciência, onde os princípios FAIR (Findable, Accessible, Interoperable, Reusable) estão ganhando cada vez mais relevância junto a vários outros que misturam transparência, rastreabilidade e responsabilização. Apesar deles não se encaixarem perfeitamente na proposta de nenhum desses princípios, acredito que o compartilhamento seja um passo na direção certa. Ao compartilhar meus scripts utilizados no passado, espero que outros possam aprender com eles e, quem sabe, até mesmo contribuir com melhorias.

Benefícios para Aprendizes

Talvez você se pergunte: “Por que compartilhar scripts que não são otimizados?”. A verdade é que o processo de aprendizado é cheio de imperfeições. Ao expor meus scripts, espero encorajar outros que também estão aprendendo, mostrando que todos passamos por desafios e que está tudo bem. Um dos entraves da ciência aberta que percebo é justamente expor o processo de pesquisa, que é cheio de falhas, erros, incerteza e frustrações ao longo do percurso. A imagem da perfeição, ao meu ver, é tóxica para a única coisa que realmente importa em ciência, que é a educação, dessa forma, expor o processo por meio desses documentos intermediários é uma forma de contribuir para uma cultura de diálogo aberto e colaborativo.

Detalhes Técnicos

A maioria dos scripts é escrita em Bash, mas também há alguns em R e Python. Eles se concentram principalmente em:

  • Download de sequências
  • Limpeza de dados
  • Renomeação de arquivos
  • Preparação de sequências para alinhamento
  • Construção de árvores filogenéticas de proteínas

Mas há também alguns scripts que são mais específicos para o meu projeto de pesquisa, como a construção de um banco de dados, modelagem estrutural (em uma era pré-Alphafold) e afins.

Conclusão

A jornada de aprendizado em qualquer campo é um processo contínuo. Compartilhar esse processo, com suas falhas e sucessos, é uma maneira de contribuir para uma cultura de aprendizado aberto e colaborativo. Então, sinta-se à vontade para visitar meu repositório no GitHub para explorar, aprender e, quem sabe, colaborar. Estarei incluindo-os aos poucos, então fique de olho!


As imagens, em sua maioria, foram retiradas de bancos de imagens públicos, respeitadas suas devidas licenças e, quando possível e necessário, citada a fonte da maneira requerida pelo autor. Em caso de qualquer controvérsia envolvendo direitos de imagens, basta me contatar.

Esse texto está sob licença Creative Commons. O selo abaixo indica que você pode remixar, adaptar e criar a partir do meu trabalho para fins não comerciais, desde que atribua a mim o devido crédito e que licencie as novas criações sob termos idênticos.