Disclaimer: Este texto foi originalmente escrito por mim durante o meu período de trabalho na TauGC Bioinformatics. Embora eu seja o autor do texto, os direitos de propriedade pertencem à TauGC Bioinformatics e as imagens não foram feitas por mim. Para acessar a publicação original, clique aqui.

Conheça o UNIPROT, uma base de dados integrada para quem trabalha com proteínas

Autor | Pedro Medeiros

Você já ouviu falar do UNIPROT - Universal Protein Resource?

Para quem trabalha com proteínas ele já se mostrou um recurso indispensável, mas muitas pessoas que atuam na área de gênomica e dev ou desconhecem ou ainda não o conhecem por completo.

O Uniprot é um colaboração entre o EMBL, PIR e o SIB que reúne dados e ferramentas acerca de proteínas, formando hoje, se não a mais completa, uma das melhores bases de dados e ferramentas para trabalhar com proteínas.

Os dados do uniprot provém inicialmente do e!Ensembl, INSDC e do PDB.

Descrição da Imagem

Ao realizarem a integração dessas 3 bases, a equipe do UNIPROT realiza basicamente 3 processos:

  1. Trata ambiguidades e duplicações, garantindo a integridade dos dados.
  2. Estuda e adiciona MANUALMENTE informações úteis acerca de dadas proteínas, verificando na literatura resultados e papers que vão trazer conteúdo informacional àquela entrada: Localização, experimentos, interações com outras proteínas e etc. Esse é um trabalho de curadoria que você pode ver pela indicação de “Reviewed (Swiss-Prot) - Manually annotated” nas sequências.
  3. Expande automaticamente para proteínas semelhantes às que sofreram um processo de revisão anotações que possam ser pertinentes.

Esse processo é o que faz com que o UNIPROT seja um recurso de extrema qualidade. No entanto, o que poucas pessoas conhecem é que qualquer pessoa pode submeter, através da página de cada proteína nos campos “add a publication” e “feedback”, novas publicações e correções às informações. Dessa forma, o UNIPROT é também um recurso que aceita entradas diretamente da comunidade, embora não de maneira tão aberta e automática quanto a Wikipédia.

O UNIPROT pode ser acessado de maneira gráfica, com diversas ferramentas de visualização acerca de diferentes aspectos das proteínas. Mas também por suas APIs, sendo não apenas um bom portal para consultas pontuais, mas também uma ferramenta poderosa para executar queries acerca de quase qualquer informação específica no seu banco.

Descrição da Imagem

Por fim, o sistema como um todo está passando por uma atualização prometida para ao final de outubro. A finalidade é adequar o sistema ao volume massivo de dados que hoje é submetido a ele e também aumentar sua capacidade de processamento. Para se ter uma ideia, o UNIPROT atualmente funciona em uma única máquina com menos de 100 GB de memória RAM.

Nesta grande mudança, devem ser adicionadas funcionalidades novas, como:

  • Um Dashboard que facilitará a utilização das ferramentas.
  • Uma unificação das APIs.

Dessa forma, busca-se aumentar a usabilidade tanto por linha de comando quanto por interface gráfica.

Conhecia o UNIPROT? Já utilizou em seus trabalhos acadêmicos? Compartilhe conosco sua opinião sobre o conteúdo!

Saiba mais: