Imagine a seguinte situação… Em algum momento, há alguns anos do presente, um conjunto de pesquisadoras e pesquisadores estão empenhados em entender as características de um conjunto de vírus que causam gripe. Um trabalho por vezes considerado muito básico e com pouca importância prática, já que os holofotes da ciência e da mídia estão mais interessados em doenças mais perigosas e que causam maiores taxas de mortalidade. O ano é 2020, um vírus potencialmente perigoso e desconhecido até então pela ciência aparece em algum canto do mundo. Ninguém sabe exatamente do que se trata, mas desconfiam que se trata de uma mutação de outro vírus bastante conhecido e estudado por outras pessoas, mas que permaneceu fora dos holofotes por muito tempo. Você é uma pesquisadora que foi designada pela agência de pesquisa do seu governo para descobrir do que se trata. Você busca as possíveis fontes de informação que podem estar relacionadas a esse vírus, e para isso precisa ir a fundo, ou seja, olhar arquivos de dados, figuras, informações que vão além do que está reportado nos PDFs dos artigos, afinal de contas, o vírus é novo. Ao encontrar as bases de dados que geraram o conhecimento atual você se depara com algo desse tipo:

Um diretório organizado seguindo a lógica: organização, uma questão pessoal.

O vírus é perigoso, e todo tempo para desvendar os pormenores da doença que ele causa é precioso, mas infelizmente grande parte desse tempo vai ser gasto para entender o que se tem de conhecimento, checar se esse conhecimento é confiável ou não, e só então a pesquisadora poderá começar a se aventurar no desconhecido.

Infelizmente sabemos que isso se trata de uma história real e triste, e ela não está aqui apenas para fazer uma ilustração macabra da importância de se ter dados bem organizados. Ela serve para mostrar o quão danoso pode ser, guardando as devidas proporções, a falta de uma organização de dados. Nunca sabemos quando vamos precisar daquele conjunto de dados que outrora parecia apenas um processo de “fazer ciência básica”.

Dados bem geridos e disponibilizados publicamente podem aumentar a velocidade de descobertas científicas devido a facilidade de acesso por muitas pessoas interessadas em resolver os mesmos problemas. A ciência é um processo coletivo.

Fazendo uma aproximação para as questões que nos rodeiam, a organização adequada de dados pode ser o fator limitante para salvar aquela espécie que corre risco de extinção, para poder expandir aquele conhecimento teórico além do que se sabe, para impedir a construção de um empreendimento danoso para uma área de grande importância ecológica, para questionar conclusões de estudos enviesados com baixo rigor metodológico. Os exemplos são infinitos, e podemos fazer um exercício de reflexão sobre como a curadoria adequada de dados é importante para o avanço da ciência. Mas acima de qualquer vantagem prática, sua realização adequada garante que o elemento fundamental do processo de investigação científica seja possível: A reprodutibilidade.

A reprodutibilidade é o característica que garante a confiabilidade do processo de investigação científica. Sem ela nos tornamos reféns de opniões, crenças e viéses que nós, como pessoas, estamos todos sujeitos.

Não estou dizendo que a boa gestão de dados é a panacéia para todos os problemas que enfrentamos. Outros componentes também são importantes, por exemplo, o processo de revisão por pares, métodos claros e bem descritos nos trabalhos científicos. Porém, quando não possibilitamos a reprodutibilidade das nossas descobertas científicas, mesmo com a melhor descrição dos procedimentos metodológicos em conjunto com a revisão mais criteriosa, impossibilitamos a execução da melhor ferramenta de auditoria do processo científico. Para aqueles que quiserem mais motivos para acreditar na necessidade do acesso público de dados que possibilite sua auditoria, mesmo quando o trabalho científico passa pelos outros filtros, sugiro ler sobre um caso atual de suspeita de fraude científica na área de ecologia e evolução.

Para tentar reduzir este tipo de erro (deliberado ou não) devemos garantir que nossos dados sejam acessíveis e reprodutiveis. Conseguimos acessar com facilidade os dados daquele artigo para entendermos a fundo o que foi feito? Conseguios reproduzir aquela análise publicada de modo que consigamos expandir a proposta? Conseguimos reproduzir todos os passos de nossos próprios projetos após finalizado? Estas são algumas perguntas que podemos nos fazer para garantir a organização e a reprodutibilidade de nossas pesquisas.

Leituras importantes

Pacotes que utilizaremos ao longo desse curso

Durante esse curso utilizaremos alguns pacotes em R para nos auxiliar na organização e reprodutibilidade dos nossos projetos. Se você não os tem instalado no seu computador sugiro que os instale antes da aula. Para instalar ou atualizar use:

packages <- c("devtools", "rmarkdown", "here", "usethis")
lapply(packages, function(x) install.packages(x))

Precisamos falar sobre organização de dados e reprodutibilidade

Gabriel Nakamura

5/17/2021

Leituras importantes

Pacotes que utilizaremos ao longo desse curso