Pesquisa Reproduzível

Fernando Mayer & Walmes Zeviani

61 RBRAS | 23 a 25 de Maio | Salvador/BA

A 61ª Reunião Anual da RBras focará o tema Biometria e Bioestatística na Era de Big Data.

Introdução

  • Evolução da tecnologia: coleta, processamento e análise com bases de dados de alta dimensão
  • Rotinas de análise mais sofisicadas e complexas
  • Como garantir que toda essa informação, e todo esse resultado que vem sendo gerado pode ser confiável?
  • As análises, os modelos e os algoritmos que usamos atualmente são bastante complexos: difícil descrever todos os detalhes em palavras
  • Entender o que alguém fez em uma análise de dados atualmente, requer olhar para o código

The Duke trial saga

  • Anil Potti et al: A Genomic Strategy to Refine Prognosis in Early-Stage Non–Small-Cell Lung Cancer. The New England Journal of Medicine. 2006.
  • Prever a evolução do câncer de pulmão de um paciente usando matrizes de expressão
  • Anil Potti et al: Genomic signatures to guide the use of chemotherapeutics. Nature Medicine. 2006.
  • Utilização de “linhas de células”, para prever a quimioterapia mais eficaz para pacientes que sofrem de câncer de pulmão, mama ou de ovário

The Duke trial saga

  • O grupo de Duke iniciou três ensaios clínicos baseados nos trabalhos publicados.
  • Bioestatísticos do MD Anderson Cancer Centre tentaram reproduzir os resultados do artigo, com a finalidade de usar a nova técnica.
  • Foram encontradas diversas falhas como linhas de células com nomes errados, nomes e números de células inconsistentes, etc.
  • Depois disso, uma série de investigações foram realizadas, levando a cessar os ensaios clínicos já iniciados pela Universidade.
  • Dr. Potti pediu demissão, e depois foi descoberto que ele tinha envolvimento com empresas da área biomédica.

Análise de dados como arte

Ciência é conhecimento que entendemos tão bem que podemos ensiná-la para um computador. Todo o resto é arte.

Donald Knuth, 1974

O processo de análise de dados por um pesquisador pode ser comparado ao processo de criação de uma música por um músico.

Os métodos já foram ensinados ao computador, cabe ao analista saber como juntar as ferramentas e aplicá-las para responder questões relevantes para a ciência e para as pessoas.

Como a ciência funciona

A Ciência é um processo de aprendizado da natureza, onde ideias concorrentes sobre como funciona o mundo são medidas contra observações.

Richard Feynman, 1965

  • Descrições: incompletas
  • Observações: incertas e imprecisas
  • Métodos para avaliar a concordância entre as ideias e as observações = Estatística (Stigler, 1986).

Como a ciência funciona

“Árvore de aprendizado” de Platt (1964) a partir de experimentos críticos, denominada inferência forte (strong inference), e que consiste das seguintes etapas:

  1. Conceber hipóteses alternativas.
  2. Conceber um experimento crucial (ou vários deles) com possíveis resultados alternativos, onde cada um poderá excluir, dentro do possível, uma ou mais hipóteses.
  3. Realizar o experimento de forma a obter resultados mais confiáveis possíveis.
  4. Reciclar o procedimento, criando subhipóteses ou hipóteses sequenciais para refinar as possibilidades que restam, e assim por diante.

Como a ciência funciona

Esta visão de Platt é naturalmente uma extensão lógica do trabalho de Popper, que revolucionou a filosofia da Ciência no século 20, ao argumentar que uma hipótese não pode ser provada, apenas desprovada.

A essência do método Popperiano é “desafiar” uma hipótese repetidamente. Se a hipótese permanece válida então ela não é validada, mas adquire um certo “grau de confiança”, que na prática passa a ser tratada como verdadeira.

Coincidindo com esta filosofia de Popper está o trabalho estatístico de Ronald Fisher, Karl Perason, Jerzy Neyman e outros, que desenvolveram grande parte da teoria estatística atual associada à “testes de hipótese”.

Replicação e reprodução na Ciência

A replicação é um dos pilares fundamentais da ciência.

É necessário que diversos cientistas coletem e analisem dados de forma independente, e cheguem no mesmo resultado.

Se muitas pessoas diferentes chegarem à mesma conclusão de forma independente, então tendemos a pensar que a relação ou resultado provavelmente é verdadeiro (que vai de encontro com a filosofia de Popper).

Replicação e reprodução na Ciência

Hoje em dia, a replicação tem se tornado cada vez mais desafiadora:

  • Estudos maiores e mais caros
  • Disponibilidade de recursos financeiros para pesquisas cada vez mais escassa

Além disso, existem estudos que dificilmente podem ser replicados:

  • Avaliação do impacto de um terremoto em um determinado local
  • Evolução do crescimento de uma floresta
  • Estudo clínico que acompanhou as reações de pacientes à um medicamento durante 20 anos

Replicação e reprodução na Ciência

Existem muitas boas razões pelas quais não podemos replicar um estudo.

Se replicar não é possível, então existem duas opções:

  • Não fazer nada (não e uma opção de verdade)
  • Reproduzir a pesquisa.

A ideia é criar uma espécie de padrão mínimo, ou um meio-termo entre replicar um estudo e não fazer nada.

Replicação e reprodução na Ciência

Uma parte fundamental da pesquisa reproduzível é tornar disponíveis dados e métodos computacionais (em forma de código).

Se reproduzir uma análise leva à um resultado já conhecido e esperado, então qual o propósito de uma pesquisa reproduzível?

  • Validação da análise de dados
  • Diferentes cientistas, com diferentes visões e ideias podem colaborar no sentido de continuar a pesquisa, ou sugerir outras abordagens
  • Novas possibilidades para novas perguntas
  • Acelerar a geração de conhecimento

Replicação e reprodução na Ciência

  • A revista Science teve uma edição inteira dedicada à reproducibilidade.
  • Muitas revistas científicas tem atualizado suas políticas de publicação, para encorajar a reproducibilidade dos artigos publicados.

    • Public Library of Science (PLoS)
    • Biostatistics

Replicação e reprodução na Ciência

Preocupações:

  • Como fica a questão da propriedade intelectual?
  • Como fica a disponibilização de dados que foram coletados com financiamento privado ou público?
  • Até que ponto a disponibilização dos dados não irá prejudicar meus projetos futuros?
  • Será que não posso sofrer plágio?

Cientistas estão preocupados em fazer pesquisa reproduzível, mas mesmo na PLoS, cerca de 60% das publicações não disponibilizam dados suficientes.

Elementos da reproducibilidade

Quatro elementos principais:

  1. Dados: Os dados utilizados na análise devem ser disponibilizados da maneira como foram analisados originalmente.
  2. Código: O código utilizado para produzir os resultados apresentados.
  3. Documentação: Descrever o código e os dados utilizados na análise de maneira clara.
  4. Distribuição: Distribuir todos esses elementos de maneira que sejam facilmente acessíveis.

Boas práticas para a computação científica

Estudos recentes tem mostrado que cientistas passam cerca de 30% de seu tempo escrevendo códigos.

No entanto, mais de 90% deles são primariamente auto-didatas, e portanto carecem de exposição à boas práticas de desenvolvimento de software como:

  • escrever códigos de fácil manutenção
  • usar um sistema de controle de versões
  • rastreadores de bugs
  • testes unitários
  • automação de tarefas.

Boas práticas para a computação científica

  1. Escreva programas para humanos, não para computadores
  2. Deixe o computador fazer o trabalho
  3. Faça alterações incrementais
  4. Não repita você mesmo (ou outros)
  5. Prepare-se para erros
  6. Otimize código apenas depois que ele funcionar
  7. Documente a ideia e o propósito, não a mecânica
  8. Colabore

Ferramentas da reproducibilidade

Publicar dados e códigos não é necessariamente uma tarefa trivial.

Problemas comuns:

  • Muitos autores simplesmente “colocam” arquivos na web.
  • Existem jornais que disponibilizam materiais suplementares, mas que sabidamente são desorganizados ou falhos.
  • Mesmo quando dados e códigos estão disponíveis, o leitor ainda tem que baixar dados e códigos, e então tentar juntar tudo, uma tarefa que geralmente não é fácil e desencoraja a maioria das pessoas.
  • O leitor pode não ter os mesmos recursos computacionais que o autor.

Ferramentas da reproducibilidade

Por isso, a proposta de distribuir dados e códigos documentados de uma pesquisa científica, de maneira acessível e auto-contida.

Objetivos: expor as ferramentas computacionais disponíveis no R para gerar documentos de análise (dinâmicos), auto-contidos em formato de pacote.

Dessa forma, para reproduzir uma pesquisa é necessário apenas instalar o pacote no R e reproduzir as análises conforme a documentação.

Ferramentas da reproducibilidade

Benefícios:

  • Os dados e os códigos são disponibilizados conjuntamente
  • As análises podem ser documentadas em forma de vinhetas, que são documentos dinâmicos
  • Eventuais funções que forem criadas para uma análise específica também já estão disponíveis
  • O padrão estrutural (rígido) de criação de pacotes do R, garante uma padronização da maneira como a pesquisa é distribuída
  • Facilidade na distribuição, já que o pacote pode ser disponibilizado no CRAN ou em repositórios como o Github
  • A compatibilidade das análises entre sistemas operacionais é aumentada