1  Introdução à Ciência Aberta


1.1 Objetivos de Aprendizagem

🎯 Ao final deste módulo, você será capaz de:
  • Compreender o contexto histórico da crise de reprodutibilidade e o surgimento do movimento de Ciência Aberta como resposta aos desafios contemporâneos da pesquisa científica
  • Identificar as diferentes escolas de pensamento e dimensões conceituais da Ciência Aberta, distinguindo entre perspectivas macro (políticas, infraestrutura) e micro (práticas do pesquisador)
  • Reconhecer as especificidades da trajetória brasileira rumo à Ciência Aberta, incluindo marcos regulatórios, limitações atuais e correntes críticas no debate nacional
  • Compreender o espectro de reprodutibilidade como continuum que organiza práticas abertas em três dimensões (Assets, Platforms, Practices) e três níveis de integração (Data, Code, Linked)
  • Identificar os três níveis de reprodutibilidade propostos pelo workflow ARTE (mínima, adequada, completa) e suas respectivas exigências técnicas e metodológicas
  • Mapear o arsenal de ferramentas disponíveis para operacionalizar práticas de Ciência Aberta em cada nível do espectro de reprodutibilidade, reconhecendo a adoção não-linear

1.2 Contextualização

A pesquisa científica atual enfrenta vários desafios (Munafò et al., 2017). Problemas como o pequeno tamanho da amostra, pequenos tamanhos de efeito, p-hacking (ajuste indevido de significância estatística) e HARKing (viés positivo de publicação), conflitos de interesse e a competição entre cientistas, têm sido apontados como catalizadores do que se convencionou chamar de “crise de reprodutibilidade” (M. Baker, 2016; Munafò et al., 2017).

Pesquisas apontam que mais de 70% de pesquisadores que tentaram, falharam em reproduzir os experimentos de outros cientistas, e mais da metade falhou em reproduzir seus próprios experimentos (M. Baker, 2016), com estimativa de que 85% dos esforços de pesquisas estejam sendo desperdiçados (Munafò et al., 2017), gerando custos econômicos bilionários (Freedman et al., 2015).

A despeito daqueles que advogam que não existe essa tal “crise de reprodutibilidade” na ciência (Bernard, 2023; Fanelli, 2018; Protzko et al., 2023), a grande maioria da comunidade científica concorda com sua existência e defende a melhoria da transparência, reprodutibilidade e eficiência (M. Baker, 2016).

Nesse contexto, o movimento da Ciência Aberta (CA) tem ganhado notoriedade e mudado a percepção sobre o cenário científico global (Crüwell et al., 2019). Ele busca tornar o conhecimento científico mais acessível, transparente e colaborativo. Se apresenta como uma coleção de práticas de democratização do conhecimento e ruptura com o formato único de divulgação do conhecimento científico (Crüwell et al., 2019; Heinz & Miranda, 2024; Munafò et al., 2017). Ele surge do embate entre aqueles que buscam compartilhar o conhecimento e aqueles que defendem mecanismos de apropriação privada para a produção científica (Heinz & Miranda, 2024).

A CA é um termo complexo e genérico (Vicente-Saez & Martinez-Fuentes, 2018), que representa diversas interpretações, e é considerada um novo modelo de divulgação e produção de resultados científicos por meio do acesso livre e irrestrito ao conhecimento (Heinz & Miranda, 2024). A CA não é apenas um conceito, mas uma proposta prática que influencia o ciclo de vida da pesquisa, desde a concepção até a disseminação dos resultados (Silva & Silveira, 2019).

Existem pelo menos cinco escolas de pensamento dentro da CA. Estas escolas abrangem desde a arquitetura tecnológica necessária para suportar a ciência até a inclusão do público geral na criação de conhecimento, passando pela medição do impacto alternativo, acesso ao conhecimento como um direito humano, e a pesquisa colaborativa como inovação aberta (Silva & Silveira, 2019).

A taxonomia proposta pela FOSTER (Facilitate Open Science Training for Eurpean Research), e sua releitura revisada e ampliada para o contexto latino americano por Silveira et al. (2023), tendo em vista as recomendações da UNESCO (2021), nos dá uma dimensão da complexidade do assunto (vide ilustração em: https://doi.org/10.5281/zenodo.7836884).

1.3 Ciência Aberta no Brasil

O movimento da CA no Brasil está em uma fase transitória (Rezende & Falgueras, 2020), ainda consolidando o acesso aberto, com o governo desempenhando um papel crucial nesse processo. O Brasil tem ganhado destaque por sua abordagem única na implementação da CA. Esta abordagem é moldada por marcos regulatórios que se estendem desde o governo até as instituições e agências de financiamento. Os regulamentos brasileiros, particularmente aqueles que promovem a abertura de dados governamentais, têm um impacto direto na prática científica. Eles incentivam a transparência e facilitam o acesso a dados científicos originados de instituições públicas (Rezende & Falgueras, 2020).

A trajetória brasileira rumo à CA inicia com a abertura de dados na esfera governamental entre 2009 e 2016, evoluindo para a criação de um grupo de trabalho em 2017 pelo Ministério da Ciência, Tecnologia, Inovações e Comunicações (MCTIC) para desenvolver uma política nacional para a CA. Este esforço concentrou ênfase no reconhecimento dos dados de pesquisa como ativos de desenvolvimento científico, econômico e social, buscando facilitar seu acesso, compartilhamento e reutilização (Rezende & Falgueras, 2020).

Talvez por esse motivo, as políticas institucionais brasileiras revelam um cenário ainda muito influenciado pela “via verde” do movimento de acesso aberto, caracterizado pelo depósito de dados em repositórios digitais abertos, e que o comprometimento efetivo do Brasil com a CA ainda é incipiente. As regulamentações atuais favorecem principalmente o acesso aberto, sem abordar de maneira abrangente outros aspectos da CA (Rezende & Falgueras, 2020). O Brasil é um dos líderes mundiais no fornecimento de acesso universal às suas pesquisas e estudos (Neto et al., 2016), com crescimento estável de sua produção científica disponível em acesso aberto, principalmente, as áreas de Agricultura e Ciência & Tecnologia (Caballero-Rivero et al., 2019).

Em termos de pesquisa acadêmica sobre o tema no Brasil, os estudos são precoces e concentrados na área de Ciência da Informação (Albano et al., 2023). A despeito da maturidade da CA no Brasil, a importância do tema, materializada na quantidade de produção acadêmica, tem aumentado vertiginosamente (Albano et al., 2023), e a dispersão de autores e respectivas instituições que publicam sobre o assunto, parece ser a situação predominante.

Apesar de importantes atores nacionais, tais como CAPES, CNPq e SciELO, defenderem o crescimento de iniciativas de CA (Mendes-Da-Silva, 2023), o assunto no Brasil parece estar circunscrito em iniciativas de importantes periódicos nacionais sobre dados aberto, capitaneados pelas orientações da SciELO. Considerando o ano de 2024, não encontramos nenhuma pesquisa empírica, sobre a prática da CA no Brasil.

1.4 Críticas brasileiras à Ciência Aberta

A literatura brasileira apresenta uma corrente crítica que questiona se a CA representa efetivamente uma democratização do conhecimento ou se pode funcionar como nova forma de apropriação e dominação de países centrais sobre os periféricos, especialmente por meio do colonialismo de dados, da dependência de infraestruturas digitais externas e da concentração de poder informacional em grandes empresas e instituições do Norte Global (Guimarães Furtado & Evangelista Cunha, 2024; Kronbauer & Oliveira, 2024; Sinãni & Accorssi, 2023). Essas análises destacam riscos de extrativismo de dados, perda de soberania digital e aprofundamento de assimetrias, em um cenário no qual parte significativa dos sistemas nacionais de informação científica opera sobre plataformas controladas por corporações estrangeiras (Guimarães Furtado & Evangelista Cunha, 2024; Sinãni & Accorssi, 2023).

Outra vertente crítica enfatiza a mercantilização da publicação científica e o capitalismo acadêmico, apontando que modelos baseados em Article Processing Charges (APCs) podem deslocar a barreira de acesso para a barreira de publicação, penalizando pesquisadores de contextos periféricos com menor financiamento (Bechi & Almeida, 2024; Neubert & Rodrigues, 2021; Silveira et al., 2025). Ao mesmo tempo, analisa-se a geopolítica do conhecimento e a relação da agenda de CA com lógicas neoliberais, indicando que, se implementada sem considerar as especificidades do Sul Global, a CA pode reforçar padrões epistêmicos eurocêntricos, métricas competitivas e usos privados de resultados gerados com recursos públicos (Albagli & Maciel, 2004; Bechi & Almeida, 2024).

Por outro lado, o debate também reconhece alternativas e resistências, como o modelo diamante de publicação predominante em parte das revistas latino-americanas, iniciativas de soberania digital e infraestruturas descentralizadas que buscam reduzir dependências estruturais (Abreu, 2022; Silveira et al., 2025). Nessa perspectiva, as críticas não rejeitam a CA em si, mas reforçam a necessidade de políticas e práticas que integrem preocupações com justiça socioeconômica, fortalecimento de infraestruturas locais e um projeto de CA genuinamente emancipatório, em vez de uma nova face da dominação capitalista e colonial.

1.5 Perspectiva da Ciência Aberta

Por prática de CA entende-se a perspectiva micro da CA, relacionadas com as terminologias e conhecimento em torno do fluxo de trabalho do gerador de conhecimento científico aberto (Figura 1.1), ou seja, o cientista que se propõe tornar sua pesquisa transparente, reprodutível e replicável.

Perspectiva micro da CA
Figura 1.1: Perspectiva micro da Ciência Aberta. Taxonomia relacionada com terminologias e conhecimento em torno da prática (fluxo de trabalho) do gerador de conhecimento científico aberto. Ilustração disponível em: https://doi.org/10.5281/zenodo.10835001.

Exclui-se a perspectiva macro, relacionadas com as ramificações conceituais da CA concernentes às políticas públicas, infraestrutura, envolvimento aberto de atores sociais e diálogo aberto com outros sistemas de conhecimento (Figura 1.2). Essa última perspectiva está fora do escopo da discussão do curso, que se concentra em algumas das dimensões da perspectiva micro, particularmente, as ferramentas disponíveis para compilação dos produtos científicos que integram a publicação científica (UNESCO, 2021).

Perspectiva macro da CA
Figura 1.2: Perspectiva macro da Ciência Aberta (CA). Taxonomia relacionada com as ramificações conceituais da CA concernentes às políticas (públicas), infraestrutura, envolvimento aberto de atores sociais (sociedade) e diálogo aberto com outros sistemas de conhecimento. Ilustração disponível em: https://doi.org/10.5281/zenodo.10835001

1.6 Educação em Ciência Aberta

A comunidade científica e atores importantes do cenário advogam que a solução para a “crise de reprodutibilidade” passa por educar os estudantes e pesquisadores desde cedo em todas as questões da CA (D. H. Baker et al., 2023; Bezjak et al., 2018; Chopik et al., 2018; Crüwell et al., 2019; Dogucu & Çetinkaya-Rundel, 2022; Janz, 2015; McAleer et al., 2022; Munafò et al., 2017; Toelch & Ostwald, 2018).

A referida crise não deriva de má conduta científica, mas principalmente da confusão entre replicar conclusões, replicar resultados, falta de literacia em dados, estatística, programação, lógica e método científico. Para combater essas questões é necessário investir em educação e disseminação de boas práticas de investigação para uma mudança de cultura (D. H. Baker et al., 2023; Bezjak et al., 2018; Chopik et al., 2018; Crüwell et al., 2019; Dogucu & Çetinkaya-Rundel, 2022; Janz, 2015; McAleer et al., 2022; Munafò et al., 2017; Toelch & Ostwald, 2018).

Investir em recursos humanos, treinamento, educação, alfabetização digital, capacitação sistemática e contínua, e fomentar uma cultura de CA, têm sido apresentadas como algumas das principais medidas simultâneas para superar o cenário atual (Committee on Reproducibility and Replicability in Science et al., 2019; European Commission. Directorate General for Research and Innovation., 2017; UNESCO, 2021).

1.7 Da Teoria à Prática: Implementando Ciência Aberta

Embora os princípios da CA sejam amplamente defendidos, sua implementação prática permanece um desafio significativo para pesquisadores, especialmente nas Ciências Sociais Aplicadas (Limongi & Rogers, 2025b). A crise de reprodutibilidade, embora catalisadora do movimento de CA, é apenas sintoma de desafios estruturais mais profundos (Crüwell et al., 2019). Taxonomias como as de Silveira et al. (2023) e Zarghani et al. (2023) mapeiam um ecossistema complexo que vão desde infraestrutura até governança, cuja amplitude, à primeira vista, intimida o pesquisador individual e exige um recorte estratégico (Limongi & Rogers, 2025b).

A solução para a crise e a construção de uma ciência mais transparente começam com mudanças pragmáticas, implementáveis no nível do pesquisador (Alessandroni & Byers-Heinlein, 2022; Limongi & Rogers, 2025b). A transição para uma ciência mais aberta inicia-se com mudanças concretas e gerenciáveis em nossos ambientes de trabalho, digitais ou não, uma abordagem bottom-up onde o pesquisador é protagonista (Limongi & Rogers, 2025b). Nessa perspectiva, o foco recai sobre a dimensão micro da CA: o fluxo de trabalho do cientista que busca tornar sua pesquisa transparente, reprodutível e replicável.

1.7.1 Espectro de Reprodutibilidade

Para compreender os níveis de compromisso com práticas abertas, é útil visualizar a reprodutibilidade como um espectro contínuo, não como um estado binário. Essa perspectiva foi proposta por Zaragozí et al. (2020) e adaptada para o contexto das Ciências Sociais Aplicadas, organizando práticas de reprodutibilidade em três dimensões essenciais: Assets (ferramentas e dados locais), Platforms (serviços em nuvem para colaboração) e Practices (metodologias de trabalho) (Figura 1.3).

Espectro conceitual de reprodutibilidade
Figura 1.3: Espectro de reprodutibilidade em Ciências Sociais Aplicadas: dimensões conceituais. O gradiente de cores representa níveis crescentes de compromisso com práticas abertas, organizados em três dimensões (Assets, Platforms, Practices) e três colunas que representam diferentes estágios de integração: Data (organização e compartilhamento de dados), Code (versionamento e documentação de código), e Linked (integração computacional de dados, código e narrativa). Ilustração disponível em: https://doi.org/10.5281/zenodo.17830903.

O espectro apresenta três colunas que representam progressão na integração: Data (organização e compartilhamento de dados), Code (versionamento e documentação de código), e Linked (integração computacional de dados, código e narrativa). O gradiente de cores - do vermelho (práticas básicas) ao amarelo (práticas intermediárias) e verde (práticas avançadas) - comunica visualmente que a reprodutibilidade não é um objetivo único, mas um continuum onde diferentes níveis de sofisticação tecnológica e metodológica coexistem e são válidos (Zaragozí et al., 2020).

Um aspecto crítico do espectro é que Practices (práticas metodológicas) alcançam tons mais intensos de verde mesmo em estágios intermediários, indicando que metodologia adequada pode ser mais determinante que sofisticação tecnológica (Zaragozí et al., 2020). Por exemplo, metadados bem estruturados e documentação clara podem ser mais valiosos para a reprodutibilidade que código complexo sem explicação (Zaragozí et al., 2020).

1.7.2 ARTE: Operacionalizando o Espectro

Neste contexto, o workflow ARTE (Article Reproducibility Template & Environment) emerge como proposta pedagógica para operacionalizar o espectro de reprodutibilidade em pesquisas na área de Ciências Sociais Aplicadas (Limongi & Rogers, 2025a, 2025b; Rogers & Limongi, 2025). O ARTE não impõe uma trajetória única, mas oferece um roteiro estruturado em três níveis progressivos que materializam as dimensões do espectro de reprodutibilidade.

O ARTE propõe uma taxonomia de reprodutibilidade em três níveis - mínima, adequada e completa - que permite adoção progressiva de práticas abertas sem sobrecarregar pesquisadores iniciantes (Rogers & Limongi, 2025). Esta abordagem alinha-se com a recomendação pragmática de que “compartilhar algo é melhor que nada compartilhar” (Klein et al., 2018), reconhecendo que diferentes estágios de abertura são válidos e contribuem para o avanço científico (Kathawalla et al., 2021).

A reprodutibilidade mínima concentra-se na organização e compartilhamento de dados segundo o TIER Protocol, exigindo apenas conhecimentos de gestão de arquivos (literacia em dados) e familiaridade com plataformas como o Open Science Framework (OSF) (Limongi & Rogers, 2025b). Corresponde às zonas vermelhas e amarelas da coluna Data no espectro, estabelecendo a base: estrutura de pastas padronizada, metadados descritivos e licenciamento adequado.

A reprodutibilidade adequada adiciona controle de versão de código (Git/GitHub) e gestão de dependências (renv para R/conda para Python), introduzindo a publicação de documentos dinâmicos com Quarto/RStudio (Limongi & Rogers, 2025b). Este nível integra as colunas Data e Code do espectro, avançando para as zonas amarelas e verdes iniciais: versionamento, documentação de código, documentos dinâmicos e controle de dependências.

A reprodutibilidade completa integra dados, código e narrativa em ambientes computacionais encapsulados (Docker), garantindo execução idêntica em qualquer máquina (Limongi & Rogers, 2025b). Representa a coluna Linked do espectro em sua expressão mais avançada (zonas verdes), onde documentos dinâmicos, gerenciadores de dependências e tecnologias de containerização convergem para criar artefatos científicos completamente reproduzíveis.

1.7.3 Ferramentas Práticas e Adoção Incremental

A operacionalização do ARTE requer ferramentas concretas em cada nível. A Figura 1.4 apresenta o espectro de reprodutibilidade com ferramentas específicas recomendadas para Ciências Sociais Aplicadas, permitindo que pesquisadores identifiquem soluções práticas para cada estágio de compromisso com a CA.

Espectro de ferramentas para reprodutibilidade
Figura 1.4: Espectro de reprodutibilidade em Ciências Sociais Aplicadas: ferramentas recomendadas. Esta versão do espectro destaca ferramentas específicas organizadas nas mesmas três dimensões (Assets, Platforms, Practices) e colunas (Data, Code, Linked). As ferramentas apresentadas constituem o arsenal prático que o ARTE mobiliza em cada nível de reprodutibilidade. Ilustração disponível em: https://doi.org/10.5281/zenodo.17830903.

Na zona mínima (tons avermelhados), priorizam-se formatos de dados tabulares (CSV), APIs públicas para dados abertos, repositórios institucionais (OSF, Zenodo, Dataverse, ICPSR) e práticas de documentação básica (metadados, licenciamento) (Rogers & Limongi, 2025). Estas ferramentas exigem curva de aprendizado mínima e constituem o ponto de entrada natural para pesquisadores que iniciam sua jornada em CA.

Na zona adequada (tons amarelados), introduzem-se interfaces estatísticas (JASP, Jamovi, Orange, Knime), linguagens de programação (R, Python), ambientes de desenvolvimento (RStudio, Jupyter), versionamento (Git), plataformas colaborativas (GitHub, GitLab), e gestão de dependências (renv para R, conda para Python) (Rogers & Limongi, 2025). JASP e Jamovi servem como pontes para pesquisadores acostumados a interfaces gráficas, gradualmente introduzindo conceitos de código reproduzível (D. H. Baker et al., 2023; Limongi & Rogers, 2025b). Zotero complementa este ecossistema como ferramenta de gerenciamento de referências, integrando-se aos fluxos de trabalho com RStudio para facilitar inserção de citações em documentos dinâmicos (Rogers & Limongi, 2025).

Na zona completa (tons esverdeados), integram-se sistemas de publicação científica (Quarto, RMarkdown), gestão avançada de ambientes (Docker, Podman), hospedagem estática (GitHub Pages, Quarto Pub), notebooks executáveis (Binder), computação em nuvem (Posit Cloud, Google Colab), e automação de workflows (Rodrigues, 2023; Rogers & Limongi, 2025). Docker e Project Rocker encapsulam o ambiente computacional completo, solucionando o “inferno de dependências” e garantindo reprodutibilidade de longo prazo (Moreau et al., 2023; Zandonella Callegher & Massidda, 2022).

A flexibilidade do espectro permite adoção não-linear: um pesquisador pode utilizar Git e compartilhar scripts no OSF sem necessariamente usar GitHub, ou adotar Quarto e renv sem jamais usar Docker (Limongi & Rogers, 2025b). Esta característica alinha-se com a filosofia do ARTE de que “o perfeito é inimigo do bom” (Klein et al., 2018) - melhor compartilhar dados organizados hoje que esperar anos para dominar containerização (Kathawalla et al., 2021).

Ambientes de computação em nuvem - Google Colab, Posit Cloud, JupyterHub, Binder, Nextjournal e Code Ocean - abstraem a complexidade da containerização, oferecendo ambientes pré-configurados acessíveis via navegador que democratizam o acesso a ferramentas computacionais (Limongi & Rogers, 2025b; Wiebels & Moreau, 2021). Estas plataformas servem diferentes pontos do espectro, desde reprodutibilidade básica (Colab) até encapsulamento completo (Code Ocean e Nextjournal) (Clyburne-Sherin et al., 2019).

Para pesquisadores do ecossistema R, o RStudio IDE consolida-se como hub que integra estas soluções em interface única, combinando nativamente Quarto, Git/GitHub, renv, e Zotero (Rodrigues, 2023; Vuorre & Curley, 2018; Zandonella Callegher & Massidda, 2022). Este ambiente integrado pode ser potencializado ao executar o próprio RStudio dentro de um container Docker via Project Rocker, encapsulando todo o ambiente de desenvolvimento (Rodrigues, 2023).

1.7.4 Perspectivas e Desafios

Embora o ARTE ofereça roteiro estruturado, barreiras persistem. A falta de treinamento formal em ferramentas computacionais, a pressão por publicações rápidas, e a ausência de incentivos institucionais para práticas abertas dificultam a adoção em larga escala (Kathawalla et al., 2021; Limongi & Rogers, 2025b). No contexto brasileiro, onde políticas de CA ainda favorecem predominantemente o acesso aberto sem abordar outros aspectos da reprodutibilidade (Rezende & Falgueras, 2020), iniciativas educacionais como este curso tornam-se ainda mais críticas.

O movimento rumo à ciência reproduzível não requer abandonar práticas estabelecidas, mas integrá-las progressivamente ao workflow de pesquisa (Limongi & Rogers, 2025b). Como apontam Alston & Rick (2021), pesquisa reproduzível “não se trata apenas de ferramentas avançadas, mas também de hábitos simples de trabalho”. A jornada para a CA é contínua, construída sobre hábitos consistentes (Limongi & Rogers, 2025b).

A CA, portanto, não é uma revolução disruptiva, mas uma evolução metodológica que fortalece a credibilidade científica sem comprometer a autonomia do pesquisador. O ARTE, que adotaremos transversalmente nesse curso, oferece um mapa para esta jornada, reconhecendo que diferentes trajetos são válidos desde que orientados pelos princípios de transparência, reprodutibilidade e abertura. Talvez mais importante que o produto final, seja o processo que levou ao produto final.

1.8 Preparação para a Aula

Pré-requisitos

Este módulo é focado na apresentação e discussão de conceitos fundamentais sobre Ciência Aberta e reprodutibilidade. A aula será conduzida por meio de exposição dialogada, sem atividades práticas programadas.

Leituras Recomendadas

Para aprofundar sua compreensão dos temas abordados neste módulo, recomendamos a leitura da trilogia de editoriais “Open Science in Three Acts”:

Pré-requisitos Técnicos

Embora este módulo seja teórico, os módulos seguintes do curso envolverão atividades práticas. Recomendamos que você antecipe a instalação e configuração das ferramentas necessárias seguindo as instruções detalhadas na seção de Pré-requisitos do Curso