A principal missão do Arquivo.pt é preservar informação online para fins de investigação e educação. O Arquivo.pt contribuiu para a preservação da informação científica publicada online que documenta projetos de investigação e desenvolvimento financiados pela União Europeia durante o programa Horizonte 2020 (2014-2021). Foram preservados 197 milhões de ficheiros (17 TB) relacionados com ciência para acesso futuro.
O recurso a websites para documentar as atividades de projetos de investigação e desenvolvimento tem vindo sempre a aumentar, sendo utilizados para disponibilizar informação científica relevante que completa a literatura publicada, como por exemplo conjuntos de dados abertos, apresentações em eventos ou software desenvolvido. Contudo, após o fim dos projetos, os respetivos websites normalmente desaparecem causando uma perda irrecuperável de informação científica única e valiosa. Por exemplo, podemos testemunhar que alguns sites dos projetos já não estão disponíveis online, como o website do projeto Extended Model of Organic Semiconductors (EXTMOS). No entanto, a informação do website deste projecto foi preservada e pode ser acedida no Arquivo.pt em: https://arquivo.pt/wayback/20170427182603/http://extmos.eu/.
O portal de dados abertos da União Europeia publicou um conjunto de dados do Community Research and Development Information Service (CORDIS) que documenta projetos de investigação financiados durante o programa H2020. Porém, dos 31 129 projetos listados, apenas 46% apresentavam o URL do projecto (coluna projectURL).
O Arquivo.pt desenvolveu uma metodologia de baixo custo que identifica automaticamente os URLs relacionados com projetos de investigação e desenvolvimento para serem preservados de forma sistemática. Esta identificação automática é alcançada através da combinação do recurso a conjuntos de dados abertos com serviços de pesquisa na web. O Arquivo.pt identificou e preservou 197 milhões de ficheiros da web (17 TB) de informação que documentam projetos de investigação e desenvolvimento financiados pelo programa europeu Horizonte 2020.
Todos os conjuntos de dados e ferramentas desenvolvidas foram disponibilizados publicamente em acesso aberto para que possam ser reutilizados e complementados de forma colaborativa, incluindo o software desenvolvido para identificar automaticamente URLs adicionais sobre os projetos H2020.