Passado um ano da publicação, 80% das páginas online desaparecem ou são alteradas. O serviço de preservação  digital  prestado  pelo  Arquivo.pt  é  essencial  para conservar uma  parte  da herança cultural do país e contribuir para que informação valiosa não se perca. Muitos dos conteúdos arquivados são únicos no mundo e são ainda preservados websites de interesse internacional, como a mais antiga página da  Library of Congress.

Landscape_1024_250Sempre que seja necessário revisitar informação perdida na web no seu estado original, é possível encontrá-la em  http://arquivo.pt.

O Arquivo.pt disponibiliza um serviço de pesquisa público e gratuito sobre dados arquivados da web desde 1996.  O desafio de preservar a Web requer um esforço contínuo e é na recuperação do acesso a estes endereços que o serviço prestado pelo Arquivo da Web Portuguesa (Arquivo.pt) se propõe ser útil, para que o conhecimento nela contido esteja acessível a gerações futuras.

Iniciativa  da  unidade  FCCN  da  FCT,  esta  é  uma  infraestrutura  de  investigação  focada  na preservação de conteúdos de interesse para a comunidade portuguesa. Contudo, poderá servir utilizadores internacionais, uma vez que preserva páginas em várias línguas e oferece a possibilidade de acesso a conteúdos históricos em português a utilizadores estrangeiros, através de ferramentas de tradução automática.

Como funciona o Arquivo.pt

A preservação realiza-se de forma automática e recorre a um sistema informático de larga escala. Diariamente, é feita uma recolha de 300 publicações selecionadas e, a cada 3 meses, todos os sites sob o domínio .PT são guardados. São ainda preservados sites sob outros domínios como .org, .com ou .eu. Após a recolha, a informação é processada para que se torne pesquisável e acessível.

Encontram-se arquivados cerca de 2 700 milhões de ficheiros, (95 TB de informação) e qualquer pessoa pode sugerir endereços interessantes para preservação, através da página arquivo.pt/sugerir.

Como surgiu o serviço

O Arquivo.pt teve origem no projeto “TUMBA!”, realizado na FCUL entre 2001 e 2006. O resultado desta investigação nacional na área da preservação digital gerou o primeiro protótipo de arquivo da web portuguesa.

Em 2007 a FCCN lançou o projeto “Arquivo da Web Portuguesa”, tendo sido realizada, em 2008, a primeira recolha da web portuguesa. Em 2012 foi disponibilizado o serviço público de pesquisa e acesso a páginas do passado.

Screen Shot 2015-11-03 at 12.21.50 PMO Arquivo.pt no Presente

Em 2015, o Arquivo.pt recolheu para preservação cerca de 580 milhões de ficheiros e o serviço de pesquisa registou, em média, 3 692 utilizadores por mês (90% novos utilizadores).

Estes resultados devem-se a um esforço de fortalecimento do serviço, operado nos últimos anos e assente na aposta em servidores mais adequados para tarefas especificamente relacionadas com a preservação da Web.

Com o lançamento de uma nova versão do Arquivo.pt (versão Fénix) verificam-se melhorias de acesso e interoperabilidade do serviço de pesquisa do Arquivo.pt com outros arquivos da web, projetos de investigação ou aplicações web que possam vir a ser desenvolvidas (por exemplo, por alunos de Informática).

Para ajudar a perceber como funciona o serviço que permite pesquisar o passado na web foi desenvolvido um vídeo que é atualmente apresentado na página principal.

Colaborações e desafios futuros

O Arquivo.pt realizou uma primeira tentativa de arquivar sites alojados sob o domínio .EU, um projeto que surgiu no âmbito de atividades do RESAW (Research Infrastructure for the Study of Archived Web Materials), a rede europeia que tem como objetivo a criação de uma infraestrutura dedicada ao estudo de materiais arquivados da web.

Está planeada uma atividade de arquivo de páginas dedicadas às Eleições Presidenciais de 2016, replicando o esforço já feito nesse sentido para as Eleições Legislativas de 2015, contando com a ajuda de voluntários que ajudaram a identificar 184 sites relacionados com a temática.

Para 2016 o Arquivo.pt tem grandes desafios, nomeadamente  vir a ser mais conhecido e utilizado pelo público como uma ferramenta útil. Estará em desenvolvimento um protótipo de pesquisa de imagens arquivadas, função requisitada pelos utilizadores, e há ainda planos para potenciar a reprodução de conteúdos arquivados de forma a evitar falta de imagens na visualização das páginas arquivadas.

 

Similar Posts