Skip to main content

Sobre o Projeto Archivematica

Archivematica é um sistema de preservação digital gratuito e de código aberto desenvolvido pela Artefactual Systems em parte por meio de financiamento da UNESCO. Apresentamos a história do Archivematica e uma visão geral do design, recursos e arquitetura técnica do sistema. Também fornecerá exemplos de como o software está sendo usado em projetos em todo o mundo, como o Fundo Monetário Internacional, a Biblioteca da Universidade da Colúmbia Britânica e Arquivos da Cidade de Vancouver. A apresentação vai concluir com uma discussão de direções futuras para o sistema, incluindo o desenvolvimento de novos recursos; o modelo de negócios de código aberto; serviços de treinamento e suporte; e desafios contínuos para a implementação Archivematica em países em desenvolvimento.

História do Projeto Archivematica

Em junho de 2007, Kevin Bradley da Biblioteca Nacional da Austrália com Junran Lei e Chris Blackall da Parceria Australiana para Repositórios Sustentáveis, publicou “Rumo a um Repositório de Código Aberto e Sistema de Preservação: Recomendações sobre a Implementação de um Arquivo Digital de Código Aberto e Sistema de Preservação e Desenvolvimento de Software Relacionado” para a Memória do Mundo da UNESCO Subcomitê do Programa de Tecnologia. Bradley defendeu a construção de sistemas sustentáveis ​​em vez disso de esperar alguma mídia de armazenamento permanente para resolver os desafios da preservação digital. Seu relatório definido requisitos de software de código aberto para a implementação de um sistema digital de arquivamento e preservação que consideraria todos os aspectos de um repositório digital, conforme definido pela ISO 14721 Open Archival Modelo funcional do Sistema de Informação (OAIS); Ingestão, Acesso, Administração, Gerenciamento de Dados, Planejamento de preservação e armazenamento de arquivamento, incluindo mídia de armazenamento e software de gerenciamento. Avançando o relatório afirmou que as soluções de preservação digital para objetos digitais simples foram bem compreendidas, e que “o que é necessário são ferramentas acessíveis, tecnologia e treinamento no uso desses sistemas.” O Subcomitê identificou lacunas existentes e fez recomendações para o desenvolvimento e embalagem de um Sistema de Preservação Digital de Código Aberto. No final das contas, eles concluíram que o que era necessária era uma abordagem acessível e sustentável que pudesse alavancar a experiência de instituições maiores com mais recursos para inovar e compartilhar soluções com a comunidade de preservação digital em geral. Essa inovação colaborativa poderia olhar para a comunidade de desenvolvimento de software de código aberto para um modelo de “como um sistema de arquivamento sustentável pode funcionar, ser sustentado, atualizado e desenvolvido conforme exigido.” Mais significativamente, o relatório recomendou que a UNESCO apoiasse“ a agregação e desenvolvimento de um sistema de arquivamento de código aberto, aproveitando e reunindo o código aberto existente programas. ”

Ao mesmo tempo, Artefactual Systems, Inc., estava ocupada desenvolvendo seu software genérico de kit de ferramentas de informação Qubit5 como AtoM (Access to Memory), um software de descrição de arquivo baseado na web de código aberto baseado nos padrões do Conselho Internacional de Arquivos (ICA). O relatório da UNESCO coincidiu com a equipe Artefactual, alguns de seus clientes e a comunidade de preservação digital em geral percebendo a necessidade de um sistema de preservação digital de código aberto, sustentável e baseado no OAIS.
Portanto, o projeto Archivematica teve seu início como o sistema de preservação digital de back-end para ICA-AtoM, e foi originalmente referido como “Qubit-OAIS”. Com o tempo, porém, a equipe de desenvolvimento reconheceu que a associação direta com ICA-AtoM pode ser muito exclusiva, obscurecendo o objetivo maior de permitir que o Archivematica se integre a outros sistemas. Portanto, a qubit-oais se tornou Archivematica, um sistema de preservação digital de código aberto projetado para acesso de longo prazo baseado em padrões a materiais digitais.

 

Projeto de arquivos digitais da cidade de Vancouver

Com a UNESCO, os Arquivos da Cidade de Vancouver foram uma das primeiras instituições a alocar recursos para o desenvolvimento do Archivematica. O objetivo do projeto era estabelecer um protótipo de ambiente de arquivos digitais e fornecer orientação sobre a estrutura de gerenciamento dentro dos Arquivos da Cidade de Vancouver (CVA) para implementar e manter arquivos digitais. O CVA é responsável por preservar permanentemente os registros arquivísticos criados pela cidade de Vancouver e seus vários conselhos e agências. É também responsável pela aquisição de arquivos de indivíduos e organizações do setor privado dentro das restrições impostas por seu mandato de aquisições. Cada vez mais, muitos dos registros criados por esses vários órgãos existem apenas em formato digital. O CVA reconheceu sua responsabilidade em garantir que tivesse infraestrutura política adequada e capacidade técnica em vigor para ser capaz de preservar e fornecer acesso a registros digitais autênticos e confiáveis ​​de forma permanente. Para cumprir essa responsabilidade, firmou parceria com a Artefactual Systems, Inc. e lançou o projeto Arquivos Digitais.
O projeto Arquivos Digitais focou em problemas relacionados à preservação de registros digitais municipais criados no Sistema de Gerenciamento de Documentos e Registros Eletrônicos da Cidade, chamados VanDocs, bem como registros digitais criados fora do ambiente VanDocs, em particular, registros criados e / ou mantidos por indivíduos e organizações do setor privado em sistemas de produção e manutenção de registros sobre os quais os Arquivos não tinham controle. A diversidade de registros e sistemas de manutenção de registros neste projeto de protótipo foi ideal para o desenvolvimento de um sistema que pudesse se adaptar a uma infinidade de instituições de memória com diferentes mandatos e políticas de aquisição. As metas de preservação digital podem ser semelhantes em todo o setor, mas diferentes tipos de objetos digitais e fluxos de trabalho são únicos e abundantes.

 

Preservação digital - uma visão geral

Nas instituições modernas, as operações e comunicações diárias são gerenciadas por meio da criação e troca de informações digitais (por exemplo, registros de negócios, e-mail, desenhos técnicos). No entanto, ao contrário dos registros de papel, que podem permanecer intocados em caixas ou arquivos por anos ou mesmo décadas sem causar danos, os registros digitais exigem ações especializadas para gerenciá-los e preservá-los. Na verdade, a acessibilidade de longo prazo, a usabilidade e a autenticidade dos materiais digitais estão em risco devido à fragilidade e complexidade inerentes aos objetos digitais e às incompatibilidades tecnológicas ou obsolescência ao nível do armazenamento de arquivos, software aplicativo, metadados e formatos de arquivo.
Os registros digitais podem ser facilmente perdidos, excluídos ou modificados; às vezes de forma maliciosa, mas com mais frequência por meio de contratempos (por exemplo, falha na mídia de armazenamento, falta de backups adequados em caso de exclusão acidental) ou uma simples falta de compreensão de que são registros da organização que devem ser tratados com tanto cuidado e atenção quanto os registros em papel têm esteve no passado. Com o tempo, alguns formatos não podem mais ser lidos quando o software que os criou é atualizado ou descartado. Isso pode resultar em sérios problemas de produtividade ou perda de oportunidades de negócios para reaproveitar e reutilizar ativos digitais.
Mesmo que possam ser lidos, a renderização de arquivos digitais pode não ser confiável; a "aparência" pode ser alterada ou pode haver perda de dados devido ao fato de que eles estão sendo renderizados usando um software diferente ou uma versão mais recente do software que os criou. Além disso, os registros podem facilmente se separar de seu contexto: ou seja, podem ser separados de seus metadados ou perder seus links para outros registros que foram originalmente criados e mantidos como parte do mesmo processo de negócios. Isso significa que, mesmo que um registro eletrônico possa ser recuperado e lido, ele pode ter comprometido sua autenticidade e seu valor probatório em procedimentos legais e regulamentares.
Por essas razões, o projeto Archivematica se concentrou em manter a acessibilidade, usabilidade e autenticidade de objetos de informação digital no espaço, tempo e tecnologia. Para cumprir a tarefa, eles começaram a construir seu sistema em conformidade com o modelo funcional ISO-OAIS e outros padrões e práticas recomendadas de preservação digital.

 

Análise de Modelo Funcional OAIS

Foi com os objetivos de preservação digital mencionados acima que a Artefactual Systems e o CVA começaram a construir o que o Subcomitê da UNESCO havia imaginado. No final de 2008, a Artefactual e a equipe do projeto CVA começaram a conduzir uma análise abrangente de requisitos para estabelecer os requisitos funcionais básicos, políticas e procedimentos para um sistema de arquivos digitais com base em padrões aceitos. A rodada inicial de coleta de requisitos começou com o desenvolvimento de casos de uso baseados no modelo ISO-OAIS.
O OAIS é o padrão de fato para projetar sistemas de arquivos digitais. Muitos sistemas ou projetos de preservação digital afirmam ser "compatíveis com OAIS" e essa também era uma meta para o projeto dos Arquivos Digitais de Vancouver, mas na época era difícil rastrear os requisitos entre o padrão OAIS e os sistemas que afirmam ser "OAIS- complacente". A análise detalhada dos requisitos OAIS com sua metodologia de caso de uso para estabelecer quais são os requisitos do sistema para que os Arquivos Digitais sejam “compatíveis com o OAIS” foi uma tentativa de construir rastreabilidade no projeto Archivematica.
Uma metodologia de caso de uso simples8 foi estabelecida para estruturar os casos de uso. Os casos de uso foram agrupados em torno das mesmas categorias amplas das Entidades Funcionais OAIS. Como o último, os casos de uso foram organizados em hierarquia com cenários de alto nível divididos em testes mais específicos (sub e sub-subcasos). Os casos de uso tentaram apresentar descrições em linguagem simples do que um Arquivo Digital deve realizar.

Os requisitos funcionais, de metadados e de tecnologia foram derivados dos casos de uso e de uma avaliação de tecnologia de código aberto. Os requisitos funcionais especificam o que o Archivematica deve ser capaz de fazer. Os requisitos de metadados estipulam quais atributos de dados devem ser capturados para cada etapa.
Os requisitos técnicos estipulam características técnicas, formatos ou protocolos específicos que devem ser implementados. Políticas e procedimentos também foram derivados dos casos de uso, pois são desenvolvidos para dar suporte a todas as etapas que os casos de uso contêm. Por exemplo, um caso de uso pode declarar: "Sistema implementa políticas de recuperação de desastres, como duplicação para instalação de armazenamento remoto"; a conclusão bem-sucedida dessa etapa requer, naturalmente, o desenvolvimento de tais políticas.
Os requisitos funcionais foram expressos como diagramas de atividades UML. Um primeiro conjunto deles foi baseado diretamente nos casos de uso OAIS sem qualquer interpretação adicional. Em seguida, eles foram revisados ​​como um segundo conjunto de diagramas de atividades específicos de CVA, com base em um processo de negócios e análise de arquitetura de TI realizada pela equipe do projeto, bem como na avaliação contínua de tecnologia e ferramentas9 e no trabalho de integração e desenvolvimento de software.
No decorrer da análise de requisitos, a equipe do projeto teve a oportunidade de fazer parte do Projeto InterPARES 3. A equipe consultou o Projeto InterPARES 3 para conduzir uma análise de lacunas entre o OAIS e o Modelo de Cadeia de Preservação (COP) do Projeto InterPARES 1. A revisão do modelo, junto com as consultas aos arquivistas sobre o processamento de registros analógicos, revelou que a avaliação ocorre em alguns estágios diferentes durante o processamento do arquivo. Essa análise de lacunas levou a casos de uso e diagramas de atividades UML que atendem aos requisitos de avaliação do Archivematica.

 

Archivematica

O caso de uso completo e análise de processo por CVA e Artefactual identificou requisitos de fluxo de trabalho para cumprir com o modelo funcional OAIS. O sistema Archivematica resultante usa um padrão de design de microsserviços para fornecer um conjunto integrado de ferramentas de software gratuitas e de código aberto que permite aos usuários processar objetos digitais desde a ingestão até o acesso em conformidade com o modelo funcional ISO-OAIS. Ele permite que os profissionais de preservação digital processem transferências digitais (objetos digitais acessados, simples e complexos), organizá-los em Pacotes de Informação de Envio (SIPs), aplicar planos de preservação de tipo de mídia e criar Pacotes de Informação Arquivística (AIPs) independentes de repositório e de alta qualidade . O Archivematica é projetado para fazer upload de Pacotes de Informação de Disseminação (DIPs) contendo metadados descritivos e cópias de acesso web para qualquer sistema de acesso (por exemplo, Dspace, ContentDM, ICA-AtoM, etc.). Os usuários monitoram e controlam os microsserviços por meio de um painel baseado na web.
Por meio de experiências de implantação e feedback do usuário, incluindo a análise de lacunas conduzida com o Projeto InterPARES 3, o Archivematica se expandiu além do OAIS para abordar a análise e o arranjo de transferências em SIPs e permitir a avaliação de arquivamento em vários pontos de decisão. Os microsserviços Archivematica implementam esses requisitos como tarefas de sistema granulares, que são fornecidas por uma combinação de scripts Python e uma ou mais das ferramentas de software de código aberto gratuitas agrupadas no sistema Archivematica.
Archivematica usa METS, PREMIS, Dublin Core e outros padrões de metadados reconhecidos. Os planos de preservação de tipo de mídia que ele aplica são baseados em uma análise das características significativas dos formatos de arquivo. O Archivematica oferece suporte a planos de preservação de emulação preservando fluxos de bits originais e oferecerá suporte a planos de preservação de migração monitorando formatos de arquivo em risco e fornecendo um processo para migrá-los em uma data futura. No entanto, a estratégia de preservação padrão do Archivematica é normalizar objetos digitais em formatos de preservação após a ingestão, a fim de fazer o melhor uso do tempo limitado que as organizações terão para processar e monitorar coleções grandes e diversas de objetos digitais. A construção de caminhos de normalização no software requer a escolha de formatos de destino e a integração de ferramentas de código aberto para realizar as migrações. A escolha dos formatos de preservação é baseada em quatro critérios básicos, que serão familiares a muitos daqueles que têm experiência com preservação digital:

  • A especificação deve estar disponível gratuitamente.
  • Não deve haver patentes ou licenças no formato. Os formatos de preservação do Archivematica são todos padrões abertos.
  • Outros repositórios digitais estabelecidos devem usar ou endossar o formato.
  • Deve haver uma variedade de ferramentas de escrita e renderização disponíveis para o formato.

A seleção de formatos de preservação tem sido um processo iterativo de pesquisa das melhores práticas, teste de ferramentas de normalização e, na medida do possível, comparação antes e depois dos resultados das conversões medindo propriedades significativas. A escolha dos formatos de acesso é baseada na onipresença dos visualizadores para o formato do arquivo, bem como na qualidade de conversão e compactação.
O Archivematica prepara um arquivo METS para cada SIP e o empacota com o AIP. O objetivo do arquivo METS é capturar, de forma padronizada, informações sobre todos os objetos que estão sendo preservados.
O arquivo METS lista todos os objetos no AIP, categoriza sua função (original, cópia de preservação, documentação de envio, etc.) e permite que um objeto original seja intelectualmente vinculado à sua cópia de preservação. O arquivo METS também inclui uma implementação robusta de PREMIS (Preservation Metadata Implementation Strategies) que fornece informações técnicas altamente detalhadas sobre cada objeto, uma trilha de auditoria das ações realizadas no objeto desde que foi ingerido e informações detalhadas e granulares de direitos.

 

Software de código aberto e metodologia de desenvolvimento ágil

Todo o software, documentação e infraestrutura de desenvolvimento estão disponíveis gratuitamente e lançados sob as licenças AGPL3 e Creative Commons para dar aos usuários a liberdade de estudar, adaptar e redistribuir esses recursos da maneira que melhor lhes convier. O desenvolvimento do Archivematica é liderado pela Artefactual Systems, um provedor de serviços técnicos com sede em Vancouver que trabalha com arquivos e bibliotecas para implementar suas soluções de código aberto como parte de estratégias abrangentes de preservação digital. Todo o financiamento para o desenvolvimento do Archivematica vem de clientes que contratam a equipe de arquivistas profissionais e desenvolvedores de software da Artefactual para auxiliar na instalação, integração, treinamento e melhorias de recursos. A maioria dos usuários do Archivematica tira proveito de sua licença gratuita e de código aberto sem serviços de contratação adicionais.
Archivematica segue uma metodologia ágil de desenvolvimento de software. Seu modelo de microsserviços é maleável o suficiente para permitir um ciclo de lançamento rápido e atualizações granulares e iterativas da documentação de requisitos, código de software e documentação do usuário final. Os clientes Artefactual e a comunidade de usuários Archivematica ajudam a priorizar novos recursos e correções de bugs para cada versão.

 

Prototipagem do Projeto Piloto e Experiência do Usuário no Fundo Monetário Internacional

Um dos primeiros clientes do projeto Archivematica foi o Fundo Monetário Internacional (FMI). O FMI juntou-se à Artefactual e aos Arquivos da Cidade de Vancouver para testar o Archivematica no mundo real. As experiências do FMI como usuários, bem como as questões de confidencialidade dos arquivos digitais em que o FMI está trabalhando, foram inestimáveis ​​para o aprimoramento do Archivematica.
Com sede em Washington, DC, o FMI está focado em analisar e relatar as condições econômicas mundiais e fornecer empréstimos aos países membros quando necessário. Os Arquivos do FMI fornecem a memória institucional do Fundo. Suas coleções de papel datam da Conferência de Bretton Woods em 1944, que criou o Fundo e continua até os dias atuais. No entanto, os arquivos digitais do FMI são muito mais recentes. Embora as unidades de rede do Fundo contenham documentos que datam de 1980 e mídias externas até e incluindo caixas de cartões perfurados tenham sido encontradas durante o processamento de coleções de papel, foi apenas nos últimos anos que os Arquivos foram capazes, com um financiamento e perspectiva de expertise, para começar a trabalhar em como trazer esses registros para o rebanho, preservá-los e torná-los acessíveis.
Como arquivista digital, Paul Jordan assumiu a liderança na coleta e teste prático de coleções.
Uma das principais ferramentas que ele usou em suas investigações foi o Archivematica, que foi instalado pela primeira vez em dezembro de 2009 e tem sido atualizado regularmente desde então. Os Arquivos do IMF o usaram em projetos de protótipo e piloto com uma variedade de sistemas de origem e tipos de arquivo, incluindo unidades compartilhadas legadas, caixas de correio de e-mail atuais e mídia externa. Todos os documentos usados ​​vieram de coleções reais trazidas de vários departamentos do Fundo.
A instalação foi simples, pois o Artefactual carregou toda a plataforma Archivematica para o repositório do Ubuntu e, portanto, teoricamente, tudo o que você precisa é uma máquina Ubuntu e uma conexão com a internet, e alguns comandos farão o download de tudo. Na verdade, o CVA pegou alguns computadores mais antigos que estavam a caminho do centro de reciclagem após uma atualização do computador, colocou-os em uma mesa, instalou o Ubuntu e baixou o Archivematica. Depois de adicionar cabos Ethernet para ligá-los, eles tinham um cluster de processamento digital em uma mesa. Infelizmente, o FMI não funciona dessa forma. O FMI é uma organização muito paranóica em termos de segurança, e com bons motivos. Nenhum software é permitido em nosso ambiente de TI, nem mesmo o ambiente de desenvolvimento, sem primeiro submetê-lo a um processo de acreditação de segurança. Isso representou um desafio para os Arquivos e Artefatos do FMI, uma vez que o software não havia amadurecido o suficiente e o cronograma do projeto era muito curto para acomodar testes completos.
No final das contas, os Arquivos do FMI criaram uma sandbox isolada, um par de computadores virtuais no farm de servidores virtuais do FMI que estavam completamente separados do resto da rede do FMI, com a única exceção de um link para um único compartilhamento de rede que poderia ser usado para carregar arquivos dentro e fora da sandbox. Isso funcionou bem do ponto de vista da segurança, mas torna a instalação um pouco complicada. Uma das coisas que são bloqueadas de forma muito específica é qualquer tipo de acesso à Internet, o que significa que a equipe não pode simplesmente baixar o Archivematica do repositório. Archivematica e todas as suas dependências tiveram que ser carregados em mídia externa e então movidos para a sandbox. No entanto, durante a instalação mais recente, a TI foi capaz de abrir temporariamente uma porta para a Internet e, em seguida, desligá-la assim que a instalação foi concluída. Essa instalação demorou cerca de meia hora.

Ao longo de nossos projetos-piloto, os Arquivos do FMI se concentraram em três sistemas de origem:
unidades de rede departamentais, mídia externa e e-mail. Os drives de rede permitiam a mais ampla variedade de conteúdo, com arquivos que datavam de 1980, muitos deles em formatos que eram difíceis de identificar mesmo com ferramentas como Jhove e Droid. Os arquivos da mídia externa eram praticamente os mesmos, embora complicados por mídia desajeitada e às vezes corrompida. Os e-mails vinham de uma caixa de correio compartilhada departamental e eram os mais confidenciais, além de serem os maiores arquivos. Havia centenas de arquivos nas unidades compartilhadas, mas individualmente poucos deles tinham mais do que algumas centenas de kilobytes e gigabytes de e-mail.
Desde o início, o Archivematica tem sido uma ferramenta inestimável para o alcance dos doadores. Mesmo quando ainda era tosco, forneceu aos Arquivos do FMI uma razão concreta para chegar aos departamentos do Fundo com coleções de interesse. Os Arquivos do FMI são um arquivo corporativo sem quaisquer doadores externos.
Todas as suas coleções vêm de departamentos do Fundo. Embora isso signifique que muitos departamentos já sabem que os Arquivos existem, as relações com os doadores e a rede não são menos críticas. Políticas, procedimentos e contatos para registros em papel estão bem estabelecidos. Aqueles para o digital mal começaram, e embora os contatos existentes do Archival formem uma base sólida, os detalhes da transferência ainda estão para ser decididos.
Mas, uma vez que os Arquivos do FMI tiveram um projeto piloto com um sistema real de trabalho que precisava de coletas de amostras, deu aos Arquivos a oportunidade perfeita para conversar com departamentos de interesse. O Outreach foi um sucesso geral. Alguns doadores em potencial ficaram extremamente interessados ​​e os Arquivos fizeram amigos em mais de um departamento. As pessoas estão começando a se conscientizar das questões de preservação digital, ou pelo menos se preocupam em perder acesso a arquivos e e-mail, e parecem muito dispostas a trabalhar com os Arquivos.
Um risco, no entanto, é prometer muito, muito cedo. A versão do Archivematica instalada quando essas entrevistas ocorreram ainda não estava pronta para produção. Os arquivos também não estavam prontos. Era um projeto piloto e era importante enfatizar isso para as pessoas com quem estávamos trabalhando. Era uma corda bamba muito interessante: tentar convencê-los de que os Arquivos sabiam o que estavam fazendo e que seus registros estariam seguros em suas mãos, sem chegar ao ponto de assumir a custódia formal dos itens e prometer arquivamento completo processamento e acesso; coisas que eles ainda não tinham os procedimentos, o software ou o pessoal para entregar.
Para instituições de pequeno e médio porte, o Archivematica é uma plataforma que reúne muitos serviços menores, cada um com seu próprio conjunto de ferramentas. Quando o arquivista digital Paul Joran entrou no campo dos Arquivos Digitais, ele passou um verão inteiro tentando instalar e trabalhar algumas das ferramentas individuais contidas no Archivematica. No entanto, ele tinha assistência de TI extremamente limitada e não foi capaz de fazer muito progresso. Em contraste, o FMI foi capaz de adquirir um único pacote que continha todos os softwares com os quais ele havia lutado e mais, todos trabalhando juntos na mesma direção. Arquivos do IMF foram capazes de testar o modelo OAIS em comparação com o que eles tinham e o que queriam fazer com a versão 0.5 do Archivematica.
Archivematica também é um sistema muito flexível que pode suportar quaisquer fluxos de trabalho que uma organização possa ter. Para os Arquivos do FMI, um desses fluxos de trabalho que exige muito esforço e que está apenas começando a ser abordado nos arquivos digitais é a classificação.

O FMI é uma organização muito preocupada com a segurança. O Arquivo tem um arquivista de desclassificação em tempo integral cuja função é a identificação, remoção e processamento de materiais classificados dentro do arquivo em papel, e nenhuma das coleções pode ser disponibilizada até que essa triagem seja concluída. A mesma coisa vale para objetos digitais.
Até o momento, o Arquivo concentra-se nos registros já abertos ao público. Trata-se principalmente de coleções de arquivos digitalizados: o repositório inteiro de documentos digitalizados do Conselho Executivo que são abertos ao público, alguns dos arquivos de países de arquivo e uma coleção de história oral. Tudo o que foi digitalizado já foi filtrado e declarado aberto; o Arquivo não verifica nada ainda confidencial. Nenhuma coleção digital nascida foi disponibilizada ainda, porque são essas coleções legadas extremamente grandes que provavelmente causarão problemas. Quando os Arquivos do IMF começaram a usar o Archivematica, ele não estava configurado para lidar com documentos públicos e não públicos, porque a Artefactual nunca havia trabalhado com um parceiro que atendesse aos requisitos para tal necessidade. Muitas das características em torno da classificação e revisão de documentos foram sugeridas pelo FMI. Felizmente, a abordagem sandbox permitiu que os Arquivos trabalhassem com documentos classificados de forma isolada e fizessem algumas análises.
Alguns dos documentos do FMI já possuem classificações de segurança atribuídas a eles. O sistema de gerenciamento de documentos do Fundo rastreia a classificação e também há um suplemento do Outlook que faz o mesmo para e-mail. Esses serão os mais fáceis de identificar. Também será fácil determinar quais documentos dentro desse período são públicos ou estão sujeitos à desclassificação automática, porque os status de classificação inferior também são rastreados. Registros mais antigos de antes da implementação desses sistemas são mais problemáticos. O e-mail geralmente terá classificação no cabeçalho, mas os documentos, por exemplo, fora de drives compartilhados, geralmente terão que ser abertos para determinar se eles estão ou não classificados. Além disso, muitos e-mails têm anexos que são classificados, e a classificação dos dois nem sempre corresponde.

Portanto, uma das etapas do arquivo durante a avaliação será uma revisão macro do status de classificação. A esperança é que, com base na proveniência, os arquivistas sejam capazes de ter uma ideia geral da quantidade de documentos classificados, que podem então ser incluídos na prioridade de processamento de uma coleção. Também pode ajudar a dividir os SIPs para ingestão; se um arquivista de processamento puder determinar que tudo fora de um subdiretório específico está aberto, o subdiretório classificado pode ser sequestrado e todo o resto disponibilizado. Uma vez concluída a avaliação da macro desclassificação, a cobrança será avaliada e processada normalmente.
Apenas quando o processamento for concluído, os arquivistas voltarão e farão uma segunda triagem de classificação no nível do item.
Uma das coisas que podem facilitar o processo, e a Archivematica está planejando implementar para sua versão 1.0, é a indexação de texto completo dos documentos recebidos. Isso permitirá que os arquivistas pesquisem palavras-chave e frases de classificação. Há um grande número, embora finito, de termos que podem classificar documentos; se a equipe puder identificar os documentos que contêm essas palavras, poderá eliminar um número significativo de documentos em aberto. No entanto, eles ainda precisarão de alguém para examinar os documentos que foram sinalizados e determinar se cada um é realmente um "documento secreto" ou se é um e-mail em que o remetente está falando sobre seus filhos que querem uma "base lunar secreta".

REFERÊNCIA


Felipe Perin

Especialista em Segurança da Informação, Entusiasta em Software Livre, Palestrante e Consultor em Preservação de Acervos. Com expertise em SIEM, Pentest, Hardening, Honeypot, WAF - Web Application Firewall, ISO 27001, SDL - Secure Development Lyfecicle, e-GOV, e-PING (Padrão de Interoperabilidade), e-MAG (Padrão de Acessibilidade), e-PWG (Administração, Codificação, Redação Web e Usabilidade), 5S, Archivematica, Atom2 - Access to Memory, OJS - Open Journal System, Virtualização, Scan de Vulnerabilidades, Data Protection Office ou Encarregado de Proteção de Dados, Monitoramento de Ativos, Backup, Resposta à Incidentes de Segurança, Gestão de Risco e Conformidade, Software Livre, Log Management, Offshore Surveyor e Projetos Ecos sustentáveis (TI-VERDE)