Skip to main content

O formato PDF/A

O formato PDF/A é exigido por vários tribunais, mas você sabe porque isso é tão importante?
Em resumo o formato PDF/A garante que o documento será visualizado de maneira fiel no futuro.
De tempos em tempos o formato PDF é atualizado para conter mais recursos e não há garantias de que o arquivo será compatível com softwares leitores no futuro.
Por isso foram criados padrões para documentos PDF para através da ISO 19005-1:2005 e ISO ISO 32000-1, para que os desenvolvedores de software mantenham a compatibilidade de leitura para estes padrões, GARANTINDO A PRESERVAÇÃO FIEL DE DOCUMENTOS no tempo.

O PDF/A é um formato de arquivo para arquivamento de longo prazo de documentos eletrônicos. Baseia-se na versão 1.4 do PDF de referência da Adobe Systems Inc. (implementado no Adobe Acrobat 5 e versões posteriores) e é definido pela norma ISO 19005-1:2005. Uma nova versão do PDF/A com base no PDF 1.7 - ISO 32000-1 - está atualmente em desenvolvimento (ISO/DIS 19005-2).

O PDF/A é, na verdade, um subconjunto de PDF obtido excluindo as características supérfluas para arquivamento de longo prazo, de forma semelhante à definição do subconjunto PDF/X para impressão e artes gráficas. Além disso, a norma impõe uma série de requisitos aos programas para a visualização de ficheiros PDF/A. Um programa de visualização que atenda aos requisitos deve seguir certas regras, incluindo a conformidade com as normas para o gerenciamento de cores, o uso de fontes incorporadas para visualização, ou a possibilidade de fazer anotações pelo utilizador.

Este padrão não define uma estratégia para o armazenamento nem pretende alcançar as metas de um sistema de armazenamento. O que identifica um "perfil" de documentos eletrônicos que assegure que poderão ser reproduzidos com precisão no futuro. Um elemento fundamental para alcançar este objetivo é a exigência de que documentos PDF/A devam ser 100% autocontidos. Todas as informações necessárias para mostrar o documento de forma consistente devem estar presentes no ficheiro. Isso inclui, entre outras coisas, o conteúdo propriamente dito (texto, imagens e gráficos vetoriais), as fontes utilizadas e as informações de cor. Não é permitido que um documento PDF/A dependa de fontes externas (por exemplo, programas de tipografia e hiperlinks).

Outros elementos-chave de compatibilidade PDF/A incluem:

  • Não é permitido utilizar áudio e vídeo.
  • Não é permitido utilizar JavaScript ou executar arquivos.
  • Todas as fontes devem estar integradas e não devem ter quaisquer restrições que possam causar problemas legais no futuro. Isto também se aplica a fontes PostScript padrão, como Times ou Helvetica. Espaços de cor especificados independentemente do dispositivo.
  • Não é permitido o uso de criptografia.
  • É obrigatório o uso de metadados baseados em padrões.

 

Orientação Técnica

A preservação e o acesso aos documentos digitais dependem de uma série de cuidados que devem ser considerados sob pena de comprometer a autenticidade, o acesso e o uso desses documentos ao longo do tempo. Um desses cuidados é a definição de formatos de arquivo com características que possam permitir a preservação e o acesso de documentos digitais, com independência de sistemas operacionais e hardware.
Nesse sentido, desde o ano de 2005, o formato de arquivo denominado PDF/A (Portable Document Format/Archive) foi instituído como norma ISO (International Organization for Standardization) para preservação de alguns tipos de documentos digitais em longo prazo. A especificação do PDF/A como norma ISO torna o formato um padrão aberto, tornando-se de amplo uso e facilitando a criação de aplicativos pelos desenvolvedores.

 

Breve História do PDF e do PDF/A

Originalmente, o formato PDF foi criado em 1993, pela empresa Adobe Systems@, como um formato de documento orientado à página, compacto e com a capacidade de manter a visualização original independente de plataforma (hardware e sistema operacional), podendo ser criado a partir de outros formatos digitais, e assim tornou-se rapidamente um padrão de facto. Uma das outras razões de seu amplo uso é a possibilidade de desenvolvedores criarem e distribuírem conversores e
leitores para PDF, sem, no entanto, poderem alterar as especificações originais da Adobe.
Nos treze anos seguintes, a empresa Adobe lançou oito versões que incluíram novas funcionalidades para os seus usuários. Algumas dessas novidades, no entanto, trouxeram características que dificultavam a preservação do documento. Por exemplo, o uso de arquivos de fontes tipográficas externas (font linking), ao mesmo tempo em que torna os arquivos menores, cria uma dependência de localização e acesso a fontes externas para a visualização do documento na sua forma original. Caso o arquivo da fonte tipográfica não esteja presente no computador em que se visualizava o arquivo PDF, o resultado apresentado em tela poderia ser diferente daquele pretendido pelo autor do documento. Para contornar esse
tipo de problema, foi criado, em 2002, um grupo de trabalho na ISO para definição de um formato digital voltado especificamente para a preservação de documentos digitais em longo prazo, e que seria disponibilizado como uma especificação normalizada por entidade independente da Adobe Systems@.
Como resultado desse trabalho, em 1º de outubro de 2005, foi publicada a norma ISO 19005-1:2005 denominada Document Management – Electronic document file format for long term preservation – Part 1: Use of PDF 1.4 (PDF/A-1).
Após a publicação da norma ISO 19005, baseada no PDF 1.4, a Adobe seguiu desenvolvendo novas versões do PDF como formato proprietário da empresa. Em 1º de julho de 2008, foi publicada a norma ISO 32000-1, equivalente à especificação PDF 1.7 da Adobe Systems. Dessa maneira, o formato PDF passou a ser uma norma técnica internacional, um padrão de direito (de jure), e suas futuras versões passaram a ser definidas pela ISO.

 

Subtipos do PDF/A

O formato PDF/A, até o momento, apresenta-se em três subtipos: PDF/A-1, PDF/A-2 e PDF/A-3. Estes subtipos não se constituem em especificações evolutivas do PDF/A e não substituem necessariamente as anteriores, mas possuem características próprias para atender determinadas finalidades.

a) PDF/A-1
Basicamente, o formato PDF/A-1 é uma "versão simplificada" da versão 1.4 do formato PDF da empresa Adobe Systems, na medida em que se proíbe uma série de características que dificultam a tarefa de preservação digital, tais como: códigos executáveis javascript, hyperlinks externos, inserção de áudio e vídeo. Por outro lado, o PDF/A-1 obriga que outras características, as quais facilitam a preservação digital, estejam presentes, tais como metadados e fontes embutidas (embedding font).

b) PDF/A-2
Em 2011, foi publicada a ISO 19005-2:2011 (Parte 2), que estabeleceu o formato PDF/A-2. Essa parte não substitui a anterior, apenas define um novo formato que considera novas características decorrentes da evolução do formato PDF ou simplesmente proibidas pela Parte 1. Por exemplo, o PDF/A-2 pode conter, como anexos, arquivos no formato PDF/A. Além disso, passaram a ser permitidas as seguintes características: transparência, camadas, compressão JPEG 2000 e assinatura digital avançada (PaDes). De forma diferente da Parte 1, que era baseada no formato proprietário PDF 1.4, a Parte 2 é baseada na especificação ISO 32.000-1:2008.

c) PDF/A-3
Em outubro de 2012, foi publicada a ISO 19005-3:2012, Document management — Electronic document file format for long-term preservation — Part 3: Use of ISO 32000-1:2008 with support for embedded files (PDF/A-3). Essa parte não substitui as anteriores, nem representa uma evolução do formato, apenas define um novo formato, que possibilita inserção de anexos em qualquer formato, inclusive diferente do PDF/A. Esses anexos, denominados ”arquivos associados” (Associated Files), podem ser utilizados para armazenar dados, visualizações alternativas ou o próprio arquivo fonte que deu origem ao PDF/A-3. Em outras palavras, essa versão permite embutir no PDF/A-3 os arquivos que lhe deram origem em seus formatos nativos como DOC e XLS. Dessa maneira permite-se o envio de documentos reutilizáveis ou editáveis, necessários à realização de atividades dentro de um fluxo de trabalho. Ressalte-se que no caso dos arquivos associados em formatos diferentes de PDF/A, não existe expectativa de preservação em longo prazo.
As três partes da especificação PDF/A definem formatos de arquivos para a preservação digital que coexistem. A norma técnica define que um programa que visualize arquivos no formato PDF/A-3 ou PDF/A-2 deve, obrigatoriamente, visualizar os arquivos nos formatos PDF/A-1 e PDF/A-2.
Sendo assim, caso uma organização possua arquivos em conformidade com o formato PDF/A-1, não é necessário convertê-los para os formatos PDF/A-2 ou PDF/A-3. Como a conversão de formatos de arquivos é realizada por software, existiria a possibilidade de ocorrer perda de informação nesse processo.
Cabe esclarecer que o uso de arquivos associados no PDF/A-3 traz preocupações quanto à preservação em longo prazo e mesmo quanto ao uso primário na segurança da informação. Nesse sentido, o relatório técnico The Benefits and Risks of the PDF/A-3 File Format for Archival Institutions da National Digital Stewardship Alliance (NDSA), de 2014, apresenta cenários hipotéticos em que o uso do formato PDF/A-3 pode ser benéfico ou apresentar riscos. De forma resumida e adaptada, seguem alguns possíveis cenários para a utilização do PDF/A-3:

  • Inclusão de dados de pesquisa em documentos acadêmicos: utiliza-se o perfil Data em formatos abertos como CSV6 ou XML. Os dados podem ser relacionados a um elemento do documento (gráfico, tabela etc.) ou ao documento como um todo.
  • Inclusão de arquivos de aplicações CAD: utiliza-se o perfil Source para permitir a edição do documento original.
  • Captura de documentos disponíveis na WEB com licença Creative Commons que estão no formato PDF: a conversão para PDF/A embute o documento PDF original como arquivo associado utilizando o perfil Source, bem como recursos que garantem a preservação, tais como, fontes tipográficas e esquema de cores.
  • Utilização do PDF/A combinado com XML em um fluxo de autoria: o PDF/A-3 apresenta a informação formatada, para conveniência de leitura, e embute a informação estruturada (XML), para facilidade de criação de novas versões.

 

Principais cenários de uso para documentos arquivísticos

Uso em idade corrente e intermediária:
Os documentos podem ser produzidos diretamente em PDF/A ou em outros formatos e convertidos para PDF/A no momento do arquivamento.
No caso de documentos produzidos e mantidos na forma de tabelas de uma base de dados, o sistema informatizado poderá produzir um PDF/A para apresentar o documento ao usuário ou para exportá-lo para um sistema informatizado de gestão arquivística de documentos.

Uso em idade permanente:
O PDF/A pode ser utilizado para facilitar a preservação e o acesso a documentos digitais (originais digitais ou representantes digitais).
No momento do recolhimento ao arquivo permanente, pode-se converter os documentos originais digitais para o formato PDF/A, de maneira a padronizar o formato no arquivo permanente e a dar mais garantias de acesso em longo prazo.
Em relação aos representantes digitais, podem-se produzir cópias de acesso em PDF/A. Os arquivos originais de imagem devem ser preservados no formato em que foram gerados. Em ambos os casos, o documento original (digital ou não digital) deve ser mantido.

 

Nível de conformidade

A norma ISO 19.005 define três níveis de conformidade, como apresentado a seguir:

  • No nível básico (basic: PDF/A-1b, PDF/A-2b e PDF/A-3b), garante-se a reprodução confiável da aparência visual do documento;
  • No nível intermediário (PDF/A-2u e PDF/A-3u), define-se um nível que acrescenta ao nível básico a utilização do conjunto de caracteres Unicode;
  • No nível de acessibilidade (accessible: PDF/A-1a, PDF/A-2a e PDF/A3a), a norma define características que facilitam a acessibilidade e permitiriam, por exemplo, que um software reproduzisse, por meio de síntese de voz, o documento para deficientes visuais. Para que esse formato represente a estrutura lógica do documento e a ordem natural de leitura, utilizam-se marcas (Tagged), especificação de idioma e o conjunto de caracteres Unicode.

 REFERÊNCIA

 


Felipe Perin

Especialista em Segurança da Informação, Entusiasta em Software Livre, Palestrante e Consultor em Preservação de Acervos. Com expertise em SIEM, Pentest, Hardening, Honeypot, WAF - Web Application Firewall, ISO 27001, SDL - Secure Development Lyfecicle, e-GOV, e-PING (Padrão de Interoperabilidade), e-MAG (Padrão de Acessibilidade), e-PWG (Administração, Codificação, Redação Web e Usabilidade), 5S, Archivematica, Atom2 - Access to Memory, OJS - Open Journal System, Virtualização, Scan de Vulnerabilidades, Data Protection Office ou Encarregado de Proteção de Dados, Monitoramento de Ativos, Backup, Resposta à Incidentes de Segurança, Gestão de Risco e Conformidade, Software Livre, Log Management, Offshore Surveyor e Projetos Ecos sustentáveis (TI-VERDE)