Logotipo Allameda
Home Page Quem Somos Serviços Cases Clientes Contatos
 
 
10/09/2012
OCR da ABBYY digitalizando a história brasileira
Com o mundo cada vez mais digital e online, estar presente na rede mundial de computadores é uma obrigação para qualquer empresa. O crescimento da internet como meio de comunicação e ferramenta de negócio, fez com os principais jornais do mundo se adaptassem ao digital, provendo conteúdo para este tipo de plataforma. Ao mesmo tempo, sem abandonar o tradicional impresso diário, tão lido pelas ruas.

O conteúdo digital se tornou realidade no final dos anos 1990 – pouco mais de 20 anos atrás. Pouco tempo se comparado à existência de alguns grandes jornais mundiais. No Brasil, O Estado de São Paulo, um dos mais tradicionais jornais do país, teve sua primeira edição em janeiro de 1875 – 137 anos de história. 

Com tantos anos de história e inúmeras edições, um jornal como o Estadão – como é conhecido O Estado de S. Paulo – possui um acervo que, no mínimo, pode revelar muito sobre a história do país e do mundo. 

E em uma era tão digital, esse acervo não poderia se manter em um local apenas físico. Era preciso compartilhá-lo com o mundo de forma digital, online. 

Desde sua criação, lá em 1875, o Estadão já publicou mais de 2 milhões de páginas. Perfiladas, essas páginas cobririam 1.440 quilômetros – aproximadamente a distância entre Londres, na Inglaterra, e a cidade espanhola de Barcelona. Encadernadas, os volumes empilhados chegariam à altura de 230 metros – um prédio de 76 andares.

Desafio: digitalizar milhões de páginas – muitas com mais de 100 anos de vida

Quando o Estadão resolveu transformar toda sua história de jornais publicados em edições digitais, foi necessária a contratação de uma empresa especializada em consultoria de TI para analisar e decidir as melhores soluções técnicas a serem utilizadas nesse mega trabalho. A escolhida foi a Tractus Consultoria. 

A Tractus teve todo o cuidado para levantar cada detalhe do projeto. Utilizando o que há de mais moderno em termos de equipamento, a empresa esbarrou em uma pequena, mas chata dificuldade: o material que era escaneado.

O papel? Não. A coleção do jornal estava toda ‘arquivada’ em microfilmes, uma mídia analógica de armazenamento para livros, periódicos, documentos, desenhos. A sua forma mais padrão é um rolo de filme fotográfico de 35mm preto e branco ou colorido. Digitalizar tudo diretamente do papel seria muito caro e demorado. Um microfilme da década de 1990 pra cá, tem, em média, uma semana de jornal. Um da década de 1920, por exemplo, tem um ano de jornal – naquela época, o jornal tinha aproximadamente oito páginas. 

E foram exatamente alguns desses microfilmes que começaram a dificultar o processo de digitalização do acervo. Os microfilmes dos jornais mais antigos, como das décadas entre 1875 e 1940, não foram produzidos com padrões de qualidade, fazendo com que esses arquivos tivessem baixa ‘acertividade’ quando passado pelo OCR.  Com isso, foi preciso uma parceria com a Fundação Biblioteca Nacional, do Rio de Janeiro, onde o Estadão pode refazer cópia destes filmes. Dessa vez, nos padrões mínimos de qualidade. Quando necessário, o pessoal teve que digitalizar do impresso novamente, para que se tivesse ‘acertividade’ entre 85% e 95% - o ideal para que o projeto desse certo. 

Com o nível de ‘acertividade’ definido e os microfilmes ajeitados, era hora do OCR entrar em ação. E o escolhido pela equipe que cuidava do projeto foi o ABBYY – empresa líder mundial em tecnologias linguísticas, de reconhecimento de documentos e captura de dado. Com sede em Moscou, Rússia, a ABBYY possui uma dezena de escritórios espalhados pelo muno, inclusive no Brasil. Dois programas foram utilizados: o ABBYY FineReader Engine, um SDK de OCR poderoso que integra reconhecimento de documentos com tecnologias de conversão; e o ABBYY FineReader 11 Corporate, o famoso software de OCR da ABBYY.

Não foram necessários grandes ajustes para que o software tivesse um grande nível de precisão. Foi o que garantiu Jacques Assis, Diretor da Tractus. Segundo ele, a taxa de precisão do software, com alguns ajustes feitos pela equipe do projeto, já foi suficiente para garantir o nível de ‘acertividade’ entre 85% e 95%.

Cada arquivo digitalizado era exportado em tamanho original, formato PDF e resolução de 300dpi. Com exceção dos materiais até 1940, que saiam com resolução até 360dpi. Os materiais mais recentes demoravam de 15 a 20 minutos para serem digitalizados. Os mais antigos, com maior resolução e caracteres – as páginas de um jornal de 1800 tinham 60 mil caracteres e cerca de 10 cm a mais – demoravam, em média, 30 minutos. 

Benefícios

Com a solução OCR da ABBYY fazendo parte deste projeto, o jornal O Estado de S. Paulo pode compartilhar de forma digital 137 anos de história com todo o planeta. O nível de ‘acertividade’ e velocidade proporcionada pela tecnologia da ABBYY garante, em um futuro próximo, a digitalização de grandes acervos literários, de periódicos, históricos. Fazendo, assim, com que legados e histórias se perpetuem junto à era digital. 

Com a tecnologia OCR da ABBYY reconhecendo os textos, imagens e tabelas das páginas dos jornais, foi possível transformar os arquivos finais digitalizados em pesquisáveis. Com isso, o usuário que consultar o acervo digital do Estadão poderá fazer consultas pesquisando os arquivos através de palavras ou expressões.

Assessoria de Imprensa
Allameda.com - 11.3926-5580

Compartilhar



Retornar
 
 
 
Artigos
Artigos de Clientes de Allameda, especialistas em várias áreas. A republicação é livre.
Releases
Acesso a todos os press-releases e informações chave de nossos clientes.
Fotos em alta
Fotos de produtos, executivos e instalações de clientes de assessoria de imprensa.

ALLAMEDA.COM R Dr Rafael Correia 65 Cjto 4 Vila Romana | São Paulo | +55.11.3926-5580

powered by Fábrica de Tempo