-->

quarta-feira, 26 de novembro de 2008

Tem sugestões para digitalização massiva de revistas?

Hoje sou eu quem pede ajuda.

Eu estou no meio de uma faxina no meu apartamento (OK, hoje é mais apropriado chamar de "meu depósito") e preciso resolver um problema. Um quarto inteiro está ocupado por centenas de revistas, que venho acumulando há mais de 20 anos. Tem de tudo um pouco, como Época, Veja, Superinteressante, Galileu, VIP e minhas coleções de eletrônica, informática e quadrinhos das quais não quero me desfazer.

Mas ao mesmo tempo, isso precisa sair daqui. Além do espaço que ocupam, é muito papel junto. Basta um pequeno acidente elétrico para em menos de uma hora não sobrar nada das minhas coleções e de metade do apartamento.

Eu estou disposto a "contratar" minha irmã adolescente para digitalizar tudo. Mas é um trabalho mortalmente tedioso que eu preciso que saia certo da primeira vez e tão rápido quanto possível, sem sacrificar a qualidade. Tenho computadores e tenho scanners sobrando, incluindo um antigo HP 4C (um raro exemplo de scanner SCSI e de área maior que A4) que ainda deve funcionar, mas só no Windows 9x.

Como espaço para armazenagem de bytes hoje não é nenhum problema, pretendo digitalizar na maior resolução ótica prática possível, considerando caso a caso. Digitalizar revistas de eletrônica, por exemplo, não deve requerer nada melhor que 300dpi (talvez nem mais que 150dpi), mas as revistas em quadrinhos eu posso preferir digitalizar a 600.

Eu poderia alugar um scanner com alimentador automático de páginas (Automatic Document Feeder - ADF. Um troço raro que eu não tenho), se encontrar alguma empresa aqui em Recife que alugue.

As revistas grampeadas eu vou desgrampear para melhorar a precisão do serviço, mas as de lombada colada vão sofrer bastante. Para muitas revistas, cortar a lombada em uma guilhotina para separar as páginas é uma opção, mas não há a menor chance de que eu vá fazer isso com minhas coleções de quadrinhos.

E eu sei que principalmente no caso dos quadrinhos alguns cuidados especiais precisam ser tomados para evitar que o que está desenhado no verso apareça na digitalização. Além, claro, de ter que lidar da melhor maneira possível com o moiré (isso vale para todas as publicações coloridas).

Edit: Algumas das digitalizações, particularmente das revistas de eletrônica, eu vou desejar processar posteriormente em algum programa de OCR. Por isso já na digitalização eu devo tomar os cuidados necessários para maximizar as chances do OCR funcionar direito. A última vez que tentei fazer OCR foi há uns 10 anos e os resultados ainda eram sofríveis. Eu suponho que esses programas tenham evoluído muito de lá para cá.

Não tenho pressa. Esse é um projeto que sei que vai demandar tempo, mas eu preciso dar andamento, ou nunca vou fazer e aquele quarto vai ficar eternamente indisponível.

Então eu estou aberto a sugestões. Existe um bom scanner no mercado que vale a pena comprar? Alguma empresa local que alugue scanner com ADF? Alguma técnica especial para reduzir a fadiga nesse serviço? Algum site que trate do assunto? O microfone está aberto para os leitores. :)

31 comentários:

  1. Também padeço do mesmo problema, tanto é que tive que deslocar minha coleção de hqs para outra residencia, mas os mangás e quadrinhos principais ainda se encontram em casa protegidos por plástico.
    Em suma, quanto ao problema de escanear,que de fato já me ocorreu mas preferi baixar a grande maioria dos gibis em formato digital mesmo os quais teriam qualidade superior as minhas scans, seria uma boa voce entrar em contato com o pessoal que escaneia há um bom tempo, tal qual o pessoal do rapadura açucarada ou do grupo americano de scanners de hqs, o DCP.

    ResponderExcluir
  2. Atticus,

    Pedir conselhos a esse pessoal é uma boa idéia. Eu só não "baixo" os gibis e me poupo de parte desse trabalho (tirando os quadrinhos, muito do que tenho aqui nunca esteve disponível online) porque prefiro fazer meus próprios scans.

    ResponderExcluir
  3. Também ia sugerir o Rapadura (rapaduradoeudes.blogspot.com) tanto pra download de algo que você já tenha quando pras técnicas... com certeza ele pode te dar um toque.

    ResponderExcluir
  4. Jefferson, um site muito bom que trata de várias técnicas (e que tem um grande acervo de eBooks) é esse:
    http://www.portaldetonando.com.br/forum/portal.php
    Vale a pena se cadastrar lá e ver as dicas de quem tem muita quilometragem na digitalização!

    ResponderExcluir
  5. E eu louco para me livrar de 2 caixas de vídeo repletas de quadrinhos... Superman, Batman, Xmen etc... da época do formatinho até seu fim.

    ResponderExcluir
  6. Jefferson, não sou especialista, mas eu poderia sugerir o seguinte.

    Se existir um scanner com botões superiores, você poderia configurar os botões superiores para agilizar a digitalização. Talvez ajude a acelerar o processo.

    Hoje também já tem algumas multifuncionais da HP que já tem ADF pelo que eu vi. O problema é o preço.

    No mais, se tu fosse milionário, poderia usar um Scanner de Livros que inventaram recentemente. O bicho é 90% automatizado, bastando apenas você colocar o livro e "calibrar" o scanner. O resto, o bicho faria, inclusive virando página por página :D.

    Sucesso!

    ResponderExcluir
  7. Lucas,

    Duas caixas de vídeo não dá nem para as minhas revistas em formatinho. Se contar com as Graphic Novels e minhas outras HQs em "formatão", é melhor pensar em duas caixas de monitor.

    Quando eu tinha por volta de 20 anos eu costumava passear pelos sebos de Recife procurando HQs e encontrei um cara que me ofereceu sua coleção. Para ele era muito mais negócio vender direto para mim do que para um dono de sebo, claro. Saí da casa dele com tantos gibis que mal conseguia carregar (na época eu não tinha carro e tive que pegar dois ônibus de volta para casa com os pacotes), mas mesmo assim não trouxe tudo o que ele tinha. Todos os gibis estavam em estado impecável.

    Levei semanas para ler tudo :)

    ResponderExcluir
  8. Eu vi um troço desse em que o cara colocava um suporte embaixo do livro deixando ele aberto 90 graus e com duas câmeras digitais da Canon, pois possuem a opção de fotografar pelo computador então ele usa um software q vc estima o tempo para mudança de página e voalá em 30min a 1h ele scanneava umas 500 páginas.

    ResponderExcluir
  9. Lembrei o nome do bicho, é BookSnap, pode procurar do Oráculo - Google.

    ResponderExcluir
  10. Walter, o nariz26/11/08 22:13

    Engraçado como o pessoal que gosta de tecnologia também gosta de hq. Não tem jeito, somos nerds mesmo, hehehehe. Me livrei da minha coleção em formatinho faz muito tempo. Algumas preciosidades foram embora nessa leva, como o Capitão América n1 (o primeiro marvel editado pela abril). Hoje só tenho algumas Graphic Novels, que me tomam um armário gigante inteiro, mas parei de comprar faz tempo.
    Quanto ao seu problema, a única coisa que eu posso te dizer é que não, a tecnologia de OCR não evoluiu MUITO nestes tempos, continua ruim.

    ResponderExcluir
  11. JohnnyQ,

    Taí uma possibilidade que vale a pena investigar. O scanner mais rápido que já vi ainda é terrívelmente lento quando você pensa em digitalizar pelo menos 50 páginas e qualquer câmera digital decente tem um tempo desprezivel entre fotos. Resolvendo o problema da distorção, usar uma câmera digital pode muito bem valer a pena.

    ResponderExcluir
  12. Pois é... eu desde moleque leio tio patinhas e cia, e agora estou me viciando em mangá... vai entender nossa "raça" eheheh.

    Bom não ajuda, mas é uma dica pra quando for escanear pouca coisa, o IrfanView, tem o modo batch scanning que quebra um galhão, no caso do meu scaner eu consegui com algum esforço configurar o botão frontal para digitalizar no batch scanning. Você dá um nome a imagem e define o numero de digitos do incremento e dai é só mandar bala.

    ResponderExcluir
  13. Jefferson,
    Só para constar , o OCR evoluiu e muito. Há 10 anos era sofrivel.
    Mas ha uns 4 eu comecei a usar O Omnipage 14 e ele consegue digitalizar uns 97% das palavras no mínimo. Eu passei vários materiais para um funcinario e ele aprovou o sistema, ele disse que teve que corrigir muito pouco.
    Eu pessoalmente já utilizei o mesmo software algumas vezes com indice de aproveitamento das palavras nesse patamar.
    Em tempo. Já lançaram o Omnipage 15 , mas não testei-o ainda. Estou satisfeito por enquanto com o 14.

    ResponderExcluir
  14. Walter, o nariz27/11/08 17:06

    O Omnipage é um shareware que custa $499, será que vale o investimento? Tem que ser muito bom mesmo, por que as outras soluções de OCR que já achei são uma porcaria. O melhor resultado que consegui foi com o Acrobat.

    ResponderExcluir
  15. Pra OCR eu utilizo o Readiris OCR 11 Pro, ele digitaliza tudo, e o resultado é muito bom.

    ResponderExcluir
  16. Há, eu utilizo a Multifuncional HP J5780, ele possui ADF, é so colocar as rumas de papel e clicar em Start que ela digitaliza tudo e em seguida salva sozinho.

    ResponderExcluir
  17. Sobre OCR, ando convertendo muita coisa usando o adobe acrobat professional. A vantagem é que o texto mantem a imagem e passa a ser pesquisavel.
    A dica que o JohnnyQ deu eu já tinha ouvido falar, você mesmo pode tentar montar uma estrutura que mantenha uma câmera sobre o livro ou revista e ir tirando as fotos. Uma opção que pode dar certo e ficar ainda mais rápida é tentar filmar em alta resolução tipo HDTV, e depois com um software de edição ir gravando os frames que lhe interessar.

    ResponderExcluir
  18. Walter,

    Se a versão mais recente do Ominipage fizer exatamente o que preciso, ele vale US$499. É claro que não vou deixar de testar alternativas mais baratas por isso.

    É bom salientar que o que eu quero fazer com OCR é mais do que uma simples conversão de imagens em texto. Ao fazer OCR em uma revista ou livro de eletrônica eu quero que o programa preserve o layout da página, transformando o que for texto explicativo em texto "buscável" mas que cada figura permaneça onde estava no resultado. Tal programa de OCR então precisa exportar seu resultado em um formato com suporte a isso, como PDF (o mais óbvio) ou HTML.

    Há 10 anos os programas de OCR ainda falhavam miseravelmente nesse quesito. Bastava uma figura na página para bagunçar tudo, porque as figuras de esquemas eletrônicos tem muito texto e os programas de OCR se perdiam completamente. É preciso no mínimo que o programa ofereça um mecanismo fácil e ágil para que eu diga: "isso é imagem. não tente converter em texto", mas idealmente ele deve descobrir isso sozinho, porque ficar desenhando regiões é fácil, mas em centenas de páginas ainda é mortalmente tedioso, principalmente se o burro do programa quiser que eu espere o processamento antes de me mostrar a próxima página. Se o programa for esperto o suficiente para apresentar as páginas em thumbnails um humano pode traçar as regiões de uma centena de páginas em menos de um minuto, mas ainda não fui apresentado a um programa de OCR assim tão esperto.

    Claro, o texto convertido precisa ser tão fiel ao original quanto possível, ou será inútil. Eu não quero deixar de encontrar um documento com um texto sobre "gaiola de faraday" porque o programa de OCR entendeu "faradav", nem quero passar meses fazendo correção de erros.

    ResponderExcluir
  19. Eneris,

    Sua impressora custa relativamente barato (R$499) para uma multifuncional com ADF e fax. Vou pesquisar sobre ela.

    ResponderExcluir
  20. Eneris,

    O scanner da sua multifuncional usa tecnologia CIS em vez de CCD. Apesar do ADF, pode não ser uma boa idéia usá-lo no meu projeto :(

    ResponderExcluir
  21. Walter,

    O Ominipage custa US$150. O Omnipage Professional é que custa US$500. E não estou certo de que haja algo na versão pro de que realmente eu vá precisar.

    ResponderExcluir
  22. Walter, o nariz28/11/08 17:43

    Jefferson, 150 é um preço bem atrativo. Se você tiver alguma cópia do acrobat pro aí, faça um teste, por que eu ACHO que ele atende as suas necessidades. E já salva tudo em pdf. Mas o problema do "faradav" eu acho que vai ser inevitável, principalmente em revistas com papel de baixa qualidade e pequena gramatura (normalmente 70g/m²), que costumam ter muita transparência.

    ResponderExcluir
  23. Walter,

    Da última vez que tive problemas com a transparência do papel eu consegui minimizar usando um anteparo da mesma cor da tinta do verso (no caso, preto). O anteparo padrão na tampa dos scanners é branco e isso só reforça o contraste com a tinta preta no verso do papel.

    Experimentar com isso é fácil: pegue uma folha fina de papel branco impresso frente e verso e coloque sobre uma folha não impressa de papel branco. Você verá facilmente através do papel o que está impresso no verso. Troque por uma folha de papel ou tecido preto e veja a diferença.

    E você está ciente de que o Acrobat Capture custa US$515, não está?

    ResponderExcluir
  24. Jefferson, não aconselho o Omnipage. O ABBYY Finereader tem me trazido melhores resultados, além de ser mais light.

    ResponderExcluir
  25. 1- Realmente o Abbyy FineReader é muito bom.
    2- Para dicas com quem entende: http://www.gutenberg.org/wiki/Main_Page (Projeto Gutenberg)

    ResponderExcluir
  26. Jefferson, o scanner da HP ScanJet 5590 tem alimentador automático para 50 folhas e custa aqui no rio cerca de R$ 1250,00. Faz de 8 a 4 folhas por minuto. E tem uma outra opção que é com camera. Acredito que esse processo seja bem mais rápido mas é um pouco trabalhoso de se montar. Confira o link... http://mrdummy.net/mangatranslation/tutorial01.php

    ResponderExcluir
  27. Adriano,

    Obrigado pelo link!

    ResponderExcluir
  28. Jefferson, faz pouco tempo que tenho acompanhado seu blog, e tenho tentado ler a maioria dos post possiveis, por isso uma opnião meio atrasada. Quanto a sua vontade de digitalizar as revistas, uma boa opção é o scanner da lexmark x3200 ou x3100, tem o adf e digitalizam em arquivos pdf. O único problema é onde achar. São bons e rapidos(mono 18ppm), trabalho com a manutenção destes equipamentos no BB. Se conhecer alguem do banco por ai, pode dar uma olhadinha, as agências usam como multifuncionais.

    ResponderExcluir
  29. Apesar de bem antigo, este post merece uma resposta correta: kodak.
    Tenho uma empresa de digitalização de documentos e desde o último mês estamos trabalhando também na digitalização de livros usando scanner Kodak i1220 acoplado a uma mesa digitalizadora.

    ResponderExcluir
  30. Prezado amigo:
    Também tenho este problema, só que eram apenas 400 revistas quando comecei. Depois de 100 unidades escaneadas no scanner (tinha que desmontar a revista e montá-la novamente), passei a tirar foto em alta resolução pelo celular android usando o CANSCAN. Ficou mais rápido... Meu Celular tem 21 de câmera, isso ajuda...

    ResponderExcluir

Siga as regras do blog ou seu comentário será ignorado.