BNDES lança sua biblioteca digital


O Banco Nacional de Desenvolvimento Econômico e Social [BNDES] está lançando nesta quarta-feira (29) sua biblioteca digital. Através do site, qualquer pessoa terá acesso aos livros, revistas, estudos, apresentações, teses e dissertações, relatórios, boletins e demais publicações relacionadas ao Banco e sua atuação.

Estão sendo disponibilizadas inicialmente cerca de 500 arquivos, como os documentos do BNDES Setorial, informes setoriais, revista BNDES, sinopses internacionais e o relatório anual do BNDES, publicações estas presentes no ranking de mais acessadas no site da empresa.

Os documentos terão o texto recuperável através da tecnologia de reconhecimento óptico de caracteres [OCR], ampliando assim a abrangência da pesquisa e as possibilidades de uso. O objetivo do BNDES é preservar o conhecimento do Banco, disseminando tornar mais visível a produção intelectual da instituição e construir mais um canal de relacionamento com o público externo.

Administradores.com | 29/10/2014

Por dentro da Brasiliana USP


Como funciona a digitalização de uma biblioteca de raridades

Dentro da Universidade de São Paulo, a Biblioteca Brasiliana Guita e José Mindlin foi criada em 2005. O prédio construído especialmente para receber o acervo do Dr. José Mindlin, que tem mais de 40 mil volumes, só ficou pronto no começo de 2013, mas a digitalização de seu acervo começou bem antes: em 2008, foi formada a equipe que seria responsável pelo projeto da Brasiliana USP, a versão digital da Mindlin, que foi ao ar em julho de 2009. A empreitada incluía também a criação de uma plataforma de software para disponibilizar o conteúdo, além de providenciar a parte de hardware, como scanners, servidores e storage. Fomos conhecer de perto o processo de digitalização de tantos volumes raros e históricos.

A Plataforma Corisco, nome do software open source da biblioteca, foi criada a partir do DSpace, projeto também de código aberto do Instituto de Tecnologia de Massachusetts, o conhecido MIT, com recursos da HP para custear o projeto. “É um software extremamente bem sucedido, com talvez centenas de instituições ao redor do mundo utilizando-o. Ele é escrito em Java, portanto tem uma tecnologia moderna voltada para a Web”, diz Edson Satoshi Gomi, coordenador de tecnologia da informação da Biblioteca Brasiliana.

Gomi, que também é professor do Departamento de Engenharia da Computação da Escola Politécnica da USP, explica o que a Plataforma Corisco tem a mais em relação ao DSpace puro. “O que nós fizemos adicionalmente foi colocar algumas camadas que não existem no original. A primeira camada que colocamos foi uma interface web, que permite uma customização da cara, e o segundo componente que agregamos foi o que chamamos de visualizador de itens do acervo, sejam eles livros, imagens ou mapas.

Outras duas camadas ainda serão implementadas: uma ferramenta para gerir todo o processo de digitalização e registrar metadados e outra para a preservação digital das imagens em alta resolução. “O volume de imagens que estamos produzindo é relativamente grande e o que é mais caro nesse processo todo é este trabalho de digitalização. Portanto, julgamos importante manter este conjunto de imagens de uma forma íntegra que não se perca isso ao longo dos anos.

Maria Bonita e suas irmãs

E este volume de imagens é realmente enorme: a Maria Bonita e suas irmãs, apelido dado pela equipe da biblioteca às máquinas fabricadas pela canadense Kirtas, são equipadas com câmeras Canon de 21 megapixels – os modelos da linha Kabis têm duas câmeras em x, cada uma virada para uma página do livro; já o modelo Skyview, voltado para a digitalização de mapas, cartazes e jornais, tem apenas uma, que se desloca em dois eixos para varrer toda a extensão do material. Cada câmera é ligada num computador que, por sua vez, é ligado a um servidor. As imagens aparecem em tempo real no monitor do scanner.

Cada página “bruta”, por assim dizer, é uma fotografia com definição considerável [ainda que a imagem antes do recorte inclua também uma parte considerável do suporte em que o livro é colocado]. “As imagens que nossos scanners produzem”, explica Gomi, “são imagens de altíssima resolução. Tipicamente, cada imagem pode ocupar uma dezena de megabytes de tamanho. Se multiplicarmos isso pela quantidade de páginas, não é incomum um livro ter vários gigabytes de tamanho.

O livro é posto aberto numa mesa e o scanner vira as páginas através de uma espécie de aspirador de pó, que gruda as folhas por sucção e as vira. O processo é automático, mas tem que ser acompanhado por um funcionário, que ajusta a posição do livro vez ou outra, para as imagens não ficarem tortas. A velocidade máxima é de 2.500 páginas por hora.

Engana-se quem pensa que é arriscado colocar um livro raro numa máquina dessas. “Existe uma preocupação nossa com a integridade dos livros”, diz Gomi. “Mas é importante chamar a atenção de que o fato de termos um livro raro não significa que ele está em mal estado ou fragilizado, muito pelo contrário. Muitas vezes, livros antigos estão em estado tão bom que são relativamente robustos.

A digitalização é só o começo de todo o processo. O que se segue é bem trabalhoso: o processo de recorte e tratamento da imagem. Segundo Gomi, já foram digitalizados 20 terabytes de material, mas nem tudo está disponível para acesso justamente porque falta esta etapa, que é um gargalo no fluxo de trabalho.

O objetivo é reduzir ao máximo o tamanho do arquivo e, ao mesmo tempo, garantir a legibilidade. Por isso, os arquivos em .pdf, cada um deles com cerca de 10MB, podem não ter exatamente a mesma cor das páginas do livro original, além de o contraste ser muito mais marcante.

269ejA última etapa é o reconhecimento dos caracteres. Se você já sofreu com um programa de OCR, sabe o quanto é difícil. Aqui o problema é ainda maior, como explica Gomi. “O OCR é ainda, digamos, um problema em aberto. Para textos impressos com caracteres modernos, ele reconhece com uma certa precisão, mas nós estamos aqui tratando de textos antigos, além de muitos manuscritos.

Paralelamente, são cadastrados os metadados de cada material, padronizados segundo o esquema Dublin Core, o mesmo do DSpace.

Quando está tudo pronto, o livro fica disponível no site da Brasiliana Digital. Ele pode ser visualizado na própria página sem a necessidade de plug-ins, para facilitar o uso escolar, ou baixado – é um arquivo .pdf, então talvez não fique muito bom no seu e-reader.
Aberto para todos

Mas a disponibilização do acervo para o público não é o único produto do projeto: o código-fonte da Plataforma Corisco está aberto para quem quiser usar. O Instituto Paulo Freire, por exemplo, já adotou o sistema. Mas open source não quer dizer de graça: já foram gastos mais de R$ 3 milhões no projeto, com recursos de entidades como o BNDES e a Fapesp.

Uma parte considerável desse valor foi para bolsas de iniciação científica, mestrado e doutorado. A Plataforma Corisco, além de tudo, é um projeto de pesquisa: para chegar onde está hoje, foram precisos erros e acertos. A primeira versão da edição original do livro de Hans Staden, por exemplo, foi disponibilizada com 1 gigabyte de tamanho [!] e isso só foi percebido porque um professor do grupo de desenvolvedores não conseguia baixá-lo.

A postura de ir resolvendo cada um dos problemas encontrados parece ser intrínseca à formação de bibliotecas digitais, como explica Gomi. “Não faz muito sentido se criar um padrão de como se constrói uma biblioteca digital. Certamente, há a necessidade de se ter uma liberdade nesse sentido, porque os tipos de acervo que podem ser construídos são muito variados. Podemos ter bibliotecas digitais de livros, de músicas, até de arquitetura, porque hoje é possível fazer digitalização 3D.

Outro ponto a ser notado é o respeito aos direitos autorais: os mais de 3 mil itens disponíveis que estão em domínio público. Segundo Gomi, são mais de 1500 acessos únicos por dia e visitantes de vários países, inclusive daqueles que não falam português. Definitivamente, a Brasiliana USP leva o acervo do Dr. José Mindlin para muito mais longe do que uma biblioteca física.

Publicado originalmente e clipado à partir de Gizmodo Brasil | 26/06/13

A edição digital na Rússia


Por Octavio Kulesz | Publicado originalmente em PublishNews | 08/11/2012

Octavio Kulesz entrevista Natalia Erokhina, da empresa digital russa ABBY, e conversa sobre o mercado editorial digital no país.

Octavio Kulesz: Você poderia descrever em poucas palavras sua trajetória e a da ABBYY?

Natalia Erokhina: Estudei na Universidade Estatal Russa para as Humanidades e me formei em inteligência artificial – uma especialização que combina duas áreas de conhecimento: programação de software e linguística. Nos últimos dez anos trabalhei em diferentes empresas de software e de alta tecnologia russas. Atualmente sou gerente de desenvolvimento de mercados para América Latina na ABBYY – uma empresa líder em reconhecimento de texto, captura de dados e tecnologias linguísticas.

Entre os produtos da ABBYY figuram aplicações para reconhecimento e conversão de documentos [FineReader e PDF Transformer], programas de captura de dados para o processamento de formulários, documentos semiestruturados e desestruturados [FlexiCapture and FormReader], todos programas que oferecem um bom panorama das tecnologias de reconhecimento de ABBYY, sua linha Lingvo de dicionários eletrônicos e outros produtos linguísticos. A empresa constitui um dos centros globais mais destacados no que se refere a inteligência artificial e reconhecimento de documentos. ABBYY também conta com sua própria editora, ABBYY Press e com uma agência de soluções linguísticas, ABBYY Language Services.

OK: Quais são os principais atores da edição digital russa?

NE: O mercado da edição digital na Rússia é relativamente jovem e ainda se encontra em estado de desenvolvimento. A demanda de conteúdo digital cresce e, de acordo com as estimativas dos especialistas, a venda de e-books duplica a cada ano.
Pelo que estou vendo, existe a percepção de que o mercado está mudando. As tecnologias da informação evoluem sem pausa, o que obriga as editoras grandes e médias a implementarem projetos próprios e trabalharem em suas estratégias digitais.

O mercado das publicações eletrônicas está constituído principalmente pelas editoras que lançam projetos novos ou intensificam suas iniciativas digitais anteriores [EksmoProsvescheniyeDrofaAST Press], assim como por distribuidores digitais de grande envergadura [em primeiro lugar LitRes, depois Wexler e Ozon]. Em alguma medida, ABBYY também poderia ser considerada uma empresa deste tipo.

OK: Como é a atitude geral dos editores russos em relação à era digital?

NE: A indústria editorial costuma ser conservadora. No entanto, com a chegada da era de informatização total, este setor também teve que se adaptar às tendências contemporâneas. Acho que, no final das contas, as editoras russas compreendem que estes são tempos de transformações consideráveis e que a maneira de oferecer conteúdos mudou. Os líderes do mercado já estão se movendo ativamente na arena digital, mas eu diria que a maioria ainda se encontra tentando achar o caminho.

O certo é que a preparação de publicações eletrônicas de qualidade requer recursos financeiros e investimento. O desenvolvimento destes processos inclui múltiplas etapas: requerimentos técnicos, revisão e reestruturação de conteúdos, design de interfaces, programação, testes, etc. Além disso, a grande variedade de plataformas [Windows, Mac OS, Android, iOS, etc.] implica a necessidade de adaptações técnicas adicionais que em alguns casos duplicam os custos. Claramente, as novas ferramentas de edição facilitam a agilização do processo, mas sua implementação também exige investimento em capacitação. Por outro lado, o desenvolvimento de um produto digital isolado não é suficiente: na verdade, o processo de publicação também exige uma boa estratégia de distribuição, um ponto muito intensivo em recursos humanos. Isto inclui um trabalho diário de promoção, gestão de resenhas de clientes, atualizações técnicas e análises dinâmicas de resultados de vendas, políticas de preços, assim como estabelecer na prática canais de comercialização eficazes.

Por isso, os editores devem se enfrentar ou com uma mudança radical de seus modelos de negócios [e à criação de seus próprios departamentos de software e de venda], ou encontrar um sócio tecnológico que cobrirá esta parte do processo.

Na Rússia, as principais editoras estão tentando, agora, desenvolver das duas formas [por exemplo, a AST Press e a Drofa trabalham com sócios em determinadas áreas, enquanto desenvolvem seus próprios projetos digitais]. No entanto, a solução mais aceitada é a cooperação mútua entre editoras e empresas de software que oferecem apoio na criação de conteúdo eletrônico [como por exemplo ABBYY] e outras empresas especializadas em distribuição digital [como Litres – 54% –, Wexler, Ozon e também ABBYY].

OK:É possível dizer que está aumentando a presença do digital entre os leitores?

NE: Claro. Os leitores russos estão se acostumando cada vez mais a ler em dispositivos portáteis. De acordo com SmartMarketing, o volume total de e-readers se multiplicou por 3 comparado com 2010. Os analistas explicam que este mercado já atravessou sua juventude e chegou ao patamar de um crescimento sustentado. São também interessantes os resultados obtidos pela equipe do site RBC [Russian Business Consulting]: de acordo com suas investigações, 53,1% da audiência do portal [composta majoritariamente por jovens e homens de negócios] utiliza e-readers para ler livros.

As marcas mais populares são PocketBook, Sony, Wexler e Onyx. No entanto, de acordo com diversas estimativas, as vias de acesso mais generalizadas ao conteúdo eletrônico na Rússia continuam sendo o PC e os smartphones. Por outro lado, a venda de tablets também está crescendo: os especialistas coincidem que, em um futuro próximo, os e-readers serão substituídos por versões multifuncionais. A opinião corrente é que as publicações eletrônicas deveriam contribuir para desenvolver a cultura de leituras na Rússia, porque permitem um acesso muito mais direto e econômico ao conteúdo, não só para os habitantes de Moscou e São Petersburgo, mas também para os habitantes de todas as províncias russas, como por exemplo a Sibéria ou o extremo leste do país.

OK: A pirataria volta sempre aos debates sobre edição digital. Como você vê este fenômeno na Rússia?

NE: A pirataria constitui, realmente, um dos tópicos mais críticos na Rússia, como ocorre em outros países. As editoras perdem milhões de dólares a cada ano por causa do gigantesco número de downloads ilegais. Ao mesmo tempo, a falta de legislação adequada a respeito da edição eletrônica explica a permanência de tantos players ilegais no mercado russo.

O certo, no campo do conteúdo legal, é que os maiores provedores são LitRes, Elkniga e Bookee.
A lei antipirataria da Rússia é, por um lado, relativamente estrita, pois implica responsabilidade individual. No entanto, sua aplicação na prática é muito mais complicada. Assim, as grandes lojas e os editores precisam enfrentar o fenômeno das publicações ilegais com seus próprios meios, chegando ao ponto de que alguns tentaram converter em legal a oferta ilegal.

Na minha opinião, o problema da pirataria poderia ser resolvido em parte não só com a melhora dos sistemas de proteção, mas oferecendo conteúdos de qualidade a preços acessíveis. Todos sabemos que os livros pirateados que se encontram na web costumam ter erros, símbolos mal interpretados, etc. Assim, até certo ponto, para os usuários seria muito mais simples comprar um livro legal em uma loja confiável, se o preço não for proibitivo.

Como comparação, no Ocidente, o preço de um ebook oscila entre os 10 e 15 dólares, enquanto que na Rússia está perto dos 3 dólares. Vários especialistas indicam também que a indústria editorial russa não está fornecendo conteúdo suficiente aos leitores. Por exemplo, LitRes possui uns 50.000 títulos, enquanto que o principal site de textos ilegais em russo, Lib.rus.ec, chega à cifra de 200.000 [para mais informações, recomendo visitar o artigo de Vladimir Kharitonov: “Steps into the Digital Future”].

OK: Qual será o impacto dos e-books e outras ferramentas digitais na Rússia? Você vê alguma oportunidade em especial? E quais são os desafios?

NE:Considero que o desenvolvimento da indústria do e-book oferecerá aos diferentes estratos da sociedade russa – tanto em Moscou quanto em São Petersburgo e outras regiões – a oportunidade de ler mais. Com a expansão da Internet, as regiões mais distantes do país terão acesso à mesma qualidade e quantidade de livros que as regiões centrais, o que contribuirá em grande medida para fomentar a cultura leitora em todo o território e a elevar o nível geral da educação. No mundo impresso, é difícil encontrar variedade, mas no eletrônico podemos acessar e baixar textos de um modo muito simples. Os estudantes já estão aproveitando esta vantagem.

Da mesma forma, o tema dos materiais eletrônicos está sendo debatido ativamente na indústria educativa russa. Se estas discussões tomam a forma de projeto governamental, o mais provável é que a iniciativa receba fundos, o que estimula o negócio editorial.

Agora, entre os maiores desafios para o surgimento de um mercado de e-books na Rússia esta a dificuldade de encontrar modelos de negócios claros para a venda de conteúdos. Atualmente, existem 3 variantes: venda de e-books como arquivos, modelos de assinatura e aplicações multimídia. O problema é que os processos de compra são um pouco mais complicados que nos EUA, já que a infraestrutura baseada na conexão entre e-readers e lojas online se encontra ainda em etapa de desenvolvimento.

Outro tema é que, por um lado, o público russo não está muito acostumado à ideia de comprar conteúdo legal [como acontece nos EUA] e, por outro lado, os métodos de pagamento [cartões de crédito, por exemplo] só se massificaram nos últimos anos. Isto leva, então, ao flagelo da pirataria, somado aos problemas técnicos de como se processam os pagamentos.

Por Octavio Kulesz | Publicado originalmente em PublishNews | 08/11/2012

Non ducor, duco

Octavio Kulesz é formado em Filosofia pela Universidade de Buenos Aires e atualmente dirige a Teseo, uma das

Octavio Kulesz

principais editoras digitais acadêmicas da Argentina. Em 2010, criou a rede Digital Minds Network, junto com Ramy Habeeb [do Egito] e Arthur Attwell [da África do Sul], com o objetivo de estimular o surgimento de projetos eletrônicos em mercados emergentes. Em 2011, escreveu o renomado estudo La edición digital en los países en desarrollo, com apoio da Aliança Internacional de Editores Independentes e da Fundação Prince Claus.

Sua coluna Sul Digital busca apresentar um panorama dos principais avanços da edição eletrônica nos países em desenvolvimento. Tablets latino-americanos, leitura em celulares na África, revoluções de redes sociais no mundo árabe, titãs do hardware russos, softwares de última geração na Índia e colossos digitais chineses: a edição digital no Sul mostra um dinamismo tanto acelerado quanto surpreendente.

A biblioteca da utopia


Por Felipe Lindoso | Publicado originalmente em PublishNews | 12/06/2012

revista do Massachusetts Institute of Technology, o MIT, publicou recentemente um artigo sobre o projeto da Harvard University de digitalizar os acervos das bibliotecas universitárias. Comentar sobre o assunto vem bem a calhar no contexto das discussões sobre cópias não autorizadas e digitalizadas para difusão pela internet. Quem se dispõe a analisar o assunto com seriedade logo se vê diante da imensidade de problemas e soluções alternativas, que vão muito além da digitalização não autorizada de uns tantos livros de ciências sociais.

O projeto de Harvard descende diretamente do falecido Google Book Search, o projeto que Larry Page imaginou em 2002 e que pretendia digitalizar todos os livros impressos no mundo. Sim. Todos. Só assim, dizia o cofundador do Google, a empresa poderia cumprir sua missão de tornar toda a informação mundial “universalmente acessível e útil”.

O Google desenvolveu uma tecnologia que permitia o escaneamento ultrarrápido das páginas de um livro, com lentes que compensavam a curvatura das páginas provocadas pela encadernação. Aperfeiçoou também seus programas de Optical Character Recognition [OCR], para os mais variados formatos de letras e idiomas, de modo a permitir o funcionamento dos mecanismos de busca.

Quando lançou publicamente o projeto, em 2004, Page conseguiu de imediato a adesão de cinco das maiores bibliotecas do mundo, incluindo as de Harvard e Oxford. E quase imediatamente começaram as reações contrárias ao projeto, geralmente focando no ponto de que este daria à companhia uma posição altamente favorável para a futura comercialização do conteúdo digitalizado, prejudicando outras empresas. Além disso, a concentração dessa informação pelo Google abriria o espaço para a censura e controle da difusão da informação. Note-se bem: comercialização do conteúdo, que passaria a ser acessível, mas não gratuito. O projeto do Google incluía a posterior comercialização – através de e-books – dos livros. E tudo com o devido pagamento de direitos autorais.

A Association of American Publishers e a Author’s Guild – o sindicato dos autores dos EUA –, imediatamente protestaram, considerando que a empreitada, mesmo se permitisse a consulta a apenas trechos de livros na pesquisa, constituía um enorme ataque aos direitos autorais.

O Google propôs um acordo, envolvendo o pagamento de direitos autorais e a venda de assinaturas para acesso ao conteúdo integral dos livros das bibliotecas, o que só aumentou a resistência. Universidades europeias se recusaram a participar e outras iniciativas começaram a ser esboçadas.

Alguns analistas consideram que, se o Google continuasse a escanear com base no “fair use” da Convenção de Berna – e da legislação dos países signatários – e usasse o material tão somente para indexar informações, poderia ter prosseguido. Mas, ao propor o acordo, que teria chancela do judiciário, se meteu num pântano legal que terminou por liquidar o projeto.

Além da acusação de tentativa de monopolizar a digitalização mundial dos livros, alguns pontos finos da legislação de direito autoral se tornaram pedras no meio do caminho do projeto. Um desses é o das “obras órfãs”. O que é isso?

Uma obra impressa é protegida automaticamente pela legislação, mesmo que seu autor, ou autores, não a registrem nos escritórios de direitos autorais de cada país. Mesmo entre as obras registradas, há uma quantidade delas das quais se sabe o nome do autor, mas não se o próprio ainda está vivo e se o prazo de vigência da proteção legal ainda está ativo. Isso sem falar dos livros publicados, mas que saíram do mercado – as leis de D.A. são, hoje, universalmente retroativas. Essas são as “obras órfãs”. Como se pode perceber, mesmo que houvesse a disposição de pagar direitos por sua reprodução, seria muito difícil encontrar os beneficiários. O Google propôs constituir um fundo que recolheria esses direitos até o aparecimento dos autores ou a certeza de que haviam entrado em domínio público, quando então esses recursos seriam revertidos para ampliação de acervos de bibliotecas, programas de leitura etc.

Não adiantou. O acordo foi definitivamente sepultado há alguns meses pelo judiciário dos EUA.

Mas a ideia da digitalização não morreu.

Um dos críticos mais contundentes do projeto do Google foi o historiador Robert Darnton. Sucede que Darnton foi nomeado, em 2007, como diretor do sistema de bibliotecas da Harvard University. A partir dessa posição, tenta por de pé o projeto da Digital Public Library of America. Que, essencialmente, tem o mesmo escopo do projeto googliano: digitalizar tudo.

Diz a matéria da revista do MIT:

Se bibliotecas e universidades trabalhassem juntas – argumentou Darnton –, financiadas por organizações filantrópicas, poderiam construir uma verdadeira biblioteca pública digital da América. A inspiração de Darnton não veio dos tecnólogos de hoje, e sim dos grandes filósofos do Iluminismo. As ideias circulavam pela Europa e atravessaram o Atlântico no século XVIII, impulsionadas pelas tecnologias da imprensa e dos correios. Pensadores como Voltaire, Rousseau e Thomas Jefferson viam a si mesmos como cidadãos da República das Letras, uma meritocracia de livres pensadores que transcendia as fronteiras nacionais. Era uma época de grande fervor e fermentação intelectual, mas a República das Letras era ‘democrática apenas em princípio’, como Darnton apontou em um ensaio na New York Review of Books: ‘na prática era dominada pelos bem nascidos e pelos ricos’.

E prossegue a matéria:

Com a internet, podemos finalmente retificar essa iniquidade. Ao colocar cópias digitais online, argumentou Darnton, podemos abrir as coleções das grandes bibliotecas do país para quem quer que tenha acesso à rede. Podemos criar uma ‘República Digital das Letras’ que seria realmente livre e aberta e democrática e que nos permitiria ‘efetivar os ideais do Iluminismo a partir dos quais foi fundado nosso país’.

Com um acadêmico de tanto prestígio como Darnton à frente, e princípios tão nobres a justificá-lo, a suposição é de que o projeto poderia avançar sem dificuldades.

Ledo engano.

O sepultamento da proposta de acordo do Google aumentou as expectativas e o projeto de Darnton ganhou apoios importantes, e mecanismos substanciais de financiamento. Começou também a ganhar objeções.

Em maio passado, uma reunião do grupo dos Chief Officers of State Library Agencies [grosso modo, os responsáveis pelos sistemas estaduais de bibliotecas, se tal coisa existisse no Brasil] aprovou uma resolução pedindo que a DPLA mudasse de nome. A razão? Ao se apresentar como “a” Biblioteca Pública do país, a DPLA reforça a “crença infundada de que as bibliotecas públicas podem ser substituídas em 16.000 comunidades nos EUA por uma biblioteca nacional digital”, e que isso dificultaria ainda mais a obtenção de recursos orçamentários para essas bibliotecas. Parou por aí? Não. O projeto foi acusado de arrogante na presunção de que uma única biblioteca pudesse satisfazer as necessidades diferentes do público e de pesquisadores, que são muito diferentes.

E o dissenso continuou. Por exemplo: os arquivos serão centralizados em servidores próprios ou os mecanismos de busca apontariam para os servidores das bibliotecas afiliadas? Que outros materiais, além de livros, seriam incluídos na DPLA? E como a DPLA se apresentaria ao público: com acesso direto ou como uma “câmara de compensação” entre as várias bibliotecas, transferindo o trânsito para os respectivos websites? No mesmo número da revista do MIT que anuncia o projeto de Darnton, é publicado também outro, de autoria de Brester Kahle e Rick Prelinger, que afirma que o projeto centralizador de Darnton pode ser tão perigoso para a liberdade de expressão quanto era o do Google. E Kahle é o fundador do Internet Archive. E os lançamentos? Darnton, por exemplo, diz que só deveriam ser digitalizados os livros com mais de dez anos de lançamento, para “ficar de fora das questões comerciais”. E os metadados, essenciais para a pesquisa e que, como “banco de dados”, são eventualmente produzidos por outras empresas, que prestam serviços para editoras e bibliotecas, e têm uma proteção específica de uso?

Porque, de fato, voltou com toda a força a questão dos direitos autorais. Para o Google e para a DPLA, essa é uma questão não resolvida. Para alguns dos envolvidos, só poderia ser solucionada com medidas internacionais, como uma revisão da Convenção de Berna que diminuísse o tempo de vigência da proteção [hoje é de 70 anos após a morte do autor, na maioria dos países] e estabelecesse outras exceções, todos os dois assuntos muito controversos. Não apenas por parte das editoras e dos próprios autores – os de sucesso cuidam muito bem do seu patrimônio! –, mas também pelos estúdios e outros produtores de materiais audiovisuais.

Além dos direitos autorais, está subjacente também uma questão de patrimônio. Afinal, essas bibliotecas foram financiadas com recursos de várias fontes para aquelas universidades, e não apenas são seu patrimônio como geram renda, de diferentes maneiras, para seu sustento.

O pano de fundo disso tudo é o das condições para a apropriação social da produção intelectual individual. É certo o grande avanço, desde o Iluminismo, do reconhecimento da autoria: a obra é a expressão de um labor intelectual próprio e personalíssimo [ainda que possa ser coletiva], e isso gera direitos do[s] autor[es] sobre sua fruição, inclusive financeira, ainda que por um período determinado de tempo [que foi aumentado progressivamente nos dois séculos e meio desde que as primeiras leis de direito autoral foram promulgadas]. O “domínio público” se estabelece depois desse período de apropriação individual.

Não vale o argumento de que cada autor produz suas obras através das leituras de outros, já que, de qualquer maneira, cada leitura gera uma apropriação e uma expressão individual do conjunto dos conteúdos. Se colocarmos dez “intelectuais leitores” lendo os mesmos dez livros, o que cada um deles irá concluir e eventualmente produzir a partir dessa leitura certamente será diferente da produção dos demais.

Na verdade isso tudo remete à grande questão da apropriação individual do fruto do trabalho versus a apropriação social, coletiva. Algo que outros filósofos debatem também desde o século XVIII, e que encontrou uma expressão sintética no século XIX: “De cada qual segundo sua capacidade, a cada um segundo suas necessidades”, disse o filósofo de Trier, um tal de Karl Marx.

Mas isso exige outro tipo de sociedade, de organização social. Por enquanto, no regime capitalista, o caldo engrossa tanto com a apropriação do trabalho físico quanto do trabalho intelectual.

Por Felipe Lindoso | Publicado originalmente em PublishNews | 12/06/2012

Felipe Lindoso

Felipe Lindoso é jornalista, tradutor, editor e consultor de políticas públicas para o livro e leitura. Foi sócio da Editora Marco Zero, diretor da Câmara Brasileira do Livro e consultor do CERLALC – Centro Regional para o Livro na América Latina e Caribe, órgão da UNESCO. Publicou, em 2004, O Brasil pode ser um país de leitores? Política para a cultura, política para o livro, pela Summus Editorial.

A coluna O X da questão traz reflexões sobre as peculiaridades e dificuldades da vida editorial nesse nosso país de dimensões continentais, sem bibliotecas e com uma rede de livrarias muito precária. Sob uma visão sociológica, este espaço analisa, entre outras coisas, as razões que impedem belos e substanciosos livros de chegarem às mãos dos leitores brasileiros na quantidade e preço que merecem.

Resultado da “Promoção FineReader”


Quais são as vantagens da digitalização dos livros?

O autor da resposta mais criativa [e que ganhou da ABBYY Brasil uma licença do software FineReader 11 Edição Brasil] foi Julio César de Sousa Dias com o seguinte comentário:

Digitalizar é preservar e dar liberdade. Preserva o meio-ambiente, preserva o texto, preserva o conhecimento. Dá liberdade de levar quantos livros quiser para onde quiser, dá liberdade de moldar o livro ao seu jeito, dá liberdade de uso. FineReader nos torna um leitor excelente.

Parabéns, Julio César. Manda aqui pra gente o seu e-mail.

O ABBYY FineReader 11 Edição Brasil é um software OCR que permite converter documentos em papel [livros, revistas e quaisquer documentos em geral] e arquivos PDF para formatos editáveis [por exemplo, Word, Exel, etc.] e para formatos mais usado em eBooks como ePub, FB2, HTML e o formato do Amazon Kindle.

Para participar desta promoção basta comentar este post com a sua resposta e nome e aguardar o resultado.

Até o final de fevereiro, a ABBYY Brasil irá sortear dentre os participantes aquele com a resposta mais criativa.

O resultado será publicado aqui mesmo no nosso blogsite.

Software Review: ABBYY FineReader


eBook Reader | O que é o ABBYY FineReader e para que serve?

ABBYY | O ABBYY FineReader é um software de OCR [Reconhecimento Óptico de Caracteres], que é uma tecnologia para reconhecer caracteres a partir de um arquivo de imagem, seja digitalizado ou foto.

eBook Reader | Que tipo de conteúdo o  ABBYY FineReader converte e para que serve?

ABBYY | O ABBYY FineReader converte documentos digitalizados e arquivos não editáveis [PDF, imagens digitalizadas, JPEG, etc.] para formatos que você poderá editar posteriormente [Word, Excel, TXT, etc.], ou simplesmente os converte para o formato desejado em apenas alguns cliques do mouse.

É um ajudante indispensável para pessoas que trabalham com um grande fluxo de documentos ou mesmo para pessoas que de vez em quando precisam digitalizar ou converter materiais para formatos diferentes para, por exemplo, recebê-lo no seu dispositivo de eBbooks.

eBook Reader | Me expliquem melhor como o software funciona:

ABBYY | O programa é muito fácil de usar. Iniciando o software, aparecerá uma janela com as tarefas mais comuns que você pode encontrar no seu dia-a-dia.

As tarefas padrões são a digitalização de documentos para arquivos PDF e PDF/A [PDF pesquisável] ou formatos editáveis, a conversão de documentos em PDF ou imagens para formato Word, a digitalização de documentos ou a conversão para HTML e para os formatos mais populares de e-books.

eBook Reader | Há muitas caraterísticas interessantes no ABBYY FineReader?

ABBYY | Algumas das mais importantes são:

  • Alta precisão de reconhecimento – o ABBYY FineReader pode reconhecer documentos de estrutura complexa, e permite uma reconstrução com precisão de até 99.8% do formato original do documento, com notas de rodapé, cabeçalhos, números de páginas, índice, etc.
  • A rapidez de processamento no modo colorido.
  • A rapidez maior ainda no modo P&B [preto e branco] – este é um modo ideal para quem, por exemplo, precisa converter um grande fluxo de documentos e não precisa obter o resultado final colorido. A velocidade aumenta em até 40%. É um ótimo modo para conversão de livros, revistas, contratos, etc.

Além disso, há várias outras opções para tornar o seu trabalho com documentos mais fácil e agradável. Por exemplo, o editor de imagens, onde você pode corrigir cores, brilho, etc., antes de salvar no formato escolhido, para assim obter um resultado final melhor ainda. Também, caso você precise salvar cada página ou algumas partes do documento original separadas das outras, existe uma opção especial de divisão de páginas.

eBook Reader | Como eu crio livros digitais com o ABBYY FineReader?

ABBYY | O ABBYY FineReader 11 permite aos seus usuários converter imagens e fotos de texto, documentos de papel para os formatos mais populares de leitores de livros eletrônicos, tablets e até smartphones, assim como ePub, FB2, PDF e HTML. A criação de livros eletrônicos com o ABBYY FineReader pode ser acessada diretamente a partir do menu de Tarefas Rápidas, e dura de alguns segundos até alguns minutos, dependendo de modo de conversão e do tamanho de documento original.

eBook Reader | Alguma integração com as plataformas de eBooks?

ABBYY | Sim. Uma ótima notícia para os donos do Amazon Kindle, os eBooks criados com o ABBYY FineReader 11 podem ser enviados diretamente para as contas do usuário na loja Kindle da Amazon.

eBook Reader | Como o nosso leitor pode conhecer mais a solução?

ABBYY | Para obter mais informações sobre o ABBYY FineReader 11 você pode no site oficial da empresa ABBYY: http://www.abbyy.com.br

Aplicativo para leitura ajuda pessoas com baixa visão


As letras pequenas podem esconder diversas informações importantes. Nos comerciais, inclusive, é comum os dados que realmente interessam, como “Promoção válida apenas para os cinco primeiros clientes”, ficarem escondidos. Além de outros dados essenciais, como datas de validade e valor dos juros, que por pouco não passam despercebidos. Se o cliente espera informações claras depois da compra, deve ser uma decepção encontrar as instruções de uso escritas em fonte bem pequena, dificultando ainda mais vida do usuário.

Todas essas situações já incomodam os clientes com visão perfeita, então imagina a dificuldade daqueles que convivem com problemas de vista? A Ai Squared lançou o ZoomReader, um aplicativo especial para facilitar a vida de quem não consegue enxergar muito bem. Especializada em desenvolver softwares para pessoas com dificuldades de visão, a tradicional empresa resolveu entrar no mercado de mobiles, levando mais uma praticidade para seus clientes.

Segundo o CEO da Ai Squared, David Wu, a empresa aplicou a experiência de desenvolver softwares para pessoas com baixa visão no desenvolvimento do aplicativo. Ele explicou que o Zoom Reader combina funcionalidade com uma interface acessível, disponibilizando para o público uma solução barata que pode ser utilizada em diversas situações.

Disponível apenas para iPhone 4, o aplicativo faz zoom de texto e depois lê em voz alta. Ao acessar o ZoomReader, o usuário vai apontar a lente de seu telefone para o texto que deve ser lido e pressionar o ícone da câmera para tirar uma foto. Depois, é preciso acionar o Optical Character Recognition, tecnologia responsável por reconhecer os caracteres, para que o trecho seja digitalizado e então lido.

É possível controlar o aplicativo por comandos de voz. Com uma interface simples e botões grandes, o usuário não deve ter dificuldades para utilizar o serviço. Além disso, os textos fotografados podem ser ampliados em até quatro vezes, e a cor do papel e da tinta podem ser modificados, facilitando a leitura.

O ZoomReader está disponível em inglês para o download padrão, mas, com o aplicativo instalado, é possível comprar outras línguas. O aplicativo ocupa 279MB do seu telefone e custa cerca de US$20 na App Store.

Por Luiza Baptista | TechTudo | 06/04/2011 | Via: Wired e VerticalWire

Aprenda a editar textos capturados pelo scanner


Para começar, é bom saber que OCR significa Optical Character Recognition, ou em português, reconhecimento ótico de caracteres. Com essa tecnologia, você consegue transformar textos que estão dentro de imagens em arquivos editáveis. E um site na internet te proporciona essa conversão de forma gratuita. Olha só.

Esta é uma imagem JPEG [lê-se JOTAPÉG] e nela existe um texto, como você pode ver. Ao fazer o upload para este site, OCR Free, ele te dá as opções de conversão para PDF, Word, Excel, Rtf, Html ou txt. E se fizer um cadastro, ainda é possível escolher o idioma para que o sistema reconheça caracteres especiais como cê cedilha ou acentuações. A gente fez o teste. O resultado, é claro, traz algumas imperfeições na transcrição, mas nada que uma leitura atenta e alguns toques não resolvam. E o mais legal é que, na transcrição para documentos de texto, o sistema identifica as fontes mais próximas daquela utilizada na imagem.

Taí uma ótima opção para transcrever trechos de livros ou auxiliar em trabalhos escolares. É só escanear as páginas e fazer o upload aqui. O link está no início desta matéria.

Olhar Digital | 18/04/10

Scanner lê livros e textos em voz alta


Book Reader é indicado para pessoas com deficiências visuais; aparelho não funciona com o Windows 7

Neste artigo avaliamos o Plustek Book Reader V100, um scanner [digitalizador] de mesa que, além da função de digitalizar documentos e materiais impressos, inclui um software de OCR [Optical Character Recognition], usado para reconhecer textos a partir das imagens digitalizadas, e um software TTS [Text-to-Speech], de síntese de voz, que permite “falar” os textos para o usuário.

Esse conjunto, formado pelo equipamento de digitalização e por um pacote de programas adicionais, é uma ferramenta que pode ser de grande utilidade para pessoas com deficiências visuais e problemas de acessibilidade a textos e livros impressos tradicionais. Além disso, também se apresenta como um recurso bastante interessante para usuários que preferem ouvir a narração de um texto, têm dificuldade para ler textos com letras muito pequenas ou, ainda, desejam aprender como ler e pronunciar textos em português e inglês.

O Plustek Book Reader V100 permite digitalizar diferentes tipos de material impresso, podendo salvar esses documentos em disco, com a opção de gerar um arquivo [em diversos formatos gráficos]; permite extrair e reconhecer textos presentes em imagens e documentos digitalizados [OCR], gerando arquivos em formato TXT e PDF; realiza a leitura de textos digitalizados ou obtidos a partir de um arquivo em formato PDF, que poderá ser narrado por uma voz agradável e de boa entonação, nos idiomas português ou inglês; permite salvar o texto falado em arquivos de áudio [em formatos MP3 ou WMA]; permite ainda ler em voz alta os comandos e menus acessados no computador, assim como o texto que o usuário está digitando em uma determinada janela de uma aplicação qualquer do PC; oferece também uma lupa para ampliar a tela e os textos nela contidos, que podem ser lidos.

O Book Reader é de fácil uso. Basta colocar um documento ou livro no scanner e pressionar uma das três grandes teclas de função do painel frontal do equipamento, que definem o tipo de documento digitalizado [colorido, preto e branco ou texto puro]. O scanner irá digitalizar o texto e em seguida ativar automaticamente o programa de leitura do texto [TTS].

Também é possível digitalizar o texto disposto em diferentes orientações -livro aberto, virado de lado ou virado para cima/baixo. O programa identifica automaticamente a orientação do texto digitalizado e reconhece o texto de modo inteligente [separando imagens e gráficos da parte textual]. O programa de síntese de voz permite ajustar a velocidade da narração e do volume, assim como pode repetir sentenças e soletrar palavras.
O Plustek Book Reader V100 tem como requisitos o uso de um computador PC com sistema operacional Windows 2000 ou XP. A conexão é feita pela porta USB. O equipamento vem com um CD-ROM de instalação com os softwares necessários para a utilização.

Testes realizados

O aparelho pode ser facilmente instalado e opera corretamente nos sistemas indicados pelo fabricante: Windows 2000 e XP. Também foi verificado que é possível utilizá-lo no Windows Vista 32 bits, mas isso pode requerer mais atenção e ajustes no processo de instalação. Cabe salientar que não foi possível utilizar o equipamento no Windows 7.

Os drivers e os softwares de uso do equipamento não estão disponíveis na internet, apenas no CD-ROM. Caso o usuário necessite, deve solicitar um novo CD-ROM ao fabricante.

O manual de instalação é simples e a documentação é bastante limitada, assim como as informações disponíveis na internet. Apesar disso, a instalação e o uso são intuitivos.

O sistema apresentou um desempenho muito bom no reconhecimento automático do posicionamento do texto, aceitando inclusive documentos inseridos de modo incorreto no scanner [com certa inclinação].

O sistema OCR surpreendeu pela capacidade de extrair corretamente textos de diferentes tipos de documento: desde textos impressos com os mais diversos tipos de fonte de caracteres, em diferentes tamanhos, com diferentes espaçamentos entre linhas, com fundo colorido e até textos de jornais e bulas de remédios. O sistema OCR desempenha correta e adequadamente sua função -apenas não foi capaz de reconhecer textos com letras cursivas [impressas] ou qualquer tipo de texto manuscrito, o que é usual para esse tipo de sistema.

O sistema de síntese de voz foi capaz de reproduzir textos de modo bastante adequado e claro, sendo capaz de falar textos, números e siglas. O sistema só não é capaz de identificar palavras de outros idiomas misturadas a um texto, o que leva à pronúncia incorreta de certas palavras estrangeiras.

Conclusão

O Book Reader da Plustek é uma ferramenta de grande valor para pessoas com deficiências visuais e/ou limitações de acessibilidade a documentos e textos. O equipamento fornece um conjunto bastante atrativo de ferramentas e funcionalidades, sendo atrativo inclusive para outros tipos de usuário. O Book Reader é simples de usar e cumpre muito bem suas funções, mas possui uma documentação e manuais limitados e, na versão atual do equipamento, não foi possível a instalação e o uso no Windows 7.

Publicado originalmente em Folha de S. Paulo | 14/04/2010

FERNANDO SANTOS OSÓRIO
GUSTAVO PESSIN
LEANDRO CARLOS FERNANDES
ESPECIAL PARA A FOLHA