O “DNA” dos livros pode servir de base para encontrá-los?


Por Felipe Lindoso | Publicado originalmente em O Xis do Problema | 24/08/2011

Semana passada Claudiney Ferreira, com quem trabalho no projeto Conexões Itaú Cultural – Mapeamento Internacional da Literatura Brasileira – e que vasculha a Internet quase obsessivamente atrás de sites sobre literatura, achou uma curiosidade: o BookLamp. Tratava-se de um site que se propunha a levantar o DNA dos livros para servir de motor de buscas para os leitores descobrirem livros “semelhantes” aos que gostaram, e de ferramenta para autores e editores.

Visitei o site e achei realmente fascinante. E já tinha planejado escrever um post sobre o assunto.

Esse trabalho me foi poupado pelo Ed Nawotka, do Publishing Perspectives, que no dia 24 publicou um artigo sobre o assunto. Ed Nawotka esteve aqui há pouco, no Congresso do Livro Digital, e sua palestra motivou que eu escrevesse um post sobre a questão dos metadados e sua importância para o mercado editorial.

Bem, quem quiser ler o original, o link está aqui. Com permissão do Ed Nawotka, traduzi o artigo que deixo aqui para vocês:

O “Projeto do Genoma do Livro” do BookLamp é o futuro da descoberta?

Por Edward Nawotka

Se você achava que metadados eram complicados, conheça Booklamp.org., um novo motor de descoberta de livros que pesquisa 32.160 diferentes pontos de dados por livro. “Fazemos isso processando o texto completo proporcionado pelo editor em formato digital e passando pelo nosso computador”, explica o CEO Aaron Stanton.

“Nosso programa separa o livro em 100 cenas e mede o “DNA” de cada cena, procurando 132 ingredientes temáticos distintos, e mais 2.000 variáveis”. Um leitor pode ir ao site da Booklamp.org., que foi lançado em formato beta na semana passada, e fazer busca por palavra-chave em títulos que correspondam a critérios semelhantes ao título que informam ao site. Alguns críticos o apelidaram de “Caixa de Pandora para livros”, mas Stanton prefere o termo “Projeto do Genoma do Livro”.

Digamos que você esteja procurando um romance como o Código Da Vinci. Descobrimos que o romance contém 18,6% de Religião e Instituições Religiosas, 9,4% de Assassinato & Investigação de Assassinato, 8,2% de Arte e Galerias de Arte, e 6,7% de Sociedades Secretas & Comunidades, e outros elementos – e pescamos um livro com elementos similares – desde que esteja em nosso banco de dados”, diz Stanton.

Stanton começou o projeto do BookLamp em 2003, quando era estudante em Boise, Idaho, quando ele e colegas escanearam um exemplar de Thinner, de Richard Bachman [pseudônimo de Stephen King] – algo que então lhes tomou seis horas para fazer – antes de compreender que o que queriam estava provavelmente além do alcance de estudantes universitários. Em 2007, entretanto, ele achou que seria perfeito para o Google, e conseguiu marcar uma entrevista, que se tornou um meme viral na época].

Stanton apresentou então o projeto ao Dr. Matthew Jockers, professor de linguística computacional na Universidade de Stanford, que ajudou a desenvolver os protocolos para a “análise estilística contextual” para o BookLamp.

Atualmente, BookLamp tem aproximadamente 20.000 textos em seu banco de dados – basicamente das editoras Random House e Kensington – e já reuniu cerca de 650 milhões de “pontos de dados” no total. “Esperamos alcançar a cifra dos bilhões nos próximos meses”, diz Stanton.

Mas será que um computador pode realmente avaliar com precisão o conteúdo de um livro? Stanton acha que sim. “Nossos modelos originais foram baseados em grupos de foco”, diz ele. “Nós dávamos a eles uma cena de alta densidade e uma cena de baixa densidade, por exemplo, e pedíamos que as avaliassem, o que nos deu a base para experimentar os modelos. Depois pesquisamos livros que podiam ultrapassar os modelos e ajustamos as fórmulas. Dessa maneira, nossos algoritmos são treinados como um ser humano”.

O BookLamp qualifica elementos como densidade, ritmo, descrição, diálogo e movimento, além de numerosas e nuançadas microcategorias, tais como “pistolas/rifles/armas”, ou “descrições explícitas de intimidade” ou “ambientes de trabalho”.

“De muitas maneiras, usando e usando “ingredientes” temáticos como uma alternativa aos metadados tradicionais”, diz Stanton, que prevê o projeto servindo a leitores, escritores e editores.

A primeira iteração do BookLamp – que é a que atualmente se pode ver online – está claramente dedicada aos leitores. Escritores e editores, por outro lado, logo terão a oportunidade de fazer upload dos manuscritos e tê-los avaliados pelos mesmos critérios. Essas obras irão para um “banco de dados vivo de manuscritos com certas características”. “Por exemplo – diz Stanton – digamos que vampiros são o quente em um ano, então você rejeita todos os livros sobre extraterrestres, mas depois a tendência muda para extraterrestres – e pode-se pesquisar nosso banco de dados por originais que correspondam a essas tendências nascentes e tomar a dianteira na curva. Para os autores, um livro rejeitado nunca é simplesmente um livro rejeitado, já que sempre pode ser achado”.

Atualmente o maior obstáculo do BookLamp parece ser exatamente os editores e autores, que podem estar reticentes em ver seus livros convertidos em pontos de dados. O banco de dados limitado em 20.000 títulos “é de longe a maior crítica ao site”. Seu objetivo é alcançar 100.000 tíotulos até o final do ano.

Os curiosos podem se registrar e explorar o BookLamp agora no www.booklamp.org.

——–

Bem, eu escrevi para o Stanton [que ainda não respondeu], perguntando se ele não estava interessado em traduzir o programa para o português e começar a catar originais dos nossos livros. Escrevi como gozação [mas quero acompanhar de perto o projeto], pois sei perfeitamente o quanto o mercado editorial brasileiro está atrasado não apenas na formatação de versões digitais quanto na compreensão [e uso] de metadados.

O artigo do Ed Nawotka é mais um exemplo das amplas possibilidades que se abrem para que os livros [e não só os digitais] permaneçam no radar dos leitores, e também da quantidade de ferramentas de trabalho que se desenvolvem para editores e autores.

Por Felipe Lindoso | Publicado originalmente em O Xis do Problema | 24/08/2011

Felipe Lindoso

Felipe Lindoso é jornalista, tradutor, editor e consultor de políticas públicas para o livro e leitura. Foi sócio da Editora Marco Zero, diretor da Câmara Brasileira do Livro e consultor do CERLALC – Centro Regional para o Livro na América Latina e Caribe, órgão da UNESCO. Publicou, em 2004, O Brasil pode ser um país de leitores? Política para a cultura, política para o livro, pela Summus Editorial.

A coluna O X da questão traz reflexões sobre as peculiaridades e dificuldades da vida editorial nesse nosso país de dimensões continentais, sem bibliotecas e com uma rede de livrarias muito precária. Sob uma visão sociológica, este espaço analisa, entre outras coisas, as razões que impedem belos e substanciosos livros de chegarem às mãos dos leitores brasileiros na quantidade e preço que merecem.

Como a inclusão digital será feita nas escolas brasileiras?


Por Gabriela Dias | Publicado originalmente em PublishNews | 22/08/2011

Um dos destaques do II Congresso do Livro Digital, organizado pela CBL em São Paulo, foi a palestra de , do Publishing Perspectives. Após citar números do mercado de e-books lá fora, Ed entrou na nossa seara e se entusiasmou: “O governo brasileiro, que faz compras substanciais de livros para escolas de todo o país, anunciou que vai começar a comprar ‘conteúdo digital’ em 2014 — o que pode ser chamado de ‘Dia D’”.

Embora as estatísticas nessa área por ora só sejam relevantes nos Estados Unidos, é compreensível que uma notícia dessas assombre os gringos. Afinal, não é todo dia que um player do tamanho do governo federal entra no jogo – e mesmo que o impacto imediato seja apenas nos livros didáticos [textbooks, na palestra de Nawotka], é de se esperar que esse contato precoce com o livro digital influencie os hábitos de leitura da população jovem a médio e longo prazo.

Em outras palavras, livro didático digital na escola pública pode querer dizer um mercado significativo para outros tipos de e-books no futuro – e esse futuro pode nem estar tão distante assim!

O X da questão

O que não entrou na equação de Nawotka é COMO essa inclusão digital será feita nas escolas brasileiras.

Várias pesquisas têm demonstrado que a mera inserção de equipamentos tecnológicos no ambiente escolar não melhora o desempenho dos estudantes. Uma das mais recentes foi o sexto relatório do PISA 2009, intitulado Students On Line – Digital Technologies and Performance.

Com foco na capacidade de leitura de estudantes de 15 anos em 19 países, o relatório lançado no fim de junho diz que “a sua maior surpresa talvez seja a falta de uma relação clara entre a frequência de uso das TICs na escola e a performance de leitura digital dos alunos”. E acrescenta: “O uso das TICs na escola não esteve positivamente associado às habilidades de navegação nem de leitura […]”.

Essa conclusão pode ser chocante, mas não é nova. O mais curioso é um segundo dado: “Ao examinar a relação entre a performance de leitura digital e o acesso a computadores na escola ou em casa, viu-se que o acesso caseiro se relacionou positivamente com a performance, enquanto o acesso escolar não”. Essa relação é válida em 16 dos 19 países, inclusive quando se leva em consideração a origem socioeconômica dos alunos.

Embora o relatório faça ressalvas sobre as próprias conclusões, não deixa de ser alarmante. Se as TICs na escola não têm feito diferença em habilidades como navegar por algumas páginas e compreendê-las, o que o PISA vai encontrar quando avaliar as áreas de matemática [2012] e ciências [2015] com “ênfase na capacidade de ler e entender textos digitais e de resolver problemas apresentados em formatos digitais”?

E mais: se estudantes de 15 anos estão desenvolvendo certas habilidades mais em casa do que na escola, o que isso nos diz sobre o ensino de hoje?

Pistas para a escola do século XXI

A parte boa é que o próprio relatório dá pistas de como resolver o problema. Vou resumir aqui algumas das principais:

  • Outras políticas e práticas escolares interagem com as relações observadas; é preciso levar em conta todos os fatores que influenciam a eficácia do uso de TICs na escola
  • Uma análise aprofundada deve caminhar mais na direção da qualidade do que na da frequência desse uso; um exemplo seria oferecer mais atividades baseadas em projetos, que permitam aos alunos explorar várias abordagens na resolução de problemas, como já fazem sozinhos em casa
  • Se as TICs não forem parte essencial do projeto pedagógico da escola, é improvável que os professores se motivem a investir no uso delas
  • Se os professores tiverem oportunidades adequadas para se desenvolver no uso de TICs, ficarão mais propensos a integrá-las de modo efetivo e regular às suas práticas de ensino

Pedras no caminho?

Portanto, meu caro @EdNawotka, pode haver mais pedras no caminho do pleno desenvolvimento da leitura digital no Brasil do que fazem supor as atuais manchetes. Quem viver verá…

Até a próxima, Gabriela Dias

Por Gabriela Dias | Publicado originalmente em PublishNews | 22/08/2011

Gabriela Dias [@gabidias] é formada em Editoração pela ECA-USP e atua desde 1996 na fronteira entre o impresso e o digital. Já fez multimídia, livro e site, mas hoje trabalha com tudo isso [e mais um pouco] na editora Moderna. Vive ainda em outras fronteiras: entre Rio e São Paulo, entre Higienópolis e Santa Cecília. É Flamengo, mas não tem uma nega chamada Teresa.

A coluna Cartas do Front é um relato de quem observa o mercado educacional no Brasil e no mundo, por dentro e por fora. Mensalmente, ela vai trazer novidades e indagações sobre o setor editorial didático e sobre o impacto da tecnologia nos livros escolares e na sala de aula.

TWITTER, Facebook e e-mail da Gabriela Dias

O que se ganha em um congresso?


Por Felipe Lindoso | Publicado originalmente em PublishNews | 02/08/2011

Nos dias 26 e 27 de julho passado aconteceu o 2º Congresso Internacional CBL do Livro Digital. Foram doze eventos, entre palestras e mesas-redondas, além da apresentação de trabalhos científicos em uma sala anexa. Boa frequência, apesar do preço salgado. Poucas perguntas e ainda menos discussões. A plateia permaneceu passiva depois da maior parte das palestras/mesas-redondas, e mesmo as perguntas feitas não provocaram grandes discussões.

Não pretendo comentar todas as palestras ou discussões. Quero apenas chamar atenção para alguns tópicos que me pareceram os mais interessantes.

O primeiro ponto a destacar é que esta segunda versão do Congresso do Livro Digital teve menos “vendedores de soluções” que o primeiro. Achei isso bem positivo. É um tanto abusivo pagar para ouvir um monte de gente querendo vender soluções desenhadas para outro ambiente de negócios e estágios tecnológicos muito diferentes dos que temos aqui.

Ainda assim, ausências se fizeram notar, principalmente a das empresas em desenvolvimento de distribuição e conversão de conteúdos digitais já presentes no Brasil. Não se teve notícias nem da empresa formada pelo consórcio que organizou a DLD – Distribuidora de Livros Digitais [Objetiva, Record, Sextante, Planeta, Rocco e L&PM], nem do “Minha Biblioteca”, a versão brasileira do programa iniciado pala Ingram nos EUA e que aqui inclui o GEN, Atlas, Grupo A e a Editora Saraiva. E também nada da Xeriph, distribuidora de conteúdo digital que não está vinculada a nenhum grupo editorial. Na minha opinião, faltou também outro tema relevante: o uso de conteúdo digital nas universidades públicas, já que há anos tanto a CAPES/CNPq quanto a FAPESP investem grandes somas na aquisição de revistas acadêmicas em formato digitalizado. Pode ser que em outro congresso os organizadores se lembrem disso.

Como acontece em qualquer evento do gênero, houve momentos interessantes e outros que chegaram a ser patéticos. Um deles, que vou me poupar de mencionar, me fez lembrar o movimento de criação de um partido anti-powerpoint que andou aparecendo na Europa, e “brindou” a plateia com uma dessas apresentações que às vezes aparecem na Internet, cheia de lugares comuns, fotos comovedoras e mensagens de autoajuda. Quase saí para entrar online e pedir filiação nesse partido…

Outra apresentação que chegou perto do patético foi a do representante da Digisign, empresa conceituada na certificação digital mas que, aparentemente, não sacou a dos e-books. Quer garantir a inviolabilidade do conteúdo com DRMs que funcionam com tokens ou somente online. Acabam inventando um e-book acoplado com jaca ou melancia. Imaginem se para ler um conteúdo for preciso fazer uma operação similar à de acessar a conta corrente bancária…

A palestra mais instigante e sensata, sem dúvida, foi a do Ed Nawotka, editor do Publishing Perspectives. Ed fugiu totalmente da futurologia e colocou de modo muito simples: os editores só podem – ou melhor, devem – se preparar para as contingências do futuro da edição digital com os mecanismos mais abrangentes de coleta de informações sobre seu público, com o uso amplo de metadados. Já comentei no meu blog que os editores brasileiros estão uns dez anos atrasados nisso.

Algo que perpassou várias palestras e mesas redondas foi a confusão – que acredito não deliberada, mas nem por isso menos daninha – entre os diferentes tipos de conteúdo digital que podem ser acessados pelo público leitor. Quando sabemos que o leitor de e-books mais popular no mundo é o Kindle, com sua tela sem cores e que privilegia totalmente a leitura de textos; quando sabemos que a iBookstore acoplada nos aparelhos da Apple perde feio para o iTunes, e que a venda de livros no iPad e nos iPhones está sendo muito menor que o esperado; quando sabemos que o Nook e o Kobo seguem pelo mesmo rumo do Kindle, eu me pergunto: a que vem tantas apresentações sobre “enhanced e-books” e sobre conteúdos compartilhados em redes digitais? Acredito que o conteúdo de livros didáticos e de livros infantis vá exigir telas coloridas [e a Amazon já prometeu seu tablet com essas características até o final do ano], mas, no momento e como tendência dominante, o que predomina é a leitura de texto. O resto, por enquanto, é jogo interativo online, o fenômeno “transmídia”, que ainda veremos no que vai dar.

Bob Stein, na palestra de abertura, se declarou muito feliz por ter sido pago durante anos para “pensar o futuro do livro” e veio com a ideia de que – no futuro, é claro – o conteúdo seria distribuído gratuitamente e que as pessoas pagariam para participar da “rede de leitores”. Nessa rede todos os leitores fariam anotações, comentários, glosas e o que mais lhes apetecessem acrescentar ao conteúdo original. Quem faz parte do Facebook [eu faço] sabe perfeitamente que a quantidade de comentários inanes que por ali circulam é enorme. Imaginem o sujeito ler um Balzac acompanhado de comentários mandando florzinhas ou sinaizinhos de “curti” a cada página? Se fosse um grupo fechado lendo um ensaio, vá lá. E mais, tanto o Kobo quando o próprio Kindle já permitem acesso – pelo menos parcial – a anotações de outros leitores. Se o Bob Stein ganhou para pensar isso, eu também quero me candidatar a pensador remunerado.

Uma palestra interessante foi a da Dominique Raccah – e mais como vice-presidente do BISG [Book Industry Study Group] que como CEO da Sourcebooks – por ter apresentado dados sobre a demografia comparada de leitores de livros em papel e e-books, mostrando que o fator preço é fundamental na adoção dos e-books. Os leitores do segmento trade – romances, ensaios, autoajuda, etc. – demandam sempre alguma espécie de conteúdo gratuito [download de capítulos, material adicional], além do preço substancialmente mais baixo. Esses leitores também são os que mais usam e-readers, enquanto os universitários acessam conteúdo digital principalmente através de laptops, notebooks e desktops.

A palestra de Joseph Craven [Sterling Publishing], sobre a construção de comunidades verticais desenvolvidas pelos editores em torno de livros ou coleções, também foi muito interessante. Tornou prática e consequente a conversa de uso das redes sociais no negócio de livros, chamando atenção para a interação entre o público leitor/consumidor e os editores, inclusive no que diz respeito ao conteúdo adicional aos livros.

Alguns dos palestrantes abordaram muito de leve uma questão que tem atraído bastante minha atenção. Atualmente, o segmento comercial/industrial que efetivamente está ganhando dinheiro com o conteúdo digital é o dos prestadores de serviço de acesso e as empresas de telecomunicação, que viabilizam esse acesso.

O fato é que uma parte dos custos de “logística” dos e-books é transferido para os consumidores de conteúdo digital que pagam pelo acesso à Internet. Esse é um negócio específico das empresas de telecomunicação e dos provedores de acesso. Essas empresas pressionam todos os produtores de conteúdo para receber um fluxo constante de conteúdo barato ou gratuito. Por sua vez, esse conteúdo gera mais tráfego na rede e agrega receita a essas empresas. Na discussão do conteúdo gratuito não podemos nos esquecer de que, como não existe almoço grátis, estamos pagando pelo acesso e também, com nossas contribuições blogueiras, no Facebook e no Twitter, para proporcionar conteúdo gratuito para essas gigantes que inexoravelmente apresentam suas contas.

Por Felipe Lindoso | Publicado originalmente em PublishNews | 02/08/2011

Felipe Lindoso

Felipe Lindoso é jornalista, tradutor, editor e consultor de políticas públicas para o livro e leitura. Foi sócio da Editora Marco Zero, diretor da Câmara Brasileira do Livro e consultor do CERLALC – Centro Regional para o Livro na América Latina e Caribe, órgão da UNESCO. Publicou, em 2004, O Brasil pode ser um país de leitores? Política para a cultura, política para o livro, pela Summus Editorial.

A coluna O X da questão traz reflexões sobre as peculiaridades e dificuldades da vida editorial nesse nosso país de dimensões continentais, sem bibliotecas e com uma rede de livrarias muito precária. Sob uma visão sociológica, este espaço analisa, entre outras coisas, as razões que impedem belos e substanciosos livros de chegarem às mãos dos leitores brasileiros na quantidade e preço que merecem.

Os próximos 10 anos


Ed Nawotka

A indústria do livro impresso no Brasil faz muito dinheiro se comparada a outros mercados e nos próximos 10 anos o digital será apenas mais uma opção para vocês”, disse o jornalista Ed Nawotka, editor do Publishing Perspectives, à plateia do 2º Congresso Internacional do Livro Digital nesta segunda-feira, dia 26. Mas para chegar lá da melhor forma possível é preciso se preocupar, desde já, em organizar melhor suas informações criando corretamente metadados que vão transformar seu livro em algo encontrável em meio a tantos outros disponíveis nas livrarias, quantidade em constante crescimento [se quiser mais informações sobre metadados, leia a coluna de Camila Cabete].

O fato de o Brasil estar alguns anos atrás de mercados como os Estados Unidos e a Inglaterra é, para ele, uma oportunidade de os editores, livreiros e distribuidores brasileiros aprenderem com os erros cometidos por aqueles que já conseguem viver da venda de livro digital. Um dos exemplos que citou foi o da Borders. Entre alguns dos erros que a rede de livrarias americana recém-liquidada cometeu 10 anos atrás foi ter demitido os funcionários que cuidavam dos eventos e das relações com a comunidade. Nawotka faz uma análise mais completa do declínio da Borders aqui [em inglês].

O jornalista abordou ainda temas como o avanço do self-publishing [e citou Eduardo Spohr], o fato de que todos podem ser editores hoje [inclusive JK Rowling] e a quantidade de coisas que as pessoas leem hoje. Na América do Norte, por exemplo, são 35 mil palavras por dia, o equivalente a 1/3 de um romance.

Por Maria Fernanda Rodrigues | PublishNews | 27/07/2011