DA DER SPIEGEL
Alemanha desafia Google e trabalha para montar sua própria biblioteca online
Manfred DworschakReprodução/Divulgação
ScanRobot, uma máquina capaz de digitalizar livros inteiros automaticamente
A Biblioteca Digital Alemã quer tornar milhões de livros, filmes, imagens e gravações em áudio acessíveis online. Mais de 30 mil bibliotecas, museus e arquivos deverão contribuir com seus artefatos culturais digitalizados. A ideia, em parte, é competir com o Google Livros. Mas funcionará?
Em um dia bom, o leitor mecânico lê até 1.216 páginas por hora. Assoviando silenciosamente, devorando livro após livro. De vez em quando ele diz: “Pffft”.
Este é um robô moderno em funcionamento. Ele escaneia automaticamente todo livro colocado aberto diante dele. Uma cunha fina desce até a dobra, varre as páginas da esquerda e da direita e copia seu conteúdo. Elas são fotografadas e com um gentil sopro de ar –pffft– o robô vira a página.
E assim prossegue, dia após dia, no Centro de Digitalização da Biblioteca Estadual Bávara em Munique. Cerca de 45 mil obras já foram escaneadas –de “Nibelungenlied” em pergaminho até uma partitura original escrita à mão por Gustav Mahler.
Reconhecidamente, tesouros dos primórdios da cultura do livro costumam ser escaneados à mão. O robô cede lugar quando se vê diante de livros frágeis, que podem pesar dezenas de quilos, estar encadernados em couro ou apresentar capas de madeira.
No final, um novo portal de Internet se beneficiará da riqueza desses bancos de dados de Munique. A Biblioteca Digital Alemã (Deutsche Digitale Bibliothek, ou DDB) se transformará em um centro online para milhões de livros, revistas, fotos e filmes. Bibliotecas, museus e arquivos de todo o país deverão contribuir com artefatos culturais digitalizados.
Uma câmara de maravilhas
Mas levará tempo. A primeira versão de teste poderá estar online em 2011 –“e será apenas para um grupo restrito de usuários”, diz Ute Schwens, uma diretora da Biblioteca Nacional Alemã em Frankfurt, que está coordenando a DDB.
O ministro da Cultura da Alemanha, Bernd Neumann, da União Democrata Cristã (CDU), chama a visão a longo prazo de “um projeto do século”. Os iniciadores prometem uma câmara virtual de maravilhas, boa tanto para pessoas leigas quanto para pesquisadores à procura de fontes específicas e documentos científicos. Digite “Beethoven” e você encontrará não apenas livros sobre o compositor, mas –no final– partituras escritas à mão, amostras de música e talvez até mesmo uma versão filmada de “Fidélio”.
O gabinete federal alemão deu o sinal verde no início de dezembro. A meta é integrar a DDB com o Europeana, o portal europeu lançado em 2008 com ambições semelhantes.
Essa diligência europeia foi estimulada, principalmente, pelo Google, que já digitalizou mais de 10 milhões de livros em todo o mundo. Houve alertas contra uma corporação privada obtendo um monopólio cultural. O Europeana e a DDB prometem respeitar os direitos autorais que o Google até o momento respeita apenas relutantemente. Jean-Noël Jeanneney, um ex-presidente da Biblioteca Nacional Francesa, falou sobre um “modelo anticapitalista para combater o poder do Google”.
A digitalização também é uma forma de combater a vulnerabilidade do livro como meio. Um incêndio em 2004 na Biblioteca Anna Amalia, em Weimar, destruiu 50 mil volumes, alguns deles insubstituíveis. Cópias digitais de backup poderiam limitar essas perdas no futuro.
Enquanto os especialistas na Alemanha embarcam nos trabalhos preliminares, está aparente que o empreendimento enfrenta desafios temíveis. As metas tecnológicas por si só parecem ambiciosas. O Instituto Fraunhofer em Sankt Augustin, perto de Bonn, é responsável pela tecnologia de informática da DDB. Ele está desenvolvendo programas para reconhecer pessoas em filmes, converter discursos gravados em texto pesquisável e indexar automaticamente os documentos.
Mais audaciosa é a abrangência proposta do novo portal. Mais de 30 mil museus, arquivos e coleções científicas por toda a Alemanha supostamente estariam interligados. Os criadores da DDB ficarão satisfeitos, por ora, com uma centena de participantes, mas instituições de prestígio como o Hamburger Kunsthalle ou o Museu Städel, em Frankfurt, ainda não estão nem mesmo na lista.
Ambição em excesso, recursos em falta
Rolf Griebel, diretor geral da Biblioteca Estadual Bávara, que considera o projeto “bom e que já devia ter sido iniciado há muito tempo”, todavia alerta contra planos exagerados. “Eu tenho sérias dúvidas sobre se a DDB conseguirá dispor de conteúdo apropriado e dentro de um prazo razoável”, ele diz.
Griebel estima que o escaneamento de um livro do século 16 ou 17 custa entre 70 e 140 euros, dependendo do volume de trabalho. Títulos contemporâneos são mais baratos, mas as quantidades envolvidas são enormes. A Associação Alemã das Bibliotecas está propondo a digitalização de cerca de 5,5 milhões de volumes nos primeiros 10 anos. Isso custaria pelo menos 165 milhões de euros. Mas de onde virá o dinheiro?
Os alemães estão olhando com inveja para a França, onde o presidente Nicolas Sarkozy prometeu recentemente levantar 750 milhões de euros para pagar pela digitalização da cultura nacional da França.
O projeto alemão, por sua vez, pode ter falhas culturais óbvias por muitos anos. O usuário ficará satisfeito em se deparar com grandes descobertas ocasionais? Não seria preferível fazer menos, mas fazer direito? “Para começar, certamente faria sentido limitar isto a áreas e temas selecionados”, diz Griebel.
Mas os planejadores da DDB não aceitam isso. Toda atividade cultural, toda ciência, todo tipo de documento é válido –preferivelmente de todos os museus e bibliotecas da Alemanha. E a tecnologia de busca será mais sofisticada do que apenas a procura por termos, como oferecida pelo Google. As coleções da DDB (segundo o plano atual) serão indexadas segundo uma variedade de critérios –local, tempo, tema. Esse índice só funcionará se os objetos forem descritos em detalhes.
Neste esforço, a DDB tem se beneficiado de alguma tecnologia básica do programa Theseus, financiado pelo governo alemão. Os pesquisadores do Theseus trabalham desde 2007 em métodos para indexação de imagens, filmes, gravações de áudio e livros. Se o computador tiver um entendimento rudimentar do que está acontecendo, ele pode preencher vários campos automaticamente –algo indispensável para as vastas quantidades de documentos com que a DDB terá que lidar.
Os pesquisadores estão informando um progresso inicial no reconhecimento de elementos em filmes e fotos. “Faces ainda são difíceis, mas está se saindo bem com árvores, carros e prédios”, diz Thomas Niessen, chefe do Theseus. O computador também está tendo certo sucesso em converter palavra falada em texto pesquisável –ele até mesmo tenta separar pessoas, lugares e eventos relevantes.
Completo com passagens de trem alemãs
Enquanto isso, um debate está em andamento sobre o quadro maior. Como exatamente a DDB deveria servir tanto a leigos quanto a pesquisadores? E como um portal ideal deve se parecer?
Reinhard Altenhöner, da Biblioteca Nacional Alemã, acha que os usuários poderiam poder postar suas próprias contribuições. “Se um arquivo municipal fornece material sobre a história de uma rua”, ele diz, “os moradores poderiam enriquecê-la com suas próprias histórias e fotos”.
Os museus poderiam inserir links em resultados de busca para exposições atuais relevantes. Uma pequena demonstração na tela ilustra como isso poderia funcionar. “E aqui”, diz Altenhöner, clicando em outro link, “aqui você até mesmo poderia comprar uma passagem para o Deutsche Bahn”.
Esses extras sutis não podem ser encontrados no Google. A empresa de ferramenta de busca prefere projetos que possam ser explicados em uma única sentença. No caso da digitalização, a meta é simples: todo livro do mundo em uma apresentação fácil para o usuário. Além disso, a melhor tecnologia de indexação é de pouca utilidade.
As consequências de ignorar este axioma são ilustradas pelo site Europeana. Após uma longa estagnação, a coleção deverá crescer para 10 milhões de artefatos culturais até meados de 2010. “Isso nos torna líderes globais”, diz Stefan Gradmann, um cientista da informação de Berlim e um membro do comitê executivo do Europeana.
Alguns itens já estão acessíveis pelo site, em caráter de teste, utilizando busca inteligente. Digite, digamos, “Paris” e o Europeana também retorna Montmartre e o Jardin des Tuileries; aparecem fontes relacionadas a Paris, o príncipe da mitologia grega. A ferramenta de busca também está familiarizada com seu feito fatídico, o “rapto de Helena”. Ele encontra documentos, em outras palavras, que não contêm o termo da busca. Mas navegar pelo Europeana não é muito agradável. Os resultados são exibidos em miniaturas do tamanho de selos postais. Se você clicar para ver uma imagem maior, você é levado ao instituto correspondente. Logo você se vê vagando impotente por dezenas de sites diferentes de museus e bibliotecas –e acaba perdido em algum ponto entre a “Vlaamse Kunstcollectie” e a “Wielkopolska Biblioteka Cyfrowa”.
Não seria preferível incorporar todas as exposições dentro da estrutura familiar do Europeana? “Nós preferiríamos isso”, diz Gradmann. “Mas então os museus não participariam.” Eles insistem em apresentar seus próprios tesouros.
Bibliotecas digitais, ao estilo babilônico
Se a DDB ceder à vaidade dos institutos participantes, o resultado será uma estrutura babilônica com 30 mil anexos. Alguém teria paciência para navegar por um índice consistindo de 30 mil sites idiossincráticos?
A promessa de observar rigidamente os direitos autorais também traz problemas. As únicas obras que a DDB pode escanear livremente são aquelas de autores que morreram há pelo menos 70 anos. Para documentos mais novos cujos autores não podem ser contatados, um acordo será acertado com as coletividades relevantes de direitos autorais.
Schwens, a coordenadora da DDB, também deseja incorporar material contemporâneo. “Seria uma vergonha”, ela diz, “se conhecimento científico atual não puder ser encontrado via a DDB”. As negociações com os editores também já estão em andamento. De modo ideal, diz Schwens, haveria uma “loja única” onde o usuário poderia comprar ou alugar eletronicamente a obra que o interessa.
A loja online Libreka, operada pela Associação Alemã das Livrarias, estaria disponível para venda de livros. Mas a Libreka tem uma reputação duvidosa: muitos de seus livros eletrônicos apresentam intricada proteção contra cópia. Os editores querem dessa forma. E muitos de seus livros best sellers tendem a não aparecer, por medo da pirataria digital.
O projeto alemão de digitalização é ameaçado de dois lados: não há dinheiro suficiente para o escaneamento de obras mais antigas, enquanto o acesso a novas obras –que podem já existir em formato digital– provavelmente será bloqueado por editores ansiosos.
Logo, não seria melhor deixar o Google assumir a coisa toda? Até meados de 2010, a empresa americana deseja começar a vender livros eletrônicos. Meio milhão de títulos já foi destinado para o projeto “Edições Google”, com 63% de cada venda destinada à editora e o Google ficando com o restante.
A experiência da Biblioteca Estadual Bávara com o Google tem sido boa até o momento. Desde 2007, o Google tem digitalizado livros sem direitos autorais e que estão sob custódia cultural de Munique –cerca de um milhão de volumes até o momento. Em duras negociações, a biblioteca assegurou o direito de ter sua própria cópia de cada livro, para apresentar da forma como bem desejar. O acesso livre a esses tesouros está, portanto, garantido.
E o escaneamento prossegue como um relógio. Toda semana cerca de 5 mil volumes deixam as salas da biblioteca estadual. Um caminhão os leva até um endereço secreto na Baviera, onde os scanners do Google trabalham sem parar. Neste ritmo, tudo estará concluído em apenas quatro anos.
Tradução: George El Khouri Andolfato
Manfred DworschakReprodução/Divulgação
ScanRobot, uma máquina capaz de digitalizar livros inteiros automaticamente
A Biblioteca Digital Alemã quer tornar milhões de livros, filmes, imagens e gravações em áudio acessíveis online. Mais de 30 mil bibliotecas, museus e arquivos deverão contribuir com seus artefatos culturais digitalizados. A ideia, em parte, é competir com o Google Livros. Mas funcionará?
Em um dia bom, o leitor mecânico lê até 1.216 páginas por hora. Assoviando silenciosamente, devorando livro após livro. De vez em quando ele diz: “Pffft”.
Este é um robô moderno em funcionamento. Ele escaneia automaticamente todo livro colocado aberto diante dele. Uma cunha fina desce até a dobra, varre as páginas da esquerda e da direita e copia seu conteúdo. Elas são fotografadas e com um gentil sopro de ar –pffft– o robô vira a página.
E assim prossegue, dia após dia, no Centro de Digitalização da Biblioteca Estadual Bávara em Munique. Cerca de 45 mil obras já foram escaneadas –de “Nibelungenlied” em pergaminho até uma partitura original escrita à mão por Gustav Mahler.
Reconhecidamente, tesouros dos primórdios da cultura do livro costumam ser escaneados à mão. O robô cede lugar quando se vê diante de livros frágeis, que podem pesar dezenas de quilos, estar encadernados em couro ou apresentar capas de madeira.
No final, um novo portal de Internet se beneficiará da riqueza desses bancos de dados de Munique. A Biblioteca Digital Alemã (Deutsche Digitale Bibliothek, ou DDB) se transformará em um centro online para milhões de livros, revistas, fotos e filmes. Bibliotecas, museus e arquivos de todo o país deverão contribuir com artefatos culturais digitalizados.
Uma câmara de maravilhas
Mas levará tempo. A primeira versão de teste poderá estar online em 2011 –“e será apenas para um grupo restrito de usuários”, diz Ute Schwens, uma diretora da Biblioteca Nacional Alemã em Frankfurt, que está coordenando a DDB.
O ministro da Cultura da Alemanha, Bernd Neumann, da União Democrata Cristã (CDU), chama a visão a longo prazo de “um projeto do século”. Os iniciadores prometem uma câmara virtual de maravilhas, boa tanto para pessoas leigas quanto para pesquisadores à procura de fontes específicas e documentos científicos. Digite “Beethoven” e você encontrará não apenas livros sobre o compositor, mas –no final– partituras escritas à mão, amostras de música e talvez até mesmo uma versão filmada de “Fidélio”.
O gabinete federal alemão deu o sinal verde no início de dezembro. A meta é integrar a DDB com o Europeana, o portal europeu lançado em 2008 com ambições semelhantes.
Essa diligência europeia foi estimulada, principalmente, pelo Google, que já digitalizou mais de 10 milhões de livros em todo o mundo. Houve alertas contra uma corporação privada obtendo um monopólio cultural. O Europeana e a DDB prometem respeitar os direitos autorais que o Google até o momento respeita apenas relutantemente. Jean-Noël Jeanneney, um ex-presidente da Biblioteca Nacional Francesa, falou sobre um “modelo anticapitalista para combater o poder do Google”.
A digitalização também é uma forma de combater a vulnerabilidade do livro como meio. Um incêndio em 2004 na Biblioteca Anna Amalia, em Weimar, destruiu 50 mil volumes, alguns deles insubstituíveis. Cópias digitais de backup poderiam limitar essas perdas no futuro.
Enquanto os especialistas na Alemanha embarcam nos trabalhos preliminares, está aparente que o empreendimento enfrenta desafios temíveis. As metas tecnológicas por si só parecem ambiciosas. O Instituto Fraunhofer em Sankt Augustin, perto de Bonn, é responsável pela tecnologia de informática da DDB. Ele está desenvolvendo programas para reconhecer pessoas em filmes, converter discursos gravados em texto pesquisável e indexar automaticamente os documentos.
Mais audaciosa é a abrangência proposta do novo portal. Mais de 30 mil museus, arquivos e coleções científicas por toda a Alemanha supostamente estariam interligados. Os criadores da DDB ficarão satisfeitos, por ora, com uma centena de participantes, mas instituições de prestígio como o Hamburger Kunsthalle ou o Museu Städel, em Frankfurt, ainda não estão nem mesmo na lista.
Ambição em excesso, recursos em falta
Rolf Griebel, diretor geral da Biblioteca Estadual Bávara, que considera o projeto “bom e que já devia ter sido iniciado há muito tempo”, todavia alerta contra planos exagerados. “Eu tenho sérias dúvidas sobre se a DDB conseguirá dispor de conteúdo apropriado e dentro de um prazo razoável”, ele diz.
Griebel estima que o escaneamento de um livro do século 16 ou 17 custa entre 70 e 140 euros, dependendo do volume de trabalho. Títulos contemporâneos são mais baratos, mas as quantidades envolvidas são enormes. A Associação Alemã das Bibliotecas está propondo a digitalização de cerca de 5,5 milhões de volumes nos primeiros 10 anos. Isso custaria pelo menos 165 milhões de euros. Mas de onde virá o dinheiro?
Os alemães estão olhando com inveja para a França, onde o presidente Nicolas Sarkozy prometeu recentemente levantar 750 milhões de euros para pagar pela digitalização da cultura nacional da França.
O projeto alemão, por sua vez, pode ter falhas culturais óbvias por muitos anos. O usuário ficará satisfeito em se deparar com grandes descobertas ocasionais? Não seria preferível fazer menos, mas fazer direito? “Para começar, certamente faria sentido limitar isto a áreas e temas selecionados”, diz Griebel.
Mas os planejadores da DDB não aceitam isso. Toda atividade cultural, toda ciência, todo tipo de documento é válido –preferivelmente de todos os museus e bibliotecas da Alemanha. E a tecnologia de busca será mais sofisticada do que apenas a procura por termos, como oferecida pelo Google. As coleções da DDB (segundo o plano atual) serão indexadas segundo uma variedade de critérios –local, tempo, tema. Esse índice só funcionará se os objetos forem descritos em detalhes.
Neste esforço, a DDB tem se beneficiado de alguma tecnologia básica do programa Theseus, financiado pelo governo alemão. Os pesquisadores do Theseus trabalham desde 2007 em métodos para indexação de imagens, filmes, gravações de áudio e livros. Se o computador tiver um entendimento rudimentar do que está acontecendo, ele pode preencher vários campos automaticamente –algo indispensável para as vastas quantidades de documentos com que a DDB terá que lidar.
Os pesquisadores estão informando um progresso inicial no reconhecimento de elementos em filmes e fotos. “Faces ainda são difíceis, mas está se saindo bem com árvores, carros e prédios”, diz Thomas Niessen, chefe do Theseus. O computador também está tendo certo sucesso em converter palavra falada em texto pesquisável –ele até mesmo tenta separar pessoas, lugares e eventos relevantes.
Completo com passagens de trem alemãs
Enquanto isso, um debate está em andamento sobre o quadro maior. Como exatamente a DDB deveria servir tanto a leigos quanto a pesquisadores? E como um portal ideal deve se parecer?
Reinhard Altenhöner, da Biblioteca Nacional Alemã, acha que os usuários poderiam poder postar suas próprias contribuições. “Se um arquivo municipal fornece material sobre a história de uma rua”, ele diz, “os moradores poderiam enriquecê-la com suas próprias histórias e fotos”.
Os museus poderiam inserir links em resultados de busca para exposições atuais relevantes. Uma pequena demonstração na tela ilustra como isso poderia funcionar. “E aqui”, diz Altenhöner, clicando em outro link, “aqui você até mesmo poderia comprar uma passagem para o Deutsche Bahn”.
Esses extras sutis não podem ser encontrados no Google. A empresa de ferramenta de busca prefere projetos que possam ser explicados em uma única sentença. No caso da digitalização, a meta é simples: todo livro do mundo em uma apresentação fácil para o usuário. Além disso, a melhor tecnologia de indexação é de pouca utilidade.
As consequências de ignorar este axioma são ilustradas pelo site Europeana. Após uma longa estagnação, a coleção deverá crescer para 10 milhões de artefatos culturais até meados de 2010. “Isso nos torna líderes globais”, diz Stefan Gradmann, um cientista da informação de Berlim e um membro do comitê executivo do Europeana.
Alguns itens já estão acessíveis pelo site, em caráter de teste, utilizando busca inteligente. Digite, digamos, “Paris” e o Europeana também retorna Montmartre e o Jardin des Tuileries; aparecem fontes relacionadas a Paris, o príncipe da mitologia grega. A ferramenta de busca também está familiarizada com seu feito fatídico, o “rapto de Helena”. Ele encontra documentos, em outras palavras, que não contêm o termo da busca. Mas navegar pelo Europeana não é muito agradável. Os resultados são exibidos em miniaturas do tamanho de selos postais. Se você clicar para ver uma imagem maior, você é levado ao instituto correspondente. Logo você se vê vagando impotente por dezenas de sites diferentes de museus e bibliotecas –e acaba perdido em algum ponto entre a “Vlaamse Kunstcollectie” e a “Wielkopolska Biblioteka Cyfrowa”.
Não seria preferível incorporar todas as exposições dentro da estrutura familiar do Europeana? “Nós preferiríamos isso”, diz Gradmann. “Mas então os museus não participariam.” Eles insistem em apresentar seus próprios tesouros.
Bibliotecas digitais, ao estilo babilônico
Se a DDB ceder à vaidade dos institutos participantes, o resultado será uma estrutura babilônica com 30 mil anexos. Alguém teria paciência para navegar por um índice consistindo de 30 mil sites idiossincráticos?
A promessa de observar rigidamente os direitos autorais também traz problemas. As únicas obras que a DDB pode escanear livremente são aquelas de autores que morreram há pelo menos 70 anos. Para documentos mais novos cujos autores não podem ser contatados, um acordo será acertado com as coletividades relevantes de direitos autorais.
Schwens, a coordenadora da DDB, também deseja incorporar material contemporâneo. “Seria uma vergonha”, ela diz, “se conhecimento científico atual não puder ser encontrado via a DDB”. As negociações com os editores também já estão em andamento. De modo ideal, diz Schwens, haveria uma “loja única” onde o usuário poderia comprar ou alugar eletronicamente a obra que o interessa.
A loja online Libreka, operada pela Associação Alemã das Livrarias, estaria disponível para venda de livros. Mas a Libreka tem uma reputação duvidosa: muitos de seus livros eletrônicos apresentam intricada proteção contra cópia. Os editores querem dessa forma. E muitos de seus livros best sellers tendem a não aparecer, por medo da pirataria digital.
O projeto alemão de digitalização é ameaçado de dois lados: não há dinheiro suficiente para o escaneamento de obras mais antigas, enquanto o acesso a novas obras –que podem já existir em formato digital– provavelmente será bloqueado por editores ansiosos.
Logo, não seria melhor deixar o Google assumir a coisa toda? Até meados de 2010, a empresa americana deseja começar a vender livros eletrônicos. Meio milhão de títulos já foi destinado para o projeto “Edições Google”, com 63% de cada venda destinada à editora e o Google ficando com o restante.
A experiência da Biblioteca Estadual Bávara com o Google tem sido boa até o momento. Desde 2007, o Google tem digitalizado livros sem direitos autorais e que estão sob custódia cultural de Munique –cerca de um milhão de volumes até o momento. Em duras negociações, a biblioteca assegurou o direito de ter sua própria cópia de cada livro, para apresentar da forma como bem desejar. O acesso livre a esses tesouros está, portanto, garantido.
E o escaneamento prossegue como um relógio. Toda semana cerca de 5 mil volumes deixam as salas da biblioteca estadual. Um caminhão os leva até um endereço secreto na Baviera, onde os scanners do Google trabalham sem parar. Neste ritmo, tudo estará concluído em apenas quatro anos.
Tradução: George El Khouri Andolfato