O Google Books funciona como um ”armazém digital” com 500 bilhões de palavras pertencentes a livros publicados entre 1800 e 2000 em inglês, francês, espanhol, alemão, chinês, russo e hebraico

Sem muito alarde, o Google fez uma base de dados gigantesca reunida a partir de quase 5,2 milhões de livros digitalizados disponíveis para o público baixar gratuitamente ou realizar buscas online, abrindo toda uma gama de possibilidades para pesquisa e educação em ciências humanas.

O armazém digital — que contém palavras e frases curtas, bem como uma contagem da frequência com que elas aparecem ano a ano — é uma das primeiras iniciativas em que um conjunto de dados dessa magnitude e com ferramentas de busca fica à disposição dos acadêmicos, estudantes e qualquer um que goste de passar tempo na frente de uma tela pequena. Ele consiste em 500 bilhões de palavras pertencentes a livros publicados entre 1800 e 2000 em inglês, francês, espanhol, alemão, chinês, russo e hebraico.

O público alvo é o acadêmico, mas uma simples ferramenta online também permite que qualquer pessoa com um computador entre com uma sequência de cinco palavras e veja um gráfico que demonstra o uso da frase ao longo do tempo – uma diversão que pode se tornar tão viciante quanto o videogame “Angry Birds”.

Com um clique você pode ver que a palavra “women” [“mulher”] em comparação à palavra “men” [“homem”], raramente é mencionada até o início dos anos 70, quando o feminismo ganhou terreno. As duas linhas, movendo-se em direções opostas, finalmente se cruzam por volta de 1986.

Você também pode descobrir que Mickey Mouse e Marilyn Monroe não receberam nem de longe a mesma atenção que Jimmy Carter no mundo impresso; pode comparar o número de referências a “Tiananmen Square” [praça Tiananmen] depois de 1989, que é muito maior em inglês do que em chinês; ou acompanhar como a palavra “grelhar” começou a crescer no final dos anos 90 até que ultrapassou “assar” e “fritar” em 2004.

O objetivo é dar a uma criança de oito anos a capacidade de acompanhar as tendências culturais durante a história, tal como foram registradas nos livros”, diz Erez Lieberman Aiden, associado júnior da Society of Fellows em Harvard.

Lieberman Aiden e Jean-Baptiste Michel, um acadêmico com pós-doutorado de Harvard, reuniram o conjunto de informações com o Google e iniciaram um projeto de pesquisa para demonstrar o quanto as bases de dados podem transformar nossa compreensão da linguagem, da cultura e do fluxo das ideias.

O estudo, que será publicado na revista Science na sexta-feira (17), oferece uma degustação instigante da riqueza do cardápio de oportunidades de pesquisa agora abertas para os professores de literatura, história e artes que talvez tenham evitado a análise quantitativa até agora. A ciência está dando um passo incomum ao tornar o papel disponível online para não assinantes.

“Queremos mostrar o que é possível quando você aplica uma análise de dados poderosa às questões das ciências humanas”, disse Lieberman Aiden, que tem formação em matemática aplicada e genoma.

Ele chama o método de “culturomics”. O conjunto de dados pode ser baixado, e os usuários podem construir suas próprias ferramentas de busca.

Trabalhando com uma versão do conjunto de dados que inclui a língua hebraica e começou em 1800, os pesquisadores mediram a duração da fama das pessoas, descobrindo que as referências sobre celebridades desapareciam duas vezes mais rápido em meados do século 20 do que no início do século 19.

“No futuro todos serão famosos por 7,5 minutos”, escrevem.

Analisando as invenções, eles descobriram que os avanços tecnológicos levaram, em média, 66 anos para ser adotados pela cultura de massa no começo do século 19 e apenas 27 anos no período entre 1880 e 1920.

Eles rastrearam como verbos excêntricos em inglês que não recebiam o final “ed” no passado (por exemplo, “learnt”, ou aprendeu) evoluíram para entrar no padrão comum (“learned”). Eles descobriram que o léxico inglês cresceu 70% para mais de 1 milhão de palavras nos últimos 50 anos e demonstraram como os dicionários podem ser atualizados bem mais rapidamente ao identificar palavras novas e populares e também palavras obsoletas.

Steven Pinker, linguista de Harvard que colaborou na seção de evolução da linguagem para o artigo da Science, vem estudando as mudanças na gramática e nas formas verbais de passado há 20 anos.

“Quando eu vi essa base de dados, fiquei muito entusiasmado”, disse ele. “Há tanta ignorância. Nós tínhamos que especular o que aconteceu com a linguagem.”

A informação sobre as mudanças verbais “torna os resultados mais convincentes e mais completos”, acrescentou Pinker. “O que relatamos nesse artigo é apenas o início.”

Apesar da resistência frequente à análise quantitativa em alguns redutos das ciências humanas, Pinker diz que está confiante de que o uso dessa ferramente e outras similares se “tornará universal”.

As reações de acadêmicos de ciências humanas que fizeram uma revisão rápida do artigo não foram tão entusiásticas.

“No geral é uma ótima coisa para ter”, disse Louis Menand, professor de inglês em Harvard, principalmente para os linguistas. Mas ele alertou que no domínio da história cultural, “obviamente algumas das ideias são um pouco exageradas.”

Ele também acha estranho que, entre os 13 autores que assinam o artigo, não haja nenhum de ciências humanas.

“Não há nem mesmo um historiador dos livros ligado ao projeto”, observou Menand.

Alan Brinkley, ex-professor-chefe da Universidade de Columbia e professor de história americana, disse que é muito cedo para dizer qual é o impacto das buscas de palavras e frases.

“Posso imaginar muitos usos interessantes, só não sei o suficiente sobre o que eles estão tentando fazer estatisticamente”, diz ele.

Consciente das questões levantadas pelos humanistas, de que a essência de sua arte é uma busca por significado, tanto Michel quanto Lieberman Aiden enfatizaram que a culturomics simplesmente fornece informações. A interpretação continua sendo essencial.

“Não quero que os humanistas aceitem nenhuma afirmação específica – estamos apenas jogando muitas peças interessantes sobre a mesa”, disse Lieberman Aiden. “A questão é: você está disposto a analisar esses dados?”

Michel e Lieberman Aiden começaram sua pesquisa em 2004 sobre verbos irregulares. O Google Books não existia na época, e eles tiveram que investigar pilhas de textos anglo-saxãos página por página.

O processo levou 18 meses.

“Nós ficamos exaustos”, disse Lieberman Aiden. O projeto “foi uma verdadeira via sacra; nós poderíamos ter coletado esse conjunto de dados e não ter provado nada.”

Então eles ficaram sabendo dos planos do Google para criar uma biblioteca digital e guardar todos os livros já publicados e reconheceram que isso poderia revolucionar sua pesquisa. Eles contataram Peter Norvig, diretor de pesquisa do Google, sobre usar a coleção para fazer análises estatísticas.

“Ele percebeu que era uma grande oportunidade para a ciência e para o Google”, disse Michel. “Passamos os quatro anos seguintes lidando com os muitos problemas complicados que surgiram”, incluindo complicações legais e restrições computacionais. (Um acordo de direitos autorais e indenizações de classe proposto por escritores e editoras por causa da digitalização feita pelo Google ainda está tramitando nos tribunais.)

O Google diz que o projeto culturomics não esbarra na questão dos direitos autorais porque os próprios livros ou partes deles não podem ser lidos.

Até agora, o Google escaneou mais de 11% de todo o corpus de livros publicados, cerca de 2 trilhões de palavras. Os dados analisados no artigo da Science contêm cerca de 4% do corpus.

O compêndio gigante de palavras torna possível analisar estatisticamente as influências culturais de uma forma que não era possível antes. As referências culturais tendem a aparecer impressas com bem menos frequência do que palavras cotidianas, diz Michel, que é da área de matemática aplicada e biologia dos sistemas.

Para ter certeza de que você tem um quadro fiel, precisa de uma amostra muito grande. Checar se a palavra “Sasquatch” [Pé Grande] se infiltrou na cultura exige um depósito de pelo menos 1 bilhão de palavras por ano, diz ele.

E quanto à palavra culturomics? Daqui a 20 anos, digite a palavra numa versão atualizada dessa base de dados e você verá o que acontece.

Fonte: New York Times/UOL

Tradução: Eloise De Vylder

Comments

comentários

Powered by Facebook Comments