Steve Lohr, no Link

Pesquisadores de literatura, história e comunicação usam programação para analisar dados e entender a sociedade

Se um pesquisador de literatura fizesse uma lista dos principais romancistas de língua inglesa do século 19, certamente incluiria Mark Twain e Charles Dickens. Mas uma análise computacional preferiu Jane Austen, autora de Orgulho e Preconceito. Ela foi uma das que mais influenciaram outros autores – em estilo e temas – e é “o equivalente do Homo erectus em termos literários”, escreveu Matthew L. Jockers sua pesquisa. Sua conclusão é baseada numa análise de 3.592 obras publicadas entre 1780 e 1900. Foi um trabalho de garimpo e tanto – realizado pelo computador.

1

O estudo, que envolveu análises estatísticas de milhares de romances, percebeu, por exemplo, que as obras de Jane Austen mostram grande coerência em termos de estilo e temática, enquanto as de George Eliot (pseudônimo da autora Mary Ann Evans) são variadas e parecidas aos padrões dos escritores homens.

A análise digital evidentemente não dá a última palavra. Ela é um sinal de que a tecnologia usada para catalogar grandes volumes de dados vai muito além do setor da internet e da pesquisa científica, e chega a campos aparentemente estranhos como as ciências humanas. Os novos instrumentos destas descobertas proporcionam uma nova visão da cultura, assim como o microscópio nos deu uma visão mais precisa das sutilezas da vida e o telescópio abriu o caminho de distantes galáxias.

“Tradicionalmente, a história literária foi elaborada por meio do estudo de um número relativamente pequeno de textos”, afirma Jockers, pesquisador do Centro de Pesquisas Digitais em Ciências Humanas da Universidade de Nebraska. “Esta tecnologia permite que visualizemos o quadro mais amplo – o contexto no qual um escritor trabalhava – numa escala jamais vista antes.”

Jockers, de 46 anos, personifica o avanço digital nas ciências humanas. Ele é doutor em literatura inglesa, mas também ficou fascinado pela computação e se tornou um programador autodidata. Passou mais de dez anos na Universidade Stanford, onde fundou o Stanford Literary Lab, laboratório destinado à exploração digital de livros.

Hoje, Jockers descreve seu trabalho usando termos familiares a um engenheiro de computação. Seus modelos matemáticos são feitos para identificar padrões de palavras e elementos temáticos em textos. O número e a força dos elos entre romances determinam a influência, mais ou menos como o Google classifica os sites da internet.

É a capacidade de reunir, medir e analisar informações que constitui a promessa da tecnologia de grandes volumes de dados complexos (chamada de Big Data). Produtos especializados estão crescendo e criando um novo vocabulário. Em ciências políticas, esta análise quantitativa é chamada metodologia política. Em história, existe a cliometria. Na literatura, a estilometria é o estudo do estilo da escrita de um autor, e depende consideravelmente da computação e da análise estatística. A culturométrica é o termo usado para descrever pesquisas quantitativas nas ciências sociais e humanas.

Evolução. “As ideias são o elemento fundamental que distingue a evolução humana”, afirma Jean-Baptiste Michel, pesquisador num programa de pós-doutorado da Universidade Harvard que dirigiu um projeto de análise de palavras no Google Livros. O Google cooperou e produziu o software para que os gráficos fossem abertos ao público. Até agora, o Google analisou 20 milhões de livros. Por exemplo: digite a palavra “mulheres” em comparação a “homens” e você verá que durante séculos o número de referências a homens era muito maior. Mas isso se inverteu em 1985.

Jon Kleinberg, cientista da computação da Universidade Cornell, também estudou a memória coletiva. Seu trabalho busca entender por que algumas falas de filmes se tornam inesquecíveis. Como parâmetro para estudar as frases que permanecem na mente do público, o pesquisador usou as “citações inesquecíveis” selecionadas no site Internet Movie Database (IMDb) e o número de vezes em que determinada fala é reproduzida na internet.

Para treinar seus algoritmos estatísticos a analisarem a estrutura de uma frase comum, eles alimentaram os computadores com um enorme arquivo de textos de agências de notícias. Assim, eles perceberam que as falas inesquecíveis têm uma estrutura bastante simples.

“As frases inesquecíveis são feitas de palavras inusitadas montadas numa estrutura de padrões comuns do discurso”, dizem os pesquisadores no estudo. Um exemplo é a célebre frase do filme Apocalypse Now: “Adoro o cheiro de napalm pela manhã”. Somente uma palavra a separa da frase: “Adoro o cheiro do café pela manhã”.

O grupo também estudou slogans de publicidade. Estatisticamente, alguns dos que mais se assemelham às frases inesquecíveis do cinema são, por exemplo, “Venha para o país de Marlboro”.

Mas a análise não é tão simples. O slogan que não se enquadrou nos parâmetros estatísticos das citações de filmes foi o refrão das pilhas Energizer: “Dura, e dura… e dura.” Os instrumentos quantitativos em ciências humanas, assim como em outros campos, são mais poderosos quando controlados por um ser humano inteligente. Serão necessários especialistas, com profundo conhecimento sobre um tema, para formular as perguntas certas e para reconhecer as falhas dos modelos estatísticos.

“Vamos precisar de ambos”, afirma Jockers. “Mas, neste momento, encontramos uma aceitação muito maior destes métodos do que no passado. Em breve, este tipo de análise será apenas parte do arsenal de instrumentos na área de humanidades, assim como em qualquer outra disciplina”./

Comments

comentários

Powered by Facebook Comments