sexta-feira, 24 de dezembro de 2010

Google para Historiadores


Empresa americana lança aplicativo que promete conquistar historiadores e pesquisadores de ciências humanas em geral. O que ele faz? Permite traçar tendências culturais e políticas nos últimos duzentos anos.

O Google Labs, inovadora seção de aplicativos protótipos do Google, lançou no último dia 16 de dezembro o "Google Books Ngram Viewer", uma ferramenta elegante e que pode em breve se tornar um verdadeiro aliado para pesquisadores, professores ou mesmo estudantes. O "Books Ngram Viewer" utiliza o banco de dados do "Google Books" (sistema de livros digitalizado online para consulta gratuita) para contar quantas vezes um mesmo nome, frase, termo, expressão ou conceito foi utilizado entre 1800 e 2000. Assim, com apenas alguns cliques é possível saber em menos de um segundo a trajetória de uma palavra ao longo de dois séculos de cultura escrita e descobrir um pouco mais sobre as tendências culturais, políticas e sociais de nosso tempo.

Em um primeiro momento, o Books Ngram Viewer (http://ngrams.googlelabs.com/) não chama muito a atenção dos internautas, hoje acostumados às dezenas cores, animações e outras pirotecnias que os grandes sites promovem para conquistar o público. Em sua tela, o internauta precisa preencher apenas três espaços: palavra(s), período e a língua a ser pesquisada. Depois, basta clicar em "Search lot of books". O sistema, então, irá consultar um banco de dados de mais de 500 bilhões de palavras, divididas entre 5 milhões de livros, publicados entre 1800 e 2008 e digitalizados pelo Google nos últimos anos. Essa consulta - que não leva mais do que dois segundos - gera um gráfico no qual é possível observar a evolução (ou involução) de uma palavra ao longo do tempo.

Essa simplicidade arrasadora é o suficiente para oferecer um mar de possibilidade de estudos. Atualmente, é possível consultar bancos de dados de livros em inglês, francês, espanhol, alemão, chinês e russo. Pode-se inserir uma ou mais palavras. Pode-se ainda comparar os resultados de uma palavra dentro do universo de livros em inglês e em chinês ou espanhol. Por exemplo: o grau de incidência da palavra "terrorism" dentro das publicações em inglês é muito diferente desta mesma palavra em outras línguas, mostrando o lugar que esta expressão tem na cultura americana.

Como tudo começou

O "Books Ngram Viewer" nasceu da necessidade de uma pesquisa acadêmica. Em 2004, Jean-Baptiste Michel e Lieberman Aiden, de Harvard, começaram uma pesquisa sobre verbos irregulares no inglês. Eles desejavam determinar quando formas verbais específicas deixaram de ser usadas em detrimento de outras, mais modernas. Na época, esse tipo de pesquisa implicava na leitura, página por página, de milhares de livros. O processo todo lhes custou longos 18 meses. Pouco mais de um ano depois, os acadêmicos de Harvard souberam dos planos do Google para digitalizar todos os livros do mundo, algo que foi parcialmente alcançado com o Google Books, que digitalizoiu 11% dos livros do mundo. Aquele parecia ser o tipo de tecnologia ideal para a pesquisa de Aiden e Michel e provavelmente para outros milhares de pesquisadores em todo o mundo. Assim, os dois entraram em contato com Peter Novig, diretor de pesquisa do Google. Novig logo percebeu a importância daquela idéia para a ciência e deu carta branca para os desenvolvedores. O Books Ngram Viewer é a versão mais acabada desta idéia e utiliza 4% do banco de dados do Google Books. A nova ferramenta foi lançada na última semana e descrita em um artigo intulado "Quantitative Analysis of Culture Using Millions of Digitized Books", publicado na revista Science (tiny.cc/td0rd). O Google Books Ngram Viewer utiliza um método de modelagem chamado N-gram, que possibilita buscas em sequências de linguagem natural. Para os pesquisadore envolvidos na criação, a ferramente significa a abertura de uma nova abordagem para os estudos culturais. Nos últimos dias, não se fala em outra coisa nos principais círculos das ciências humanas. A sensação é que algo revolucionário está sendo criado.

Historiadores

Para os historiadores, o programa desenvolvido pelo Google é uma ferramenta incrível de auxílio à pesquisa. Como bem se sabe, as palavras não são entidades estáticas, programadas para ter um começo, meio e fim. Mas pelo contrário: são vivas, políticas, sujeitas à ação dos homens em sociedade. E o Books Ngram Viewer mostra muito bem isso. Com ele torna-se possível identificar quais termos são mais sensíveis que outros, desvendar dimensões até então pouco abordadas da memória social e outros processos polítcos e sociais de diversos períodos históricos.

O Café História testou várias combinações. No clássico Brazil x Argentina, na língua inglesa, por exemplo, nós continuamos dando de goleada. O Brasil sempre foi muito mais citado do que o vizinho. No entanto, é curioso observar que tanto o crescimento quanto a queda das referências a ambos seguem o mesmo padrão. A década de 1940 representa o período de maior menção aos dois países, o que pode ser explicado pelo auge da cultua do American Way of Life e sua influência na América do Sul. Confira no gráfico abaixo:

Curioso também notar a trajetória de palavras caras à historiografia. É o caso do termo "holocaust", utilizado para se referir ao extermínio de seis milhões de judeus durante o Terceiro Reich (1933-1945). Segundo o Books Ngram Viewer, a palavra conheceu um verdadeiro boom na década de 1980, o que reforça decisivamente teses acadêmicas já existentes e que apontavam aquela década como um período de consolidação da memória do genocídio nazista. Para os historiadores, a década de 1980 testemunhou uma proliferação de filmes, museus e outros eventos memorialísticos que tiveram um grande impacto na representação do extermínio dos judeus no século pasado, sobretudo na produção de referências bibliográficas.

Esse processamento dos dados, que Lieberman chamou de "culturomics" ("cultorômica", em língua portuguesa), está ao alcance de todos. O site já está no ar, é gratuito e o melhor: pode ser baixado por qualquer usuário e explorado em detalhes, a partir de suas próprias ferramentas de busca. Além do Google e de Harvard, fazem parte da equipe de gerenciamento do Ngram pesquisadores da Enciclopédia Britânica e do Dicionário Americano Heritage. Confira o site sobre a recém-batizada "Culturômica": http://www.culturomics.org/

Enquanto isso, mesmo para os não-acadêmicos, o programa já diverte os meios de comunicação. O jornal OGLOBO fez um contraste entre "women" (mulher) e "man" (homem), descobrindo que o primeiro era raramente mencionado até o início dos anos 1970, momento em que o feminismo ganha força. A partir daquela década as duas linhas do gráfico movem em direções opostas até se encontrarem em 1986. Já o site Read Write Web fez uma série de 10 comparações, que você pode conferir clicandono seguinte link. Destaque para a comparação entre os meios de comunicação:

http://www.readwriteweb.com/archives/10_fascinating_word_graphs_fro....

Não perca tempo. Visite esta importante novidade na internet e faça uso dela para aprimorar suas pesquisas e estudos. A história vem passando por grandes transformações e você não precisa ser um mero espectador.


Fonte: http://cafehistoria.ning.com/profiles/blogs/arquivo-cafe-historia-google

5 comentários:

  1. Essa nova ferramenta do Google pode ser muito útil aos historiadores, além de ser bastante interessante aos que estão atrás de desvendar suas meras curiosidades (se é que existe diferença entre curiosidade e História), no entanto, ainda mais por ser um recurso novo, é necessário obter imenso cuidado com seu uso, por exemplo, se pesquisarmos por palavras como "internet" ou "mp3" vemos um aumento do uso dessas palavras entre os anos de 1800 e 1820, e que, como acreditamos (de certo modo, todos nós) era impossível de se pensar tais palavras naquela época com os mesmos significados que temos atulamente (como já foi postado neste blog, o google apesar de mostrar o uso de certas palavras, se ausenta de seus significaods) , ou seja, ainda que a ferramenta tenha mostrado que existiu o uso de tais palavras nessas épocas, precisamos compreender o sentido que elas foram usadas, e antes disso, nos certificarmos se elas realmente foram usadas, e se os livros que foram digitalizados pelo googles podem realmente representar a publicação literária de uma época.
    Em suma, essa nova ferramenta do Google é uma "mão na roda" de nós, historiadores ou meros curiosos, no entanto, até que ponto podemos depositar total confiança nisso? Até que ponto o pesquisa de uma pessoa pode ser confiada ao resultado de um computador? Vale a reflexão.

    ResponderExcluir
  2. Ops... no post passado eu falei sobre o uso da palavra "internet" durante os anos 1800 e 1820, de fato, pela ferramneta do google não há o uso dessa palavra, erro meu em citá-la, mas, para exemplificar o que disse anteriormente, podemos citar outros termos, como "the beatles", banda formada em 1960, mas que de acordo com a ferramenta tem-se seu termo publicado em livros desde antes de 1900, ou seja, mostra-nos como nem sempre as palavras encontradas ao longo do tempo possuem o mesmo significado para as pessoas que as lêem

    ResponderExcluir
  3. Mas Kaverna, não é de qualquer jeito que se faz a pesquisa.

    Brincando com o aplicativo a gente vai aprendendo uns macetes, inclusive uns que tornam o resultado mais confiável.

    Por exemplo, se eu quiser pesquisar sobre "rock"(gênero musical), é óbvio que eu não posso colocar "rock"(pedra); eu coloco "rock music", porque tenho quase certeza que "music" não combina muito com "pedra".

    E é divertido também pesquisar por termos que estavam circunscritos no recorte temporal e no contexto do tema principal. Por exemplo, junto com "rock music" eu mandei pesquisar "hippie", "Elvis Presley", "Beatles" e "Bob Dylan". A partir do resultado do gráfico deu pra ter alguma ideia sobre o contexto do "rock music" em seu nascimento, seu ápice e provavelmente no início de sua "decadência".

    Outra cuidado que se tem que ter é com relação à recorrência de palavras muito abrangentes; por exemplo, se eu quero pesquisar sobre algum grande nome do Jazz, de preferência eu não devo colocar "Jazz" na pesquisa porque a recorrência dessa palavra é muito maior do que qualquer grande nome que a representa.

    Eu pesquisei por "Jazz", "Louis Armstrong", "Frank Sinatra", "Ray Charles" e "Al Di Meola" e a recorrência da palavra Jazz chega a ser cerca de 20 vezes maior do que a do mais popular desses nomes.

    Outra coisa é saber por qual nome o "objeto de pesquisa" é referenciado. Se você pesquisar por Sidney Barrett(um dos primeiros membros do Pink FLoyd), não vai encontrar nada relevante perto da recorrência de Syd Barrett, como costuma-se chamá-lo.

    Em relação aos seus dois exemplos dá pra obter resultados confiáveis, de certa forma. No caso do "mp3" é só colocar "mp3 music" e pra ajudar na contextualização pesquisar ao mesmo tempo por "mp3 player" e "MPEG Layer 3"(significado da sigla). Dá pra ter alguma ideia sobre a "vida" que o mp3 teve no século passado, tanto pelo nascimento e início da decadência dos mp3 players quanto pela recorrência do termo "MPEG Layer 3", que começou a ser divulgado em meados da década de 90.

    Inclusive dá pra tentar interpretar o gráfico: o "MPEG Layer 3" continua sendo a mais eficiente compressão de áudio em favor do menor "tamanho" do arquivo, com pouquíssima perda na qualidade; e provavelmente por isso o termo "MPEG Layer 3" teve um curso tranquilo e ascendente no gráfico.

    Já no caso dos mp3 players, vê-se que eles tiveram um caminho crescente exatamente a partir do início de suas vendas, em 1998. Entretanto, se constata a recorrência cada vez menor desse termo e de "mp3 music", a partir de 1999, mas isso muito provavelmente se dá pelo "esfriamento da novidade", já que depois que se concretizou o uso da música mp3, praticamente ninguém fala mp3 simplesmente porque 98% das pessoas usam essa compressão.

    Hoje é raro eu ver alguém falando em arquivo de áudio FLAC, bem mais fiel à qualidade da música; ou mesmo sobre o CD, com qualidade muito maior(uns 1400kbps contra no máximo 320kbps do mp3).

    (continua embaixo...)

    ResponderExcluir
  4. Enfim.

    Essa questão que você colocou sobre a qualidade dos textos contidos num computador é interessante; sobre isso cabem muitas reflexões. Muitas mesmo.

    Pra enriquecer essa questão, eis um vídeo com uma entrevista ao historiador Peter Burke, na qual ele fala sobre a sua opinião em relação às novas tecnologias da informação e expõe algumas ideias:

    http://www.youtube.com/watch?v=F7EsomTPmfw

    Há também uma interessante matéria em espanhol que fala sobre a não existência de privacidade na leitura de um livro eletrônico(não sei de que maneira isso se generaliza), sendo essa característica, segundo o colunista, uma das razões pelas quais não se pode considerar um livro eletrônico como um livro :

    http://www.revistaenie.clarin.com/ideas/tecnologia-comunicacion/Kindle-ebooks_0_431957025.html

    Talvez haja mais coisa pra se falar, mas vou fechando este comentário por aqui mesmo. Leia e comente se puder ;)

    ResponderExcluir
  5. Olá pessoal,
    concordo com Kaverna que é necessário ter cuidado com o uso que o historiador faz dessa ferramenta. O exame criterioso das fontes primárias do trabalho que o historiado executar poderá confirmar ou não o resultado dado pelo Google.
    Concordo com o Arnold que é necessário aprender os 'macetes' para usar melhor a ferramenta, especificando cada vez mais o termo a ser pesquisado.

    Obrigada pela contribuição.Vcs acrescentaram muito.

    Sara Daiane

    ResponderExcluir