Dados do Debate da Band

Aviso: Esse post é resultado de algo que fiz como divertimento, no meu tempo livre, o que explica a demora e, principalmente, o caráter não científico. Esses dados não tem a intenção de aprovar, desaprovar, apoiar ou criticar qualquer um dos candidatos.

No dia 26 de Agosto os principais candidatos à Presidência do Brasil se reuniram para o primeiro Debate televisivo das Eleições desse ano. Organizado pela Band, com mediação do Jornalista Ricardo Boechat, os seguintes candidatos estiveram presentes:

aecioneves

dilma

eduardojorge

levyfidelix

lucianagenro

marinasilva

pastoreveraldo

O debate, com duração de cerca de quase três horas foi dividido em 6 blocos, com uma pergunta única no começo, uma primeira rodada de perguntas entre os candidatos, uma rodada de perguntas dos jornalistas do Grupo Bandeirantes, mais uma rodada de perguntas entre os candidatos, uma segunda rodada de perguntas dos jornalistas, e finalmente, as considerações finais.

A primeira análise realizada foi a quantidade de palavras dita por cada candidato, e o tempo utilizado durante suas falas. Todas as palavras foram contabilizadas (artigos, preposições, pronomes…), e o tempo começa a contar a partir da primeira palavra dita pelo candidato e é parado no final da última palavra dita pelo candidato naquela fase do debate.

dados_debate_band

Os candidatos considerados principais são mais vezes escolhidos para responder perguntas, o que explica que Aécio Neves (mais palavras), Dilma (maior tempo) e Marina sejam aqueles com maior tempo e palavras usadas. Luciana Genro se destaca como sendo a candidata com melhor média de palavras por segundo, e Levy Fidélix aparece como o candidato que menos participou do debate.

A segunda análise realizada foi contabilizar quais as palavras mais ditas pelos candidatos. Aqui, se excluíram firulas gramaticais como artigos e preposições, por exemplo. Os valores foram normalizados para a mesma escala de tamanho de fonte para todos os candidatos.

m_pal_debate_band

Percebe-se que alguns candidatos realmente utilizaram predominantemente as palavras que o associam ao senso comum, como os “bilhões” do candidato Levy Fidélix, o “capital financeiro” da candidata Luciana Genro, e a “iniciativa privada” do Pastor Everaldo.

Partiremos, então, para a análise de como as palavras se repetem nas falas dos candidatos. Foi usada uma adaptação de modelo de Bag of Words, onde as palavras são vistas como elementos de um vetor. Cria-se um vetor “dicionário” e a partir dele é feito um vetor de palavras para cada candidato. Medindo a distância dos vetores dos candidatos é possível descobrir o quanto o conjunto de palavras usadas por um certo candidato é distante (ou diferente) do conjunto de palavras usado por outro candidato.

Nos gráficos, quanto mais próximos do centro do alvo, mais o candidato tem palavras em comum com o candidato que está no centro do alvo, quanto mais distante, menos palavras em comum. Os resultados foram normalizados para que o candidato mais em comum ficasse, necessariamente, no arco mais próximo e o candidato menos em comum, necessariamente, no arco mais externo.

alvo_aecio alvo_dilma alvo_everaldo alvo_genro alvo_jorge alvo_levy alvo_marina

O fato dessa análise levar em conta apenas a comparação das palavras usadas é interessante para comparar o quanto os candidatos falaram sobre um mesmo assunto, ou o quanto variam em vocabulário, mas pode gerar estranheza nas situações em que candidatos que reconhecidamente possuam divergência sobre um assunto apareçam próximos. Se o candidato A é contra X e o candidato B é a favor de X, o sistema os coloca próximos, já que ambos mencionaram X.

O próximo passo é, então, colocar “pesos” nas comparações das palavras, para que quando A e B digam X, o sistema os coloque mais separados do que próximos.

Mas isso fica para um próximo post, quando analisaremos os dados do Debate na Globo.

Até! 😉

*Infelizmente não pude terminar a tempo as outras analises. Foi mal, galera. 🙁

Related Posts Plugin for WordPress, Blogger...

Discussão - 11 comentários

  1. Sibele disse:

    Interessante, sem dúvida. Mas creio que uma análise focada apenas na quantidade de termos (palavras) utilizadas num debate exclui todo o contexto em que tais palavras foram empregadas – – o que de fato faz a aproximação ou não dos discursos entre os candidatos. Palavras sozinhas não significam muita coisa.

    • Alan Mussoi disse:

      Sim.

      Isso é mais usado pra classificar os textos. Seria possível eu pegar as falas do próximo debate e saber quem disse o que, comparando com as desse debate. Não a minha área, na verdade, mas conheço gente que faz isso com livros, fazendo com que o sistema consiga descobrir quem é o autor de um determinado texto.

      É difícil fazer um sistema reconhecer um contexto. O que eu tentei fazer e vou apresentar em outro post é dar pesos diferentes para os termos. Então, por exemplo, quando temos a palavra “privatização”, Luciana Genro ganha um peso que é oposto ao peso dado ao Pastor Everaldo. Isso deve tender a aumentar a distância entre os candidatos, baseado em suas opiniões.

  2. Sibele disse:

    Verdade, a utilidade dessa técnica é bem aproveitada na classificação automática de textos, embora ainda assim ocorram imprecisões relacionadas aos homônimos homógrafos. E há várias outras aplicações, como essa lembrada por vc do sistema descobrir quem é o autor de um determinado texto, e tem até uma lei que rege a distribuições da frequência dos termos: http://pt.wikipedia.org/wiki/Lei_de_Zipf; mas atribuindo-se significado às palavras, com a chamada ontologia semântica, amplia-se muito mais a utilidade da técnica por mineração de dados através da análise de conteúdo (Content Analysis).

    Se interessar, há um livro muito bom sobre essas técnicas:

    Krippendorff K & Bock MA (eds.). The Content Analysis Reader. Los Angeles: Sage, 2009.

    E esse artigo, sobre atribuir significado aos termos, permitindo agregá-los e medi-los: http://www.leydesdorff.net/semiotics/semiotics.pdf

    Fizemos uma pequena experiência usando uma adaptação de algumas técnicas de data mining num conjunto de posts do Karl: http://sites-final.uclouvain.be/EAHIL2012/conference/?q=node/1444 (aqui, o pôster com as figuras – assim fica mais fácil visualizar os resultados: https://www.dropbox.com/s/t46ise3m74mo95k/EAHIL2012-Ecce%20Medicus-FAUSTOet-al.pdf).

    E boa essa sua ideia de atribuir pesos diferentes aos termos, de acordo com o emissor. Vou aguradar a próxima postagem para conferir! 🙂

  3. Claudia Chow disse:

    e como vc conseguiu fazer isso? vc usou o audio ou conseguiu a transcricao do debate?

    • Alan Mussoi disse:

      Eu fiz a transcrição e inseri cada trecho (junto com os dados do candidato, tempo, se era resposta, réplica, etc.) num banco de dados. Depois fiz um programa pra buscar e calcular o que fosse necessário.

  4. Sibele disse:

    Fiz um novo comentário, mas não aparece. Vc recebeu, Alan?

  5. Sibele disse:

    Obrigada, Alan! Aguardando aqui o próximo post! Esse assunto (a metodologia e a técnica de análise dos termos) me interessa muito! (independentemente do debate dos candidatos, rsrs) 🙂

  6. V JORDAN disse:

    Muito legal, Alan. Parabéns!

Envie seu comentário

Seu e-mail não será divulgado. (*) Campos obrigatórios.

Sobre ScienceBlogs Brasil | Anuncie com ScienceBlogs Brasil | Política de Privacidade | Termos e Condições | Contato


ScienceBlogs por Seed Media Group. Group. ©2006-2011 Seed Media Group LLC. Todos direitos garantidos.


Páginas da Seed Media Group Seed Media Group | ScienceBlogs | SEEDMAGAZINE.COM