Banca do PCC: Gabriel Sica Siedler

UNIVERSIDADE FEDERAL DE PELOTAS
CENTRO DE DESENVOLVIMENTO TECNOLÓGICO
CURSO DE CIÊNCIA DA COMPUTAÇÃO

Apresentações do Projeto de Conclusão de Curso (2012/2)

Predição de Sentimentos de Usuários no Twitter
por
Gabriel Sica Siedler

Banca:
Prof. Ricardo Matsumura de Araujo (orientador)
Prof. Paulo Roberto Ferreira Jr
Prof. Marilton Sanchotene de Aguiar
Diego Vrague Noble

Data: 15 de Março de 2013

Hora: 08:00h

Local: A definir

Resumo do Trabalho:

Este trabalho propõe algoritmos de análise de sentimentos, baseados no algoritmo de Inteligência Artificial Naïve Bayes, que visam classificar opiniões de usuários da rede social Twitter sobre três diferentes tópicos: o refrigarante Pepsi, o filme “O Hobbit” e o carnaval. Essa análise é feita através de uma coleta automática, utilizando a Search API do Twitter, de um total de 18 mil tweets, onde 12 mil deles foram classificados um-a-um manualmente entre as classes positiva, neutra e negativa, e utilizados como conjunto de dados, separados parte deste como treinamento e parte como teste.  A forma convencional de separação entre a parte de treinamento e a parte de testes em um conjunto de dados não se mostrou efetiva com o algoritmo Naïve Bayes, para este problema foi proposta uma técnica que visa treinar o algoritmo de forma que as polaridades apareçam igualmente, sem que uma seja mais treinada que a outra.  Sobre os algoritmos propostos para a classificação de tweets, além da aplicação direta do algoritmo Naïve Bayes, ainda são propostos dois diferentes algoritmos. O Modified Naïve Bayes procura tratar o tweet a fim de retirar acentuação e normalizar as palavras antes de aplicar as técnicas, já o Not That Naïve Bayes utiliza a técnica 2-gram para verificar a probabilidade de duas palavras representarem uma classe. Por fim, ainda é testada a junção destes dois algoritmos para a tentativa de obter um melhor resultado.  Os algoritmos são testados em todas as palavras-chave e em três casos diferentes. O primeiro fornece todo o conjunto de dados para o algoritmo, o segundo aplica um filtro no conjunto de dados visando diminuir a ocorrência de tweets neutros e o terceiro passa para o algoritmo apenas os tweets positivos e negativos, assim sendo considerado caso ótimo.  Os resultados se mostraram positivos em relação a três critérios de avaliação: acerto significativo, onde é calculado quantos tweets positivos e negativos foram classificados com sucesso, a disparidade, que mostra o balanceamento da classificação em relação as polaridades, e o erro crítico, que mostra quantos tweets significativos foram classificados com as polaridades opostas.  O algoritmo Not That Naïve Bayes unido ao Modified Naïve Bayes teve o melhor resultado médio, com um acerto significativo satisfatório, unido a um pequeno erro crítico e um bom balanceamento na classificação.  Com este trabalho concluiu-se que os resultados obtidos foram muito satisfatórios e que classificação de tweets é uma área nova e com muito potencial, permitindo que muitos algoritmos e variações sejam testados, podendo atingir ainda melhores resultados.

Para mais informações acesse: http://inf.ufpel.edu.br/nopcc/doku.php?id=bancas:2012_2