Como se comporta o TrendTopics do Twitter ? (3) — Criação do dashboard e exploração dos dados

Roberto Savio "Pitako" Jr
6 min readMar 1, 2021

--

Esse artigo é parte de uma trilogia de textos apresentando meu projeto de estudo de datascience:

1- Contextualização,

2- Código, tratamento e visão geral dos dados

3- Criação do dashboard e exploração dos dados

Introdução

Link para Contextualização

Link para Código, tratamento e visão geral dos dados

Streamlit (https://www.streamlit.io/)

Para cada um desses estudos que estou fazendo em ciência de dados, meu objetivo é deixar publicado o modelo rodando e um dashboard podendo ser consultado a qualquer momento (embora não tenha conseguido ainda nem colocar no git meu primeiro estudo reimplementando meu mestrado #vergonha). Não queria apenas deixar o código no github e esse texto aqui no Medium. Queria algo palpável mesmo que pudesse ser visto consultado por qualquer um.

O servidor que cotei para executar os algoritmos serviria também para esse propósito, mas infelizmente é inviável por enquanto.

E então o Streamlit apareceu nas minhas pesquisas para criação de dashboards e acabou fazendo também o papel de publicação. Como forma de divulgação, eles publicam os aplicativos criados com o framework .

A utilização é muito fácil e não precisa de experiência de desenvolvimento com front-end. Os componentes visuais são todos criados com Python. Claro que possui limitações mas estão crescendo o framework, criando novos componentes e possibilidades. Foi uma solução com encaixe perfeito para o que eu precisava.

Como meu script de busca dos dados no Twitter continua executando, pretendo atualizar os dados com alguma frequência no dashboard.

O que é possível afirmar sem achismo

Dashboard

Ao acessar a página, alguns gráficos que consideram os dados de todo período são mostrados. À esquerda é possível filtrar uma data, hora e hashtag para formar outras listas e gráficos.

Com o dashboard publicado, fiz algumas consultas para ter informações concretas sobre os dados coletados:

1.De novembro de 2020 a 18 de fevereiro de 2021, período dos meus dados até então, a eleição americana foi o que mais movimentou o trendtopics

2. Dia de maior movimentação do trendtopics é a quarta feira

3. Hora do dia, desconsiderando o dia da semana, de maior movimentação é no começo da manhã, às 8, e vai caindo lentamente durante o dia

4. Dia de maior variação é o domingo, com muito movimento logo cedo e concentrado em poucas horas

5. Natal e réveillon tem grande movimento mas não se destacam tanto.

Azul: Eleições americanas; Laranja: Evento KPop; Vermelho: Natal e Reveillon; Verde: Big Brother

6. Trump e Biden foram o assunto com maior número de tweets nesse período, corroborando o maior pico de tweets no dia da eleição

7. O halloween foi o assunto que mais concentrou tweets tendo mais citações em uma hora

8. Superbowl perdeu para o BigBrother em quantidade de assuntos mais comentados no Twitter do Brasil, no dia 07/02/2021

Além dessas consultas é possível fazer muitas outras perguntas:

  • qual hashtag mais falada em cada mês?
  • qual hora tem a hashtag mais falada em um intervalo de dias?
  • Em um determinado horário, qual hashtag é mais comentada?

Com os dados e dashboard disponíveis, é possível explorar e descobrir muita coisa.

O que fazer com essas informações?

Essas informações apresentadas sozinhas não conseguem formar verdades absolutas. Ainda mais que os dados desse estudo precisam um intervalo de tempo maior para que efeitos de outliers se dissipem e conclusões sejam mais fiéis. Porém, algumas situações já podem ser exploradas do ponto de vista de marketing, por exemplo: alta concentração do domingo de manhã precisa ser entendida pra ser explorada, movimentação mais constante durante todo o dia da quarta pode ser relevante etc.

O Twitter é uma rede social em que as pessoas emitem opiniões, acompanham os assuntos mais relevantes do dia e pra saber o que os seus seguidos estão comentando. Quanto mais gente falando de um assunto, mais ele vai ganhar notoriedade organicamente. Saber os melhores horários para interagir na rede pode aumentar o engajamento e visibilidade de alguém, de um assunto ou de um produto/serviço.

Observações que me fizeram duvidar dos dados

O título parece um contrassenso, mas quando o dado te mostra algo muito diferente do que você acreditava, é nessa situação de hesitação que o analista dos dados se encontra.

Essas são as observações que me deixaram em dúvida:

1.A quantidade de ocorrência dos trendtopics vai subindo após a meia noite. Quem fica no Twitter de madrugada? Será que de madrugada os assuntos ficam concentrados nos trendtopics? Será que a quantidade de tweets geral acompanha esse crescimento?

2. Enorme quantidade de ocorrência dos trendtopics no domingo muito cedo. Quem usa twitter essa hora? Porque tamanho volume em um faixa de horário tão curta?

Essas observações me fizeram achar que o script de captura estava com alguma inconsistência, ou que a transformação dos dados estava criando algum problema. Ou até que o gráfico de heatmap estivesse errado. Porém, analisei os dados mais abertos e realmente existe grande volume que comprovam as duas situações.

De qualquer maneira, mesmo com os dados que capturei comprovando, essas observações parecem realmente estranhas. Provavelmente alguma outra informação relacionada com trendtopics vai conseguir explicar. E talvez aqui exista informação com muito valor por não ser uma situação esperada.

Roadmap de curto prazo

Para não atrasar ainda mais a publicação desse estudo, alguns detalhes foram tirados do escopo e serão revisitados o mais breve possível:

  • Deixar os gráficos mais bonitos, configurando melhor as cores, os eixos e apresentação dos números
  • Incrementar o layout do dashboard com novos gráficos, tabelas e filtros

Trabalhos futuros

  • Evoluir a visualização dos gráficos explorando melhor as configurações possíveis e até outras bibliotecas
  • Criar um script que atualize o dashboard com os dados gerados na AWS automaticamente
  • Conseguir comparar dos trendtopics com a programação de TV
  • Classificar treandtopics em assuntos para aumentar poder de análise

Conclusão

Usar o Streamlit é muito fácil. Ainda existem restrições e seus desenvolvedores mantém a plataforma em evolução constante, mas é um ótimo primeiro passo.

Importante salientar a limitação do estudo do ponto de vista de perfil de uso do Twitter. Me baseei apenas nos assuntos dos trendtopics. O comportamento pode ser diferente quando falamos de total de tweets ou de seguidores de um perfil ou assunto específico.

A relação trendtopics com TV se mostrou muito mais frágil do que eu imaginava. Nas diversas pesquisas que fiz no dashboard, apenas o BigBrother e o Superbowl apareceram com destaque. O futebol aparece em diversos momentos mas disperso em várias hashtags com nome de jogadores ou times. Fatos jornalísticos e do cotidiano foram destaques constantes nessa janela de tempo que analisei sem estar vinculado a um programa de TV específico.

É preciso um intervalo de tempo grande para que informações relevantes possam ser mais exploradas. Com isso, os efeitos colaterais de outliers vão se dissipando.

Mesmo com todas essas ressalvas, foi possível comprovar que tem muita informação relevante a ser estudada nos dados do Twitter. Classificar as hashtags em assuntos vai dar muito valor e entendimento.

A captura de dados continuará e atualizarei as análises com frequência para entender se o comportamento se mantém.

--

--

Responses (1)