Documento 21 Analisis de Tweets:

  1. Introduce tus claves en el documento para conectar con Twitter. Usa en el chunk la opción echo=FALSE, para no mostrar tus claves en el documento de salida.

NOTA: Los twits se extrajeron en Rstudio Cloud.

Nos autenticamos.

## authenticate via web browser
token <- create_token(
  app = "TwitsIgnacioPG",
  consumer_key = api_key,
  consumer_secret = api_secret_key,
  access_token = access_token,
  access_secret = access_token_secret)

Los tweets fueron extraídos con el siguiente comando:

tweets <- searchTwitter("#pizzagate ", n=5000, lang = "en")

Para posteriormente escribirlos en un .csv

  • Paquetes necesarios:

  1. Extraer de Twitter los tweets referentes a un tema que a ti te interese. Pasa los tweets a un dataframe y visualiza la cabeza del data frame. Graba los tweets en un csv.
tweets <- read_csv("datasets/pizzagate.csv")
# Convierto a data frame el csv haciendo uso de la funcion glmpse de dplyr
pizzagate <- dplyr::glimpse(tweets)
# Limpieza rápida del dataset

# tweets.df = twListToDF(tweets2) - Esta no es necesaria pues los tweets ya estan en formato df
pizzagate$text <- sapply(pizzagate$text,function(x) iconv(x,to='UTF-8'))
pizzagate$created <- ymd_hms(pizzagate$created)

# Comprobamos en que columnas hay valores NA
sapply(pizzagate, function(x) sum(
# Como en las columnas Latitude y Longitude sólo hay NAs, las eliminamos:

pizzagate$latitude <- NULL
pizzagate$longitude <- NULL

  1. ¿Cuantos tweets hay?
## [1] 5000
  1. Analiza la estructura de la información que te has traido de Twitter.
## [1] "spec_tbl_df" "tbl_df"      "tbl"         "data.frame"
Analizando las columnas más importantes:

X1: Parecido a una ID Text: Contenido del tweet ScreenName: Procedencia del tweet Created: Fecha de creación retweetCount: Número de rts favoriteCount: Número de favs isRetweet: Si el tweet original ha sido retweeteado

  1. ¿Cuantos usuarios distintos han participado?
## [1] 5000
  1. ¿Cuantos tweets son re-tweets? (isRetweet)
nrow(pizzagate[pizzagate$isRetweet == TRUE, ])
## [1] 4290
  1. ¿Cuantos tweets han sido re-tweeteados? (retweeted)
# Este campo nos dicen los rt que ha tenido un twit original, como la mayoría son twits retuiteados, y los originales no tienen ningún retweet

nrow(pizzagate[pizzagate$retweeted == TRUE, ])
## [1] 0
  1. ¿Cuál es el número medio de retweets? (retweetCount)
## [1] 325.137
  1. Da una lista con los distintos idiomas que se han usado al twitear este hashtag. (language).

No hemos podido conseguir esta información, pero al extraer todos los tweets pusimos en el parámetro de research que todos fueras en inglés.

  1. Encontrar los nombres de usuarios de las 10 personas que más han participado.
pizzagate$screenName <- as.factor(pizzagate$screenName)

##     bananedave    RoRoFlores8 Aleszanderizsk     mystylehfb        DDemaos 
##             28             28             21             21             20 
##    LanceFahey1  Cindy67427591     FocusOutof         dgxpre       MtzrYadi 
##             18             16             15             14             13
  1. ¿Quién es el usuario que más ha participado?
## bananedave 
##         28
  1. Extraer en un data frame aquellos tweets re-tuiteados más de 5 veces (retweetCount).
# Primero eliminare los que son rt
indices <- which(!pizzagate$isRetweet)
pizzagateSinRt <- pizzagate[indices,]

famosos <- pizzagateSinRt %>%
  dplyr::filter(retweetCount >= 5) %>%
  dplyr::select(text, id, retweetCount)

## # A tibble: 56 x 3
##    text                                                          id retweetCount
##    <chr>                                                      <dbl>        <dbl>
##  1 "Lady gaga and marina Abramovic ingesting the drug adre~ 1.27e18            5
##  2 "It’s not about the burn of a flag, it’s about the ~ 1.27e18            5
##  3 "Take the red pill\nit's time to open your eyes.\n#anon~ 1.27e18           35
##  4 "@BarbMcQuade Never forget, it was Wikileaks &amp; the ~ 1.27e18            7
##  5 "THIS IS AMERICA!\n#Anonymous #JusticeForGeorgeFloyd #P~ 1.27e18            7
##  6 "#anonymus Casa Blanca #PizzaGate \nmy mood: https://t.~ 1.27e18            5
##  7 "#Anonymous #pizzagate #Trump\nI propose 'Panic' by The~ 1.27e18           16
##  8 "Do you remember this?\nI think it's time you are going~ 1.27e18            6
##  9 "OUTFIT MAYO / OUFIT JUNIO casa blanca trump anonymous ~ 1.27e18           24
## 10 "Casa Blanca, #anonymus #PizzaGate The Purge\nMaaaaaan,~ 1.27e18            7
## # ... with 46 more rows
  • Aplicarle a los tweets las técnicas de Text-Mining vistas en clase:
  1. Haz pre-procesamiento adecuado.
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
toString <- content_transformer(function(x, from, to) gsub(from, to, x))

pizzagate$text <- stringr::str_replace_all(pizzagate$text, "@\\w+"," ")
pizzagate$text <- stringr::str_replace_all(pizzagate$text, "#\\S+"," ")## Remove Hashtags
pizzagate$text <- stringr::str_replace_all(pizzagate$text, "http\\S+\\s*"," ")## Remove URLs
pizzagate$text <- stringr::str_replace_all(pizzagate$text, "http[[:alnum:]]*"," ")## Remove URLs
pizzagate$text <- stringr::str_replace_all(pizzagate$text, "http[[\\b+RT]]"," ")## Remove URLs
pizzagate$text <- stringr::str_replace_all(pizzagate$text, "[[:cntrl:]]"," ")
pizzagate$text <- stringr::str_replace_all(pizzagate$text, "#pizzagate"," ")

pizzagate$text <- stringr::str_replace_all(pizzagate$text, "[^\\x00-\\x7F]"," ")

docsCorpus <- Corpus(VectorSource(pizzagate$text))
docsCorpus <- tm_map(docsCorpus, function(x) iconv(enc2utf8(x), sub = "byte"))

Textprocessing <- function(x)
  {gsub("http[[:alnum:]]*",'', x)
  gsub('http\\S+\\s*', '', x) ## Remove URLs
  gsub('\\b+RT', '', x) ## Remove RT
  gsub('#\\S+', '', x) ## Remove Hashtags
  gsub('@\\S+', '', x) ## Remove Mentions
  gsub('[[:cntrl:]]', '', x) ## Remove Controls and special characters
  gsub("\\d", '', x) ## Remove Controls and special characters
  gsub('[[:punct:]]', '', x) ## Remove Punctuations
  gsub("^[[:space:]]*","",x) ## Remove leading whitespaces
  gsub("[[:space:]]*$","",x) ## Remove trailing whitespaces
  gsub(' +',' ',x) ## Remove extra whitespaces

docsCorpus <- tm_map(docsCorpus,Textprocessing)

docsCorpus <- tm_map(docsCorpus, content_transformer(tolower))

docsCorpus <- tm_map(docsCorpus, removeNumbers)

docsCorpus <- tm_map(docsCorpus, removePunctuation)

docsCorpus <- tm_map(docsCorpus, stripWhitespace)

docsCorpus <- tm_map(docsCorpus, removeWords, stopwords("english"))

docsCorpus <- tm_map(docsCorpus, toSpace, "rt")

Genero DTM

dtm <- DocumentTermMatrix(docsCorpus)
  1. Calcula la media de la frecuencia de aparición de los términos.
freq <- colSums(as.matrix(dtm))

media <- mean(freq)
  1. Encuentra los términos que ocurren más de la media y guárdalos en un data.frame: término y su frecuencia. Usa knitr::kable en el .Rmd siempre que quieras visualizar los data.frame.
freq2 <- subset(freq, freq > media)
  1. Ordena este data.frame por la frecuencia
ord <- order(freq2, decreasing = TRUE)

#Los que menos frecuencia tienen
  1. Haz un plot de los términos más frecuentes. Si salen muchos términos visualiza un número adecuado de palabras para que se pueda ver algo.
# Distintas paletas de colores
# brewer.pal(6, "Dark2")
# brewer.pal(9,"YlGnBu")
#wordcloud(names(freq), freq, min.freq=350, max.words=50, scale=c(5, .1), colors=brewer.pal(6, "Dark2"))
wordcloud(names(freq2), freq2, scale=c(3,0.5), max.words=60, random.order=FALSE, 
          rot.per=0.10, use.r.layout=TRUE, colors=brewer.pal(6, "Dark2")) 

Genera diversos wordclouds y graba en disco el wordcloud generado. Busca información de paquete wordcloud2. Genera algún gráfico con este paquete.

wordcloud(names(freq2), freq2, min.freq=35, max.words = 20)

frecuencias.df <- 
frecuencias.df <- cbind(frecuencias.df, freq2)

names(frecuencias.df) <- c("word", "freq")

wordcloud2(frecuencias.df, size = 0.7, shape = 'star')

Para las 5 palabras más importantes de vuestro análisis encontrar palabras que estén relacionadas y guárdalas en un data.frame. Haz plot de las asociaciones.

asoc <- frecuencias.df %>%

palabras <- asoc$word[1:5]
palabras <- as.character(palabras)
## [1] "hollywood"  "pedophilia" "exposing"   "exposed"    "star"

Calculamos ahora las asociaciones con la palabra hollywood:

asociaciones <- findAssocs(dtm, palabras[1], corlimit=0.75)
lista.asoc <- lapply(asociaciones, function(x) data.frame(rhs = names(x), cor = x, stringsAsFactors = FALSE))

# Crear un dataframe con tres columnas
df.asoc <- dplyr::bind_rows(lista.asoc, .id = "lhs")
ggplot(df.asoc, aes(y = df.asoc[, 2])) + geom_point(aes(x = df.asoc[, 3]), 
             data = df.asoc[,2:3], size = 3) + 
  ggtitle(paste(palabras[1], "relacionado con...")) + 
  xlab("Correlación") +
  ylab("Palabras") +

asociaciones <- findAssocs(dtm, palabras[2], corlimit=0.75)
lista.asoc <- lapply(asociaciones, function(x) data.frame(rhs = names(x), cor = x, stringsAsFactors = FALSE))

df.asoc <- dplyr::bind_rows(lista.asoc, .id = "lhs")
ggplot(df.asoc, aes(y = df.asoc[, 2])) + geom_point(aes(x = df.asoc[, 3]), 
             data = df.asoc[,2:3], size = 3) + 
  ggtitle(paste(palabras[2], "relacionado con...")) + 
  xlab("Correlación") +
  ylab("Palabras") +

asociaciones <- findAssocs(dtm, palabras[3], corlimit=0.75)
lista.asoc <- lapply(asociaciones, function(x) data.frame(rhs = names(x), cor = x, stringsAsFactors = FALSE))

# Crear un dataframe con tres columnas
df.asoc <- dplyr::bind_rows(lista.asoc[1], .id = "lhs")
ggplot(df.asoc, aes(y = df.asoc[, 2])) + geom_point(aes(x = df.asoc[, 3]), 
             data = df.asoc[,2:3], size = 3) + 
  ggtitle(paste(palabras[3], "relacionado con...")) + 
  xlab("Correlación") +
  ylab("Palabras") +

NOTA: Sólo mostramos 3 ya que todas siguen el mismo procesamiento.

Haz plot con los dispositivos desde los que se han mandado los tweets.

# plot por emisor
# encode tweet source as iPhone, iPad, Android or Web

encodeSource <- function(x) {
  if(x=="<a href=\"\" rel=\"nofollow\">Twitter for iPhone</a>"){
    gsub("<a href=\"\" rel=\"nofollow\">Twitter for iPhone</a>", "iphone", x,fixed=TRUE)
  }else if(x=="<a href=\"!/download/ipad\" rel=\"nofollow\">Twitter for iPad</a>"){
    gsub("<a href=\"!/download/ipad\" rel=\"nofollow\">Twitter for iPad</a>","ipad",x,fixed=TRUE)
  }else if(x=="<a href=\"\" rel=\"nofollow\">Twitter for Android</a>"){
    gsub("<a href=\"\" rel=\"nofollow\">Twitter for Android</a>","android",x,fixed=TRUE)
  } else if(x=="<a href=\"\" rel=\"nofollow\">Twitter Web Client</a>"){
    gsub("<a href=\"\" rel=\"nofollow\">Twitter Web Client</a>","Web",x,fixed=TRUE)
  } else if(x=="<a href=\"\" rel=\"nofollow\">Twitter for Windows Phone</a>"){
    gsub("<a href=\"\" rel=\"nofollow\">Twitter for Windows Phone</a>","windows phone",x,fixed=TRUE)
  }else if(x=="<a href=\"\" rel=\"nofollow\"></a>"){
    gsub("<a href=\"\" rel=\"nofollow\"></a>","",x,fixed=TRUE)
  }else if(x=="<a href=\"\" rel=\"nofollow\">IFTTT</a>"){
    gsub("<a href=\"\" rel=\"nofollow\">IFTTT</a>","ifttt",x,fixed=TRUE)
  }else if(x=="<a href=\"\" rel=\"nofollow\"></a>"){
    gsub("<a href=\"\" rel=\"nofollow\"></a>","earthquaketrack",x,fixed=TRUE)
  }else if(x=="<a href=\"\" rel=\"nofollow\">Did You Feel It</a>"){
    gsub("<a href=\"\" rel=\"nofollow\">Did You Feel It</a>","did_you_feel_it",x,fixed=TRUE)
  }else if(x=="<a href=\"\" rel=\"nofollow\">Earthquake Mobile</a>"){
    gsub("<a href=\"\" rel=\"nofollow\">Earthquake Mobile</a>","earthquake_mobile",x,fixed=TRUE)
  }else if(x=="<a href=\"\" rel=\"nofollow\">Facebook</a>"){
    gsub("<a href=\"\" rel=\"nofollow\">Facebook</a>","facebook",x,fixed=TRUE)
  }else {
pizzagate$tweetSource = sapply(pizzagate$statusSource, 
        function(sourceSystem) encodeSource(sourceSystem))

ggplot(pizzagate[pizzagate$tweetSource != 'others',], 
       aes(tweetSource)) + geom_bar(fill = "aquamarine4") + 
        axis.title.x = element_blank(), 
        axis.text.x = element_text(angle = 45, hjust = 1)) +
  ylab("Number of tweets")

Para la palabra más frecuente de tu análisis busca y graba en un data.frame en los tweets en los que está dicho término. El data.frame tendrá como columnas: término, usuario, texto.

termino <- palabras[1]

ind <- which(grepl(termino, pizzagate$text))

hollywood <- pizzagate[ind, ]

hollywood <- hollywood %>%
  dplyr::select(screenName, text) %>%

screenName text termino
_Phenomish RT : Since they exposing hollywood Pedophilia. Isaac Kappy a hollywood star who played in Thor, Terminator and others exposed To hollywood
Wura_zinariya RT : Since they exposing hollywood Pedophilia. Isaac Kappy a hollywood star who played in Thor, Terminator and others exposed To hollywood
YungGuille RT : Since they exposing hollywood Pedophilia. Isaac Kappy a hollywood star who played in Thor, Terminator and others exposed To hollywood
OpenUp40 RT : Since they exposing hollywood Pedophilia. Isaac Kappy a hollywood star who played in Thor, Terminator and others exposed To hollywood
ConnieAmaya4 RT : Since they exposing hollywood Pedophilia. Isaac Kappy a hollywood star who played in Thor, Terminator and others exposed To hollywood
07V7 RT : Since they exposing hollywood Pedophilia. Isaac Kappy a hollywood star who played in Thor, Terminator and others exposed To hollywood

Se repite mucho el tweet debido a ser bastante viral (el método searchTwitter permite recoger el mismo tweet al ser retweeteado muchas veces), por ello se repite mucho en nuestro dataset donde aparece la palabra Hollywood.

  • Quitamos los paquetes debido a que surgen conflictos entre funciones que se llaman igual, con el objetivo de que compile el book completo.