Text as Data para Ciências Sociais
Prefácio
Objetivo
Sobre o autor/organizador
Licença
Agradecimentos
1
Introdução
1.1
O
R
e o
RStudio
1.2
O Pacote
txt4cs
e outros
1.3
Material de apoio
1.3.1
Referências para processamento de sequências de caracteres com o
R
1.3.2
Referências em análise de conteúdo com o
R
:
2
Text as data: o texto como dado
2.1
Panorama da área
2.2
Oportunidades
2.3
Quadro geral de metodologias
2.4
O processo de análise do texto como dado
3
R e o Processamento de Linguagem Natural
3.1
Encoding - Codificação de caracteres
3.2
Encoding para remover acentos
4
Strings no
R
4.1
Strings e vetores
4.1.1
O
R
é case sensitive
4.1.2
Sequências de caracteres
4.1.3
Operações básicas com vetores de strings
4.1.4
Caracteres e outros tipos de dados
4.2
Strings e matrizes
4.3
Strings e data.frames
4.4
Strings e listas
4.5
Processamento básico
4.5.1
Contando caracteres
4.5.2
toupper()
,
tolower()
4.6
O pacote
stringr
4.6.1
Verificando o tamanho de uma string
4.6.2
Identificando caracter numa posição específica.
4.6.3
Incluindo caracter ou string numa posicao específica.
4.6.4
Recortando uma string para obter parte da sequência de caracteres.
4.7
Regular Expressions no
R
4.7.1
Identificação e Extração de padrão
4.7.2
Substituição
4.7.3
Âncoras
5
Obtenção de conteúdo
5.1
word, excel ou
.pdf
5.1.1
.xlsx
5.1.2
.pdf
e
.doc
5.2
Webscraping
5.2.1
Pacotes para raspagem de dados
5.2.2
Etapas para raspagem de dados na web
5.2.3
Código fonte
5.2.4
Obtenção de Código Fonte - Exemplo:
5.3
Web Services
5.3.1
Obtenção de conteúdo via WS - Exemplo:
5.3.2
a) obter os meta-dados dos discursos
5.3.3
b) obter o conteúdo dos discursos (inteiror teor).**
5.4
Download de arquivos da web
5.5
Twitter
5.6
Imagens
5.7
Áudio Transcrição
6
Processamento dos dados
6.1
Tokens
6.2
Corpus
6.3
Tokens e Corpus
6.4
DFM: Matriz de documentos e termos
6.5
Stemming
6.6
FCM: Matriz de co-ocorrência de termos
7
Mineração e estatísticas básicas
7.1
Análise de frequência
7.2
Nuvem de palavras
7.3
tf-idf
7.4
Rede de n-grams
7.5
Correlação pareada
7.6
Diversidade lexical
7.7
Similaridade entre documentos/termos
7.8
KEYNESS: Análise de Frequência Relativa
8
Escalonamento
8.1
Wordscore
8.2
Wordfish
9
Classificação
9.1
Método de dicionário: Análise de sentimento
9.2
Naive Bayes
9.3
LDA: Latent Dirichlet Allocation
9.4
STM: Structed Topic Model
Referências
Published with bookdown
Text as Data
para Ciências Sociais
Capítulo 6
Processamento dos dados
EM CONSTRUÇÃO…
6.1
Tokens
6.2
Corpus
6.3
Tokens e Corpus
6.4
DFM: Matriz de documentos e termos
6.5
Stemming
6.6
FCM: Matriz de co-ocorrência de termos