Capítulo 1 Introdução

Organizar em um material uma série de conteúdos relacionados a um tema tão vasto como a inovação é realmente desafiador. Entretanto, é necessário um ponto de partida: A inovação, para ser bem sucedida, precisa ser erguida em pilares bastante sólidos, sob pena de, como um castelo de cartas, não se sustentar e desabar antes de alcançar seu objetivo. Mas qual seria esse objetivo? Segue breve explicação realizada pelo professor Silvio Meira:

“Inovação é a criatividade emitindo notas fiscais”
— Prof. Silvio Meira

Um dos pilares para a inovação é a boa informação. O que você sabe sobre o objeto de inovação que está trabalhando? Quais informações e dados já foram coletados que podem ajudar a construir o caminho do sucesso? Essas perguntas, que também não são simples, mostram o topo do iceberg da investigação que subsidia a tomada de decisão da inovação.

Mas, o que fazer para

Um profissional alfabetizado em dados (do inglês data literate) é aquele com habilidade de compreender, manipular, analisar e produzir conteúdo relevante para diversas audiências através do consumo de dados. Tal profissional é capaz de tomar decisões subsidiado em informações de qualidade e sustentáveis em contextos mais abrangentes, independente do papel desempenhado na empresa ou organização em que trabalha. Através da educação em dados, o profissional compreende quais perguntas deve realizar e qual o potencial da informação que está disponível para tomada de decisão (Company 2018).

1.1 Para quem se destina esse livro?

Profissionais que atuam como analistas de negócio, analistas comerciais, analistas de inteligência comercial, analistas de inteligência de mercado, analistas de Business Inteligence e demais áreas afins, que atuam na gestão de produtos, serviços, setores de inovação e/ou áreas correlatas em empresas e/ou instituições que tenham interesse em amadurecer seus processos decisórios e sintam a necessidade de se aprofundar no tema de inteligência da informação, começando pelo primeiro passo: a alfabetização de dados.

1.2 Impacto Econômico da Alfabetização em Dados

Estima-se que, até 2020, o faturamento proveniente de soluções vinculadas ao tema de big data e analytics ultrapassem a ordem de US$ 200 bilhões de dólares por ano. O crescimento do mercado de inteligência em dados é apontado, por vários especialistas, como o grande motor transformador do trabalho nos próximos anos.

Entretanto, a aproximação a esse mercado requer a formação de profissionais que tenham habilidades em análise, interpretação, leitura e manipulação de dados - habilidades que compõem o núcleo dos profissionais alfabetizados em dados mas que correspondem somente a 24% do conhecimento adquirido por analistas de negócio. A boa notícia é que há um crescente interesse em empresas por esse tema: Cerca de 78% das empresas entrevistadas em afirmam estar dispostas a investir mais recursos na formação em dados de seus gestores (Company 2018).

1.3 Estrutura do Livro

Para abordar o tema da Alfabetização de Dados (data literacy) abordamos a seguinte estrutura:

  • No Capítulo 2 abordamos a temática das Fontes de Informação, incluindo dados abertos governamentais e comentando sobre a necessidade de se incluir boas fontes de dados na sua análise e de se ter, de forma estruturada, um databook, isto é, documentação específica explicando o motivo da escolha de determinadas fontes de dados e orientações úteis para a reprodução desses dados em diferentes contextos.

  • No Capítulo 3 apresentamos conceitos fundamentais, como o ciclo-de-vida do dado, definições e habilidades necessárias para se trabalhar com as ferramentas utilizadas nesse livro. Faremos também exercícios práticos em como lidar com a informação em diferentes contextos, recuperando a informação através de métodos de leitura e como estruturar um dicionário de dados que será útil para a melhor gestão da informação e interpretação dos resultados por diferentes profissionais.

  • No Capítulo 4 abordaremos o tema da fundamentação estatística necessária para o tema da alfabetização dos dados. Aqui exercitaremos de forma prática a estatística básica para se trabalhar com os dados, fundamentado em software desenvolvido em R.

  • No Capítulo 5 apresentaremos técnicas de visualização, introduzindo o uso da biblioteca ggplot2 e algumas outras bibliotecas de visualização de dados. Apresentaremos os passos necessários para se realizar análise exploratória e como estruturar a visualização para diferentes audiências.

  • No Capítulo 6 apresentaremos técnicas de manipulação, análise estatística e integração dos resultados. Também apresentaremos indicadores de negócio úteis para compreender o comportamento da informação.

  • No Capítulo 7 apresentaremos diferentes meios de comunicação para as diversas audiências: Desde a criação de apresentações dinâmicas (consumindo os dados analisados durante todo o processo), passando pela estruturação de relatórios reproduzíveis (relatórios cuja construção pode ser reproduzida por qualquer profissional, tornando transparente o processo de validação dos resultados) e concluindo com a construção de dashboards inteligentes consolidando as informações mais importantes de todo processoa analítico.

  • No Capítulo 8 tratamos do tema da Inovação e Negócios, onde apresentaremos o processo de estruturação de oportunidades, avaliando a abordagem “funil de inovação”, discutiremos mecanismos de adequação da análise para diferentes públicos alvo, trataremos da personalização dos relatórios e dashboards e por último aplicaremos técnicas de storytelling para organizar a apresentação do conteúdo.

1.4 Tecnologias adotadas nesse livro

Para os cenários que vamos aplicar no decorrer desse livro, iremos utilizar a linguagem de programação R. A decisão de se utilizar R nesse contexto se deve aos seguintes fatores:

  • Trata-se de uma das tecnologias aplicadas a temática de ciência de dados com grande crescimento no mercado nos últimos anos (ver figura 1.1);
  • A abordagem em interpretação de dados através de um conjunto de soluções tecnológicas que compartilham a mesma gramática, mesma estrutura semântica e a mesma filosofia de trabalho, representado através do conceito tidyverse é, na opinião dos autores, a abordagem mais promissora para se alcançar a alfabetização de dados (ver capítulo 3) em uma abordagem global e multidisciplinar.
  • Trata-se, dentre as tecnologias voltadas a esse nicho, àquela com maior adesão de profissionais de diferentes formações, com diferentes necessidades de negócio, o que torna o ambiente de R rico em possibilidades e aplicações. Segundo Hadley Wickham, um dos principais nomes da Ciência de Dados na atualidade, a integração proporcionada por R a outras tecnologias voltadas à ciência de dados (como Python) influenciará ricamente o cenário da ciência de dados e o potencial multidisciplinar de suas aplicações.
  • As ferramentas de comunicação/visualização proporcionadas pelas tecnologias Rmarkdown, Flexdashboard, Shiny, Ggplot2 e a vasta gama de integrações com modernas bibliotecas de visualização javascript (D3, Highcharts, Leaflet, entre centenas de outros) proporciona uma rica gama de possibilidades de análise e visualização de dados, o que facilita a adequação do conteúdo para qualquer tipo de audiência.
Perguntas no site StackOverflow sobre R nos últimos anos [imagem retirada de http://bit.ly/2m71ddr]

Figura 1.1: Perguntas no site StackOverflow sobre R nos últimos anos [imagem retirada de http://bit.ly/2m71ddr]

1.5 Preparação do Ambiente de Trabalho

Para executar os exemplos desse livro, será necessário ter instalado no seu computador as seguintes ferramentas:

  • R
  • RStudio Desktop.
  • Pacotes da família tidyverse
  • Um conjunto de pacotes desenvolvidos em R que serão apresentados no decorrer do livro.

Alternativamente ao uso da versão Desktop do Rstudio, é possível acessar a RStudio Cloud e criar o ambiente de trabalho na nuvem. Durante a escrita desse livro o Rstudio Cloud está na versão Alpha e seu uso é gratuito. Antes de decidir usar o Rstudio Cloud profissionalmente, verifique se o acesso é gratuito e quais as condições de armazenamento das informações que forem disponibilizadas naquela plataforma.

1.5.1 R

Para fazer o download do R, vá até o site do CRAN (acrônimo de Comprehensive R Archive Network). Lá, escolha a versão do R compatível com o sistema operacional do seu computador. No instante em que estamos escrevendo esse livro, a versão mais recente do R é a versão 3.6.1 “Action of the Toes”, que foi disponibilizada publicamente em 05 de Julho de 2019. Para download de versões mais antigas, procurar a pasta “old” em busca das demais versões.

1.5.2 RStudio Desktop

RStudio Desktop é o ambiente de desenvolvimento integrado mais comumente utilizado para o desenvolvimento de soluções em R.

Na versão gratuita do RStudio Desktop é possível realizar as seguintes atividades:

  • Marcação sintática, complemento inteligente de código e identação automática;
  • Executar código R diretamente do editor de código;
  • Navegar rapidamente para definições de funções
  • Gerenciar facilmente múltiplos projetos em diferentes ambientes de trabalho;
  • Integração completa com a documentação de R;
  • Debug interativo para diagnóstico de erros;
  • Desenvolvimento extensível de pacotes;
  • Construção automática de Relatórios Reproduzíveis, Dashboards, Visualização e todas as funcionalidades disponíveis para análise de dados de qualquer contexto;
  • Integração completa com solução de controle distribuído de versão Git.
Tela do RStudio Desktop durante o desenvolvimento deste livro

Figura 1.2: Tela do RStudio Desktop durante o desenvolvimento deste livro

Durante a escrita do livro, a versão disponível do RStudio Desktop é a 1.2.5001.

1.5.3 Tidyverse: Software para Ciência de Dados

Tidyverse é um conjunto de “pacotes” de software com missões específicas que auxiliam em todas as atividades do ciclo-de-vida dos dados (ver capítulo 3). A seguir, apresentamos a forma como é feita a instalação e instanciação do conjunto de pacotes que compõem o Tidyverse em um editor de código R:

São componentes que compõem o Tidyverse:

  • ggplot2: Trata-se de uma solução para construir gráficos de forma declarativa baseada em uma filosofia conhecida como a Gramática dos Dados. Após fornecer o conjunto de dados, basta informar ao pacote ggplot2 como organizar esteticamente as variáveis, quais primitivas utilizar, e o ggplot2 toma conta de todos os detalhes da visualização.
  • dplyr: dplyr é um pacote que implementa a gramática da manipulação de dados, promovendo um conjunto consistente de ações que resolvem os desafios mais comuns da manipulação de dados.
  • tidyr: tidyr implementa um conjunto de funções que auxiliam a organização dos dados. O conceito “tidy data” implica em conjuntos de dados que obedecem as seguintes “regras”:
    • Cada variável possui sua própria Coluna.
    • Cada observação está contida em uma única linha.
    • Cada valor ocupa unicamente uma célula.
  • readr: readr implementa uma forma rápida e amigável de se ler dados em formato “retangulares”, como csv (valores separados por vírgula), tsv (valores separados por tabulações), e fwf. O pacote foi desenvolvido para realizar tal leitura de forma flexível e tolerante a falhas.
  • purr: purrr é um pacote voltado para melhorias no desenvolvimento em soluções R no que diz respeito a tratamento de funções e vetores, permitindo substituir estruturas básicas como loops de iteração de forma mais legível e simples de compreender.
  • tibble: Tibbles são estruturas de dados em formato matricial que suportam múltipos tipos de dados por coluna. Além disso, a estrutura tibble apresenta os dados de forma mais organizada, sumarizada e com estatísticas relevantes sobre as informações contidas. Seu uso significa uma estratégia bastante útil para rápida tomada de decisão sobre o uso dos dados.
  • stringr: stringr suporta um conjunto de funções desenhadas para fazer com que o trabalho com campos textuais (strings) se torne mais fácil.
  • forcats: forcats implementa um conjunto de ferramentas úteis para o uso de variáveis categóricas (ver ver capítulo 3), ou seja, variáveis que possuem um conjunto fixo e conhecido de valores.

Embora não estejam descritos na lista de pacotes oficiais do website tidyverse, a comunidade R é muito ativa e constantemente está lançando novos pacotes de software que compartilham a mesma filosofia do conceito tidy: soluções interoperáveis que seguem a mesma gramática, mesma estrutura sintática e semântica e com objetivos específicos. Exemplos de pacotes:

  • dbplyr: Pacote que suporta conexão direta a bancos de dados relacionais para aplicação das funções presentes no pacote dplyr.
  • fable: Pacote que implementa uma coleção de modelos de previsão de séries temporais implementados com base no fable framework, que provê as ferramentas para avaliar, visualizar e combinar modelos em um fluxo de trabalho consistente com o conceito do tidyverse.

Referências

Company, Qlik. 2018. Developing a Data Literate Workforce: A Strategy and Framework for the Enterprise. 1st ed. -: Qlik Data Literacy Program. https://www.qlik.com/us/-/media/files/resource-library/global-us/register/whitepapers/wp-developing-a-data-literate-workforce-en.pdf.