Capítulo 1 Introdução à Ciência de Dados
Caro(a) leitor(a), dado é um conceito que estamos familiarizados. Mas será que conhecemos as suas diversas formas? O que é Ciência de Dados e qual é o seu papel para a nossa sociedade? Neste livro introduziremos a cada capítulo as principais definições e divisões teóricas dessa área.
A Ciência de Dados pode ser definida como o campo do conhecimento que busca transformar dados em informações.
Para exemplificar, a Figura1.1 ilustra espaços sócio-históricos-econômicos importantes para a cidade do Salvador. Observe a Figura 1.1 que mostra alguns locais bem conhecidos de Salvador. Você reconhece cada um deles? Além disso, consegue lembrar de desafios comuns que vivencia ao passar nestes ou outros locais da cidade?
Esta imagem é bastante aderente aos exemplos discutidos em Ciência de Dados e pode nos inspirar questionamentos sobre a dinâmica da cidade como:
- ônibus que não passam no horário: é possível conhecer a quantidade ideal de ônibus, considerando um tempo de espera adequado e a quantidade de passageiros?
- Acessibilidade: e como podemos melhorar o mapeamento de zonas de mais difícil acesso a portadores de necessidades especiais, com base no trânsito, fluxo de pessoas e estado das vias?
- Meio ambiente - resíduos sólidos: quais são os melhores horários para a coleta de resíduo? É possível saber quais bairros ou núcleos de limpeza descartam um volume maior de resíduos sólidos? E qual é sua composição por tipo?
- Saúde: qual o potencial de uma doença se alastrar? Como melhorar o diagnóstico de doenças? Qual a quantidade ideal de médicos para atendimento em dias de pico?
- Entrega de encomendas: como definir a melhor rota e horário para a entrega de encomendas com baseado no histórico desse serviço?
Ao observar situações reais, é possível propor questionamentos que permitam iniciar investigações. Assim, tomando como base o item 1 das proposições acima, imagine a seguinte situação: você está esperando um ônibus para ir ao Porto da Barra. Nesse contexto, dois fatores são relevantes para você:
- o tempo espera e
- a quantidade de passageiros no ônibus.
Você reservou um tempo para o passeio e não quer ficar parado no ponto de ônibus por muitos minutos. Além disso, você não quer pegar um ônibus superlotado. Então, como essa questão poderia ser solucionada? Entre as alternativas está a comunicação com a ouvidoria do sistema de transporte público, por meio da notificação destas ocorrências. Contudo, ainda que um grupo significativo de pessoas reclame desta condição, não necessariamente haverá uma ação da administração pública que coloque um número maior de ônibus em operação. Deve-se ponderar outros critérios. Uma ação como essa poderia resultar em mais engarrafamentos e consequentemente os usuários do sistema permaneceriam insatisfeitos.
Uma decisão melhor deve ser pensada a partir de uma análise que considera os dados das ocorrências, grupos de interesse e outras características do sistema. Para direcionar esta análise é preciso conhecer os horários que as pessoas gostariam de utilizar o serviço de ônibus. Assim, seria possível saber quais momentos do dia há um maior número de passageiros. E a partir desta indicação, é possível estudar alguns outros fatores que influenciam para a melhoria do transporte. Ou seja, os ônibus em circulação não estariam tão vazios, mas também não haveria superlotação. Portanto, é possível investigar este problema pela sua representação por meio de variáveis mensuráveis tais como plenejamento da frequência dos ônibus em circulação, condições do trânsito e demanda dos passageiros por linhas específicas etc. A definição destes tópicos implica nos tipos de dados que serão gerados, a quantidade dos valores armazenados e as etapas de transformação pelas quais devem ser submetidos. A partir do momento que estes dados são obtidos, o processo investigativo evolui até que se saiba qual é a frequência ideal de ônibus neste ponto da cidade. Por meio da medição e atribuição de valores destas variáveis, para diferentes situações, resulta num conjunto de observações que mais frequentemente nomeamos por dados. Logo, é possível realizar a investigação estatística, matemática ou computacional destes conjuntos de valores das variáveis e construir informações e indicadores importantes para apoiar decisões.
No processo metodológico da Ciência de Dados, o dado é transformado em informação relevante por meio de etapas que permitem analisar tendências e prever comportamentos futuros. A construção destas informações permitem extrair conclusões e criar sacadas (os famosos insights ou “lampejos de ideias”) para responder a perguntas e cooperar com solucão de problemas.
Que tal conhecer alguns setores que tem aplicado Ciência de Dados aqui no Brasil? Transportes e Mobilidade Urbana: link 1 link 2
Saúde: link
Segurança pública: link
Comunicação com clientes: link
Turismo: link
Atividade Jurídica: link
Para aplicar esta ciência, é preciso ter conhecimentos de Estatística, Computação e conhecimento sobre o problema investigado. Uma vez que as ferramentas de solução são baseadas nesses conteúdos, por isso eles são a essência da Ciência de Dados. Mas não se engane, essas ferramentas “matemáticas” são vinculadas à ciências sociais, biológicas, ambientais, ao setor de negócios, tecnologia, entre outros, a fim de descobrir padrões em problemas de diferentes naturezas (como vimos na Figura 1.1). Por esse motivo, a Ciência de Dados é uma área interdisciplinar. A Figura 1.2 esquematiza os conteúdos básicos da Ciência de Dados.
Mas por que a Ciência de Dados se tornou indispensável?
A evolução da capacidade de processamento e armazenamento de dados dos computadores promoveu uma produção de dados digitais sem precedentes - a área que se dedica à esta imensa quantidade de dados é chamada de Big Data - portanto, iniciou-se uma corrida pela implementação de algoritmos matemáticos e estatísticos capazes de identificar de forma automática relações e padrões nestes grandes conjuntos de dados. Mas atenção, embora a Ciência de Dados seja favorecida pela tecnologia, é importante ressaltar que são seres humanos que direcionam, criam regras, avaliam e manuseiam todo o processo investigativo. Portanto, existe a necessidade de um profissional que avalie a execução de cada etapa realizada para garantir que as análises e interpretações sejam coerentes a cada situação.
Para compreender melhor como o processo de Ciência de Dados ocorre, veja o seguinte exemplo:
Sabemos que atualmente o lazer está muito vinculado ao uso de tecnologias e, portanto, estamos a um clique de uma música que gostamos de ouvir, de um vídeo que queremos assistir, ou uma busca no google sobre algum tema de interesse. O fato de realizarmos estas buscas revela nossos interesses, você concorda? A partir da análise do nosso histórico de buscas, várias propagandas ou recomendações podem começar a nos ser feitas. Pense em quantas vezes você pesquisou sobre algum item e depois surgiram várias propagandas sobre ele. Ou quando você assistiu no youtube o clipe de uma banda e depois apareceram sugestões de outros clipes dessa mesma banda, como na Figura 1.3. Observe que nesta imagem estamos ouvindo a música de Gilberto Gil na página Youtube e observamos a capa do álbum Um Banda Um, e ao lado existem várias sugestões de outras músicas dele, inclusive há uma indicação de outra banda do mesmo gênero musical.
Que tal entender melhor como este mecanismo ocorre?
Imagine que você será responsável por escolher um filme para assistir junto com seus amigos. Porém, eles disseram gostar de filmes de terror, romance, suspense, ação, comédia, ficção científica e drama. Para você ficou quase impossível escolher frente à tantas opções, já que quer ter certeza que eles irão curtir o filme. Assim, como podemos saber qual gênero de filmes deve ser escolhido? Sabendo isso, a sua escolha será certeira e a diversão estará garantida! Podemos solucionar este problema utilizando a Ciência de Dados para analisar as preferências de filme dos seus amigos, de forma similar ao mecanismo de recomendações do youtube, por exemplo. Nas próximas seções deste capítulo, vamos solucionar cada etapa desta investigação!
Quer saber mais sobre onde a Ciência de Dados se aplica? Assista ao vídeo abaixo: (Vídeo: Do futebol à medicina: A ciência de dados está em todo lugar)
Depois de tantos exemplos, uma conclusão é real: a Ciência de Dados está por toda parte e nós, fazemos parte dela ao consumir ou gerar dados. Você concorda?
1.1 O que são “dados” e onde estão presentes?
No item anterior vimos que a Ciência de Dados é algo indispensável, já que é impossível lidar com tantos dados sem o uso de tecnologias. Vimos também, que parte destes dados, somos nós quem geramos. Precisamos entender o que significa a palavra dados neste contexto. Vamos dar sequência no nosso exemplo, onde queremos descobrir qual é o gênero de filmes que você deve escolher. Para isto, podemos avaliar qual é o gênero favorito de cada amigo seu a partir dos filmes que eles assistiram recentemente e o gênero destes filmes. Desta forma, iremos verificar se eles têm preferência em comum por algum gênero. Para iniciar a investigação, devemos criar um registro para cada pessoa, contendo características importantes coletadas para a avaliação das preferências deles, como:
- Nome
- Filmes assistidos
- Gênero do filme
Portanto, o nosso registro irá conter observações de cada característica citada, para cada pessoa. Assim, dizemos que as observações destas determinadas características são os nossos dados.
Em outras palavras: dados são observações que foram coletadas e armazenadas de alguma forma. Inicialmente, compõem apenas registros e não apresentam relevância. Qualquer dado pode ser armazenado, caso contrário não pode ser considerado um dado.
O dado por si só não apresenta significado e por isso não serve para gerar respostas, interpretações e informações. Assim, somente após processar e transformá-los é que se torna possível tirar conclusões.
Parte do trabalho de um cientista de dados é avaliar quais dados são de fato importantes para o processo de análise. Muitas vezes temos uma grande quantidade de dados, mas ao avaliar a natureza do problema percebemos que nem todos são fatores importantes para a situação investigada. No nosso exemplo, queremos saber qual gênero de filmes você deve escolher para assistir com seus amigos. Já vimos que algumas características são importantes para guiar a sua decisão final, mas podem existir outras que também complementariam nossos dados. Todavia, deve ser feita uma avaliação sobre a importância delas para o problema abordado. Por exemplo, poderíamos coletar a altura e peso de cada amigo, mas, isso seria relevante para a nossa investigação? Claramente não, portanto não faria sentido registrar estes dados. Observe também que você obteve os dados por meio de uma pesquisa realizada com os seus amigos. Todavia, há muitas outras fontes de obtenção de dados. Basta lembrar que nós mesmos geramos dados quando interagimos em uma rede social.
Portanto, os dados podem ser obtidos pelo uso de celulares, computadores, sensores, registros escolares, pesquisas de opinião ou qualquer forma de registro.
E porquê é tão importante entendermos a definição de dados e como eles são obtidos? Basicamente, porque eles são a essência da Ciência de Dados. Sem eles não é possível gerar informações e aplicar o processo investigativo. A análise dos dados permite observar uma tendência ou padrão em processos, fenômenos na natureza ou mesmo nos nossos comportamentos. E este é o grande objetivo da Ciência de Dados, reconhecer padrões e interpretá-los para tomar boas decisões!
1.1.1 Posso compartilhar dados?
Vamos voltar à nossa investigação sobre os filmes. Lembre-se que para nós é importante registrar os últimos filmes assistidos pelos nossos amigos, o gênero dos filmes e a identificação da pessoa. Podemos nos questionar se estes registros serão restritos à você que está analisando ou se estarão abertos à qualquer pessoa (inclusive seus amigos). É um questionamento pertinente? Haveria algum incômodo se qualquer pessoa tivesse acesso a estes registros?
Outro questionamento que poderia ser feito antes mesmo de seus amigos aceitarem participar do experimento é: como os dados serão utilizados e com qual finalidade?
Estas perguntas são importantes porque as informações adquiridas a partir dos dados revelam gostos pessoais e padrões de comportamento dos seus amigos. E, portanto, quem tiver acesso a estes dados vai ter conhecimento sobre as preferências deles. E a forma como esta informação será utilizada é extremamente importante. Assim, temos duas observações:
1. dados são gerados a todo momento
2. dados são transformados em informações que revelam padrões desconhecidos.
Por este motivo, empresas e organizações têm tanto interesse em deter dados de usuários dos seus serviços, pois isso permite conhecer o cliente a ponto de fazer ofertas que se adequem ao perfil de cada um. Mas, quais são as consequências dessa prática? Para compreender mais, vamos discutir sobre a privacidade.
1.1.2 Privacidade de dados
A privacidade antes de tudo é um direito. Este direito nos resguarda da exposição de nossas informações pessoais. O contexto atual de estarmos conectados, com uma constante troca de informação, traz algumas preocupações quanto à garantia da nossa privacidade.
Podemos começar citando o exemplo das publicações em redes sociais. Por meio delas, divulgamos sobre nosso local de trabalho ou estudo, quem são nossos familiares, nosso itinerário, datas importantes e tantas outras informações, na maioria das vezes sem refletir o que isto representa. E estes são os dados que nós sabemos que estamos divulgando!
Além disso, os aplicativos que temos em nossos smartphones podem ter acesso à nossa câmera, microfone e contatos. Sim, ao fazer o download de um aplicativo e concordarmos com os termos de condição de uso, damos acesso à todos estes dados. Você já leu os termos de condições antes de prosseguir com a instalação de um aplicativo?
Mas muito além do que publicamos, existe uma infinidade de dados que são coletados sobre nós que nem temos ideia. Eles alimentam grandes bases de dados de empresas, organizações ou instituições. Nossas preferências de lazer, política, estilo, gostos musicais, itens que compramos, informações bancárias, local de viagens, são convertidos em informações nas mãos de quem pode manipulá-los. Ficamos expostos, sendo influenciados por serviços e propagandas e, ao mesmo tempo, não temos acesso à forma que processam estes dados.
Assim, sempre que abrimos nossos aplicativos, automaticamente somos direcionados a interagir com posts de conteúdos preparados para prender a nossa atenção, ou sempre existem propostas imperdíveis para adquirir itens que geralmente nos interessam.
O ponto central que deve ser levantado aqui é que devemos fazer o uso de aplicativos, redes sociais e sites, sempre questionando o que nos é apresentado. Isto é importante para alertar que somos monitorados e possivelmente influenciados pelos conteúdos com os quais interagimos. Para refletir mais sobre a privacidade dos dados, assista ao vídeo indicado.
Já ouviu o termo LGPD?
Diante da problemática da privacidade e segurança dos dados, o Brasil aprovou a Lei n° 13.709/18 (Lei de Proteção de Dados - LGPD), o que vai exigir a adequação de empresas e corporações que realizam coleta, tratamento, processamento ou comércio de dados em prol de grantir a privacidade e a segurança de usuários. Isso será feito por meio de políticas e planos de proteção de dados. Ao mesmo tempo, nós usuários deveremos estar mais atentos à segurança que as empresas oferecem aos nossos dados. (Para saber mais sobre esta lei, assista ao vídeo)
A rede social Facebook é um exemplo de organização que já iniciou as alterações recomendadas pela lei em busca de transparência. A Figura 1.4 exibe partes da mensagem que aparece ao realizar o acesso à página.
1.2 O ciclo dos Dados - Construindo uma pergunta estatística
No início do capítulo, definimos Ciência de Dados como um campo da ciência que realiza a transformação de dados em informação por meio de etapas. Neste tópico, vamos compreender melhor sobre cada etapa que ocorre neste processo. Primeiramente, esta série de etapas é denominada como Ciclo dos dados.
A compreensão do ciclo dos dados dá uma noção geral sobre o que deverá ser realizado na metodologia de investigação, possibilitando um melhor planejamento de cada etapa.
Uma vez que a Ciência de Dados busca extrair padrões para lidar com problemas, é essencial que inicialmente se tenha uma pergunta a ser respondida. Esta pergunta irá direcionar todo o nosso processo em relação à quais dados devem ser coletados, quais são os melhores métodos de análise e qual a natureza do problema.
O Ciclo dos Dados compreende quatro etapas, como indicado na Figura 1.5:
Vamos lembrar do nosso exemplo inicial, cuja pergunta é: Qual gênero de filme você deve escolher para assistir com seus amigos com base nas preferências deles?
Observe que geramos uma pergunta inicial que só poderá ser respondida a partir dos dados. Isto significa dizer que precisaremos coletar dados, analisá-los e, por fim, interpretá-los para tomar uma decisão. Por este motivo, esta pergunta é definida como pergunta estatística. A partir dela todas as outras etapas do ciclo dos dados serão direcionadas, a fim de respondê-la. A Figura 1.6 indica como cada etapa se desenvolve.
Mas, como saber se temos uma pergunta estatística ou não? Lembre-se que uma pergunta estatística deve atender os requisitos citados no parágrafo anterior. Portanto, se eu te perguntasse:
- “Quantos anos você tem?”,
esta seria uma questão estatística?
Bom, você me responderia a sua idade. Porém, não seria necessário coletar mais dados para responder a pergunta, pois apenas uma única observação já foi suficiente. Ou seja, a etapa de análise de dados não se faz necessária e por isso, não chegamos à etapa de interpretação dos dados. Por estes motivos, comprovamos que esta questão não é uma pergunta estatística, pois não indica variabilidade.
Uma pergunta estatística sinaliza a variabilidade dos dados, que acontece quando existem observações que diferem da maioria registrada.
Podemos adaptar a pergunta para que ela se torne uma questão estatística! No caso, poderíamos perguntar: “Qual é a idade dos estudantes do Projeto Ciência de Dados na Educação Pública?”. Ao coletar a idade de cada estudante perceberemos que muitas se repetem, mas também há algumas que variam. Por exemplo, observamos estudantes de 11 a 15 anos. Todas as observações coletadas poderiam ser dispostas em um gráfico ou tabela que seriam usados para mostrar o padrão de idades da turma de estudantes do projeto. Graficamente, notamos que a maioria das idades equivale a 14 anos! Assim, todas as etapas do ciclo de dados se cumprem para responder esta pergunta.
Veja a Figura 1.7 que aponta diferenças entre estes dois tipos de perguntas.
Outro conceito relevante para qualquer investigação, é que para responder a uma pergunta estatística, podemos estabelecer hipóteses, que pode ser considerada como uma suposição que será testada ao longo do processo. Esta hipótese pode estar correta, neste caso ajudando a solucionar o problema, ou pode estar incorreta. Neste caso, precisamos investigar os motivos pelos quais ela é incorreta, e pode até indicar que a nossa pergunta precisa ser melhorada. Pense no caso do nosso exemplo dos filmes, poderíamos estabelecer uma hipótese onde arriscamos dizer qual será o gênero preferido. Bom, esta hipótese será testada ao longo da investigação, e ao final, poderemos dizer se estava certa ou não.
1.3 Estruturando os dados
Após definir a pergunta estatística, devemos coletar os dados e armazená-los em algum formato. Chamamos de estrutura de dados o formato em que estes dados ficam armazenados.
A tabela é uma forma muito comum de se estruturar dados, embora não seja a única. Este formato é comum pois os dados ficam dispostos de uma forma organizada e de fácil entendimento.
A tabela é composta por linhas e colunas. Veja como exemplo a Tabela 1:
Nome | Filme assistido | Gênero | |
---|---|---|---|
Gabrielle | Entre Realidades | Drama | |
Gabrielle | Getúlio | Drama | |
Gabrielle | Até que a sorte nos separe | Comédia | |
Gabrielle | Terremoto: A falha de San Andreas | Ação | |
Karen | A Lista de Schindler | Drama | |
Karen | Férias Frustradas | Comédia | |
Karen | Letra e Música | Romance | |
Karen | Pantera Negra | Ação | |
Isaac | Madagascar | Comédia | |
Isaac | Karatê Kid | Ação | |
Isaac | Um senhor estagiário | Comédia | |
Isaac | A mulher de preto | Terror |
Observe que as colunas trazem as características dos dados que coletamos. Já as linhas trazem observações coletadas para cada pessoa, a respeito dessas características. Para uma mesma característica as observações variam. Por exemplo, para a característica “Gênero” existem diversas observações diferentes. O mesmo ocorre com as outras características. Portanto, a tabela também permite enxergar a variação presente nos dados. No capítulo 2 você aprenderá a elaborar e interpretar tabelas de forma mais aprofundada.
Além de representar os dados por meio de tabelas, você aprenderá no capítulo 3 como representar os dados de forma gráfica. Este formato permite visualizar as informações de uma forma mais clara e mais explicativa.
1.4 Identificando o tipo de problema
Um grande diferencial da Ciência de Dados é a investigação sobre o que os dados revelam acerca do futuro. Portanto, esta ciência não só obtém diagnósticos sobre situações já ocorridas como também traz insights sobre o que pode acontecer (Lembra deste termo? São aquelas sacadas que comentamos no início do capítulo). A isto chamamos de predição.
Parte do trabalho da Ciência de Dados é realizar predições, e para isto, existem métodos estatísticos que podem ser aplicados. Em geral, podemos dividir as situações em problemas de Regressão ou Classificação. A Figura 1.8 exemplifica estes métodos.
Você irá aprender detalhadamente como aplicar estes métodos nos capítulos 9 e 10 deste e-book.
1.5 Considerações finais
Neste capítulo você foi apresentado à área de Ciência de Dados e percebeu como ela está presente no nosso dia a dia. Outro ponto relevante foi a percepção da nossa atividade enquanto consumidores e geradores de dados. Esta nova forma de gerar informações exige um conhecimento mínimo sobre como podemos ser influenciados a todo tempo.
Vamos finalizar o nosso exemplo? Na tabela que construímos, temos 4 observações para cada pessoa. Ao analisarmos quantas vezes cada gênero aparece, temos:
- Drama: 3 observações
- Comédia: 4 observações
- Ação: 3 observações
- Romance: 1 observação
- Terror: 1 observação
Ao analisar o grupo de observações percebemos que o gênero Comédia aparece mais vezes no nosso conjunto de dados. Ao verificar a tabela, é possível notar que ele aparece pelo menos uma vez para cada pessoa. Portanto, é uma preferência comum a todo o grupo. Por isso, se você escolher um filme deste gênero sua chance de acerto será alta, concorda?
A Figura 1.9 sintetiza os conceitos discutidos neste capítulo introdutório.
Viu quantos conteúdos novos você aprendeu neste capítulo? Este aprendizado vai se aprofundar mais à medida que você avançar no estudo deste e-book e tiver curiosidade em relação aos assuntos abordados! A Ciência de Dados tem revolucionado os setores onde é aplicada, pois busca constantemente obter respostas valiosas. Portanto, o cientista de dados é movido pela curiosidade!