4.3 Levantamento dos Dados e Informações

A representação gráfica de dados públicos é uma prática muito comum na área de Data Science. Entretanto, o processo de representação de informações está sujeito inicialmente à qualidade da pesquisa, ou seja, ele é tão mais relevante para sua interpretação quanto mais precisa é a informação. Mas não apenas estes elementos são importantes, a seleção adequada das formas gráficas, cores e aspectos dinâmicos podem interferir nesse desempenho do uso da informação. A ciência de dados formalmente tem as seguintes etapas: coleta, limpeza, análise exploratória, desenvolvimento e implementação do modelo. Em quase todas as etapas, a visualização de dados tem um papel fundamental como ferramenta na construção da informação. Assim, o elemento da visualização de dados pode ser utilizado como forma de introdução do estudante de escola pública na área de dados da sua cidade e em paralelo como mecanismo de familiarização com ciência de dados. O processo de construção de informações é razoavelmente longo e pode surgir de diferentes objetivos e enfrenta limitações para realização das pesquisas de campo, bem como o registro e gestão desta informação. Estes aspectos são a priori essenciais para determinar a qualidade da informação obtida, bem como a capacidade de ajudar em análises estatísticas. O acesso aos diferentes níveis de informação, a forma como é disponibilizada também limita a capacidade de análise. O IBGE por exemplo possibilita por meio de um cadastro e treinamento para grupos pré-avaliados, a forma mais elementar da suas pesquisas num sistema chamado Banco Multidimensional de Estatísticas (BME) que contém os microdados das pesquisas e os respectivos metadados. Recentemente, a Escola Nacional de Administração Pública (Enap) vinculada ao Ministério da Economia (ME), produziu o livro Guia brasileiro de análise de dados: armadilhas & soluções, neste documento são demonstrados de forma não tão introdutória os principais desafios em diferentes bancos de dados públicos. Ainda na apresentação do livro os autores são bem enfáticos em apontar que mesmo pesquisadores experientes, frente a um banco de dados novos, podem cometer equívocos na interpretação das informações. Alcançar o público dos estudantes não é uma tentativa isolada, é muito comum no mundo científico, especialmente em instituições de pesquisa e museus a prática de desenvolvimento de materiais didáticos, paradidáticos, jogos e ações para difusão do conhecimento científico para estudantes. Instituições como a Fiocruz, CEMADEN, Butantan, INPE e etc, promovem estes tipos de ações com recortes específicos das respectivas áreas. Quando tratamos de uma cidade, do meio urbano, da geografia temos IBGE que dispõem de ações como Educa IBGE dedicado a crianças e adolescentes. A maioria desses materiais e sistemas em certa medida estão distantes da realidade estudantil e fica necessário o papel da escola realizar esta aproximação de vivência do estudante e as informações e materiais disponíveis por essas instituições. O desenvolvimento do site por meio da visualização de dados da cidade de Salvador cumpre de forma mais adequada este papel.
Nas escolas públicas há uma grande variedade de experiências dos estudantes e por outro lado há uma mudança da forma de apresentação das informações que cada vez mais ampliam em qualidade e quantidade devido aos avanços tecnológicos. Devido às pressões geradas para a tomada de decisões baseada em informações de instituições ligadas ao governo federal, estadual e prefeituras municipais há uma necessidade clara da preparação do estudante para este mundo da informação e tecnologia. Letrar-se neste universo complexo e de disputas de narrativas exige o conhecimento empírico do mundo da informação como posta e a sua plena mudança. O caminho estabelecido pelo mundo das ferramentas livres, bem como a legislação de dados abertos abre possibilidades sem precedentes. A inclusão dos estudantes neste universo é uma ação de acesso a linguagem com que o mundo realiza as suas disputas, exclusões e recorte de oportunidades.
Desde o procedimento de pesquisa para coleta de dados de interesse públicos, o objetivo que definiu a necessidade dessa informação e a política de disponibilização de informações configuram um cenário bastante sensível às interpretações. Dado o contexto de letramento em dados deve-se considerar que devemos potencializar a aproximação dos estudantes aos dados por meio das suas próprias experiências. Neste sítio em desenvolvimento desejamos a priori que o estudante tenha uma imersão em séries históricas de dados sobre a evolução da população, crimes, eventos esportivos, educação etc. Todos esses temas relacionados à cidade de Salvador. Naturalmente, em alguma medida o estudante é capaz de interpretar informações de outras cidades e quiçá outros países, mas a hipótese essencial do projeto é que mergulhado na sua realidade o estudante vai além da interpretação ingênua. Ele torna-se capaz de argumentar sobre sua realidade. Passa dessa maneira a ser agente de proposição confrontado com pares com conhecimento e vivências similares. Essa dinâmica foi experimentada em certa medida em encontros realizados com 30 estudantes de 5 escolas públicas de Salvador. O levantamento das informações que auxiliam nas respostas às perguntas disparadoras dos estudantes são realizadas com os seguintes pilares:

  • Os dados tem que ser abertos;
  • Disponibilizados em sites de governos e organizações não governamentais, preferencialmente que sejam tabulados e rastreáveis;
  • Aqueles que promovam debates interessantes aos estudantes e professores.

Respeitado tais critérios, também é necessário algum desenvolvimento para a qualificação do dado ou informação. Dada a complexidade dos bancos de dados disponibilizados ao nível de microdados (desagregados de forma individualizada) é preciso um processo de compatibilização entre os diferentes anos e ao final é preciso uma etapa de verificação da informação. Após esta etapa, é da natureza deste trabalho a verificação visual da informação como forma de avaliação da riqueza da informação como meio de um processo educativo. Assim, essas etapas metodológicas são cumpridas por meio de recursos de programação como linguagens python, R, Bash e recursos de captura de informações de pdf.
Na lista abaixo descrevemos alguns avanços dos bancos de dados ligados aos temas e questões apresentados pelos estudantes e professores participantes de atividades do projeto Meninas nas Ciências de Dados - 2019:

4.3.1 Dados de População

Informações sobre a população brasileira em geral são disponibilizadas de forma desagregada ao nível dos municípios pelos produtos gerados pelo Instituto Brasileiro de Geografia e Estatística (IBGE), de forma organizada tais informações são encontradas no site (https://cidades.ibge.gov.br/). Particularmente no livro Geografia de Salvador de Andrade, Adriano Bittencourt (2009) é apresentado levantamento de informações sobre a dimensão da população de Salvador em épocas que precedem a existência do IBGE, partindo de meados do século XVI até o ano 2000 (Censo demográfico de 2000). O interesse dos estudantes em dados não é limitado à evolução do tamanho absoluto da população, mas suas divisões etárias, de gênero e raça que foram exploradas para composição do banco de dados do projeto. O subtema da população é muito central no debate sobre Salvador e o coloca num dos maiores desafios de desigualdade social encontrado nas metrópoles brasileiras. Portanto, o uso dos dados do Censo Demográfico são fundamentais na composição dos bancos de dados. Mas a imersão do estudante na sua localidade pode ser melhor explorada quando a informação é desagregada ao nível do seu bairro, como disponibilizado pela Casa Civil da prefeitura de Salvador (http://casacivil.salvador.ba.gov.br). O Programa das Nações Unidas para o Desenvolvimento (PNUD) construiu um resumo de informações sobre Salvador que está digitalmente apresentado na página (http://www.atlasbrasil.org.br/perfil/municipio/292740#sec-demografia), na qual os dados estão desagregados por sexo biológico e raça. Embora sejam dados simples, eles remetem aos eixos transversais de temas críticos nas dimensões de desigualdade social.

4.3.2 Dados de Educação

Os dados de educação do ensino básico, fundamental e superior estão disponíveis como dados abertos no site do Instituto Nacional de Estudos e Pesquisas Anísio Teixeira - INEP. Os dados de educação utilizados são oriundos do Censo Escolar dos anos de 2009-2019, Censo do Ensino Superior de 2009-2019, dados georreferenciados das escolas públicas de Salvador (site: http://educacao.salvador.ba.gov.br/educacao-em-numeros/), arquivos vetoriais georreferenciados dos bairros e das prefeituras bairro de Salvador foram obtidos a partir de cooperação da Secretaria da Fazenda. Algumas informações foram obtidas do Atlas Brasil - PNUD Programa das Nações Unidas para o Desenvolvimento. Parte das informações construídas de tais bancos foram verificadas por meio do site: https://www.qedu.org.br/. Informações ligadas ao Ensino Superior são verificadas pela comparação entre relatórios institucionais de universidades como os gerados pela Pró-Reitoria de Planejamento e Orçamento da Universidade Federal da Bahia (Proplan/UFBA) e a agregação de microdados disponibilizados pelo Instituto Nacional de Educação Anísio Teixeira. Informações sobre a estrutura das escolas, no formato de dashboard, foram disponibilizadas pelo pesquisador em Dados Abertos Fernando Barbalho.

4.3.3 Dados de Turismo

Dados de Turismo foram coletados a partir de informações disponibilizadas a partir de relatórios das Secretaria de Turismo do Estado da Bahia – SETUR, Superintendência de Investimentos em Zonas Turísticas – SUINVEST, Diretoria de Planejamento Turístico – DPT. Detalhamento sobre ocupação de hotéis, número de voos diários nacionais e internacionais foram organizados como banco de dados utilizando informações do Observatório do Turismo da Bahia (http://www.observatorio.turismo.ba.gov.br/). A natureza da sensação de segurança do turista em Salvador foi avaliado no Relatório do Perfil do Turista que visita o Carnaval de Salvador (2019). Informações disponíveis neste relatório podem auxiliar professores e estudantes a refletir sobre a interseção dos temas.

4.3.4 Dados de segurança pública

A Secretaria de Segurança Pública do Estado da Bahia SSP-BA (http://www.ssp.ba.gov.br/) disponibiliza seus boletins mensais de crimes violentos contra vida e crimes contra patrimônio, estas informações estão desagregadas pelas Áreas Integradas de Segurança Pública (AISP), a cidade de Salvador contém 16 AISPs. A partir de tais dados foi organizado o primeiro banco de dados de segurança com 9 crimes, entretanto tais informações não atingem o detalhamento dos temas transversais de gênero e raça. Recentemente, uma publicação realizada pela Rede de Observatórios da Segurança traz um caminho para obtenção de informações desagregadas por gênero e raça por meio dos relatórios A cor da violência na Bahia - Uma análise dos homicídios e violência sexual na última década (2017) e Racismo Motor da Violência (2020). As informações apresentadas em tais relatórios são obtidas do SINAN/DATASUS e IBGE. Entretanto, diferente do site da SSP-BA, as informações disponibilizadas de mortes por agressão do sistema CID10 - TabNet - DataSUS não são desagregadas por AISP. Algumas informações a respeito das corporações foram obtidos por meio do Painel do Perfil Nacional das Instituições de Segurança Pública (2019) que inclui informações da Polícia Militar, Polícia Civil e Corpo de Bombeiros produzido pelo Ministério da Justiça e Segurança Pública. Estes dados são desagregados por unidades da federação com os recortes dedicados às capitais.

4.3.5 Dados da área de transporte {dadosat}

Quanto aos dados da infraestrutura do sistema de transporte de Salvador foram obtidos pelo Anuário de Transportes Urbanos de 2018, produzido pela Secretaria de Mobilidade de Salvador (Semob) no qual é levantado um histórico da evolução das frotas de veículos de Salvador, informações sobre tarifas, veículos com elevadores. Os dados disponibilizados não incluem o recorte sócio-econômico do sistema de transporte urbano ou o debate do sistema cicloviário da cidade. As informações identificadas estão disponibilizadas apenas no formato pdf. Portanto, foi criado um banco de dados com tais informações bem como dados disponibilizados pela prefeitura a respeito das notificações de infrações de trânsito que são desagregadas de forma individualizada, identificando apenas o veículo pelo número da placa e o tipo de infração. Um recorte especial foi realizado para as operações da Lei Seca, que incluem dados mensais das infrações desagregadas por recusa administrativa, crimes e outras. As informações sobre o trânsito de Salvador também são acompanhadas em tempo real por meio de um painel dinâmico que apresenta as principais vias e suas velocidades e a classifica a qualidade do trânsito de Salvador. Outra forma de acompanhamento é realizada pela disponibilização de boletins diários de trânsito do Núcleo de Operação Assistida (NOA) que informam os acidentes diários ocorridos em Salvador, porém, não há disponibilização de todos os documentos, apenas do dia anterior.

4.3.6 Dados de Saúde

Os dados da área de saúde foram coletados a partir do sistema DATASUS, por meio do Tabnet atualizado pela Secretaria Municipal de Saúde de Salvador. As consultas ao sistema são realizadas via esta interface web que divide a informação em três áreas principais, Assistência a Saúde, Estatísticas Vitais e Notificações de Agravos. As informações coletadas neste banco de dados são pertinentes não só para a área de saúde mas também para a composição das classes do site como população e meio ambiente.

4.3.7 Dados de Meio Ambiente

Os dados de meio ambiente estão disponíveis no site Painel do Saneamento Brasil, desenvolvido pelo Instituto Trata Brasil. O Sistema Nacional de Informações sobre Saneamento (SNIS), disponibiliza séries históricas de dados de água, esgoto, resíduos sólidos e outras informações desagregadas por municípios. É necessário, contudo, reforçar na produção de materiais didáticos a qualidade das informações apresentadas. Frequentemente, especialistas criticam o nível de incerteza das informações disponibilizadas em nossos sistemas. Além disso, o Brasil sofre adicionalmente com a condição precária da baixa cobertura do saneamento básico.

4.3.8 Dados de Emprego e Trabalho

Os dados da área de Emprego e Trabalho estão disponíveis no Sistema IBGE de Recuperação Automática (SIDRA). Este sistema possui uma interface interessante para poucas coletas de dados, ou tabelas específicas. Iniciativas para facilitar a coleta de dados do sistema de forma mais ampla foi criada para a linguagem R, o pacote em questão é o sidraR. Utilizando esta biblioteca sidraR foi possível coletar dados da Pesquisa Nacional de Amostra a Domicílio (PNAD) que contém informações sobre população ocupada, população em idade de trabalhar, rendimento médio da população etc. O pacote permite que você defina tanto a abrangência temporal quanto geográfica. A frequência disponível dessas informações varia desde anual até mensal. E quanto a abrangência geográfica pode variar desde nacional até municipal. Essa integração facilita a automatização de materiais didáticos pois dispensa a necessidade de atualização do banco de dados uma vez que essa recuperação pode ser feita por meio do pacote utilizando apenas a informação do número da tabela.

Nem todas as informações coletadas durante o processo de atendimento das perguntas dos estudantes são utilizadas para este fim específico. Algumas informações são necessárias para a construção de contexto para amplo debate com o estudante. A ponte entre os materiais desenvolvidos nos ebooks e a transversalidade no contexto geral de gênero e raça são pontos focais das questões originais e no levantamento dos dados. É necessário que os professores e os estudantes debatam a origem das fontes dos dados e compreendam quais instituições têm promovido a democratização da informação para a transformação dos indivíduos.

A exploração destes dados, frente ao escopo de perguntas elaborado no projeto Meninas na Ciência de Dados, norteou a construção de visualizações gráficas, incluídas como estratégia de desenvolvimento de letramento em dados e estatística nos encontros semanais (Ver Figura 4.16).

Exploração dos temas de Segurança Pública e de Mobilidade Urbana.

Figura 4.16: Exploração dos temas de Segurança Pública e de Mobilidade Urbana.