Introduction

Ce projet d’analyse de donnés consiste à l’explication de différentes manières du nombre de crime aux Etats-Unis. Pour se faire, nous disposons d’un jeu de disponible sur GitHub que nous appellerons Comminities(Télécharger) dorénavant.

communityname State countyCode communityCode fold
BerkeleyHeightstownship NJ 39 5320 1
Marpletownship PA 45 47616 1
Tigardcity OR ? ? 1
Gloversvillecity NY 35 29443 1
Bemidjicity MN 7 5068 1

Description du jeu de données

Le jeu de données dispose de 147 variables pour 2215 observations. Les valeurs manquantes sont représentées par "?".
De nombreuses variables sont incluses afin que les algorithmes qui sélectionnent ou apprennent les poids des attributs puissent être testés. Cependant, les attributs clairement non liés n’ont pas été inclus; les attributs ont été sélectionnés s’il y avait un lien plausible avec la criminalité (N = 125), plus les variables de criminalité qui sont des variables dépendantes potentielles. Les variables incluses dans l’ensemble de données impliquent la communauté, telles que le pourcentage de la population considérée comme urbaine et le revenu familial médian, et impliquent l’application de la loi, telles que le nombre d’agents de police par habitant et le pourcentage d’agents affectés aux unités de lutte contre la drogue. Les attributs de crime (N = 18) qui pourraient être prédits sont les 8 crimes considérés comme des «crimes indexés» par le FBI (Meurtres, viols, vols qualifiés, …. ), versions par habitant (en fait pour 100 000 habitants) de chacun, et crimes violents par habitant et crimes non violents par habitant).
Pour faciliter la tâche aux lecteurs de se projet, nous avons créés un fichier csv nommé Description.csv(Télécharger) qui contient les noms des variables dans la colonne feature et leur descriptions dans la colonne Description

feature Description
communityname Community name - not predictive - for information only (string)
state US state (by 2 letter postal abbreviation)(nominal)
countyCode numeric code for county - not predictive, and many missing values (numeric)
communityCode numeric code for community - not predictive and many missing values (numeric)
fold fold number for non-random 10 fold cross validation, potentially useful for debugging, paired tests - not predictive (numeric - integer)
population population for community

Source des données

(UCI Machine Learning)1