Introduction

Ce projet d’analyse de donnés consiste à l’explication de différentes manières du nombre de crime aux Etats-Unis. Pour se faire, nous disposons d’un jeu de disponible sur GitHub que nous appellerons Comminities(Télécharger) dorénavant.

communityname	State	countyCode	communityCode	fold
BerkeleyHeightstownship	NJ	39	5320	1
Marpletownship	PA	45	47616	1
Tigardcity	OR	?	?	1
Gloversvillecity	NY	35	29443	1
Bemidjicity	MN	7	5068	1

Description du jeu de données

Le jeu de données dispose de 147 variables pour 2215 observations. Les valeurs manquantes sont représentées par "?".
De nombreuses variables sont incluses afin que les algorithmes qui sélectionnent ou apprennent les poids des attributs puissent être testés. Cependant, les attributs clairement non liés n’ont pas été inclus; les attributs ont été sélectionnés s’il y avait un lien plausible avec la criminalité (N = 125), plus les variables de criminalité qui sont des variables dépendantes potentielles. Les variables incluses dans l’ensemble de données impliquent la communauté, telles que le pourcentage de la population considérée comme urbaine et le revenu familial médian, et impliquent l’application de la loi, telles que le nombre d’agents de police par habitant et le pourcentage d’agents affectés aux unités de lutte contre la drogue. Les attributs de crime (N = 18) qui pourraient être prédits sont les 8 crimes considérés comme des «crimes indexés» par le FBI (Meurtres, viols, vols qualifiés, …. ), versions par habitant (en fait pour 100 000 habitants) de chacun, et crimes violents par habitant et crimes non violents par habitant).
Pour faciliter la tâche aux lecteurs de se projet, nous avons créés un fichier csv nommé Description.csv(Télécharger) qui contient les noms des variables dans la colonne feature et leur descriptions dans la colonne Description

feature	Description
communityname	Community name - not predictive - for information only (string)
state	US state (by 2 letter postal abbreviation)(nominal)
countyCode	numeric code for county - not predictive, and many missing values (numeric)
communityCode	numeric code for community - not predictive and many missing values (numeric)
fold	fold number for non-random 10 fold cross validation, potentially useful for debugging, paired tests - not predictive (numeric - integer)
population	population for community

Source des données

(UCI Machine Learning)¹

UCI Machine Learning : https://archive.ics.uci.edu/ml/datasets/Communities+and+Crime+Unnormalized#↩︎

Annalyse de données

Annalyse de données

Introduction

Description du jeu de données

Source des données