Annalyse de données
09 June, 2022
Introduction
Ce projet d’analyse de donnés consiste à l’explication de différentes manières du nombre de crime aux Etats-Unis. Pour se faire, nous disposons d’un jeu de disponible sur GitHub que nous appellerons Comminities
(Télécharger) dorénavant.
communityname | State | countyCode | communityCode | fold |
---|---|---|---|---|
BerkeleyHeightstownship | NJ | 39 | 5320 | 1 |
Marpletownship | PA | 45 | 47616 | 1 |
Tigardcity | OR | ? | ? | 1 |
Gloversvillecity | NY | 35 | 29443 | 1 |
Bemidjicity | MN | 7 | 5068 | 1 |
Description du jeu de données
Le jeu de données dispose de 147 variables pour 2215 observations. Les valeurs manquantes sont représentées par "?"
.
De nombreuses variables sont incluses afin que les algorithmes qui sélectionnent ou apprennent les poids des attributs puissent être testés. Cependant, les attributs clairement non liés n’ont pas été inclus; les attributs ont été sélectionnés s’il y avait un lien plausible avec la criminalité (N = 125), plus les variables de criminalité qui sont des variables dépendantes potentielles. Les variables incluses dans l’ensemble de données impliquent la communauté, telles que le pourcentage de la population considérée comme urbaine et le revenu familial médian, et impliquent l’application de la loi, telles que le nombre d’agents de police par habitant et le pourcentage d’agents affectés aux unités de lutte contre la drogue. Les attributs de crime (N = 18) qui pourraient être prédits sont les 8 crimes considérés comme des «crimes indexés» par le FBI (Meurtres, viols, vols qualifiés, …. ), versions par habitant (en fait pour 100 000 habitants) de chacun, et crimes violents par habitant et crimes non violents par habitant).
Pour faciliter la tâche aux lecteurs de se projet, nous avons créés un fichier csv nommé Description.csv
(Télécharger) qui contient les noms des variables dans la colonne feature
et leur descriptions dans la colonne Description
feature | Description |
---|---|
communityname | Community name - not predictive - for information only (string) |
state | US state (by 2 letter postal abbreviation)(nominal) |
countyCode | numeric code for county - not predictive, and many missing values (numeric) |
communityCode | numeric code for community - not predictive and many missing values (numeric) |
fold | fold number for non-random 10 fold cross validation, potentially useful for debugging, paired tests - not predictive (numeric - integer) |
population | population for community |
Source des données
(UCI Machine Learning)1
UCI Machine Learning : https://archive.ics.uci.edu/ml/datasets/Communities+and+Crime+Unnormalized#↩︎