Chapter 1 Introduction à la statistique descriptive

La statistique descriptive est une branche de la statistique qui vise à résumer et à décrire les caractéristiques essentielles d’un ensemble de données. Elle permet de mieux comprendre les données et de d’affiner les questions sur la population cible. Dans ce premier chapitre, nous explorerons les concepts fondamentaux de la statistique descriptive.

1.1 Population et échantillon

Lorsque nous effectuons une étude statistique, nous nous intéressons généralement à une certaine population.

Definition 1.1 (Population) Une population désigne un ensemble complet des individus, des objets ou des événements que nous souhaitons étudier.

Definition 1.2 (Individu) Le terme individu désigne toute unité d’une population cible.

Example 1.1 Si nous menons une étude sur la taille des élèves d’une école, la population serait l’ensemble de tous les élèves de cette école. Tout élève de l’école en question serait un individu.

Cependant, il est souvent difficile ou coûteux de collecter des données sur l’ensemble de la population. Dans de tels cas, nous utilisons un échantillon.

Definition 1.3 (Échantillon) En statistique, un échantillon est tout sous-ensemble d’individus sélectionnés (aléatoirement) de la population, sur lesquels les données sont recueillies.

L’analyse statistique est ensuite effectuée sur l’échantillon, et les résultats sont généralisés à la population.

Example 1.2 Nous pourrions sélectionner aléatoirement \(n=100\) élèves parmi tous les élèves de l’école pour constituer notre échantillon.

1.2 Variables ou caractères - Modalités

Lorsque nous étudions une population ou un échantillon, nous nous intéressons généralement à certaines variables encore appelées caractères. Par exemple, dans notre étude sur la taille des élèves d’une école, la taille est la variable ou le caractère d’intérêt.

Definition 1.4 (Variable ou Caractère) Une variable ou un Caractère est une application \(X\) définie de l’ensemble de la population \(\Omega\) dans un ensemble de valeurs \(\mathbb{V}\). On note \(x_i=X(i)\) la valeur prise par la variable \(X\) sur un individu \(i\).

Definition 1.5 (Modalité) On appelle modalité toute valeur possible d’une variable.

Les données statistiques sont les observations d’un certain nombre de variables d’intérêt sur un échantillon.

1.3 Les types de données

Les données peuvent être classées en quatre types principaux :

Données nominales (ou catégorielle, ou qualitative nominales) : Elles sont des catégories ou des étiquettes qui ne peuvent pas être ordonnés. Par exemple, le sexe d’une personne (homme/femme) est une donnée nominale.
Données ordinales (ou qualitatives ordinales) : Elles sont similaires aux données nominales, mais les modalités peuvent être ordonnées. Par exemple, l’évaluation d’un produit sur une échelle de 1 à 5 est une donnée ordinale.
Données quantitatives continues : Elles sont des variables numériques qui peuvent prendre une infinité de valeurs dans un intervalle donné. Par exemple, la taille d’une personne en centimètres est une donnée continue.
Données quantitatives discrètes : Elles sont également des variables numériques, mais elles ne peuvent prendre que des valeurs spécifiques ou dénombrables. Par exemple, le nombre de frères et sœurs d’une personne est une donnée discrète.

1.4 Mesures de tendance centrale

Les mesures de tendance centrale nous permettent de résumer la position centrale d’un ensemble de données. Les trois mesures de tendance centrale les plus couramment utilisées sont :

La moyenne : La moyenne est la somme de toutes les valeurs divisée par le nombre total de valeurs. Elle est sensible aux valeurs aberrantes et peut être influencée par des valeurs extrêmes.
La médiane : La médiane est la valeur du milieu lorsque les données sont triées par ordre croissant. Elle est moins sensible aux valeurs aberrantes que la moyenne et est souvent utilisée lorsque les données sont asymétriques.
Le mode : Le mode est la valeur qui apparaît le plus fréquemment dans un ensemble de données. Il peut y avoir plusieurs modes ou aucun mode du tout.

1.5 Mesures de dispersion

En plus des mesures de tendance centrale, nous utilisons également des mesures de dispersion pour évaluer la variation ou la dispersion des données. Les mesures de dispersion les plus couramment utilisées sont :

La variance : La variance mesure la dispersion des données par rapport à la moyenne. Une variance élevée indique une dispersion plus importante des données.
L’écart-type : L’écart-type est la racine carrée de la variance. Il est couramment utilisé car il a la même unité que les données originales.
L’étendue : L’étendue est la différence entre la valeur maximale et la valeur minimale dans un ensemble de données. Elle donne une indication de la plage totale des valeurs observées.

1.6 Conclusion

Ce premier chapitre a posé les bases de la statistique descriptive en introduisant les types de données et les mesures de tendance centrale et de dispersion. Dans les chapitres suivants, nous explorerons davantage ces concepts et nous plongerons dans des techniques plus avancées pour analyser et interpréter les données.

Prenez le temps de vous familiariser avec ces concepts avant de passer au chapitre suivant, où nous explorerons en détail la statistique descriptive univariée.

Statistiques descriprives