Chapter 1 Introduction à la statistique descriptive
La statistique descriptive est une branche de la statistique qui vise à résumer et à décrire les caractéristiques essentielles d’un ensemble de données. Elle permet de mieux comprendre les données et de d’affiner les questions sur la population cible. Dans ce premier chapitre, nous explorerons les concepts fondamentaux de la statistique descriptive.
1.1 Population et échantillon
Lorsque nous effectuons une étude statistique, nous nous intéressons généralement à une certaine population.
Definition 1.1 (Population) Une population désigne un ensemble complet des individus, des objets ou des événements que nous souhaitons étudier.
Definition 1.2 (Individu) Le terme individu désigne toute unité d’une population cible.
Example 1.1 Si nous menons une étude sur la taille des élèves d’une école, la population serait l’ensemble de tous les élèves de cette école. Tout élève de l’école en question serait un individu.
Cependant, il est souvent difficile ou coûteux de collecter des données sur l’ensemble de la population. Dans de tels cas, nous utilisons un échantillon.
Definition 1.3 (Échantillon) En statistique, un échantillon est tout sous-ensemble d’individus sélectionnés (aléatoirement) de la population, sur lesquels les données sont recueillies.
L’analyse statistique est ensuite effectuée sur l’échantillon, et les résultats sont généralisés à la population.
Example 1.2 Nous pourrions sélectionner aléatoirement \(n=100\) élèves parmi tous les élèves de l’école pour constituer notre échantillon.
1.2 Variables ou caractères - Modalités
Lorsque nous étudions une population ou un échantillon, nous nous intéressons généralement à certaines variables encore appelées caractères. Par exemple, dans notre étude sur la taille des élèves d’une école, la taille est la variable ou le caractère d’intérêt.
Definition 1.4 (Variable ou Caractère) Une variable ou un Caractère est une application \(X\) définie de l’ensemble de la population \(\Omega\) dans un ensemble de valeurs \(\mathbb{V}\). On note \(x_i=X(i)\) la valeur prise par la variable \(X\) sur un individu \(i\).
Definition 1.5 (Modalité) On appelle modalité toute valeur possible d’une variable.
Les données statistiques sont les observations d’un certain nombre de variables d’intérêt sur un échantillon.
1.3 Les types de données
Les données peuvent être classées en quatre types principaux :
Données nominales (ou catégorielle, ou qualitative nominales) : Elles sont des catégories ou des étiquettes qui ne peuvent pas être ordonnés. Par exemple, le sexe d’une personne (homme/femme) est une donnée nominale.
Données ordinales (ou qualitatives ordinales) : Elles sont similaires aux données nominales, mais les modalités peuvent être ordonnées. Par exemple, l’évaluation d’un produit sur une échelle de 1 à 5 est une donnée ordinale.
Données quantitatives continues : Elles sont des variables numériques qui peuvent prendre une infinité de valeurs dans un intervalle donné. Par exemple, la taille d’une personne en centimètres est une donnée continue.
Données quantitatives discrètes : Elles sont également des variables numériques, mais elles ne peuvent prendre que des valeurs spécifiques ou dénombrables. Par exemple, le nombre de frères et sœurs d’une personne est une donnée discrète.
1.4 Mesures de tendance centrale
Les mesures de tendance centrale nous permettent de résumer la position centrale d’un ensemble de données. Les trois mesures de tendance centrale les plus couramment utilisées sont :
La moyenne : La moyenne est la somme de toutes les valeurs divisée par le nombre total de valeurs. Elle est sensible aux valeurs aberrantes et peut être influencée par des valeurs extrêmes.
La médiane : La médiane est la valeur du milieu lorsque les données sont triées par ordre croissant. Elle est moins sensible aux valeurs aberrantes que la moyenne et est souvent utilisée lorsque les données sont asymétriques.
Le mode : Le mode est la valeur qui apparaît le plus fréquemment dans un ensemble de données. Il peut y avoir plusieurs modes ou aucun mode du tout.
1.5 Mesures de dispersion
En plus des mesures de tendance centrale, nous utilisons également des mesures de dispersion pour évaluer la variation ou la dispersion des données. Les mesures de dispersion les plus couramment utilisées sont :
La variance : La variance mesure la dispersion des données par rapport à la moyenne. Une variance élevée indique une dispersion plus importante des données.
L’écart-type : L’écart-type est la racine carrée de la variance. Il est couramment utilisé car il a la même unité que les données originales.
L’étendue : L’étendue est la différence entre la valeur maximale et la valeur minimale dans un ensemble de données. Elle donne une indication de la plage totale des valeurs observées.
1.6 Conclusion
Ce premier chapitre a posé les bases de la statistique descriptive en introduisant les types de données et les mesures de tendance centrale et de dispersion. Dans les chapitres suivants, nous explorerons davantage ces concepts et nous plongerons dans des techniques plus avancées pour analyser et interpréter les données.
Prenez le temps de vous familiariser avec ces concepts avant de passer au chapitre suivant, où nous explorerons en détail la statistique descriptive univariée.
1.7 Exercices
1.7.1 Exercice
Voici une série de questions à choix multiples (QCM) pour consolider les notions abordées dans le premier chapitre de votre livre sur l’introduction à la statistique descriptive :
- Qu’est-ce qu’une donnée nominale ?
- a) Une donnée numérique continue
- b) Une donnée classée par ordre
- c) Une catégorie ou une étiquette sans ordre spécifique
- Quelle mesure de tendance centrale est moins sensible aux valeurs aberrantes ?
- a) La moyenne
- b) La médiane
- c) Le mode
- Quelle mesure de dispersion indique la différence entre la valeur maximale et la valeur minimale ?
- a) La variance
- b) L’écart-type
- c) L’étendue
- Qu’est-ce qu’une population dans le contexte statistique ?
- a) Un sous-ensemble d’individus sélectionnés pour une étude
- b) L’ensemble complet des individus, des objets ou des événements étudiés
- c) Une mesure de tendance centrale
- Que désigne le terme “caractère” en statistique ?
- a) Une mesure de dispersion
- b) Une variable numérique continue
- c) Une caractéristique spécifique d’un individu ou d’un objet étudié
- Qu’est-ce qu’un échantillon dans le contexte statistique ?
- a) L’ensemble complet des individus, des objets ou des événements étudiés
- b) Un sous-ensemble d’une population sélectionné pour une étude
- c) Une mesure de tendance centrale
- Quelle mesure de tendance centrale est utilisée pour représenter la valeur la plus fréquente dans un ensemble de données ?
- a) La moyenne
- b) La médiane
- c) Le mode
- Quelle mesure de dispersion est utilisée pour quantifier la variabilité des données par rapport à la moyenne ?
- a) La variance
- b) L’écart-type
- c) L’étendue
- Quelle est la différence entre les données continues et les données discrètes ?
- a) Les données continues peuvent prendre n’importe quelle valeur dans un intervalle, tandis que les données discrètes ne peuvent prendre que des valeurs spécifiques ou dénombrables.
- b) Les données continues sont classées par ordre, tandis que les données discrètes sont des catégories ou des étiquettes.
- c) Il n’y a pas de différence, ce sont des termes interchangeables.
- Quel est le rôle de la statistique descriptive ?
- a) Analyser les relations causales entre les variables
- b) Résumer et décrire les caractéristiques d’un ensemble de données
- c) Concevoir des expériences pour collecter des données
- Quelle mesure de tendance centrale est affectée par les valeurs extrêmes ?
- a) La moyenne
- b) La médiane
- c) Le mode
- Quelle mesure de dispersion fournit une estimation de la dispersion des données autour de la moyenne ?
- a) La variance
- b) L’écart-type
- c) L’étendue
- Qu’est-ce qu’une variable catégorielle ?
- a) Une variable numérique continue
- b) Une variable classée par ordre
- c) Une variable avec des catégories ou des étiquettes
- Qu’est-ce qu’une variable numérique continue ?
- a) Une variable avec des catégories ou des étiquettes
- b) Une variable classée par ordre
- c) Une variable qui peut prendre n’importe quelle valeur dans un intervalle donné
- Qu’est-ce que l’échantillonnage aléatoire ?
- a) Sélectionner un échantillon de manière à représenter la population étudiée
- b) Sélectionner un échantillon sans critère spécifique
- c) Sélectionner un échantillon en suivant un ordre spécifique
- Qu’est-ce que la médiane d’un ensemble de données ?
- a) La valeur la plus fréquente dans l’ensemble de données
- b) La valeur qui divise l’ensemble en deux parties égales
- c) La moyenne des valeurs de l’ensemble de données
- Qu’est-ce que l’écart-type ?
- a) Une mesure de dispersion qui indique la différence entre la valeur maximale et la valeur minimale d’un ensemble de données
- b) Une mesure de dispersion qui représente la variation des données par rapport à la moyenne
- c) Une mesure de tendance centrale qui représente la valeur la plus fréquente dans un ensemble de données
- Qu’est-ce que la variance ?
- a) Une mesure de dispersion qui représente la variation des données par rapport à la moyenne
- b) Une mesure de dispersion qui indique la différence entre la valeur maximale et la valeur minimale d’un ensemble de données
- c) Une mesure de tendance centrale qui représente la valeur la plus fréquente dans un ensemble de données
- Qu’est-ce que l’étendue d’un ensemble de données ?
- a) La valeur qui divise l’ensemble de données en deux parties égales
- b) La différence entre la valeur maximale et la valeur minimale de l’ensemble de données
- c) La somme des valeurs de l’ensemble de données
- Qu’est-ce que le mode d’un ensemble de données ?
- a) La valeur la plus fréquente dans l’ensemble de données
- b) La moyenne des valeurs de l’ensemble de données
- c) La valeur qui divise l’ensemble en deux parties égales
Réponses : 1. c) Une catégorie ou une étiquette sans ordre spécifique 2. b) La médiane 3. c) L’étendue 4. b) L’ensemble complet des individus, des objets ou des événements étudiés 5. c) Une caractéristique spécifique d’un individu ou d’un objet étudié 6. b) Un sous-ensemble d’une population sélectionné pour une étude 7. c) Le mode 8. b) L’écart-type 9. a) Les données continues peuvent prendre n’importe quelle valeur dans un intervalle, tandis que les données discrètes ne peuvent prendre que des valeurs spécifiques ou dénombrables. 10. b) Résumer et décrire les caractéristiques d’un ensemble de données 11. a) La moyenne 12. b) L’écart-type 13. c) Une variable avec des catégories ou des étiquettes 14. c) Une variable qui peut prendre n’importe quelle valeur dans un intervalle donné 15. a) Sélectionner un échantillon de manière à représenter la population étudiée 16. b) La valeur qui divise l’ensemble en deux parties égales 17. b) Une mesure de dispersion qui représente la variation des données par rapport à la moyenne 18. a) Une mesure de dispersion qui représente la variation des données par rapport à la moyenne 19. b) La différence entre la valeur maximale et la valeur minimale de l’ensemble de données 20. a) La valeur la plus fréquente dans l’ensemble de données
Ces questions devraient aider les lecteurs à vérifier leur compréhension des concepts clés du premier chapitre de votre livre sur la statistique descriptive.