Chapter 3 Stipuler le modèle, le tester

Ici, nous allons parler de la pratique générale de construction et de test de modèles. Pour les aspects plus pratiques, nous verrons cela dans une prochaine section qui se basera sur R.

3.1 L’estimation du modèle

3.1.1 Introduction

Si construire le modèle est une étape parfois complexe, ce n’est que le premier pas de votre démarche. Inévitablement, vous allez devoir estimer les paramètres de votre modèle. Souvenez-vous qu’un MLM comporte deux paramètres dont vous souhaitez obtenir une estimation : le paramètre β des effets fixes et le paramètre u des effets aléatoires (appelé parfois le paramètre de covariance).

Y = βX + uZ + ε

Tout comme pour les tests statistiques se basant sur un modèle de régression, nous avons besoin d’un estimateur pour s’approcher au mieux de la valeur réelle de ces paramètres. Dans le cas des MLM, deux estimateurs sont couramment employés : le maximum de vraisemblance (Maximum Likelihood ; ML) et le maximum de vraisemblance restreint (Restricted Maximum Likelihood ; REML). Ces deux estimateurs sont supérieur à la méthode des moindres carrés, simplement parce qu’ils ne nécessitent pas un modèle strictement normal.

3.1.2 Le maximum de vraisemblance

En statistique, le principe de la vraisemblance est d’estimer la probabilité d’observer les données via un simulation de distribution. Plus simplement, nous générons aléatoirement une valeur du paramètre et ce, plusieurs fois. Chacune des ces valeurs va simuler une distribution des données. La répétition de cette simulation permettra de déterminer la valeur pour laquelle la probabilité d’observer la distribution des données est la plus élevée. C’est comme si nous cherchions par essai-erreur, la moyenne et l’écart-type d’une distribution. Le maximum de vraisemblance sera atteint lorsque nous serons tombés sur la moyenne et l’écart-type réels.

C’est un processus assez long et d’autant plus lorsque le modèle est complexe et/ou comprend beaucoup d’effets aléatoires.

3.1.3 ML ou REML ?

Si les deux procédures visent à estimer les paramètres des effets fixes et des effets aléatoires, elles ne le font pas tout à fait de la même manière.

Sans entrer dans des considérations mathématiques complexes, quelques points de différences :

  • ML a tendance à sous-estimer la variance réelle, d’autant plus dans un petit échantillon. Ceci est dû au fait qu’il estime les deux paramètres (fixes et aléatoires) en même temps.
  • REML estime le paramètre des effets aléatoires en fonction des effets fixes. Son estimation des effets aléatoires n’est donc pas biaisée.

Mais alors, lequel choisir ?

  • Dans la plupart des cas, ML donnera une estimation malgré tout assez fiable des paramètres.
  • Si vous voulez comparer différents modèles sur leurs facteurs fixes (et en maintenant les facteurs aléatoires identiques), préférez la méthode ML.
  • Si vous voulez comparer différents modèles sur leurs facteur aléatoires (et en maintenant les facteurs fixes identiques), préférez la méthode REML.

En effet, la méthode REML calcul les paramètres aléatoires sur la base des effets fixes. Autrement dit, si vous changez les effets fixes, vous changer les paramètres des effets aléatoires. Donc, deux modèles identiques sur les facteurs aléatoires mais différents sur les facteurs fixes ne seront pas comparables si leurs paramètres ont été estimés par REML.

  • Si vous voulez tester un modèle final (à l’issue de la comparaison de différents modèles), préférez REML qui donnera une estimation non biaisée des paramètres.

3.1.4 Problème de convergence

Il arrive parfois que l’estimation des paramètres échoue et/ou nous avertisse d’un problème de matrice. Sans rentrer dans les détails, on nous avertit ici que les paramètres ne sont peut-être pas très fiables. Pourquoi donc ?

  • Les corrélations entre les observations sont beaucoup trop fortes.

  • Le modèle est mal spécifié (trop d’effets fixes ou aléatoires, des niveaux d’interaction trop complexe, etc.).

  • Pas assez de données pour estimer le modèle.

Que faire dans ce cas ?

  • Simplifier le modèle. C’est peut-être ma solution préférée. Est-il vraiment nécessaire d’inclure cette interaction triple entre vos facteurs fixes ? Posez-vous la question.

  • Changer l’optimiseur, c’est à dire changer la manière dont l’estimateur va parvenir à la solution optimale.

  • Augmenter le nombre d’itérations avant que l’estimateur ne renonce à trouver une solution.

  • Spécifier les valeurs de départ pour l’estimation des données. Souvenez-vous que le principe de l’estimation est de choisir des valeurs au hasard. Proposer des valeurs dès le départ aidera à la convergence du modèle.

  • Changer l’échelle des données. Représenter des durées en millisecondes alors que la réponse prend plusieurs secondes ? Aucun intérêt.

  • Examiner les données. Si les MLM sont assez résistants aux designs non équivalents (ex. des groupes expérimentaux de tailles différentes), ils ne sont pas non plus permissifs. Si l’un de vos sujets ou l’un de vos items est associé à un très faible nombre de réponses, le modèle risque de ne pas converger.

  • Simplifier le modèle. Je l’ai déjà dit ? Alors c’est que c’est le plus simple et peut-être le plus important. Non sans rire, on veut souvent produire le modèle le plus complexe. Un modèle qui nous donnera l’impression d’une vérité statistique et méthodologique alors que nous n’avons pas les données nécessaires pour le tester ou que notre design n’est pas si proche que ça de notre modèle théorique (comment ça, nos deux VI ne seraient pas si indépendantes que ça ?)

Attention !! On ne supprime pas un facteur (fixe ou aléatoire) uniquement parce qu’il nous gêne. On le fait soit parce que son inclusion n’est pas justifiée théoriquement, soit parce que sa participation dans l’explication des données n’est pas significative.

3.2 Tester des modèles

3.2.1 La notion de comparaison de modèles

Analyser des données via des MLM, c’est viser à :

  • Représenter au mieux la réalité des données en tenant notamment compte d’une variabilité supplémentaire (e.g. celle des sujets ou des items).
  • Déterminer si un facteur inclus dans le modèle explique significativement ou pas une partie de la VD.

Le tout, en trouvant un équilibre entre un modèle parcimonieux et un modèle exhaustif.

Pour déterminer l’effet d’un facteur dans le cadre des MLM, nous comparons un modèle qui inclut ce facteur à un modèle qui ne l’inclut pas (comparer toutes choses égales par ailleurs, ça vous parle ?). Pour ce faire, nous pouvons utiliser les tests de ratios de vraisemblance.

3.2.2 La comparaison de modèles emboîtés

Dans le cas des modèles, le raisonnement est un peu le même puisqu’il s’agit de terminer à quel point il est vraisemblable que le modèle que nous testons explique les données que nous observons. Nous pouvons le faire pour un modèle isolé et nous aurons une valeur de vraisemblance. Mais ce qui est intéressant pour nous, c’est de savoir si ce modèle est plus vraisemblable qu’un autre.

Lorsque vous comparez les modèles, les ratios de vraisemblance des modèles sont comparés entre eux, via un Chi² (les tests de ratios de vraisemblances suivent une distribution de type Chi²). La probabilité associée au Chi² sur les rations de vraisemblance vous aiderons à déterminer si chacun des ratios est significativement meilleur (p inférieur au seuil statué) que le ratio précédent.

Ces tests de ratios de vraisemblances fonctionnement aussi bien pour les effets fixes que pour les effets aléatoires.

3.2.2.1 Les modèles emboîtés

Si nous souhaitons comparer toutes choses égales par ailleurs, alors pour tester la participation d’un facteur dans MLM, il nous faut le comparer à un modèle strictement identique SAUF sur ce facteur précis. Par exemple, nous pouvons comparer le

Modèle 1: Le temps de réaction est prédit par le niveau de difficulté de l'opération mentale.

au

Modèle 2: Le temps de réaction est prédit par le niveau de difficulté de l'opération mentale et par les compétences en mathématique du sujet.

La seule différence entre les deux est que le second comprend un facteur (fixe) supplémentaire. Autrement dit, le modèle 1 est un cas particulier du modèle 2.

Il nous manque alors un test statistique qui nous permettrait de dire en quoi l’un des deux modèles est meilleur que l’autre.

3.2.2.2 Les ratios de vraisemblance

Nous avons déjà parlé de la vraisemblance dans la section concernant les estimations de paramètres du modèle. Succinctement, il s’agit de terminer à quel point il est est vraisemblable que la valeur que nous supposons traduit bien les paramètres de la distribution de nos données.

Il faut toutefois se rappeler d’après la section précédente que pour tester des effets fixes entre des modèles emboîtés, il faut privilégier un estimateur ML alors que pour tester des effets aléatoires entre des modèles emboîtés, il faut privilégier un estimateur REML.

3.2.3 La comparaison de modèles non emboîtés

3.2.3.1 Les critères d’information

Il est parfois utile d’avoir une idée de la comparaison entre deux modèles non emboîtés. Par exemple, vous pourriez ne pas souhaiter entrer dans une longue démarche itérative de comparaison de modèles, soit parce que vos modèles sont trop complexes, soit parce que vous voulez éviter la tentation de choisir un modèle en particulier parce que l’effet qui vous intéresse y est significatif alors qu’il ne l’est pas un autre modèle.

Dans ce cas, il est possible de se baser sur un critère d’information. Ce critère détermine à quel point un modèle “colle bien” aux données. Il en existe 2 : le critère d’information d’Akaike (AIC) et le critère d’information de Bayes (BIC). Dans les deux cas, ils se basent sur la vraisemblance optimum d’un modèle en le pénalisant plus ou moins fortement par le nombre d’effets stipulés (l’idée étant de toujours préférer un modèle plus parcimonieux). Plus la valeur du critère est petite, meilleure est l’adéquation aux données.

3.2.3.2 Pourquoi ne pas les utiliser ?

Il y a débat autour de leur usage. Tout d’abord, ces critères ne sont pas des tests statistiques. Autrement dit, nous n’aurons pas de valeur statistique ni de seuil qui nous permettrait que le BIC du modèle 1 est meilleur que le BIC du modèle 2. Simplement le modèle au critère le plus petit est le modèle qui explique le mieux les données.

Ensuite, il peut être tentant avec ces critères de comparer directement deux modèles radicalement différents. Mais personnellement, je pense que cela nous prive de l’effort de modélisation inhérente aux MLM.

Enfin, ce critère - cela est vrai pour tous les indices statistiques - sont uniquement statistiques. Ils ne donnent aucune information théorique sur l’importance de modéliser ou non un facteur. Encore une fois, l’inclusion ou non de facteurs fixes ou aléatoires est autant une affaire théorique que statistique.

Ma recommandation est donc d’avoir à l’œil l’AIC ou le BIC mais de les considérer comme participant à un faisceau de preuves en faveur d’un modèle plutôt que d’un autre.

3.3 Tester les effets

Une fois que votre modèle est supposément le meilleur pour expliquer vos données, reste à déterminer la direction et la magnitude des effets.

3.3.1 Tester le modèle vs. tester les effets

Nous pourrions penser que déterminer le meilleur modèle par rapport à d’autres revient à en tester les facteurs. Si un modèle explique mieux les données qu’un autre, c’est que ses facteurs sont pertinents. Certes, oui. Mais dans notre démarche intellectuelle, nous (en tout cas, je fais partie de ceux-là) progressons pas-à-pas :

  1. Construction & choix du modèle
  2. Examen de la significativité et des facteurs et de leurs interactions

Il y a donc une décision à prendre au niveau des modèles et une interprétation à faire au niveau des facteurs. Pour prendre ces décisions, nous pouvons nous baser ou non sur des statistiques inférentielles.

3.3.2 Les principaux tests et indices pour tester les effets fixes

3.3.2.1 Le ratio de vraisemblance

Nous l’avons vu dans la section Tester des modèles et c’est somme toute, logique : comparer un modèle 1 à un modèle 2 rigoureusement identique sauf l’ajout d’un effet fixe revient à tester la significativité de cet effet.

Concrètement il s’agit de calculer un indice de vraisemblance pour chaque modèle puis d’en réaliser un ratio. Ce ratio sera comparé à une distribution Chi² et une valeur p nous permettra de déterminer la significativité de ce fameux modèle qui contient un facteur fixe de plus.

3.3.2.2 Les tests de Wald

La statistique Wald estime le coefficient de l’effet fixe et son erreur standard et la compare ensuite à une distribution normale ou t. Une valeur p nous permettra de statuer sur les effets fixes.

3.3.2.3 Les ajustements des degrés de liberté

Calculer les ddl des MLM est autrement plus difficiles que pour les ANOVA, principalement à cause de la complexité ajoutée par les effets aléatoires. Deux méthodes ont été développées :

  • Méthode de Satterthwaite : Ajuste les degrés de liberté en tenant compte des effets aléatoires.
  • Méthode de Kenward-Roger : Ajuste à la fois les degrés de liberté et la matrice de variance-covariance des paramètres fixes pour mieux refléter la variabilité due à la structure du modèle.

3.3.2.4 Les tests de permutation

Les tests de permutations se basent sur les statistiques mentionnées ci-dessus (Wald, ratio de vraisemblance, etc) à une distribution issue de la permutation des données (comme pourrait le faire une simulation Monte-Carlo).

3.3.2.5 Le choix de la statistique

Méthode Avantages Inconvénients
Ratio de vraisemblance Peu biaisé pour les petits échantillons Nécessite une démarche de comparaison de modèles pas-à-pas
Wald Approche classique (valeur p) Moins fiable pour les petits échantillons & dans les modèles complexes
Ajustements des ddl (Satterthwaite ou Kenward-Roger) Approche classique (valeur p) et relativement fiable pour les petits échantillons ou les modèles complexes Restent une approximation
Permutations Indifférents à la distribution Nécessitent de bonnes ressources de calcul

3.3.2.6 Mes choix

Taille de l’échantillon Modèle Statistiques
Petit Simple Satterthwaite/Kenward-Roger ou Ratio de vraisemblance
Petit Complexe Satterthwaite/Kenward-Roger ou Permutations
Grand Simple Satterthwaite/Kenward-Roger ou Ratio de vraisemblance
Grand Complexe Satterthwaite/Kenward-Roger ou Permutations

En vérité, je pourrais utiliser les permutations pour toutes les situations. Mais dans le cas de modèles simples, c’est un peu comme utiliser une bombe atomique pour tuer une mouche : une méthode moins coûteuse fera tout aussi bien le travail.