Que sont les résidus ?
Nuage de points avec le graphique résiduel correspondant ci-dessous. C.K.Taylor
La régression linéaire est un outil statistique qui détermine dans quelle mesure une ligne droite correspond à un ensemble de
Les résidus sont obtenus en effectuant une soustraction. Tout ce que nous devons faire est de soustraire la valeur prédite de Oui de la valeur observée de Oui pour un particulier X . Le résultat est appelé résidu.
Formule pour les résidus
La formule des résidus est simple :
Résiduel = observé Oui - prédit Oui
Il est important de noter que la valeur prédite provient de notre droite de régression. La valeur observée provient de notre ensemble de données.
Exemples
Nous allons illustrer l'utilisation de cette formule à l'aide d'un exemple. Supposons que l'on nous donne l'ensemble suivant de données appariées :
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
En utilisant un logiciel, nous pouvons voir que la ligne de régression des moindres carrés est Oui = 2 X . Nous allons l'utiliser pour prédire les valeurs de chaque valeur de X .
Par exemple, lorsque X = 5 nous voyons que 2(5) = 10. Cela nous donne le point le long de notre ligne de régressionqui a un X coordonnée de 5.
Pour calculer le résidu aux points X = 5, nous soustrayons la valeur prédite de notre valeur observée. Depuis le Oui coordonnée de notre point de données était 9, cela donne un résidu de 9 - 10 = -1.
Dans le tableau suivant, nous voyons comment calculer tous nos résidus pour cet ensemble de données :
| X | Observé y | Prédit y | Résiduel |
| 1 | deux | deux | 0 |
| deux | 3 | 4 | -1 |
| 3 | sept | 6 | 1 |
| 3 | 6 | 6 | 0 |
| 4 | 9 | 8 | 1 |
| 5 | 9 | dix | -1 |
Caractéristiques des résidus
Maintenant que nous avons vu un exemple, il y a quelques caractéristiques des résidus à noter :
- Les résidus sont positifs pour les points situés au-dessus de la ligne de régression.
- Les résidus sont négatifs pour les points situés en dessous de la ligne de régression.
- Les résidus sont nuls pour les points qui tombent exactement le long de la ligne de régression.
- Plus la valeur absolue du résidu est grande, plus le point est éloigné de la droite de régression.
- La somme de tous les résidus doit être nulle. En pratique, cette somme n'est parfois pas exactement nulle. La raison de cet écart est que les erreurs d'arrondi peuvent s'accumuler.
Utilisations des résidus
Il existe plusieurs utilisations pour les résidus. Une utilisation est de nous aider à déterminer si nous avons un ensemble de données qui a une tendance linéaire globale, ou si nous devons envisager un modèle différent. La raison en est que les résidus aident à amplifier tout modèle non linéaire dans nos données. Ce qui peut être difficile à voir en regardant un nuage de points peut être plus facilement observé en examinant les résidus et un graphique résiduel correspondant.
Une autre raison de considérer les résidus est de vérifier que les conditions d'inférence pour la régression linéaire sont remplies. Après vérification d'une tendance linéaire (en vérifiant les résidus), nous vérifions également la distribution des résidus. Afin de pouvoir effectuer une inférence de régression, nous voulons que les résidus autour de notre ligne de régression soient approximativement distribués normalement. UN histogramme ou parcelle de vote des résidus permettra de vérifier que cette condition est remplie.