La pente de la droite de régression et le coefficient de corrélation

Femme montrant un tableau à une autre femme

Emely / Getty Images





Plusieurs fois dans l'étude destatistiquesil est important d'établir des liens entre différents sujets. Nous en verrons un exemple dans lequel la pente de la droite de régression est directement liée à la Coefficient de corrélation . Étant donné que ces concepts impliquent tous deux des lignes droites, il est naturel de se poser la question : « Comment le coefficient de corrélation et ligne des moindres carrés en relation?'

Tout d'abord, nous examinerons quelques informations sur ces deux sujets.



Détails concernant la corrélation

Il est important de rappeler les détails relatifs au coefficient de corrélation, qui est noté r . Cette statistique est utilisée lorsque nous avons appariédonnées appariées, nous pouvons rechercher des tendances dans la distribution globale des données. Certaines données appariées présentent un modèle linéaire ou linéaire. Mais en pratique, les données ne tombent jamais exactement le long d'une ligne droite.

Plusieurs personnes regardant le même nuage de points de données appariées ne seraient pas d'accord sur la mesure dans laquelle il était proche de montrer une tendance linéaire globale. Après tout, nos critères pour cela peuvent être quelque peu subjectifs. L'échelle que nous utilisons peut également affecter notre perception des données. Pour ces raisons et plus encore, nous avons besoin d'une sorte de mesure objective pour dire à quel point nos données appariées sont proches d'être linéaires. Le coefficient de corrélation y parvient pour nous.



Quelques faits de base sur r comprendre:

  • La valeur de r varie entre n'importe quel nombre réel de -1 à 1.
  • Valeurs de r proche de 0 signifie qu'il y a peu ou pas de relation linéaire entre les données.
  • Valeurs de r proche de 1 signifie qu'il existe une relation linéaire positive entre les données. Cela signifie que comme X augmente que Oui augmente également.
  • Valeurs de r proches de -1 impliquent qu'il existe une relation linéaire négative entre les données. Cela signifie que comme X augmente que Oui diminue.

La pente de la ligne des moindres carrés

Les deux derniers éléments de la liste ci-dessus nous orientent vers la pente de la droite des moindres carrés de meilleur ajustement. Rappelez-vous que la pente d'une ligne est une mesure du nombre d'unités qu'elle monte ou descend pour chaque unité que nous déplaçons vers la droite. Parfois, cela est indiqué comme la montée de la ligne divisée par la course, ou le changement de Oui valeurs divisées par le changement de X valeurs.

En général, les droites ont des pentes positives, négatives ou nulles. Si nous devions examiner nos lignes de régression des moindres carrés et comparer les valeurs correspondantes de r , on remarquerait qu'à chaque fois que nos données ont une coefficient de corrélation négatif , la pente de la droite de régression est négative. De même, pour chaque fois que nous avons un coefficient de corrélation positif, la pente de la droite de régression est positive.

Il devrait être évident à partir de cette observation qu'il existe définitivement un lien entre le signe du coefficient de corrélation et la pente de la droite des moindres carrés. Il reste à expliquer pourquoi cela est vrai.



La formule de la pente

La raison du lien entre la valeur de r et la pente de la droite des moindres carrés a à voir avec la formule qui nous donne la pente de cette droite. Pour les données appariées ( x, y ) on note le écart-type de la X données par sX et l'écart-type de la Oui données par sOui .

La formule de la pente un de la droite de régression est :



  • a = r(sOui/sX)

Le calcul d'un écart type consiste à prendre la racine carrée positive d'un nombre non négatif. Par conséquent, les deux écarts-types dans la formule de la pente doivent être non négatifs. Si nous supposons qu'il existe une certaine variation dans nos données, nous pourrons ignorer la possibilité que l'un ou l'autre de ces écarts-types soit égal à zéro. Par conséquent, le signe du coefficient de corrélation sera le même que le signe de la pente de la droite de régression.