Comprendre les quantiles : définitions et utilisations
Images de héros/Getty Images
Statistiques récapitulatives telles que la médiane, premier quartile et troisième quartile sont des mesures de position. En effet, ces chiffres indiquent où se trouve une proportion spécifiée de la distribution des données. Par exemple, la médiane est la position médiane des données étudiées. La moitié des données ont des valeurs inférieures à la médiane. De même, 25 % des données ont des valeurs inférieures au premier quartile et 75 % des données ont des valeurs inférieures au troisième quartile.
Ce concept peut être généralisé. Une façon d'y parvenir est de considérer centiles . Le 90e centile indique le point où 90 % des données ont des valeurs inférieures à ce nombre. Plus généralement, la p le centile est le nombre n Pour qui p % des données est inférieur à n .
Variables aléatoires continues
Bien que les statistiques d'ordre de la médiane, du premier quartile et du troisième quartile soient généralement introduites dans un cadre avec un ensemble discret de données, ces statistiques peuvent également être définies pour une variable aléatoire continue. Puisque nous travaillons avec une distribution continue, nous utilisons l'intégrale. La p le centile est un nombre n tel que:
∫-₶ n F ( X ) dx = p /100.
Ici F ( X ) est une fonction de densité de probabilité. Ainsi, nous pouvons obtenir n'importe quel centile que nous voulons pour un
Quantiles
Une autre généralisation consiste à noter que nos statistiques de commande divisent la distribution avec laquelle nous travaillons. La médiane divise l'ensemble de données en deux, et la médiane, ou 50e centile d'une distribution continue, divise la distribution en deux en termes de superficie. Le premier quartile, médianet le troisième quartile divise nos données en quatre morceaux avec le même nombre dans chacun. Nous pouvons utiliser l'intégrale ci-dessus pour obtenir les 25e, 50e et 75e centiles et diviser une distribution continue en quatre parties de surface égale.
On peut généraliser cette procédure. La question par laquelle nous pouvons commencer reçoit un nombre naturel n , comment diviser la distribution d'une variable en n morceaux de taille égale? Cela renvoie directement à l'idée de quantiles.
La n les quantiles d'un ensemble de données sont trouvés approximativement en classant les données dans l'ordre, puis en divisant ce classement par n - 1 points équidistants sur l'intervalle.
Si nous avons une fonction de densité de probabilité pour une variable aléatoire continue, nous utilisons l'intégrale ci-dessus pour trouver les quantiles. Pour n quantiles, on veut :
- Le premier à avoir 1/ n de l'aire de distribution à sa gauche.
- Le second à avoir 2/ n de l'aire de distribution à sa gauche.
- La r e avoir r / n de l'aire de distribution à sa gauche.
- Le dernier à avoir ( n - 1)/ n de l'aire de distribution à sa gauche.
On voit que pour tout entier naturel n , la n les quantiles correspondent aux 100 r / n centiles, où r peut être n'importe quel nombre naturel de 1 à n - 1.
Quantiles communs
Certains types de quantiles sont suffisamment utilisés pour avoir des noms spécifiques. Vous trouverez ci-dessous une liste de ceux-ci :
- Le 2 quantile est appelé la médiane
- Les 3 quantiles sont appelés terciles
- Les 4 quantiles sont appelés quartiles
- Les 5 quantiles sont appelés quintiles
- Les 6 quantiles sont appelés sextiles
- Les 7 quantiles sont appelés septiles
- Les 8 quantiles sont appelés octiles
- Les 10 quantiles sont appelés déciles
- Les 12 quantiles sont appelés duodéciles
- Les 20 quantiles sont appelés vigintiles
- Les 100 quantiles sont appelés centiles
- Les 1000 quantiles sont appelés permilles
Bien sûr, d'autres quantiles existent au-delà de ceux de la liste ci-dessus. Souvent, le quantile spécifique utilisé correspond à la taille de l'échantillon d'un échantillon continu. Distribution .
Utilisation des quantiles
En plus de spécifier la position d'un ensemble de données, les quantiles sont utiles à d'autres égards. Supposons que nous ayons un échantillon aléatoire simple d'une population et que la distribution de la population soit inconnue. Pour aider à déterminer si un modèle, tel qu'une distribution normale ou une distribution de Weibull, convient bien à la population à partir de laquelle nous avons échantillonné, nous pouvons examiner les quantiles de nos données et du modèle.
En faisant correspondre les quantiles de nos données d'échantillon aux quantiles d'un distribution de probabilité , le résultat est une collection de données appariées. Nous traçons ces données dans un diagramme de dispersion, connu sous le nom de diagramme quantile-quantile ou diagramme q-q. Si le nuage de points résultant est à peu près linéaire, alors le modèle est bien adapté à nos données.