Qu'est-ce que le bootstrap dans les statistiques ?

Travailler en effectuant le calcul de l

stevecoleimages / Getty Images





Le bootstrapping est une technique statistique qui relève de la rubrique plus large du rééchantillonnage. Cette technique implique une procédure relativement simple mais répétée tellement de fois qu'elle dépend fortement des calculs informatiques. Le bootstrap fournit une méthode autre que les intervalles de confiance pour estimer un paramètre de population. Le bootstrapping semble fonctionner comme par magie. Lisez la suite pour voir comment il obtient son nom intéressant.

Une explication du bootstrap

Un but de statistiques déductives est de déterminer la valeur d'un paramètre d'une population. Il est généralement trop coûteux, voire impossible, de mesurer cela directement. Alors on utilise échantillonnage statistique . Nous échantillonnons une population, mesurons une statistique de cet échantillon, puis utilisons cette statistique pour dire quelque chose sur la paramètre correspondant de la population.



Par exemple, dans une chocolaterie, on peut vouloir garantir que les barres chocolatées ont un moyenne lester. Il n'est pas possible de peser chaque barre chocolatée produite, nous utilisons donc des techniques d'échantillonnage pour choisir au hasard 100 barres chocolatées. Nous calculons la moyenne de ces 100 barres chocolatées et disons que la moyenne de la population se situe dans une marge d'erreur par rapport à la moyenne de notre échantillon.

Supposons que quelques mois plus tard, nous voulions savoir avec plus de précision -- ou moins marge d'erreur -- quel était le poids moyen de la barre chocolatée le jour où nous avons échantillonné la chaîne de production. Nous ne pouvons pas non plus utiliser les friandises d'aujourd'hui de nombreuses variables sont entrés en scène (différents lots de lait, de sucre et de fèves de cacao, différentes conditions atmosphériques, différents employés sur la ligne, etc.). Tout ce que nous avons depuis le jour qui nous intéresse, ce sont les 100 poids. Sans machine à remonter le temps à ce jour, il semblerait que la marge d'erreur initiale soit la meilleure que nous puissions espérer.



Heureusement, nous pouvons utiliser le technique du bootstrap . Dans cette situation, nous avons au hasard échantillon avec remplacement parmi les 100 poids connus. Nous appelons alors cela un échantillon bootstrap. Puisque nous autorisons le remplacement, cet échantillon bootstrap n'est probablement pas identique à notre échantillon initial. Certains points de données peuvent être dupliqués, et d'autres points de données des 100 initiaux peuvent être omis dans un échantillon bootstrap. Avec l'aide d'un ordinateur, des milliers d'échantillons bootstrap peuvent être construits en un temps relativement court.

Un exemple

Comme mentionné, pour vraiment utiliser les techniques d'amorçage, nous devons utiliser un ordinateur. L'exemple numérique suivant aidera à démontrer comment le processus fonctionne. Si nous commençons avec l'échantillon 2, 4, 5, 6, 6, alors tous les exemples suivants sont des échantillons bootstrap possibles :

  • 2, 5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Histoire de la technique

Les techniques de bootstrap sont relativement nouvelles dans le domaine des statistiques. La première utilisation a été publiée dans un article de 1979 de Bradley Efron. Au fur et à mesure que la puissance de calcul a augmenté et est devenue moins chère, les techniques de bootstrap se sont généralisées.

Pourquoi le nom Bootstrapping?

Le nom bootstrapping vient de la phrase, Se soulever par ses bootstraps. Cela fait référence à quelque chose qui est absurde et impossible. Essayez aussi fort que vous le pouvez, vous ne pouvez pas vous élever dans les airs en tirant sur les morceaux de cuir de vos bottes.



Il existe une théorie mathématique qui justifie les techniques d'amorçage. Cependant, l'utilisation du bootstrap donne l'impression de faire l'impossible. Bien qu'il ne semble pas que vous puissiez améliorer l'estimation d'une statistique de population en réutilisant le même échantillon encore et encore, le bootstrap peut en fait le faire.