|
|
Cours de mathématiques de 2ndeStatistiques : histogrammes |
|
|
|
Video |
Un histogramme est une façon de représenter des données statistiques.
Par exemple, supposons que dans une classe de 30 élèves je note l'âge de chaque élève : cela fait une "série statistique" de 30 données.
Comment avoir une vue synthétique de la distribution des âges ?
L'idée est très simple : compter combien il y a d'élèves par tranche d'âge, et représenter ces comptes.
Compte par tranches. Evidemment on a le choix sur les tranches d'âge (largeur et bornes). Prenons par exemple des tranches de 6 mois :
Histogramme. Voici l'histogramme des 30 données d'âge, avec les six tranches qu'on a choisies
Noter qu'on ne donne même pas les 30 données d'âge, l'histogramme ne présente qu'une vue synthétique.
Deuxième exemple : Soit les 30 données ci-dessous, issues d'une origine quelconque (expérience, sondage, mesures dans un groupe, etc.)
Représentation naïve : le graphe des données elles-mêmes. Voici les 30 données représentées sur un graphe l'une après l'autre
Quand il s'agit de données statistiques, ce graphe qui n'est pas un histogramme, n'a pas une grande utilité pour "voir" les données et leur structure.
En particulier, il donne un rôle peut-être sans signification physique à l'ordre dans lequel sont venues les données.
Renversement des axes x et y et comptage. Pour passer du graphe "naïf" à un histogramme, on inverse les axes x et y.
Et on va maintenant compter les données par tranches. (On a encore une fois le choix sur les tranches, mais utilisons celles proposées par le tableur.)
Décomptes. Voici les 9 comptes par tranche (chiffres en rouge sous le dessin) :
La somme des 9 comptes fait 30.
Histogramme dans le deuxième exemple. La représentation de ces neufs comptes donne un histogramme :
Influence du choix des tranches. Comme on l'a dit, quand on veut dessiner l'histogramme d'une série de données statistiques, on a le choix sur les tranches. Quelle largeur choisir ? Quelles bornes choisir ?
Voici les mêmes données statistiques (issues de mesures sur un geyser) avec quatre choix de tranches différents. On a fait varier la finesse des tranches :
Source : https://www.stat.sc.edu/~west/javahtml/Histogram.html
On voit que l'allure de l'histogramme change. Les trois premiers révèlent deux groupes différents, le quatrième les cache.
Meilleur histogramme. Un esprit mathématicien, confronté à une telle situation, se demandera immédiatement : "Quelle est la largeur de tranche idéale ? (et les bornes idéales ?) " Pour cela il faudrait définir une mesure de la qualité d'un histogramme puis calculer quel histogramme l'optimise.
Tranches de largeur variable : On peut dessiner des histogrammes avec des tranches de largeur variable. La règle de construction devient alors la suivante : au lieu de créer des rectangles verticaux, sur chaque tranche, dont la hauteur est proportionnelle au compte dans la tranche, on va créer des rectangles verticaux dont la surface est proportionnelle au compte dans la tranche. Ainsi par exemple dans l'histogramme "deuxième exemple", si on réunit les tranches allant de 0 à 0,5 et 0,5 à 1 en une seule tranche allant de 0 à 1, on ne va pas lever sur cette tranche de 0 à 1 un rectangle de hauteur 13 (le compte dans la nouvelle tranche 0 à 1), mais seulement de hauteur 6,5, car la largeur de cette nouvelle tranche est double des autres.
On peut alors voir les histogrammes classiques à largeur de tranche fixe comme un cas particulier des histogrammes à largeur de tranche variable, puisque dans le cas classique les comptes sont aussi proportionnels aux surfaces.
Si on considère un histogramme comme une sorte de "visualiseur" pour étudier la répartition de données statistiques, alors les histogrammes à pas variable correspondent à l'idée que l'examen d'une situation sur une grande région demande parfois des loupes de grossissement différent à différents endroits. On rencontre une situation comparable en analyse de Fourier avec la théorie des ondelettes, développée par Gabor et Morlet, qui est bien adaptée à l'analyse de phénomènes ayant des spécificités locales.
Idée fausse : Le concept d'histogramme est souvent mal compris. Ainsi la page wikipedia français sur la commune de Lavau (Aube) présentait le 16 juin 2015 le graphe de l'évolution démographique de la commune depuis le début du XIXe jusqu'à aujourd'hui, et l'intitulait "histogramme de l'évolution démographique". C'est un exemple d'erreur courante. Il ne s'agit en effet pas du tout d'un histogramme.
Ni manuel scolaire, ni ouvrage de vulgarisation, une présentation simple et claire des concepts et outils de la physique classique par Leonard Susskind (niveau : baccalauréat scientifique). | La mécanique quantique présentée avec le même didactisme remarquable qui a rendu les ouvrages de Leonard Susskind célèbres auprès d'un vaste public (niveau : baccalauréat scientifique). | |
L'émission CQFD parlant du livre à la Radio Suisse. |
Exercices :