Statistiques – Tle
Séries statistiques double
Contrairement en classe de 3ème où les statistiques portent sur un caractère, en Terminale elles portent sur deux (2) caractères ; d’où le terme de série statistique double

X est le premier caractère et ses modalités sont : x1 ; x2 ; x3 ; … ; xn
Y est le deuxième caractère et ses modalités sont : y1 ; y2 ; y3 ; … ; yn
Remarque : De manière générale, en Terminale, les tableaux statistiques donnés sont de la forme :
Tableau 1

Tableau 2

L’effectif total est égale au nombre de colonnes contenant des nombres.
Nuage de points
On muni le plan d’un repère orthogonal.
L’ensemble des points M_i de coordonnées (x_i ; y_i) est appelé nuage de points associé à la série statistique double.
Dans la pratique chaque couple (x_i ; y_i) correspond à un point du repère d’abscisse x_i et d’ordonnée y_i; c’est l’ensemble de tous ces différents points qui est appelé nuage de points.
Point moyen
On appelle point moyen d’un nuage de points le point noté G dont les coordonnées sont
\overline{x} ( abscisse ) et \overline{y} ( ordonnée ) tels que :
\overline{x} est égal à la somme de tous les x_i divisée par l’effectif total N
\overline{x} = \dfrac{\sum n_i x_i}{N} = \dfrac{x_1 + x_2 + x_3 + ... + x_n}{N}
\overline{y} est égal à la somme de tous les y_i divisée par l’effectif total N
\overline{y} = \dfrac{\sum n_i y_i}{N} = \dfrac{y_1 + y_2 + y_3 + ... + y_n}{N}
Ajustement linéaire (ou ajustement affine)
Objectif : Trouver une droite qui passe « le plus près possible » de tous les points du nuage de Points. Pour déterminer l’équation de cette droite, on dispose de deux méthodes :
(1) la méthode de Mayer
(2) la méthode des moindres carrées
Cette droite, si elle existe, est appelée droite d’ajustement linéaire de y en x
Méthode de Mayer
(1) Si l’effectif total est un nombre pair
On divise le tableau en deux tableaux T_1 et T_2 de même effectif dans l’ordre où les points se présentent.
Exemple
Si l’effectif est 8 alors le 1er tableau (T_1) est composé des 4 premiers points et le 2ème tableau (T_2) est composé des 4 derniers points.
Si l’effectif total est un nombre impair
On divise le tableau en deux tableaux T_1 et T_2 dans l’ordre où les points se présentent
Exemple
Si l’effectif est 7 alors on choisit l’un des deux cas suivants :
1er cas : le 1er tableau (T_1) est composé des premiers points et le 2ème tableau (T_2) est composé des 3 derniers points
2ème cas : le 1er tableau (T_1) est composé des premiers points et le 2ème tableau (T_2) est composé des 4 derniers points
Remarque
De manière générale, en Terminale, la méthode de Mayer ne s’applique que dans les cas où l’effectif, c’est-à-dire le nombre de points du nuage, est un nombre pair.
Mais si l’effectif est un nombre impair , on procède de la même manière c’est-à-dire qu’on partage le tableau initial en deux en mettant le couple central dans le premier tableau ou dans le deuxième tableau.

1er cas : le couple central peut être dans le tableau 1
Tableau 1

Tableau 2

2ème cas : le couple central peut être dans le tableau 2
Tableau 1

Tableau 2

(2) On détermine les points moyens respectifs G_1 et G_2 de chaque tableau
(3) La droite de Mayer est la droite qui passe par les points G_1 et G_2, son équation est de la forme y = ax+b avec :
a = \dfrac{\overline{y}_2 - \overline{y}_1}{\overline{x}_2 - \overline{x}_1} et b = \overline{y}_1 - a\overline{x}_1
Remarque
Pour déterminer b on peut aussi utiliser b = \overline{y}_2 - a\overline{x}_2 (les coordonnées du point G_2) ou b = \overline{y} - a\overline{x} ( les coordonnées du point moyen G)
La droite (G_1G_2), aussi appelée droite de Mayer, elle passe par le point moyen G
Lorsque la droite de régression de Y en X par la méthode de Mayer est déterminée, on peut demander à l’élève :
– graphiquement
de déterminer y lorsque x est connue ou de déterminer x lorsque y est connue.
– algébriquement (par calcul
de déterminer y lorsque x est connue ou de déterminer x lorsque y est connue
Méthode des moindres carrées
Variance et Covariance
On dispose de deux (2) méthodes différentes pour calculer la Variance V(X) et la Covariance COV(X, ~Y)
Remarque
V(X) se lit variance de X
COV(X, ~Y) se lit covariance de X ~Y
- Calcul de V(X)
V(X) = \dfrac{\sum n_i x_i ^2}{N} - (\overline{x})^2
= \dfrac{x_1^2 + x_2^2 + x_3^2 + ... + x_n^2}{N} - (\overline{x})^2
- Calcul de V(Y)
V(Y) = \dfrac{\sum n_i y_i ^2}{N} - (\overline{y})^2
= \dfrac{y_1^2 + y_2^2 + y_3^2 + ... + y_n^2}{N} - (\overline{y})^2
- Calcul de COV(X, ~Y)
COV(X, ~Y) = \dfrac{\sum n_i x_i \times y_i}{N} - \overline{x} \times \overline{y}
= \dfrac{x_1 \times y_1 + x_2 \times y_2 + x_3 \times y_3 + ... + x_n \times y_n}{N} - \overline{x} \times \overline{y}
Pour calculer V(X), V(Y) et COV(X, ~Y); on peut s’aider du tableau ci-dessous

(1) la somme \sum n_i x_i = x_1 + x_2 + x_3 + ... + x_n est utilisée pour calculer \overline{x}
(2) la somme \sum n_i y_i = y_1 + y_2 + y_3 + ... + y_n est utilisée pour calculer \overline{y}
(3) la somme \sum n_i x_i ^2 = x_1^2 + x_2^2 + x_3^2 + ... + x_n^2 est utilisée pour calculer V(X)
(4) la somme \sum n_i y_i ^2 = y_1^2 + y_2^2 + y_3^2 + ... + y_n^2 est utilisée pour calculer V(Y)
(5) la somme \sum n_i x_i \times y_i = x_1 \times y_1 + x_2 \times y_2 + x_3 \times y_3 + ... + x_n \times y_n est utilisée pour calculer COV(X, ~Y)
Remarque :
– Le tableau de calculs ci-dessus peut être modifié selon les questions posées
– COV(X, ~Y) peut-être un nombre négatif
Droite de régression de Y en X
La droite de régression de Y en X par la méthode des moindres carrées passe par le point moyen G; l’équation de cette droite peut se mettre sous la forme y=ax+b avec :
a = \dfrac{COV(X, ~Y)}{V(X)} et b=\overline{y}-a\overline{x}
où \overline{x} et \overline{y} sont les coordonnées du point moyen G
Coefficient de corrélation linéaire
On appelle « coefficient de corrélation linéaire » d’une série statistique double le nombre réel r défini par : r = \dfrac{COV(X, ~Y)}{\sqrt{V(X) \times V(Y)}}
Le coefficient de corrélation linéaire r permet de vérifier ” la dépendance ” entre les
deux caractères étudiés c’est-à-dire entre X et Y; elle justifie aussi la possibilité
d’effectuer un ajustement linéaire lorsqu’elle est très proche de 1.
Lorsque 0,87 \leq |r| \leq 1 on dit qu’il y a une bonne corrélation (ou une forte corrélation) entre les deux variables X et Y.
