Statistiques – Tle

Séries statistiques double

Contrairement en classe de 3ème où les statistiques portent sur un caractère, en Terminale elles portent sur deux (2) caractères ; d’où le terme de série statistique double

X est le premier caractère et ses modalités sont : x1 ; x2 ; x3 ; … ; xn
Y est le deuxième caractère et ses modalités sont : y1 ; y2 ; y3 ; … ; yn

Remarque : De manière générale, en Terminale, les tableaux statistiques donnés sont de la forme :

Tableau 1

Tableau 2

L’effectif total est égale au nombre de colonnes contenant des nombres.

Nuage de points

On muni le plan d’un repère orthogonal.
L’ensemble des points M_i de coordonnées (x_i ; y_i) est appelé nuage de points associé à la série statistique double.
Dans la pratique chaque couple (x_i ; y_i) correspond à un point du repère d’abscisse x_i et d’ordonnée y_i; c’est l’ensemble de tous ces différents points qui est appelé nuage de points.

Point moyen

On appelle point moyen d’un nuage de points le point noté G dont les coordonnées sont
\overline{x} ( abscisse ) et \overline{y} ( ordonnée ) tels que :
\overline{x} est égal à la somme de tous les x_i divisée par l’effectif total N
\overline{x} = \dfrac{\sum n_i x_i}{N} = \dfrac{x_1 + x_2 + x_3 + ... + x_n}{N}
\overline{y} est égal à la somme de tous les y_i divisée par l’effectif total N
\overline{y} = \dfrac{\sum n_i y_i}{N} = \dfrac{y_1 + y_2 + y_3 + ... + y_n}{N}

Ajustement linéaire (ou ajustement affine)

Objectif : Trouver une droite qui passe « le plus près possible » de tous les points du nuage de Points. Pour déterminer l’équation de cette droite, on dispose de deux méthodes :
(1) la méthode de Mayer
(2) la méthode des moindres carrées

Cette droite, si elle existe, est appelée droite d’ajustement linéaire de y en x

Méthode de Mayer

(1) Si l’effectif total est un nombre pair
On divise le tableau en deux tableaux T_1 et T_2 de même effectif dans l’ordre où les points se présentent.

Exemple
Si l’effectif est 8 alors le 1er tableau (T_1) est composé des 4 premiers points et le 2ème tableau (T_2) est composé des 4 derniers points.

Si l’effectif total est un nombre impair
On divise le tableau en deux tableaux T_1 et T_2 dans l’ordre où les points se présentent

Exemple
Si l’effectif est 7 alors on choisit l’un des deux cas suivants :
1er cas : le 1er tableau (T_1) est composé des premiers points et le 2ème tableau (T_2) est composé des 3 derniers points
2ème cas : le 1er tableau (T_1) est composé des premiers points et le 2ème tableau (T_2) est composé des 4 derniers points

Remarque
De manière générale, en Terminale, la méthode de Mayer ne s’applique que dans les cas où l’effectif, c’est-à-dire le nombre de points du nuage, est un nombre pair.
Mais si l’effectif est un nombre impair , on procède de la même manière c’est-à-dire qu’on partage le tableau initial en deux en mettant le couple central dans le premier tableau ou dans le deuxième tableau.

1er cas : le couple central peut être dans le tableau 1

Tableau 1

Tableau 2

2ème cas : le couple central peut être dans le tableau 2

Tableau 1

Tableau 2

(2) On détermine les points moyens respectifs G_1 et G_2 de chaque tableau
(3) La droite de Mayer est la droite qui passe par les points G_1 et G_2, son équation est de la forme y = ax+b avec :
a = \dfrac{\overline{y}_2 - \overline{y}_1}{\overline{x}_2 - \overline{x}_1} et b = \overline{y}_1 - a\overline{x}_1

Remarque
Pour déterminer b on peut aussi utiliser b = \overline{y}_2 - a\overline{x}_2 (les coordonnées du point G_2) ou b = \overline{y} - a\overline{x} ( les coordonnées du point moyen G)

La droite (G_1G_2), aussi appelée droite de Mayer, elle passe par le point moyen G

Lorsque la droite de régression de Y en X par la méthode de Mayer est déterminée, on peut demander à l’élève :
graphiquement
de déterminer y lorsque x est connue ou de déterminer x lorsque y est connue.
algébriquement (par calcul
de déterminer y lorsque x est connue ou de déterminer x lorsque y est connue

Méthode des moindres carrées

Variance et Covariance

On dispose de deux (2) méthodes différentes pour calculer la Variance V(X) et la Covariance COV(X, ~Y)

Remarque
V(X) se lit variance de X
COV(X, ~Y) se lit covariance de X ~Y

  • Calcul de V(X)

V(X) = \dfrac{\sum n_i x_i ^2}{N} - (\overline{x})^2

= \dfrac{x_1^2 + x_2^2 + x_3^2 + ... + x_n^2}{N} - (\overline{x})^2

  • Calcul de V(Y)

V(Y) = \dfrac{\sum n_i y_i ^2}{N} - (\overline{y})^2

= \dfrac{y_1^2 + y_2^2 + y_3^2 + ... + y_n^2}{N} - (\overline{y})^2

  • Calcul de COV(X, ~Y)

COV(X, ~Y) = \dfrac{\sum n_i x_i \times y_i}{N} - \overline{x} \times \overline{y}

= \dfrac{x_1 \times y_1 + x_2 \times y_2 + x_3 \times y_3 + ... + x_n \times y_n}{N} - \overline{x} \times \overline{y}

Pour calculer V(X), V(Y) et COV(X, ~Y); on peut s’aider du tableau ci-dessous

(1) la somme \sum n_i x_i = x_1 + x_2 + x_3 + ... + x_n est utilisée pour calculer \overline{x}
(2) la somme \sum n_i y_i = y_1 + y_2 + y_3 + ... + y_n est utilisée pour calculer \overline{y}
(3) la somme \sum n_i x_i ^2 = x_1^2 + x_2^2 + x_3^2 + ... + x_n^2 est utilisée pour calculer V(X)
(4) la somme \sum n_i y_i ^2 = y_1^2 + y_2^2 + y_3^2 + ... + y_n^2 est utilisée pour calculer V(Y)
(5) la somme \sum n_i x_i \times y_i = x_1 \times y_1 + x_2 \times y_2 + x_3 \times y_3 + ... + x_n \times y_n est utilisée pour calculer COV(X, ~Y)

Remarque :
– Le tableau de calculs ci-dessus peut être modifié selon les questions posées
COV(X, ~Y) peut-être un nombre négatif

Droite de régression de Y en X

La droite de régression de Y en X par la méthode des moindres carrées passe par le point moyen G; l’équation de cette droite peut se mettre sous la forme y=ax+b avec :
a = \dfrac{COV(X, ~Y)}{V(X)} et b=\overline{y}-a\overline{x}
\overline{x} et \overline{y} sont les coordonnées du point moyen G

Coefficient de corrélation linéaire

On appelle « coefficient de corrélation linéaire » d’une série statistique double le nombre réel r défini par : r = \dfrac{COV(X, ~Y)}{\sqrt{V(X) \times V(Y)}}
Le coefficient de corrélation linéaire r permet de vérifier ” la dépendance ” entre les
deux caractères étudiés c’est-à-dire entre X et Y; elle justifie aussi la possibilité
d’effectuer un ajustement linéaire lorsqu’elle est très proche de 1.
Lorsque 0,87 \leq |r| \leq 1 on dit qu’il y a une bonne corrélation (ou une forte corrélation) entre les deux variables X et Y.