Statistiques - Tle - Ogooue education

Séries statistiques double

Contrairement en classe de 3^ème où les statistiques portent sur un caractère, en Terminale elles portent sur deux (2) caractères ; d’où le terme de série statistique double

X est le premier caractère et ses modalités sont : x₁ ; x₂ ; x₃ ; … ; x_n
Y est le deuxième caractère et ses modalités sont : y₁ ; y₂ ; y₃ ; … ; y_n

Remarque : De manière générale, en Terminale, les tableaux statistiques donnés sont de la forme :

Tableau 1

Tableau 2

L’effectif total est égale au nombre de colonnes contenant des nombres.

Nuage de points

On muni le plan d’un repère orthogonal.
L’ensemble des points $M_i$ de coordonnées ( $x_i$ ; $y_i$ ) est appelé nuage de points associé à la série statistique double.
Dans la pratique chaque couple ( $x_i$ ; $y_i$ ) correspond à un point du repère d’abscisse $x_i$ et d’ordonnée $y_i$ ; c’est l’ensemble de tous ces différents points qui est appelé nuage de points.

Point moyen

On appelle point moyen d’un nuage de points le point noté $G$ dont les coordonnées sont
$\overline{x}$ ( abscisse ) et $\overline{y}$ ( ordonnée ) tels que :
$\overline{x}$ est égal à la somme de tous les $x_i$ divisée par l’effectif total $N$
$\overline{x} = \dfrac{\sum n_i x_i}{N} = \dfrac{x_1 + x_2 + x_3 + ... + x_n}{N}$
$\overline{y}$ est égal à la somme de tous les $y_i$ divisée par l’effectif total $N$
$\overline{y} = \dfrac{\sum n_i y_i}{N} = \dfrac{y_1 + y_2 + y_3 + ... + y_n}{N}$

Ajustement linéaire (ou ajustement affine)

Objectif : Trouver une droite qui passe « le plus près possible » de tous les points du nuage de Points. Pour déterminer l’équation de cette droite, on dispose de deux méthodes :
(1) la méthode de Mayer
(2) la méthode des moindres carrées

Cette droite, si elle existe, est appelée droite d’ajustement linéaire de $y$ en $x$

Méthode de Mayer

(1) Si l’effectif total est un nombre pair
On divise le tableau en deux tableaux $T_1$ et $T_2$ de même effectif dans l’ordre où les points se présentent.

Exemple
Si l’effectif est 8 alors le 1^er tableau ( $T_1$ ) est composé des 4 premiers points et le 2^ème tableau ( $T_2$ ) est composé des 4 derniers points.

Si l’effectif total est un nombre impair
On divise le tableau en deux tableaux $T_1$ et $T_2$ dans l’ordre où les points se présentent

Exemple
Si l’effectif est 7 alors on choisit l’un des deux cas suivants :
1^er cas : le 1^er tableau ( $T_1$ ) est composé des premiers points et le 2^ème tableau ( $T_2$ ) est composé des 3 derniers points
2^ème cas : le 1^er tableau ( $T_1$ ) est composé des premiers points et le 2^ème tableau ( $T_2$ ) est composé des 4 derniers points

Remarque
De manière générale, en Terminale, la méthode de Mayer ne s’applique que dans les cas où l’effectif, c’est-à-dire le nombre de points du nuage, est un nombre pair.
Mais si l’effectif est un nombre impair , on procède de la même manière c’est-à-dire qu’on partage le tableau initial en deux en mettant le couple central dans le premier tableau ou dans le deuxième tableau.

1^er cas : le couple central peut être dans le tableau 1

Tableau 1

Tableau 2

2^ème cas : le couple central peut être dans le tableau 2

Tableau 1

Tableau 2

(2) On détermine les points moyens respectifs $G_1$ et $G_2$ de chaque tableau
(3) La droite de Mayer est la droite qui passe par les points $G_1$ et $G_2$ , son équation est de la forme $y = ax+b$ avec :
$a = \dfrac{\overline{y}_2 - \overline{y}_1}{\overline{x}_2 - \overline{x}_1}$ et $b = \overline{y}_1 - a\overline{x}_1$

Remarque
Pour déterminer $b$ on peut aussi utiliser $b = \overline{y}_2 - a\overline{x}_2$ (les coordonnées du point $G_2$ ) ou $b = \overline{y} - a\overline{x}$ ( les coordonnées du point moyen $G$ )

La droite ( $G_1G_2$ ), aussi appelée droite de Mayer, elle passe par le point moyen $G$

Lorsque la droite de régression de $Y$ en $X$ par la méthode de Mayer est déterminée, on peut demander à l’élève :
– graphiquement
de déterminer $y$ lorsque $x$ est connue ou de déterminer $x$ lorsque $y$ est connue.
– algébriquement (par calcul
de déterminer $y$ lorsque $x$ est connue ou de déterminer $x$ lorsque $y$ est connue

Méthode des moindres carrées

Variance et Covariance

On dispose de deux (2) méthodes différentes pour calculer la Variance $V(X)$ et la Covariance $COV(X, ~Y)$

Remarque
$V(X)$ se lit variance de $X$
$COV(X, ~Y)$ se lit covariance de $X ~Y$

Calcul de $V(X)$

$V(X) = \dfrac{\sum n_i x_i ^2}{N} - (\overline{x})^2$

$= \dfrac{x_1^2 + x_2^2 + x_3^2 + ... + x_n^2}{N} - (\overline{x})^2$

Calcul de $V(Y)$

$V(Y) = \dfrac{\sum n_i y_i ^2}{N} - (\overline{y})^2$

$= \dfrac{y_1^2 + y_2^2 + y_3^2 + ... + y_n^2}{N} - (\overline{y})^2$

Calcul de $COV(X, ~Y)$

$COV(X, ~Y) = \dfrac{\sum n_i x_i \times y_i}{N} - \overline{x} \times \overline{y}$

$= \dfrac{x_1 \times y_1 + x_2 \times y_2 + x_3 \times y_3 + ... + x_n \times y_n}{N} - \overline{x} \times \overline{y}$

Pour calculer $V(X)$ , $V(Y)$ et $COV(X, ~Y)$ ; on peut s’aider du tableau ci-dessous

(1) la somme $\sum n_i x_i = x_1 + x_2 + x_3 + ... + x_n$ est utilisée pour calculer $\overline{x}$
(2) la somme $\sum n_i y_i = y_1 + y_2 + y_3 + ... + y_n$ est utilisée pour calculer $\overline{y}$
(3) la somme $\sum n_i x_i ^2 = x_1^2 + x_2^2 + x_3^2 + ... + x_n^2$ est utilisée pour calculer $V(X)$
(4) la somme $\sum n_i y_i ^2 = y_1^2 + y_2^2 + y_3^2 + ... + y_n^2$ est utilisée pour calculer $V(Y)$
(5) la somme $\sum n_i x_i \times y_i = x_1 \times y_1 + x_2 \times y_2 + x_3 \times y_3 + ... + x_n \times y_n$ est utilisée pour calculer $COV(X, ~Y)$

Remarque :
– Le tableau de calculs ci-dessus peut être modifié selon les questions posées
– $COV(X, ~Y)$ peut-être un nombre négatif

Droite de régression de $Y$ en $X$

La droite de régression de $Y$ en $X$ par la méthode des moindres carrées passe par le point moyen $G$ ; l’équation de cette droite peut se mettre sous la forme $y=ax+b$ avec :
$a = \dfrac{COV(X, ~Y)}{V(X)}$ et $b=\overline{y}-a\overline{x}$
où $\overline{x}$ et $\overline{y}$ sont les coordonnées du point moyen $G$

Coefficient de corrélation linéaire

On appelle « coefficient de corrélation linéaire » d’une série statistique double le nombre réel $r$ défini par : $r = \dfrac{COV(X, ~Y)}{\sqrt{V(X) \times V(Y)}}$
Le coefficient de corrélation linéaire $r$ permet de vérifier ” la dépendance ” entre les
deux caractères étudiés c’est-à-dire entre $X$ et $Y$ ; elle justifie aussi la possibilité
d’effectuer un ajustement linéaire lorsqu’elle est très proche de 1.
Lorsque $0,87 \leq |r| \leq 1$ on dit qu’il y a une bonne corrélation (ou une forte corrélation) entre les deux variables $X$ et $Y$ .

Exercices

Exercice Précédent

Retour à la/au Matière

Exercice Suivant

Séries statistiques double

Nuage de points

Point moyen

Ajustement linéaire (ou ajustement affine)

Méthode de Mayer

Méthode des moindres carrées

Variance et Covariance

Droite de régression de Y en X

Coefficient de corrélation linéaire

Droite de régression de $Y$ en $X$