6 : Statistiques - 1e L - Ogooue education

I. Généralités

1. Vocabulaires

a) Population – Variable

Effectuer une étude statistique consiste à collecter, organiser et exploiter des informations sur un ensemble appelé population, délimité par une propriété commune.
Cette population est constituée d’individus ou unités statistiques, qui peuvent être des objets, des idées, des êtres vivants…
La propriété étudiée est appelée variable ou caractère.
Le caractère est qualitatif lorsque les valeurs prises ne sont pas des nombres, et quantitatif, lorsque les valeurs prises sont des nombres.
Un caractère quantitatif peut être discret si les valeurs prises sont isolées, ou continu s’il peut prendre toutes les valeurs possibles d’un intervalle.

b. Effectifs – Fréquence – Classes

L’effectif total est le nombre d’individus de la population.
On note en général x₁, x₂, …, x_n les valeurs prises par la variable étudiée et n_i le nombre d’individus sur lesquels on a observé la valeur x_i. n_i est appelé effectif de la valeur x_i de la variable.
La série statistique ainsi définie se note (x_i , n_i). L’effectif total est alors.

$N = \displaystyle\sum_{i=1}^n n_i = n_1 + n_2 + ... + n_n.$
$~$ Le rapport $~\dfrac{n_i}{N} = f_i$ est appelé fréquence de $x_i$
On a :
$\bullet ~~ 0 \leq f_i \leq 1$ quel que soit $i$
$\bullet ~\displaystyle\sum_{i=1}^n f_i = f_1 + f_2 + ... + f_n = \displaystyle\sum_{i=1}^n \dfrac{n_i}{N} = \dfrac{\displaystyle\sum_{i=1}^n n_i}{N} = 1$
$\bullet~$ $100.f_i$ donne le pourcentage des individus ayant le caractère $x_i.$

Lorsque le caractère est continu, on ne peut pas considérer chaque valeur séparément, on regroupe alors ces valeurs par classe.
De même lorsque l’effectif est assez important, il est plus commode de regrouper les valeurs par classe.

Exemple :

La population étudiée est l’ensemble des élèves d’une classe. Le caractère étudié est la note obtenue lors d’un certain examen. Les notes obtenues sont :
12 12 14 5 8 8 9 16 15 7 6 10 10 12 9 9 10 7 6 10 11 9 7 9 11

Ecrivons cette série de notes dans l’ordre croissant :
5 6 6 7 7 7 8 8 9 9 9 9 9 10 10 10 10 11 11 12 12 12 14 15 16

On voit que 1 élève a eu 5, deux ont eu 6, …. On peut réécrire cette série sous forme de tableau :

Effectifs cumulés – Fréquences cumulées

Considérons une série à caractère quantitatif x_i. On ordonne les valeurs dans l’ordre croissant : x₁< x₂<…< x_k.
Si n_i est l’effectif de la valeur x_i, on appelle effectif cumulé croissant jusqu’à la i^e valeur le nombre : c’est le nombre des individus présentant une modalité inférieure à x_i .

Ce tableau nous donne le nombre d’élèves qui ont eu une note inférieure à une note donnée. Par exemple, 6 élèves ont eu une note inférieure ou égale à 7, 13 n’ont pas eu la moyenne…

On définit de même :
– La fréquence cumulée croissante
$\displaystyle\sum_{j=1}^i f_j = f_1 + f_2 + ... + f_i$ ou N est l’effectif total de la population.

2. Diagrammes

Un diagramme est une représentation graphique de la série. Il permet de visualiser ensemble les données statistiques.

a) Diagramme à bandes. Diagramme à bâtons

On porte en abscisses les valeurs de la variable x et en ordonnées les effectifs. Les effectifs sont représentés par des rectangles (bandes) verticales de longueurs proportionnelles aux effectifs. On peut remplacer les bandes par des segments : on obtient un diagramme en bâtons.

b) Diagramme à une seule bande

La longueur d’une bande est partagée proportionnellement aux effectifs ou aux fréquences.
Exemple : Voici la production agricole annuelle d’une certaine commune rurale :

c) Diagramme à secteur

C’est un diagramme de même type que le diagramme à une seule bande. Le disque est partagé en secteurs dont les angles sont proportionnels aux effectifs.

Diagramme à une seule bande et Diagramme à secteur

c) Histogrammes

Cas d’une série continue ou série classée.
On porte en abscisses les valeurs de la variable x et en ordonnées les effectifs. L’effectif est représenté par un rectangle dont la base est égale à l’étendue de la classe et la hauteur proportionnelle à l’effectif.

Exemple
Dans l’exemple précédent, regroupons les notes en classes d’amplitude 2
On obtient le tableau suivant :

Polygones des effectifs
En reliant les extrémités des bâtons, on obtient le polygone des effectifs.
Dans le cas des histogrammes, on prend les centres des classes.

II. Caractéristiques d’une série statistique

Un caractéristique est une grandeur qu’on utilise pour résumer une série statistique.
On distingue deux sortes de caractéristique : caractéristiques de position et caractéristiques de dispersion.

1. Caractéristique de position

a) le mode :

Le mode ( ou dominante) est la valeur la plus fréquente de la variable. C’est la variable qui a le plus grand effectif.
Le mode est défini même si la variable est qualitative.
Pour une série classée, dont les classes sont d’égal effectif, la classe modale est la classe qui correspond au plus grand effectif.
Si une série peut posséder un seul mode on dit qu’elle est unimodale. Si elle en possède plusieurs, on dit qu’elle est plurimodale.

b) la moyenne

Définition :
La moyenne arithmétique d’une série statistique est égale à la somme des valeurs du caractère divisées par leur nombre.

i- Cas des données énumérées :
$\overline{x} = \dfrac{x_1 + x_2 + ... + x_k}{N} = \dfrac{1}{N} \displaystyle\sum_{i=1}^k x_1$

ii- si la série est donnée par sa distribution d’effectifs, les valeurs x₁, x₂, …, x_n ayant respectivement pour effectifs n₁, n₂, ..,n_k, alors :
$\overline{x} = \dfrac{n_1 x_1 + n_2 x_2 + ... + n_k x_k}{N} = \dfrac{\displaystyle\sum_{i=1}^k n_i x_i}{\displaystyle\sum_{i=1}^k n_i}$

iii- Cas où les valeurs sont regroupées en classes : les $n_i$ valeurs de la i-ème classe sont supposées groupées au centre $x_i$ de la classe. On revient ainsi au cas précédent.

Remarque :
$\overline{x} = \dfrac{n_1 x_1 + n_2 x_2 + ... + n_k x_k}{N} = \dfrac{n_1}{N} x_1 + \dfrac{n_2}{N} x_2 + ... + \dfrac{n_k}{N} x_k$
Donc si $f_i$ est la fréquence de la variable $x_i$ alors :
$\overline{x} = \displaystyle\sum_{i=1}^k f_i x_i$

Propriétés ( à établir en exercice) :
– Soit une série statistique sur une population et une partition de cette population en deux sous-populations d’effectifs respectifs n₁ et n₂. Si m₁etm₂ sont les moyennes respectifs des deux sous-populations, alors la moyenne de la population est $\overline{x} = \dfrac{n_1m_1 + n_2m_2}{n_1 + n_2}$

– Si $\overline{x}$ est la moyenne de la série ( $x_i~,~n_i$ )
$~~$ > alors la moyenne de la série ( $x_i - a~,~n_i$ ) est $\overline{x} - a$
$~~$ > La moyenne de la série ( $h.x_i~,~n_i$ ) est $h.\overline{x}$

Donc, si on pose $y_i = ax_i + b$ alors la moyenne de la série ( $y_i~,~n_i$ ) est $\overline{y} = a.\overline{x} + b$

c) La médiane

Définition
C’est la valeur de la variable qui partage la population en deux parties de même effectif : c’est donc la valeur M de x_i telle que la moitié au plus des valeurs des x_i soient inférieures à M et la moitié au plus des valeurs de x_i supérieure à M

Détermination de la médiane :

Cas d’une série discrète

On range dans l’ordre croissant les valeurs de la variable, chaque valeur étant écrite autant de fois qu’elle est prise :
– Si le nombre de valeurs est impair, la médiane est la valeur du milieu.
– Si le nombre de valeurs est pair, on peut prendre comme médiane tout valeur comprise entre les deux valeurs au centre. Par convention, on prend la demi somme de ces deux valeurs.
$M = \dfrac{x_i + x_{i+1}}{2}$ et $x_{i+1}$ sont les valeurs au centre.

Cas d’une série classée

On trace le polygone des effectifs cumulés croissants et celui des effectifs cumulés décroissants. La médiane M est le l’abscisse du point d’intersection de ces deux courbes.
Un autre manière de la déterminer est de tracer le polygone des effectifs cumulés (ou fréquence cumulées) et la droite d’équation $y = \dfrac{N}{2}$ où N est l’effectif total de la population. La médiane est l’abscisse du point d’intersection de cette droite avec le polygone.

2. Caractéristique de dispersion

Une caractéristique de dispersion est utilisée pour évaluer la dispersion d’une série. On utilise le plus souvent la variance et l’écart type .

Variance. Ecart type

Définition
La variance d’une série est la moyenne des carrés des écarts à la moyenne.
$V = n_1 (x - x_1)^2 + n_2 (x - x_2)^2 + ... + n_k (x - x_k)^2 = \dfrac{\displaystyle\sum_{i=1}^k n_i (x -x_i)^2}{\displaystyle\sum_{i=1}^k n_i}$

L’écart type d’une série est la moyenne quadratique des écarts à la moyenne. C’est la racine carrée de la variance : $\sigma = \sqrt{V}$

Remarques :
Plus la variance est grande, plus la série est dispersée.
Plus la variance est petite (voisin de 0), pus la série est resserrée autour de la moyenne. La variance est une quantité positive ou nulle.

Méthode de calcul :
Même avec des valeurs observées $x_i$ très simples, il arrive souvent que la moyenne $\overline{x}$ soit un nombre décimal. Dans ce cas, le calcul de la variance V nécessite des calculs fastidieux.

La formule de Koenig : $V = \dfrac{\displaystyle\sum_{i=1}^k n_i x_i^2}{N} - (\overline{x} )^2$
(que vous allez démontrer en exercice) permet de simplifier les calculs.

Propriétés ( à établir en exercice) :
– La variance et l’écart-type de la série ( $x_i - a ~,~ n_i$ ) sont indépendants de $a$ : ce sont respectivement la variance et l’écart-type de ( $x_i ~,~ n_i$ )
– Si la variance et l’écart-type de la série ( $x_i ~,~ n_i$ ) sont respectivement V et $\sigma$ , alors la série ( $h.x_i ~,~ n_i$ ) a pour variance $V' = h^2 V$ et pour écart-type $\sigma ' = |h| \sigma$

Exercices

Exercice Précédent

Retour à la/au Matière

Exercice Suivant