COURS DE STATISTIQUE, 3ÈME ANNÉE, OPTION HUMANITÉS SCIENTIFIQUES
Edition 2025 / Enseignement primaire, secondaire et technique en RDC
Préliminaires
1. Profil de l’élève et Prérequis
L’élève qui aborde ce cours de statistique en troisième année des Humanités Scientifiques doit impérativement maîtriser les concepts algébriques fondamentaux, notamment la manipulation des équations linéaires, le calcul des puissances et des racines carrées. Il doit posséder une connaissance solide des outils de statistique descriptive univariée acquis au cycle précédent : calcul des fréquences, moyennes arithmétiques, modes et médianes. Une aisance dans la manipulation de la calculatrice scientifique pour les opérations sur les listes de données et une capacité à interpréter des graphiques cartésiens sont des prérequis non négociables pour la réussite de ce module.
2. Compétences Visées
À l’issue de ce cours, l’apprenant développera la compétence d’analyser les relations entre deux variables quantitatives. Il sera capable d’organiser des données brutes en tableaux à double entrée, de représenter graphiquement des séries statistiques doubles par des nuages de points et d’interpréter la corrélation entre les variables. L’objectif ultime est la maîtrise des techniques d’ajustement linéaire, notamment la méthode des moindres carrés, pour effectuer des prévisions fiables dans des contextes économiques, démographiques ou physiques propres à la réalité congolaise.
3. Méthodologie et Approche Pédagogique
La méthodologie préconisée est résolument active et inductive. Chaque chapitre s’ouvre sur une situation-problème tirée de l’environnement immédiat de l’élève (agriculture, mines, santé publique), exigeant un traitement statistique pour la prise de décision. L’enseignant privilégiera l’analyse de données réelles collectées localement ou fournies par les instituts statistiques nationaux. L’usage de l’outil informatique (tableurs type Excel) sera intégré progressivement pour le traitement des grandes séries de données, conformément aux compétences MTIC du programme national.
4. Objectifs Généraux
Ce cours vise à doter l’élève des outils mathématiques nécessaires pour modéliser des phénomènes aléatoires à deux dimensions. Il s’agit de développer l’esprit critique face aux données chiffrées, de comprendre la distinction entre corrélation et causalité, et d’appliquer rigoureusement les modèles mathématiques de régression. Le cours prépare directement aux études supérieures en économie, en ingénierie et en sciences sociales, où la statistique inférentielle joue un rôle central.
Partie 1 : Consolidation et Organisation des Données Statistiques 📊
Cette première partie a pour vocation de structurer les acquis antérieurs et d’introduire la rigueur nécessaire au traitement des données multidimensionnelles. Elle pose les bases terminologiques et méthodologiques indispensables à l’analyse statistique avancée. L’élève apprendra à passer de la simple observation d’un caractère à l’étude simultanée de plusieurs variables, compétence socle pour la suite du programme.
Chapitre 1 : Rappels et Approfondissements de la Statistique Univariée (MM5.18)
1.1. Terminologie et classification des variables
Cette section formalise les concepts de population, d’individu et d’échantillon. Elle distingue avec précision les caractères qualitatifs (nominaux, ordinaux) des caractères quantitatifs (discrets, continus). L’élève apprendra à identifier la nature des variables dans des contextes variés, tels que le recensement de la biodiversité dans le parc des Virunga ou l’analyse de la production minière à Kolwezi.
1.2. Paramètres de position centrale
Nous revisitons ici les mesures de tendance centrale avec une complexité accrue. L’étude de la moyenne arithmétique pondérée, de la médiane pour des séries groupées en classes et du mode (ou classe modale) est approfondie. L’accent est mis sur les propriétés algébriques de la moyenne et son interprétation physique comme centre de gravité de la distribution.
1.3. Paramètres de dispersion et de forme
La compréhension de la variabilité des données est essentielle. Cette section traite de l’étendue, de la variance et de l’écart-type. L’élève calculera ces paramètres pour évaluer l’homogénéité d’une série statistique, par exemple la variabilité des précipitations annuelles dans la province du Kwilu. L’introduction aux quartiles et à l’écart interquartile permettra d’affiner l’analyse de la dispersion.
1.4. Représentations graphiques avancées
Au-delà des diagrammes en bâtons, ce point aborde la construction rigoureuse des histogrammes pour les classes d’amplitudes inégales et des polygones de fréquences cumulées. La maîtrise de ces outils graphiques permet de visualiser la distribution des données et d’interpoler des valeurs médianes ou quartiles graphiquement.
Chapitre 2 : Introduction à la Série Statistique à Deux Variables (MM5.18)
2.1. Définition et concept de couple de données
L’analyse statistique s’étend ici à l’étude simultanée de deux caractères et sur une même population. Cette section définit la série statistique double comme l’ensemble des couples . Elle illustre ce concept par des exemples concrets, tels que la relation entre la taille et le poids des élèves d’une classe à Lubumbashi, ou le lien entre la quantité d’engrais et le rendement agricole dans le Kongo Central.
2.2. Le tableau de contingence (Tableau à double entrée)
Lorsque les effectifs sont importants, l’organisation des données en tableau à double entrée devient impérative. Cette section enseigne la construction de ces tableaux, la lecture des effectifs conjoints et le calcul des effectifs marginaux. L’élève apprendra à structurer les données brutes issues d’enquêtes pour en faciliter l’analyse ultérieure.
2.3. Distributions marginales
À partir du tableau de contingence, l’élève apprendra à extraire les distributions marginales de et de . Il calculera les moyennes et les variances marginales, qui résument le comportement de chaque variable prise isolément. Cette étape est cruciale pour vérifier la cohérence des données globales par rapport aux données individuelles.
2.4. Distributions conditionnelles
Cette section introduit l’analyse fine des sous-populations. L’élève étudiera la distribution de sachant que prend une valeur spécifique (et inversement). Il calculera les moyennes et variances conditionnelles, permettant de détecter si la distribution d’un caractère dépend de la valeur de l’autre, première étape vers la notion de dépendance stochastique.
Chapitre 3 : Représentation Graphique : Le Nuage de Points (MM5.18)
3.1. Construction du repère orthogonal
La représentation visuelle d’une série double nécessite un repère adapté. Cette section guide l’élève dans le choix des échelles sur les axes des abscisses et des ordonnées, en fonction de l’étendue des variables et . La rigueur dans la graduation et la légende des axes est exigée pour garantir la lisibilité du graphique.
3.2. Placement des points et notion de nuage
L’élève apprendra à placer les couples dans le plan cartésien. L’ensemble de ces points constitue le nuage de points ou diagramme de dispersion. Cette représentation permet une première analyse visuelle de la relation entre les variables : forme allongée, circulaire, croissante ou décroissante.
3.3. Le point moyen du nuage (Point G)
Le concept de point moyen , dont les coordonnées sont les moyennes arithmétiques des distributions marginales, est introduit ici. L’élève démontrera que ce point constitue le centre de gravité du nuage. Sa position est fondamentale car elle sert de pivot pour toutes les droites d’ajustement qui seront étudiées ultérieurement.
3.4. Interprétation visuelle de la corrélation
Avant toute modélisation algébrique, l’élève doit développer une intuition géométrique. Cette section apprend à qualifier la liaison entre les variables à partir de la forme du nuage : liaison fonctionnelle stricte, liaison stochastique forte ou faible, ou absence de liaison (indépendance). Des exemples visuels tirés de la pluviométrie à l’Équateur aideront à cette interprétation.
Partie 2 : Analyse de la Corrélation et Covariance 📈
Cette partie constitue le cœur théorique du cours. Elle dépasse la simple description pour entrer dans la mesure mathématique de la liaison entre deux variables. L’élève découvrira les outils algébriques permettant de quantifier l’intensité de la relation linéaire, préparant ainsi le terrain pour la prévision et la modélisation.
Chapitre 4 : La Covariance (MM5.19)
4.1. Définition algébrique de la covariance
La covariance est introduite comme la moyenne des produits des écarts à la moyenne. La formule est décortiquée. L’élève comprendra que la covariance mesure la variation conjointe des deux variables : une covariance positive indique que les variables varient dans le même sens, tandis qu’une covariance négative indique une variation inverse.
4.2. Formule de Koenig pour le calcul pratique
Pour simplifier les calculs, la formule développée de Koenig (moyenne du produit moins produit des moyennes) est enseignée. L’élève s’exercera à utiliser cette formule sur des séries statistiques réelles, gagnant ainsi en efficacité et en précision lors des évaluations.
4.3. Propriétés de la covariance
Cette section explore les propriétés mathématiques de la covariance, notamment sa bilinéarité et son lien avec la variance (la covariance d’une variable avec elle-même est sa variance). L’élève apprendra l’effet des changements d’origine et d’unité sur la covariance, ce qui est crucial lors de la manipulation de données de grandes valeurs ou d’unités différentes (Francs Congolais, Dollars, Tonnes).
4.4. Interprétation du signe et de la magnitude
Au-delà du calcul, l’interprétation est primordiale. L’élève analysera la signification du signe de la covariance dans des contextes concrets : lien entre le prix du cuivre et les recettes d’exportation (covariance positive), ou lien entre le taux de vaccination et la mortalité infantile (covariance négative). La limitation de la covariance, qui dépend des unités choisies, sera mise en évidence pour justifier la nécessité du coefficient de corrélation.
Chapitre 5 : Le Coefficient de Corrélation Linéaire (MM5.19)
5.1. Définition et normalisation de la covariance
Le coefficient de corrélation de Pearson () est présenté comme la covariance normalisée par le produit des écarts-types : . Cette section explique comment cette opération rend l’indicateur indépendant des unités de mesure, permettant de comparer la force de liaison entre des phénomènes de natures différentes.
5.2. Propriétés et bornes du coefficient
L’élève démontrera que le coefficient est toujours compris entre -1 et +1. L’inégalité de Cauchy-Schwarz sera évoquée comme justification théorique. L’étude des cas limites (, , ) permettra de comprendre les notions de corrélation linéaire parfaite (positive ou négative) et d’absence de corrélation linéaire.
5.3. Interprétation de l’intensité de la liaison
Une échelle d’interprétation sera fournie pour qualifier la corrélation (très forte, forte, moyenne, faible). L’élève apprendra à nuancer ses conclusions : une forte corrélation n’implique pas nécessairement une causalité. Des exemples de corrélations fallacieuses seront analysés pour développer l’esprit critique.
5.4. Limites de la corrélation linéaire
Il est crucial de comprendre ce que le coefficient ne mesure pas. Cette section montrera, à travers des exemples graphiques, que des variables peuvent être fortement liées par une relation non linéaire (parabolique, exponentielle) tout en ayant un coefficient de corrélation proche de zéro. L’élève apprendra à ne pas rejeter une liaison sur la seule base d’un faible sans observer le nuage de points.
Chapitre 6 : Ajustement Linéaire – Méthodes Élémentaires (MM5.19)
6.1. Concept d’ajustement et de résidus
L’ajustement consiste à remplacer le nuage de points empirique par une courbe théorique plus simple. Cette section introduit la droite comme modèle d’ajustement. La notion de résidu (écart vertical entre le point observé et la droite) est définie. L’objectif est de trouver la droite qui minimise globalement ces écarts.
6.2. Ajustement graphique (à la règle)
Cette méthode intuitive consiste à tracer une droite « au jugé » passant au mieux à travers le nuage de points. Bien que peu rigoureuse, elle permet à l’élève de visualiser la tendance et d’estimer rapidement une prévision. L’obligation pour cette droite de passer par le point moyen sera soulignée comme contrainte minimale.
6.3. Méthode de Mayer (Méthode des points moyens)
La méthode de Mayer offre une approche analytique simple. Elle consiste à diviser le nuage ordonné en deux sous-nuages d’effectifs égaux, à calculer les points moyens et de ces sous-groupes, et à déterminer l’équation de la droite passant par ces deux points. L’élève pratiquera cette méthode sur des séries de taille moyenne.
6.4. Avantages et inconvénients des méthodes élémentaires
Une analyse critique comparera les méthodes graphiques et de Mayer. L’élève comprendra que si la méthode de Mayer est plus rigoureuse que le tracé manuel, elle reste sensible au découpage du nuage et aux valeurs extrêmes. Cette discussion justifiera la nécessité d’une méthode plus robuste : les moindres carrés.
Partie 3 : Modélisation, Prévision et Applications 📉
Cette dernière partie se concentre sur l’outil le plus puissant de la statistique bivariée : la régression linéaire par les moindres carrés. Elle vise à rendre l’élève capable de construire un modèle prédictif fiable, d’en évaluer la pertinence et de l’utiliser pour résoudre des problèmes concrets d’interpolation et d’extrapolation.
Chapitre 7 : La Méthode des Moindres Carrés (MM5.19)
7.1. Principe de minimisation de la somme des carrés
Ce point expose le fondement théorique de la méthode : rechercher la droite qui rend minimale la somme des carrés des écarts verticaux (résidus). L’approche par le calcul différentiel (dérivées partielles par rapport à et ) est expliquée pour justifier les formules finales, reliant ainsi l’analyse mathématique à la statistique.
7.2. Détermination des coefficients de la droite de régression
Les formules des coefficients directeurs sont établies : pour la droite de régression de en . L’élève apprendra à calculer systématiquement la pente et l’ordonnée à l’origine . La distinction entre la droite de en et celle de en sera clairement établie.
7.3. Propriétés de la droite de régression
L’élève vérifiera que la droite des moindres carrés passe obligatoirement par le point moyen . La relation entre les pentes des deux droites de régression et le coefficient de corrélation () sera démontrée. Cette propriété servira d’outil de vérification lors des exercices.
7.4. Coefficient de détermination
Le coefficient de détermination (carré du coefficient de corrélation) est introduit comme mesure de la qualité du modèle. Il exprime la part de la variance de expliquée par la variation de . L’élève apprendra à interpréter en termes de pourcentage de fiabilité de l’ajustement : un de 0,90 signifie que 90% des variations sont expliquées par le modèle linéaire.
Chapitre 8 : Utilisation du Modèle pour la Prévision
8.1. Interpolation linéaire
L’interpolation consiste à estimer une valeur de pour une valeur de comprise dans l’intervalle des observations, mais non mesurée. L’élève utilisera l’équation de la droite de régression pour calculer ces valeurs manquantes, par exemple estimer la population de Kinshasa entre deux années de recensement.
8.2. Extrapolation et limites de validité
L’extrapolation projette le modèle hors de l’intervalle des données observées pour effectuer des prévisions futures. Cette section insistera sur les risques de cette pratique : la validité du modèle linéaire n’est pas garantie à l’infini. L’élève devra faire preuve de prudence et contextualiser ses prédictions, notamment dans les phénomènes économiques ou biologiques.
8.3. Changement de variable et ajustements non linéaires
Certaines séries statistiques (croissance bactérienne, désintégration radioactive) ne sont pas linéaires mais exponentielles. Ce point montre comment linéariser un nuage de points par un changement de variable (par exemple ou ). L’élève apprendra à transformer les données pour se ramener à un ajustement linéaire classique, puis à revenir aux variables d’origine.
8.4. Analyse des résidus
L’étude de la distribution des résidus permet de valider le modèle. Si les résidus sont répartis aléatoirement autour de zéro, le modèle linéaire est pertinent. Si les résidus montrent une structure (courbure), un autre modèle doit être envisagé. Cette analyse critique est fondamentale pour la démarche scientifique.
Chapitre 9 : Applications Contextualisées à la RDC (MM5.19)
9.1. Étude de cas : Démographie et Urbanisation
Application des méthodes statistiques à l’évolution de la population des grandes villes congolaises (Kinshasa, Goma, Lubumbashi). L’élève construira des modèles de régression pour estimer les besoins futurs en infrastructures scolaires ou sanitaires basés sur les tendances démographiques.
9.2. Étude de cas : Économie et Ressources Naturelles
Analyse de la corrélation entre le cours mondial des matières premières (cuivre, cobalt) et le budget national de la RDC. L’élève traitera des séries historiques pour comprendre la dépendance économique et modéliser l’impact des fluctuations des prix sur les recettes de l’État.
9.3. Étude de cas : Agriculture et Climatologie
Traitement des données pluviométriques et des rendements agricoles dans le bassin du Congo. L’élève cherchera à établir des liens statistiques entre la hauteur des précipitations et la production de maïs ou de manioc, illustrant l’impact du changement climatique sur la sécurité alimentaire.
9.4. Synthèse et projet statistique
Le cours se termine par un mini-projet où l’élève doit collecter ses propres données sur un sujet de son choix (commerce local, transport, sport), effectuer l’intégralité du traitement statistique (tableau, graphe, paramètres, ajustement) et rédiger un rapport d’analyse interprétant ses résultats.
Annexes
Bibliographie
Une liste exhaustive des manuels de mathématiques agréés par le Ministère de l’EPST, ainsi que des ouvrages de référence internationaux en statistique descriptive. Cette section inclut également les rapports de l’Institut National de la Statistique (INS) de la RDC, servant de sources de données brutes.
Tableaux Statistiques
Recueil de données brutes utilisées pour les exercices : séries historiques de production minière, relevés météorologiques des principales villes de la RDC, données démographiques par province, et statistiques de la LINAFOOT pour les exemples sportifs.
Formulaire Récapitulatif
Un aide-mémoire condensé regroupant toutes les formules essentielles du cours : moyennes, variances, covariance, coefficients de la droite de régression, formule de Koenig et propriétés des sommations (). Ce document est conçu pour accompagner l’élève lors des travaux dirigés et des révisions.