Le support de cours et les TD sont diponibles en ligne : https://github.com/fbxyz/ENSG_L1_cartostat
Un cours sur :
■ Les statistiques appliquées à la cartographie.
■ Et les méthodes de discrétisation.
■ Avec des séances de TD pour appliquer les acquis
Dans le détail :
■ Principes de la discrétisation en cartographie : pourquoi et quand discrétiser ?
■ Traiter l’information statistique de manière simple, pour l’adapter au message cartographique
■ Discrétiser en fonction des besoins et de la forme de la série.
■ Choisir le nombre de classes.
■ Comment comparer des cartes avec les mêmes unités.
■ Ou avec des unités différentes.
■ Transformer si besoin les séries
■ L'analyse univariée en cartographie (Python)
■ Machine virtuelle en ligne ou Conda sur vos ordinateurs
■ Interprétation des résultats
■ Application avec Qgis
■ Analyse de données en cartographie ?
Statistique en géographie :
■ Béguin, M., & Pumain, D. (2017). La représentation des données géographiques-4e éd.: Statistique et cartographie. Armand Colin.
■ Lambert, N., & Zanin, C. (2016). Manuel de cartographie: principes, méthodes, applications. Armand Colin.
■ Dumolard, P., Dubus, N., & Charleux, L. L. (2003). Les statistiques en géographie (p. 240). Editions Belin.
Statistique :
■ Saporta, G. (2006). Probabilités, analyse des données et statistique. Editions technip.
■ Sanders, L. (1990). L’analyse des données appliquées à la géographie, GIP RECLUS.
■ Bouyer, J. (2009). Épidémiologie: principes et méthodes quantitatives. Lavoisier.
En cartographie et en statistique, il est parfois nécessaire de simplifier l'information à transmettre.
■ Notamment lorsque la quantité d'information à représenter est très importante.
■ La réduction de l'information au sein de classes est appelée la discrétisation.
Réduire l'information en transformant des données continues ou déjà discrètes en classes d'intervalles distinctes, couvrant l'ensemble de la série statistique initiale
L'œil humain n'est pas en mesure d'associer un chiffre précis à la variable visuelle valeur (à l'inverse de la taille+forme). Seule la notion d'ordre est "innée" avec le rapport de noir et blanc sur une surface donnée.
Pour avoir associée à un niveau de gris un chiffre, il faut donc discrétiser
Le rôle du cartographe est de déterminer en amont de la production cartographique la "meilleur" discrétisation. Pour cela, il faut :
Se poser les questions :
■ faut-il mettre en avant la répartition spatiale la plus conforme à la répartition statistique ?
■ Ma carte sera-t-elle comparée à une autre ?
■ Dans le temps ?
■ Avec des données de même nature ?
■ Est-ce que mon public à besoin d'une discrétisation "simple", quitte à perdre une partie de l'information statistique.
Analyser la distribution statistique
■ En la résumant par les valeurs centrales.
■ Puis par les paramètres de dispersion.
■ En fonction des interprétations, la méthode de discrétisation peut-être choisie et justifiée.
L'analyse univariée permet alors de visualiser les spécificités de la série (mode, symétrie, valeurs extrêmes...) ainsi que le résumé et la dispersion des données.
| CS1_6_label | count | mean | std | min | 5% | 25% | 50% | 75% | 95% | max | EI | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | Agriculteurs exploitants | 100.0 | 2.7 | 2.1 | 0.0 | 0.2 | 1.2 | 2.4 | 3.6 | 6.0 | 10.7 | 2.4 |
| 1 | Artisans, commerçants, chefs entreprise | 100.0 | 7.5 | 1.8 | 4.0 | 5.3 | 6.1 | 7.3 | 8.7 | 11.0 | 11.8 | 2.7 |
| 2 | Cadres et professions intellectuelles supérieures | 100.0 | 13.9 | 5.7 | 8.3 | 9.1 | 10.5 | 12.0 | 14.6 | 24.8 | 44.1 | 4.1 |
| 3 | Employés | 100.0 | 28.7 | 2.4 | 19.7 | 25.0 | 27.4 | 28.4 | 30.2 | 33.0 | 34.5 | 2.7 |
| 4 | Ouvriers | 100.0 | 22.0 | 4.3 | 7.7 | 14.9 | 19.1 | 21.7 | 25.3 | 27.9 | 30.8 | 6.2 |
| 5 | Professions intermédiaires | 100.0 | 25.3 | 1.7 | 21.4 | 22.5 | 24.0 | 25.2 | 26.7 | 27.8 | 29.0 | 2.7 |
Le Kurtosis (aplatissement) et le Skew (coefficients d'asymétrie) permettent de caractériser par le calcul des séries
$${\displaystyle ~Kurtosis={\frac {(n+1)\,n}{(n-1)\,(n-2)\,(n-3)}}\;\sum _{i=1}^{n}\left({\frac {x_{i}-{\bar {x}}}{\sigma }}\right)^{4}-3\,{\frac {(n-1)^{2}}{(n-2)(n-3)}}}$$Pour une loi normale, le skew est égale à 0 et 3 pour le Kurtosis (0 s'il est normalisé comme dans la formule)
$${\displaystyle Skew={\frac {n}{(n-1)\,(n-2)}}\;\sum _{i=1}^{n}\left({\frac {x_{i}-{\bar {x}}}{\sigma }}\right)^{3}}$$Un Skew proche de 0 traduit généralement une série symétrique. Un Skew négatif une série étirée à gauche, positif une série étirée à droite
| CS1_6_label | Skew | Kurtosis | |
|---|---|---|---|
| 0 | Agriculteurs exploitants | 1.7 | 3.9 |
| 1 | Artisans, commerçants, chefs entreprise | 0.6 | -0.6 |
| 2 | Cadres et professions intellectuelles supérieures | 2.7 | 9.8 |
| 3 | Employés | -0.2 | 1.6 |
| 4 | Ouvriers | -0.6 | 0.6 |
| 5 | Professions intermédiaires | -0.1 | -0.8 |
Le QQ-Plot est un graphique permettant d'illustrer la position des quantiles observées par rapport aux quantiles théoriques d'une loi (ici une loi normale) Si l'observé et le théorique sont semblables, alors les observations s'alignent sur une droite : les données suivent une loi normale
Il existe de nombreux tests pour vérifier la normalité d'une série
■ Test de Shapiro-Wilk (le plus populaire, mais peu performant au-delà de 2000~5000 individus)
■ Test de Jarque-Bera (basé sur le skew et le kurtosis, mais ne fonctionne que sur un large échantillon (>2000))
■ Test de Kolmogorov-Smirnov (n'est quasiment plus utilisé)
Attention, l'hypothèse nulle H0 = l'échantillon suit une loi normale. Si la p-value du test est significative, l'échantillon ne suit pas une loi normale.
Ces tests sont indispensables en statistique, de nombreux outils de la statistique n'étant valable que dans la condition de normalité
| CSP | Shapiro-Wilk Statistic | Shapiro-Wilk p-value | Jarque-Bera Statistic | Jarque-Bera p-value | |
|---|---|---|---|---|---|
| 0 | Agriculteurs exploitants | 0.86 | 0.00 | 101.48 | 0.00 |
| 1 | Artisans, commerçants, chefs entreprise | 0.95 | 0.00 | 6.94 | 0.03 |
| 2 | Cadres et professions intellectuelles supérieures | 0.73 | 0.00 | 473.11 | 0.00 |
| 3 | Professions intermédiaires | 0.98 | 0.16 | 3.09 | 0.21 |
| 4 | Employés | 0.97 | 0.04 | 9.98 | 0.01 |
| 5 | Ouvriers | 0.97 | 0.04 | 5.95 | 0.05 |
Il est parfois nécessaire de transformer les séries, soit pour les comparer ou les ajouter à un modèle, soit pour les rendre normales.
■ En log-transformant une série étirée à droite (appliquer la discrétisation sur la transformation et repasser les bornes dans les valeurs initiales)
■ En utilisant la transformation de Box-Cox (G.E.P. Box and D.R. Cox, “An Analysis of Transformations”, Journal of the Royal Statistical Society B, 26, 211-252 (1964)). Retourne généralement le $\lambda$ du Log-vraisemblance pour revenir aux données originelles
| CSP | Shapiro-Wilk Statistic | Shapiro-Wilk p-value | Jarque-Bera Statistic | Jarque-Bera p-value | |
|---|---|---|---|---|---|
| 0 | Agriculteurs exploitants | 0.98 | 0.09 | 0.81 | 0.67 |
| 1 | Artisans, commerçants, chefs entreprise | 0.97 | 0.04 | 1.68 | 0.43 |
| 2 | Cadres et professions intellectuelles supérieures | 0.99 | 0.43 | 2.01 | 0.37 |
| 3 | Professions intermédiaires | 0.98 | 0.16 | 3.12 | 0.21 |
| 4 | Employés | 0.98 | 0.07 | 4.93 | 0.08 |
| 5 | Ouvriers | 0.99 | 0.54 | 0.75 | 0.69 |
Il est parfois nécessaire de standardiser des séries de données pour faciliter leur comparaison, leur mise en relation ou pour réaliser une classification
Centrer-réduire
■ Centrer ($xc$) : $xc_i = x_i - \overline{x}$.
Avec $\overline{xc}=0$
■ Réduire ($xr$) : $xr_i = \frac{x_i}{\sigma_x}$ .
Avec ${\sigma_{xr}}=1$
■ Centrer-réduire ($z$) : $z_i = \frac{x_i - \overline{x}}{\sigma_x}$
Une fois les données centrées-réduites :
■ Vous pouvez facilement les comparer les une aux autres
■ Vous obtenez un z-scores, utile pour les tests de significativités
■ C'est une pratique quasiment obligatoire en Machine Learning
■ La carte communique une information par l'image
■ Elle utilise un langage conceptualisé par Jacques Bertin, la sémiologie graphique : alphabet, vocabulaire et syntaxe
■ Des biais cognitifs interviendront dans la conception de la carte (vision du cartographe sur ce qu'il observe).
Pour réduire ces biais et rendre votre message efficace, il faut :
■ Utiliser les règles de la conception cartographique
■ Penser la carte pour son public et non pour soi
■ Adapter le message cartographique (public, support, objectifs).
Identifier :
l’objectif de votre carte
■ Dois-je faire une carte pour y répondre ?
■ Dans quel contexte ? (Explorer ? Communiquer ?)
■ Quel est le message à faire passer ?
le public de votre carte
■ Des experts sur le sujet ?
■ Des novices ?
le support de la carte
■ Papier ? Informatique ?
■ Couleur ? Noir et blanc ? ?
Ensuite, vous pouvez identifier les informations à utiliser
Les règles de représentation des données en découleront et la discrétisation sera à adapter
Le message cartographique guide l’ensemble de la production d'une carte.
Il faut toujours avoir conscience des points suivants :
Cela passe par la bonne application des règles de la sémiologie graphique à l'ensemble de ces points Mais aussi dans certains cas un choix judicieux (rarement parfait) d'une discrétisation
Il est essentiel de comprendre les caractéristiques de la distribution de la ou des séries de données avec les outils de l’analyse univariée : :
Dans le cas contraire, vous risquez d’avoir une carte n’apportant que très peu d'information, car la discrétisation sera mal adaptée au message cartographique
Attention, il faudrait normalement que la première et la dernière classe soient regroupées sur l'histogramme
Certaines contraintes peuvent s'ajouter et complexifier la discrétisation
■ besoin de visualiser à un instant $t$ un phénomène (le plus simple).
■ Besoin de comparer des données identiques à deux dates.
■ Besoin de comparer des données différentes.
En cartographie, le découpage en classes d’une série de données suit les mêmes règles qu’en statistique :
Concept : même nombre d’individus dans chaque classe
Construction : nombre total d'individus (les départements) / nombre de classes souhaités
Avantages :
■ Très facile à réaliser.
■ Facilement compréhensible par le lecteur.
■ Permet de comparer la position des individus géographiques dans différentes distributions (ordre de grandeur). Les bornes de classes ne seront pas les mêmes.
■ Applicable à toutes les formes de distributions.
Inconvénients :
■ Risque de perte d’information sur la forme de la distribution.
■ Ne met pas forcément en évidence les valeurs extrêmes (max, min).
Concept : Pour contourner le problème des valeurs extrêmes non mises en évidence avec les quantiles, Philcarto propose une méthode dite Q6. Ce sont des quartiles, mais la première classe contient les cinq pourcents valeurs les plus petites et non 25%, la dernière classe les cinq pourcents valeurs les plus fortes.
Construction : [Min : 5%[ U [5% ; 25%[ U [25% ; 50%[ U [50% ; 75 %[ U [75% ; 95 %[ U [95% : max]
Avantages :
■ Facile à réaliser (Quartiles ajustés).
■ Mise en évidence des valeurs extrêmes.
■ Permet de comparer la position des individus géographiques dans différentes distributions (ordre de grandeur). Les bornes de classes ne seront pas les mêmes.
■ Applicable à toutes les formes de distributions.
Inconvénients :
■ Risque de perte d’information sur la forme de la distribution (mais moins que pour des quantiles).
■ Moins compréhensible par le lecteur que les quantiles (peu utilisées).
Concept : Les classes ont la même étendue (de 10 en 10, de 5 en 5 etc.)
Construction : (max – min) / nombre de classes souhaités
Avantages :
■ Très facile à réaliser.
■ Facilement compréhensible par le lecteur.
■ Efficace sur les distributions uniformes.
Inconvénients :
■ Très mal adaptée à une distribution non uniforme.
■ Succeptible de créer des classes vides.
Concept : Les classes se basent sur les propriétés de la loi normale. La moyenne est de préférence au centre d’une classe. L’amplitude de la classe correspond à l’écart type (0,5 σ, 1 σ, 1,5 σ)
Construction : [Min ; -1,5 σ[ U [-1,5 ; -0,5 σ[ U [-0,5 σ; +0,5 σ[ U [+0,5 σ; +1,5 σ[ U [+1,5, σ; Max]
Avantages :
■ A un sens sur les distribution gaussienne et permet dans ce cas un bon compromis géographique/statistique. Les classes extrêmes montrent les valeurs anormales, les classes centrales les valeurs proches de la normale.
■ Facilement compréhensible par le lecteur initié.
■ Permet la comparaison, si chaque série est gaussienne avec des moyennes et écart-type proches
Inconvénients :
■ Difficile à comprendre pour le lecteur non initié (propriétés de la loi normale).
■ Uniquement pour les distributions normales (transformation possible).
Construction : utilisation de l'algorithme de Jenks, qui minimise la variance intra-classe et maximise la variance inter-classe. Le cartographe peut "suivre" manuellement les coupures de l'histogramme, mais au prix d'une forte subjectivité (on parle de seuils naturels)
Avantages :
■ Permet un excellent compromis entre la transmission de l’information et la conservation des caractéristiques de la distribution statistiques
■ Les classes regroupent en leur sein les valeurs les plus semblables (minimise la variance intra-classe)
■ et elles sont le plus différentes possibles les unes par rapport aux autres (maximise la variance inter-classe)
Inconvénients :
■ Ne permet pas la comparaison de cartes si les bornes ne sont pas identiques.
■ Subjectif pour les seuils naturels. Deux personnes travaillant sur la même série de données n'auront pas forcément les mêmes résultats.
Pour les données de taux, la transmission du message est en grande partie liée à la discrétisation.
En cartographie, discrétiser une série statistique suppose donc un compromis entre :
■ La représentation et la transmission du message cartographique.
■ Des biais cognitifs interviendront dans la conception de la carte (vision du cartographe sur ce qu'il observe).
Ce qui conduit souvent à un nombre de classes en cartographie allant de 4 à 7
■ En dessous, l’information spatiale sera trop faible
■ Au-delà, la carte sera trop complexe à comprendre : trop d’informations visuelles
■ La longueur de la variable visuelle valeur ne permet pas à votre œil d'associer les différents niveaux de gris de la carte avec ceux de la légende.
Vous prendrez un minimum de risques avec une discrétisation en 5 classes.
■ A part en science physique, garder 10 chiffres après la virgule n'a pas trop d'intérêt
■ Dans la plupart des cas, arrondissez à un chiffre après la virgule, deux au maximum selon l'indicateur
■ Mais il faut arrondir en amont de la mise en page. Cela évitera qu'un individu se retrouve dans la mauvaise classe (dans un logiciel de cartographie, changer bornes de classes met à jour automatiquement le rendu. Ce n'est pas le cas d'un logiciel de dessin assisté par ordinateur)
Soit comparer des données de même nature : comparaison absolue
■ Une même valeur (niveau de gris) est associée à un même interval de classe entre les cartes à comparer
■ Les bornes de classes doivent donc être identiques
Ou comparer des données de natures différentes : comparaison relative
■ On compare la fréquence des individus de chaque classe
■ Une même valeur (niveau de gris) est associée à une même fréquence entre les cartes à comparer
■ On fait donc en sorte que les effectifs de classes des différentes séries soient identiques
Si on souhaite comparer des données identiques, une solution est de discrétiser avec des bornes de classes identiques entre les cartes : comparaison absolue.
Les même classes avec des bornes identiques et le même niveau de gris se retrouvent sur toutes les cartes
N'oubliez pas d'ajuster le min et le max de chaque série. Il est également possible d'ajouter ou supprimer des classes si nécessaire
Dans cet exemple, une discrétisation Jenks a été appliquée sur les données 2001 puis retranscrites pour 2009 :
Si on souhaite comparer des données différentes, les bornes de classes ne peuvent plus être identiques. On doit alors comparer la position relative des individus géographiques : comparaison relative
Les même classes avec des fréquences identiques et le même niveau de gris se retrouvent sur toutes les cartes
Il est évidemment possible d'utiliser une comparaison relative pour des données de même nature
Une discrétisation en quartile a été appliquée sur les deux séries de données :
La discrétisation des données de taux est obligatoire en cartographie. Il s'agit d'une limite physiologique, l'œil n'étant pas capable d'associer facilement à plusieurs valeurs de gris plusieurs données.
De nombreuses méthodes de discrétisation existent et le choix final dépend évidemment des étapes précédentes.
N’oubliez pas que vous pouvez faire des ajustements manuels sur la discrétisation (bornes des classes) si cela est justifié : soyez pragmatiques !
Vous ne voulez pas que l’on vous accuse d’avoir manipulé la discrétisation ?
Vous ne souhaitez pas comparer votre carte à une autre et voulez suivre au mieux la forme de la distribution ?
Vous devez faire une carte pour le grand public ?
Votre serie de données suit une loi normale et vous souhaitez montrer les individus géographiques « anormaux » ?
Vous voulez comparer des données de même nature ?
Vous voulez comparer des données de différentes natures ?
La discrétisation des données de taux est obligatoire en cartographie. Il s'agit d'une limite physiologique, l'œil n'étant pas capable d'associer facilement à plusieurs valeurs de gris plusieurs données.
De nombreuses méthodes de discrétisation existent et le choix final dépend évidemment des étapes précédentes.