<link href="https://fonts.googleapis.com/css?family=Open+Sans:400,600,300" rel="stylesheet" type="text/css">

Statistiques appliquées en cartographie



Florian Bayer florian.bayer@gmail.com

Présentation de l'enseignement

Déroulement des séances

Le support de cours et les TD sont diponibles en ligne : https://github.com/fbxyz/ENSG_L1_cartostat

Contenu de l’enseignement

Un cours sur :

■ Les statistiques appliquées à la cartographie.

■ Et les méthodes de discrétisation.

■ Avec des séances de TD pour appliquer les acquis

Dans le détail :

■ Principes de la discrétisation en cartographie : pourquoi et quand discrétiser ?

■ Traiter l’information statistique de manière simple, pour l’adapter au message cartographique

■ Discrétiser en fonction des besoins et de la forme de la série.

■ Choisir le nombre de classes.

■ Comment comparer des cartes avec les mêmes unités.

■ Ou avec des unités différentes.

■ Transformer si besoin les séries

Séances de TD

■ L'analyse univariée en cartographie (Python)

■ Machine virtuelle en ligne ou Conda sur vos ordinateurs

■ Interprétation des résultats

■ Application avec Qgis

■ Analyse de données en cartographie ?

...

...


...

Bibliographie

Statistique en géographie :

■ Béguin, M., & Pumain, D. (2017). La représentation des données géographiques-4e éd.: Statistique et cartographie. Armand Colin.

■ Lambert, N., & Zanin, C. (2016). Manuel de cartographie: principes, méthodes, applications. Armand Colin.

■ Dumolard, P., Dubus, N., & Charleux, L. L. (2003). Les statistiques en géographie (p. 240). Editions Belin.

Statistique :

■ Saporta, G. (2006). Probabilités, analyse des données et statistique. Editions technip.

■ Sanders, L. (1990). L’analyse des données appliquées à la géographie, GIP RECLUS.

■ Bouyer, J. (2009). Épidémiologie: principes et méthodes quantitatives. Lavoisier.

Concepts et outils utilisés dans cet enseignement

Schéma de production cartographique

Cartographier pour étudier la variabilité spatiale

En étant attentif aux "sens" de vos indicateurs

La discrétisation

En cartographie et en statistique, il est parfois nécessaire de simplifier l'information à transmettre.

■ Notamment lorsque la quantité d'information à représenter est très importante.

■ La réduction de l'information au sein de classes est appelée la discrétisation.

Réduire l'information en transformant des données continues ou déjà discrètes en classes d'intervalles distinctes, couvrant l'ensemble de la série statistique initiale

Pourquoi discrétiser ?

L'œil humain n'est pas en mesure d'associer un chiffre précis à la variable visuelle valeur (à l'inverse de la taille+forme). Seule la notion d'ordre est "innée" avec le rapport de noir et blanc sur une surface donnée.

Pour avoir associée à un niveau de gris un chiffre, il faut donc discrétiser

Minimiser la variance intra-classe, maximiser la variance inter-classe (1)

Minimiser la variance intra-classe, maximiser la variance inter-classe (2)

Une étape plus complexe qu'il n'y paraît

Le rôle du cartographe est de déterminer en amont de la production cartographique la "meilleur" discrétisation. Pour cela, il faut :

Se poser les questions :

■ faut-il mettre en avant la répartition spatiale la plus conforme à la répartition statistique ?

■ Ma carte sera-t-elle comparée à une autre ?

■ Dans le temps ?

■ Avec des données de même nature ?

■ Est-ce que mon public à besoin d'une discrétisation "simple", quitte à perdre une partie de l'information statistique.

Analyser la distribution statistique

■ En la résumant par les valeurs centrales.

■ Puis par les paramètres de dispersion.

■ En fonction des interprétations, la méthode de discrétisation peut-être choisie et justifiée.

L'analyse univariée permet alors de visualiser les spécificités de la série (mode, symétrie, valeurs extrêmes...) ainsi que le résumé et la dispersion des données.

Analyse univariée

Visualiser la série statistique à l'aide de graphiques

Visualiser la série statistique à l'aide de graphiques

Résumer la série statistique à l'aide des valeurs centrales

Mesurer l'hétérogénéité de la série avec les paramètres de dispersion

Calculs des valeurs centrales et paramètres de dispersion

CS1_6_label count mean std min 5% 25% 50% 75% 95% max EI
0 Agriculteurs exploitants 100.0 2.7 2.1 0.0 0.2 1.2 2.4 3.6 6.0 10.7 2.4
1 Artisans, commerçants, chefs entreprise 100.0 7.5 1.8 4.0 5.3 6.1 7.3 8.7 11.0 11.8 2.7
2 Cadres et professions intellectuelles supérieures 100.0 13.9 5.7 8.3 9.1 10.5 12.0 14.6 24.8 44.1 4.1
3 Employés 100.0 28.7 2.4 19.7 25.0 27.4 28.4 30.2 33.0 34.5 2.7
4 Ouvriers 100.0 22.0 4.3 7.7 14.9 19.1 21.7 25.3 27.9 30.8 6.2
5 Professions intermédiaires 100.0 25.3 1.7 21.4 22.5 24.0 25.2 26.7 27.8 29.0 2.7

Décrire la forme de la série statistique à l'aide de graphiques

Décrire la forme de la série statistique à l'aide de calculs

Le Kurtosis (aplatissement) et le Skew (coefficients d'asymétrie) permettent de caractériser par le calcul des séries

$${\displaystyle ~Kurtosis={\frac {(n+1)\,n}{(n-1)\,(n-2)\,(n-3)}}\;\sum _{i=1}^{n}\left({\frac {x_{i}-{\bar {x}}}{\sigma }}\right)^{4}-3\,{\frac {(n-1)^{2}}{(n-2)(n-3)}}}$$

Pour une loi normale, le skew est égale à 0 et 3 pour le Kurtosis (0 s'il est normalisé comme dans la formule)

$${\displaystyle Skew={\frac {n}{(n-1)\,(n-2)}}\;\sum _{i=1}^{n}\left({\frac {x_{i}-{\bar {x}}}{\sigma }}\right)^{3}}$$

Un Skew proche de 0 traduit généralement une série symétrique. Un Skew négatif une série étirée à gauche, positif une série étirée à droite

CS1_6_label Skew Kurtosis
0 Agriculteurs exploitants 1.7 3.9
1 Artisans, commerçants, chefs entreprise 0.6 -0.6
2 Cadres et professions intellectuelles supérieures 2.7 9.8
3 Employés -0.2 1.6
4 Ouvriers -0.6 0.6
5 Professions intermédiaires -0.1 -0.8

Forme des séries

Tester la normalité d'une série : Quantile-Quantile Plot

Le QQ-Plot est un graphique permettant d'illustrer la position des quantiles observées par rapport aux quantiles théoriques d'une loi (ici une loi normale) Si l'observé et le théorique sont semblables, alors les observations s'alignent sur une droite : les données suivent une loi normale

Tester la normalité d'une série à l'aide de tests statistiques

Il existe de nombreux tests pour vérifier la normalité d'une série

■ Test de Shapiro-Wilk (le plus populaire, mais peu performant au-delà de 2000~5000 individus)

■ Test de Jarque-Bera (basé sur le skew et le kurtosis, mais ne fonctionne que sur un large échantillon (>2000))

■ Test de Kolmogorov-Smirnov (n'est quasiment plus utilisé)

Attention, l'hypothèse nulle H0 = l'échantillon suit une loi normale. Si la p-value du test est significative, l'échantillon ne suit pas une loi normale.

Ces tests sont indispensables en statistique, de nombreux outils de la statistique n'étant valable que dans la condition de normalité

Tester la normalité d'une série à l'aide de tests statistiques : exemple

CSP Shapiro-Wilk Statistic Shapiro-Wilk p-value Jarque-Bera Statistic Jarque-Bera p-value
0 Agriculteurs exploitants 0.86 0.00 101.48 0.00
1 Artisans, commerçants, chefs entreprise 0.95 0.00 6.94 0.03
2 Cadres et professions intellectuelles supérieures 0.73 0.00 473.11 0.00
3 Professions intermédiaires 0.98 0.16 3.09 0.21
4 Employés 0.97 0.04 9.98 0.01
5 Ouvriers 0.97 0.04 5.95 0.05

Transformer une série statistique

Il est parfois nécessaire de transformer les séries, soit pour les comparer ou les ajouter à un modèle, soit pour les rendre normales.

■ En log-transformant une série étirée à droite (appliquer la discrétisation sur la transformation et repasser les bornes dans les valeurs initiales)

■ En utilisant la transformation de Box-Cox (G.E.P. Box and D.R. Cox, “An Analysis of Transformations”, Journal of the Royal Statistical Society B, 26, 211-252 (1964)). Retourne généralement le $\lambda$ du Log-vraisemblance pour revenir aux données originelles

CSP Shapiro-Wilk Statistic Shapiro-Wilk p-value Jarque-Bera Statistic Jarque-Bera p-value
0 Agriculteurs exploitants 0.98 0.09 0.81 0.67
1 Artisans, commerçants, chefs entreprise 0.97 0.04 1.68 0.43
2 Cadres et professions intellectuelles supérieures 0.99 0.43 2.01 0.37
3 Professions intermédiaires 0.98 0.16 3.12 0.21
4 Employés 0.98 0.07 4.93 0.08
5 Ouvriers 0.99 0.54 0.75 0.69

Transformer une série statistique : valeurs normalisées

Tester la normalité d'une série : Quantile-Quantile Plot

Transformer une série statistique : centrer-réduire (standardisation)

Il est parfois nécessaire de standardiser des séries de données pour faciliter leur comparaison, leur mise en relation ou pour réaliser une classification

Centrer-réduire

■ Centrer ($xc$) : $xc_i = x_i - \overline{x}$.
Avec $\overline{xc}=0$

■ Réduire ($xr$) : $xr_i = \frac{x_i}{\sigma_x}$ .
Avec ${\sigma_{xr}}=1$

■ Centrer-réduire ($z$) : $z_i = \frac{x_i - \overline{x}}{\sigma_x}$

Une fois les données centrées-réduites :

■ Vous pouvez facilement les comparer les une aux autres

■ Vous obtenez un z-scores, utile pour les tests de significativités

■ C'est une pratique quasiment obligatoire en Machine Learning

Centrer-réduire : exemple

Centrer-réduire : valeurs non standardisées

Le message cartographique

Concepts-clés de la cartographie

■ La carte communique une information par l'image

■ Elle utilise un langage conceptualisé par Jacques Bertin, la sémiologie graphique : alphabet, vocabulaire et syntaxe

■ Des biais cognitifs interviendront dans la conception de la carte (vision du cartographe sur ce qu'il observe).

Pour réduire ces biais et rendre votre message efficace, il faut :

■ Utiliser les règles de la conception cartographique

■ Penser la carte pour son public et non pour soi

■ Adapter le message cartographique (public, support, objectifs).

Avant de faire une carte

Identifier :

l’objectif de votre carte

■ Dois-je faire une carte pour y répondre ?

■ Dans quel contexte ? (Explorer ? Communiquer ?)

■ Quel est le message à faire passer ?

le public de votre carte

■ Des experts sur le sujet ?

■ Des novices ?

le support de la carte

■ Papier ? Informatique ?

■ Couleur ? Noir et blanc ? ?

Ensuite, vous pouvez identifier les informations à utiliser

Les règles de représentation des données en découleront et la discrétisation sera à adapter

Le message cartographique

Le message cartographique guide l’ensemble de la production d'une carte.

Il faut toujours avoir conscience des points suivants :

    ■ La carte n’est pas faite pour son auteur mais pour ses lecteurs.
    ■ Il faut adapter son message aux types de lecteurs et au support de la carte.
    ■ La carte doit être simple et efficace au niveau du rendu (pas dans sa conception).
    ■ Le lecteur doit fournir un minimum d’effort pour comprendre la carte dès le premier coups d’œil.
    ■ Les cartes sont un ensemble de petits mensonges communément acceptés (pour simplifier la compréhension du message)
    ■ La carte est un outil de communication très puissant. Son utilisation doit se faire de manière honnête et objective.

Cela passe par la bonne application des règles de la sémiologie graphique à l'ensemble de ces points Mais aussi dans certains cas un choix judicieux (rarement parfait) d'une discrétisation

Impact de la discrétisation sur le message cartographique

S'appuyer sur l'analyse univariée de la série

Il est essentiel de comprendre les caractéristiques de la distribution de la ou des séries de données avec les outils de l’analyse univariée : :

    ■ Elle permet de faire un compromis entre information statistique, information géographique et la bonne transmission du message.
    ■ Elle permet résumer l’information en conservant la forme de la distribution
    ■ Elle permet si besoin de mettre en évidence les valeurs remarquables et de les faire apparaître sur la carte
    ■ Elle donne les éléments scientifiques pour justifier et reproduire ses choix.

Dans le cas contraire, vous risquez d’avoir une carte n’apportant que très peu d'information, car la discrétisation sera mal adaptée au message cartographique

Suivre la forme de la distribution : exemple 1

Attention, il faudrait normalement que la première et la dernière classe soient regroupées sur l'histogramme

Suivre la forme de la distribution : exemple 2

Simple dans la pratique, mais...

...

Certaines contraintes peuvent s'ajouter et complexifier la discrétisation

■ besoin de visualiser à un instant $t$ un phénomène (le plus simple).

■ Besoin de comparer des données identiques à deux dates.

■ Besoin de comparer des données différentes.

Les méthodes de discrétisation


Règles de discrétisation

En cartographie, le découpage en classes d’une série de données suit les mêmes règles qu’en statistique :

    ■ Les classes couvrent l’ensemble de la série statistique
    ■ Elles sont contiguës
    ■ Une valeur ne peut appartenir qu’à une seule classe
    ■ Eviter si possible les classes vides

Les quantiles (effectifs égaux)

Concept : même nombre d’individus dans chaque classe

Construction : nombre total d'individus (les départements) / nombre de classes souhaités

Avantages :

■ Très facile à réaliser.

■ Facilement compréhensible par le lecteur.

■ Permet de comparer la position des individus géographiques dans différentes distributions (ordre de grandeur). Les bornes de classes ne seront pas les mêmes.

■ Applicable à toutes les formes de distributions.

Inconvénients :

■ Risque de perte d’information sur la forme de la distribution.

■ Ne met pas forcément en évidence les valeurs extrêmes (max, min).

Les quantiles (effectifs égaux)

Les quantiles : variante Q6

Concept : Pour contourner le problème des valeurs extrêmes non mises en évidence avec les quantiles, Philcarto propose une méthode dite Q6. Ce sont des quartiles, mais la première classe contient les cinq pourcents valeurs les plus petites et non 25%, la dernière classe les cinq pourcents valeurs les plus fortes.

Construction : [Min : 5%[ U [5% ; 25%[ U [25% ; 50%[ U [50% ; 75 %[ U [75% ; 95 %[ U [95% : max]

Avantages :

■ Facile à réaliser (Quartiles ajustés).

■ Mise en évidence des valeurs extrêmes.

■ Permet de comparer la position des individus géographiques dans différentes distributions (ordre de grandeur). Les bornes de classes ne seront pas les mêmes.

■ Applicable à toutes les formes de distributions.

Inconvénients :

■ Risque de perte d’information sur la forme de la distribution (mais moins que pour des quantiles).

■ Moins compréhensible par le lecteur que les quantiles (peu utilisées).

Les quantiles : variante Q6

Les amplitudes égales

Concept : Les classes ont la même étendue (de 10 en 10, de 5 en 5 etc.)

Construction : (max – min) / nombre de classes souhaités

Avantages :

■ Très facile à réaliser.

■ Facilement compréhensible par le lecteur.

■ Efficace sur les distributions uniformes.

Inconvénients :

■ Très mal adaptée à une distribution non uniforme.

■ Succeptible de créer des classes vides.

Les amplitudes égales

La moyenne et l'écart-type

Concept : Les classes se basent sur les propriétés de la loi normale. La moyenne est de préférence au centre d’une classe. L’amplitude de la classe correspond à l’écart type (0,5 σ, 1 σ, 1,5 σ)

Construction : [Min ; -1,5 σ[ U [-1,5 ; -0,5 σ[ U [-0,5 σ; +0,5 σ[ U [+0,5 σ; +1,5 σ[ U [+1,5, σ; Max]

Avantages :

■ A un sens sur les distribution gaussienne et permet dans ce cas un bon compromis géographique/statistique. Les classes extrêmes montrent les valeurs anormales, les classes centrales les valeurs proches de la normale.

■ Facilement compréhensible par le lecteur initié.

■ Permet la comparaison, si chaque série est gaussienne avec des moyennes et écart-type proches

Inconvénients :

■ Difficile à comprendre pour le lecteur non initié (propriétés de la loi normale).

■ Uniquement pour les distributions normales (transformation possible).

La moyenne et l'écart-type

Algorithme de Jenks

Concept : les classes suivent au mieux la forme de la distribution, en regroupant les valeurs semblables et en isolant les valeurs extrêmes.

Construction : utilisation de l'algorithme de Jenks, qui minimise la variance intra-classe et maximise la variance inter-classe. Le cartographe peut "suivre" manuellement les coupures de l'histogramme, mais au prix d'une forte subjectivité (on parle de seuils naturels)

Avantages :

■ Permet un excellent compromis entre la transmission de l’information et la conservation des caractéristiques de la distribution statistiques

■ Les classes regroupent en leur sein les valeurs les plus semblables (minimise la variance intra-classe)

■ et elles sont le plus différentes possibles les unes par rapport aux autres (maximise la variance inter-classe)

Inconvénients :

■ Ne permet pas la comparaison de cartes si les bornes ne sont pas identiques.

■ Subjectif pour les seuils naturels. Deux personnes travaillant sur la même série de données n'auront pas forcément les mêmes résultats.

Algorithme de Jenks

Questions fréquentes

Combien de classes ?

Pour les données de taux, la transmission du message est en grande partie liée à la discrétisation.

En cartographie, discrétiser une série statistique suppose donc un compromis entre :

■ La représentation et la transmission du message cartographique.

■ Des biais cognitifs interviendront dans la conception de la carte (vision du cartographe sur ce qu'il observe).

Ce qui conduit souvent à un nombre de classes en cartographie allant de 4 à 7

■ En dessous, l’information spatiale sera trop faible

■ Au-delà, la carte sera trop complexe à comprendre : trop d’informations visuelles

■ La longueur de la variable visuelle valeur ne permet pas à votre œil d'associer les différents niveaux de gris de la carte avec ceux de la légende.

Vous prendrez un minimum de risques avec une discrétisation en 5 classes.

Faut-il arrondir les valeurs des classes ?

...


■ A part en science physique, garder 10 chiffres après la virgule n'a pas trop d'intérêt


■ Dans la plupart des cas, arrondissez à un chiffre après la virgule, deux au maximum selon l'indicateur


■ Mais il faut arrondir en amont de la mise en page. Cela évitera qu'un individu se retrouve dans la mauvaise classe (dans un logiciel de cartographie, changer bornes de classes met à jour automatiquement le rendu. Ce n'est pas le cas d'un logiciel de dessin assisté par ordinateur)

Comment comparer des séries ?

Soit comparer des données de même nature : comparaison absolue

■ Une même valeur (niveau de gris) est associée à un même interval de classe entre les cartes à comparer

■ Les bornes de classes doivent donc être identiques

Ou comparer des données de natures différentes : comparaison relative

■ On compare la fréquence des individus de chaque classe

■ Une même valeur (niveau de gris) est associée à une même fréquence entre les cartes à comparer

■ On fait donc en sorte que les effectifs de classes des différentes séries soient identiques

Comparaison absolue

Si on souhaite comparer des données identiques, une solution est de discrétiser avec des bornes de classes identiques entre les cartes : comparaison absolue.

Les même classes avec des bornes identiques et le même niveau de gris se retrouvent sur toutes les cartes

    ■ Amplitude égale :
    • Calcul de l'amplitude de classe à partir des min et max de l'ensemble des séries
    ■ Jenks :
    • Appliquer l'algorithme sur une des séries puis appliquer les bornes de classe calculées aux autres séries
    ■ Tout autre méthode du moment que les bornes de classes soient identiques
    • Toutefois réapliquer des bornes calculées sur des quantiles ou une méthode basée sur la distribution n'a pas grand sens

N'oubliez pas d'ajuster le min et le max de chaque série. Il est également possible d'ajouter ou supprimer des classes si nécessaire

Comparaison absolue : exemple

Dans cet exemple, une discrétisation Jenks a été appliquée sur les données 2001 puis retranscrites pour 2009 :

    ■ En ajustant le minimum (11 vs 24)
    ■ Et en ajoutant une classe supplémentaire pour 2009

Comparaison relative

Si on souhaite comparer des données différentes, les bornes de classes ne peuvent plus être identiques. On doit alors comparer la position relative des individus géographiques : comparaison relative

Les même classes avec des fréquences identiques et le même niveau de gris se retrouvent sur toutes les cartes

    ■ Quantiles :
    • Vous comparer les individus appartenant à chaque n ième classe de la série A avec ceux de la même classe de la série B
    ■ Q6 :
    • Même principe, sauf que les classes extrêmes contiennent chacune 5% des effectifs
    ■ Moyenne et écart-type
    • Même répartition au sein de la loi normale. Attention, la moyenne et l'écart-type ne doivent pas être significativement différents entre les différentes séries à comparer

Il est évidemment possible d'utiliser une comparaison relative pour des données de même nature

Comparaison relative : exemple

Une discrétisation en quartile a été appliquée sur les deux séries de données :

    ■ Les valeurs des bornes sont différentes
    ■ Mais on peut comparer les 25% régions où le taux de sujets recensé est le plus faible V.S. les 25% des régions où les sujets prélevés sont les plus faibles. Idem pour chacune des classes.

Conclusion

Concepts-clés (1)

La discrétisation des données de taux est obligatoire en cartographie. Il s'agit d'une limite physiologique, l'œil n'étant pas capable d'associer facilement à plusieurs valeurs de gris plusieurs données.

    ■ On réduit donc l'information dans des classes pour que l'œil n'ait qu'un petit (4 à 7) nombre de niveaux de gris à analyser.
    ■ Cette réduction implique une simplification de l'information statistique. Pour ne pas fausser le message cartographique, il faut veiller à utiliser une méthode adéquate.
    ■ En s'intéressant au message cartographique (public, format, support).
    ■ En décrivant la série grâce à l'analyse univariée (forme, résumé, dispersion, valeurs extrêmes).

De nombreuses méthodes de discrétisation existent et le choix final dépend évidemment des étapes précédentes.

N’oubliez pas que vous pouvez faire des ajustements manuels sur la discrétisation (bornes des classes) si cela est justifié : soyez pragmatiques !

Concepts-clés (2)

Vous ne voulez pas que l’on vous accuse d’avoir manipulé la discrétisation ?

    ■ Utilisez des quantiles (mais vous risquez de ne pas suivre la répartition statistique des données et d’avoir des classes hétérogènes).
    ■ Q6 permet de conserver les extrêmes dans des classes à part.

Vous ne souhaitez pas comparer votre carte à une autre et voulez suivre au mieux la forme de la distribution ?

    ■ Utilisez les seuils naturels avec l'algorithme de Jenks
    ■ mais vous ne pourrez pas comparer votre carte dans le temps sans ajustement car les bornes des classes des deux cartes seront différentes.

Vous devez faire une carte pour le grand public ?

    ■ Privilégiez les amplitudes égales avec si possible une amplitude arrondies (5 en 5, 100 en 100).
    ■ Conservez néanmoins bien le vrai minimum et le vrai maximum.

Concepts-clés (3)

Votre serie de données suit une loi normale et vous souhaitez montrer les individus géographiques « anormaux » ?

    ■ Utilisez la discrétisation en moyenne écart-type.
    ■ Vous pourrez ainsi mettre en évidence les n% individus en queues de distribution

Vous voulez comparer des données de même nature ?

    ■ Appliquez les amplitudes égales sur l’ensemble des séries, puis reportez les mêmes bornes de classe sur les cartes
    ■ Une autre alternative est d’appliquer du Jenks sur l’une des séries et d’appliquer les mêmes bornes de classes sur les autres séries.
    ■ Si la légende n'est pas commune, pensez à appliquer les vrais minimum et maximum.

Vous voulez comparer des données de différentes natures ?

    ■ Appliquez des quantiles/Q6 afin de pouvoir comparer les 20 premiers % individus (pour des quintiles) de la première série au 20 premiers % individus de la seconde série.
    ■ Si vos deux séries sont normales (avec si possible des écart-types proches), vous pouvez aussi utiliser une discrétisation en moyenne écart-type.

En résumé

La discrétisation des données de taux est obligatoire en cartographie. Il s'agit d'une limite physiologique, l'œil n'étant pas capable d'associer facilement à plusieurs valeurs de gris plusieurs données.

    ■ On réduit donc l'information dans des classes pour que l'œil n'ait qu'un petit (4 à 7) nombre de niveaux de gris à analyser.
    ■ Cette réduction implique une simplification de l'information statistique. Pour ne pas fausser le message cartographique, il faut veiller à utiliser une méthode adéquate.
    ■ En s'intéressant au message cartographique (public, format, support)
    ■ En décrivant la série grâce à l'analyse univariée (forme, résumé, dispersion, valeurs extrêmes).

De nombreuses méthodes de discrétisation existent et le choix final dépend évidemment des étapes précédentes.

Ne soyez pas prisonnier des statistiques. N’oubliez pas que vous pouvez faire des ajustements manuels sur la discrétisation si cela est justifié
Soyez pragmatiques