6 Graphiques de Data Visualisation (Dataviz) pour explorer vos données

By | 9 novembre 2017
0 Flares Twitter 0 LinkedIn 0 Reddit 0 Google+ 0 Filament.io 0 Flares ×

Bien que les statistiques soient importantes lors de la phase d’exploration de données, ces dernières ne sont pas suffisantes. L’article précédent montre à quel point la visualisation de données (Dataviz) est importante en Data Science.

Visualiser les données peut s’effectuer de plusieurs manières. Cela se décide, entre autres, en fonction du type de données qu’on souhaite analyser, le nombre de features impliquées..etc. Toutefois, certains graphes et visualisations reviennent souvent lors de la phase d’exploration de données qu’effectue tout Data Scientist lors d’un projet de Data Science.

Cet article regroupe les visualisations de données les plus courantes que vous serez amenés à utiliser lors de vos explorations de données. Pour chaque type de graphique, j’indiquerai dans quels cas il doit être utilisé et pour quel type de données il convient.

Univariate Data Visualisation

L’exploration univariée avec des plot univariés permet de comprendre la distribution d’une feature. Elle donne un aperçu visuel sur les caractéristiques de la feature analysée. Notamment, la concentration des données, les valeurs minimum et maximum… etc

Histogramme

un histogramme est un graphique permettant de représenter la répartition des valeurs d’une variable continue (Continuous Data). Chaque colonne de l’ histogramme représente un intervalle de valeurs. La hauteur des colonnes indique le nombre d’instances dans cet intervalle. L’examen de l’histogramme permet de se faire une idée claire sur la distribution des valeurs de la feature analysée.

histogram dataviz

En analysant la feature “Age” de cet échantillon, on remarque que l’age typique est compris entre 40 et 50 ans, car c’est là que se situe la majorité des observations.

Bar Plot

Les Bar Plots sont utilisés pour visualiser des données qualitatives  (Categorical Data). Chaque “Barre” d’un bar plot représente une catégorie (modalité) et la hauteur de la barre indique la taille du groupe faisant partie de cette catégorie.

Rappelez vous que les Bar Plot servent pour les Categorical Data alors que les Histogrammes servent pour les données continues (Continuous Data). Pour ne pas confondre ces deux graphiques, je vous conseille de lire cet article (en anglais).

Box Plot

Les boites à moustaches (Box Plot) permettent de visualiser plusieurs paramètres statistiques d’une feature. Notamment la médiane, l’écart interquartile (IQR) et la valeur maximale et minimale de la distribution. La représentation des informations des Box Plot est plus compacte que celle d’un histogramme, Toutefois, le degré de détails des informations délivrées par un Box Plot est moindre.

Nous pouvons avoir une idée de la tendance centrale des valeurs de chaque boite en observant la position de la médiane. Si la médiane n’est pas au centre, on peut juger de la symétrie de la distribution (aplatissement et asymétrie). Par ailleurs, en se basant sur la longueur de la boite, il est possible d’estimer la variabilité des valeurs pour chaque sous-groupe.

 

 

Utilisez les box plot pour visualiser des données discrètes ou continues. Notamment pour voir la répartition des données ainsi que l’existence des outliers.

Voici une représentation de la taille des fleurs d’Iris (du Iris Data Set) faite à l’aide de Python.

Source : python-graph-gallery.com

 

Multivariate Data Visualisation

La visualisation multivariée permet de représenter graphiquement deux features (2D) ou plus. Quand il s’agit de deux variables, on parle de Bivariate Visualisation et si c’est plus de deux features on parle de Multivariate Visualisation.

Scatterplot Matrices

Les Scatter Plot Matrices (Diagrammes de dispersion) permettent de visualiser la corrélation entre deux variables continues. On met la première feature sur l’axe des abscisses (X) et la deuxième sur les ordonnées (Y). La dispersion des points indique la relation entre les deux features.

scatter-plot-dataviz

Bubble Chart

Les Graphes à Bulles (Bubble Chart) est un graphique à trois dimensions. Chaque triplet (v_{1},v_{2},v_{3}) est tracé sous la forme d’un disque qui exprime deux des valeurs v_{i} à travers l’emplacement (x,y) du dique et la troisième à travers sa taille. En d’autres termes la taille du disque, représente la “grandeur” du phénomène observé.

Dans cette illustration, la taille de chaque disque représente le nombre d’étoiles Michelin obtenues par chaque pays.

Parallel Coordinates

Les coordonnées parallèles (Parallel Coordinates) est un graphique permettant de représenter un jeu de données avec N dimensions (avec N > 2). L’axe X dans un graphique de Parallel Coordinates listera toutes les N features qu’on veut visualiser. L’axe des ordonnées Y représente les valeurs.

L’image ci-dessus représente la visualisation des features de plusieurs voitures. Le code couleur adopté indique le nombre de cylindres de chaque voiture.

Sur l’axe X on a 5 features (MPG, Acceleration, Displacement, Weight, Horsepower). Sur l’ordonnée (Y), on a les valeurs. Chaque ligne représente une observation de dimension 6 ( les 5 dimensions des features et la 6ème étant la valeur sur l’ordonnée).

Visuellement, on remarque que les voitures à 8 cylindres (lignes jaunes) ont une accélération faible mais un grand nombre de chevaux (Horsepower).

A noter que l’ordre de grandeur des features peut- être très différent. Dans ce cas, avant d’utiliser les parallel Coordinates, il faut penser à faire du feature Scaling.

 

Inscrivez-vous à la Newsletter
Rejoignez la communauté Mr mint, le blog Français dédié à la Data Science et recevez des contenus exclusifs et d'autres goodies !
Nous détestons les spams. Votre adresse e-mail ne sera pas vendue ou partagée avec quelqu'un d'autre.
0 Flares Twitter 0 LinkedIn 0 Reddit 0 Google+ 0 Filament.io 0 Flares ×

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *