Tout savoir sur les Valeurs Aberrantes (Outliers)

En Data Science, les jeux de données comportent souvent des irrégularités et des erreurs. Cela peut être des données manquantes ou des données aberrantes. Savoir traiter ces données permettra de produire un modèle prédictif accru et efficace. Dans cet article, on se focalisera sur les données aberrantes. Ainsi, on verra : Ce que c’est une valeur aberrante (Outlier… Read More »

6 Graphiques de Data Visualisation (Dataviz) pour explorer vos données

Bien que les statistiques soient importantes lors de la phase d’exploration de données, ces dernières ne sont pas suffisantes. L’article précédent montre à quel point la visualisation de données (Dataviz) est importante en Data Science. Visualiser les données peut s’effectuer de plusieurs manières. Cela se décide, entre autres, en fonction du type de données qu’on souhaite analyser, le… Read More »

Data visualisation (Dataviz) en Data Science

La visualisation des données (Data visualisation / Dataviz) est un domaine familier chez presque, tous les data scientist. Elle permet de tirer rapidement des informations grâce  aux représentations graphiques. La visualisation des données s’incorpore dans diverses phases du workflow d’un projet de Data Science. Notamment lors de l’exploration de données, visualisation des performances d’un Algorithme de Machine Learning… Read More »

Data Science : Exploration de données avec Python et les statistiques

L’exploration de données est une étape importante du workflow de Data science. Toutefois, Les gens ne s’y attardent pas beaucoup, souvent à tort. La phase d’exploration de données permet de comprendre ses dernières. Grâce à l’analyse univariée et multivariée, on peut déduire certaines hypothèses qui pourront servir lors de la phase de modélisation. L’analyse univariée permet d’explorer une… Read More »

Data preprocessing : Feature Scaling avec Python

Les données sont au centre des algorithmes de Machine Learning. Par conséquent, préparer au mieux ces données, permettra d’avoir de meilleures performances. La plupart du temps, en machine Learning, les Data Set proviennent avec des ordres de grandeurs différents. Cette différence d’échelle peut conduire à des performances moindres. Pour palier à cela, des traitements préparatoires sur les données existent. Notamment le… Read More »

Data Science Workflow pour mieux construire un Data Product

Data science, Big Data et Machine Learning sont des termes populaires ces dernières années. Toutefois, les périmètres qu’englobent chacun de ces termes se chevauchent, tout en signifiant des choses différentes. Ce qui pourrait prêter à confusion ! Dans cet article, je vais décrire le flux de travail (workflow) d’un data scientist pour construire un Data product. Typiquement, j’expliquerai comment s’imbrique le Machine Learning et… Read More »

Installer un environnement Python pour Machine Learning avec Anaconda

L’installation de Python peut-être un vrai challenge. Déjà il faut se décider entre les versions 2.X et 3.X du langage. Et par la suite, choisir les librairies nécessaires (ainsi que les versions compatibles) pour faire du Machine Learning. Sans oublier les subtilités liées aux différents OS (Windows, Linux, Mac…) qui peuvent rendre l’installation encore plus douloureuse. Cet article… Read More »

Logistic Regression pour Machine Learning – Une Introduction Simple

Logistic regression (régression logistique) est un algorithme supervisé  de classification, populaire en Machine Learning. Lors de cet article, nous allons détailler son fonctionnement pour la classification binaire et par la suite on verra sa généralisation sur la classification multi-classes. La classification en Machine Learning La classification est une tâche très répandue en Machine Learning. Dans ce genre de problématique, on… Read More »

Machine Learning applications : 10 cas d’usage pratiques

Machine Learning est un mot en vogue ces derniers temps. En réalité, pour avoir une meilleure intuition sur ce concept, il n’y a pas mieux que de comprendre les types de problèmes que l’apprentissage automatique tente de résoudre. Cet article énuméra 10 applications du Machine Learning les plus communes. Non seulement ces cas d’usages vous donneront une idée sur… Read More »

Implémentation d’un SPAM Filter avec Naive Bayes Classifier et Python

Lors de l’article précédent, j’ai expliqué le principe de fonctionnement du Naive Bayes Classifier. Ce dernier est un algorithme de Machine Learning particulièrement prisé pour l’analyse et la classification de texte. Durant cet article, on mettra en place un “SPAM Filter” en utilisant le Naive Bayes Classifier. Notre classifieur se basera sur Python et sa librairie de Machine Learning :… Read More »