Data Science : Exploration de données avec Python et les statistiques

L’exploration de données est une étape importante du workflow de Data science. Toutefois, Les gens ne s’y attardent pas beaucoup, souvent à tort. La phase d’exploration de données permet de comprendre ses dernières. Grâce à l’analyse univariée et multivariée, on peut déduire certaines hypothèses qui pourront servir lors de la phase de modélisation. L’analyse univariée permet d’explorer une… Read More »

Data preprocessing : Feature Scaling avec Python

Les données sont au centre des algorithmes de Machine Learning. Par conséquent, préparer au mieux ces données, permettra d’avoir de meilleures performances. La plupart du temps, en machine Learning, les Data Set proviennent avec des ordres de grandeurs différents. Cette différence d’échelle peut conduire à des performances moindres. Pour palier à cela, des traitements préparatoires sur les données existent. Notamment le… Read More »

Data Science Workflow pour mieux construire un Data Product

Data science, Big Data et Machine Learning sont des termes populaires ces dernières années. Toutefois, les périmètres qu’englobent chacun de ces termes se chevauchent, tout en signifiant des choses différentes. Ce qui pourrait prêter à confusion ! Dans cet article, je vais décrire le flux de travail (workflow) d’un data scientist pour construire un Data product. Typiquement, j’expliquerai comment s’imbrique le Machine Learning et… Read More »

Installer un environnement Python pour Machine Learning avec Anaconda

L’installation de Python peut-être un vrai challenge. Déjà il faut se décider entre les versions 2.X et 3.X du langage. Et par la suite, choisir les librairies nécessaires (ainsi que les versions compatibles) pour faire du Machine Learning. Sans oublier les subtilités liées aux différents OS (Windows, Linux, Mac…) qui peuvent rendre l’installation encore plus douloureuse. Cet article… Read More »

Logistic Regression pour Machine Learning – Une Introduction Simple

Logistic regression (régression logistique) est un algorithme supervisé  de classification, populaire en Machine Learning. Lors de cet article, nous allons détailler son fonctionnement pour la classification binaire et par la suite on verra sa généralisation sur la classification multi-classes. La classification en Machine Learning La classification est une tâche très répandue en Machine Learning. Dans ce genre de problématique, on… Read More »

Machine Learning applications : 10 cas d’usage pratiques

Machine Learning est un mot en vogue ces derniers temps. En réalité, pour avoir une meilleure intuition sur ce concept, il n’y a pas mieux que de comprendre les types de problèmes que l’apprentissage automatique tente de résoudre. Cet article énuméra 10 applications du Machine Learning les plus communes. Non seulement ces cas d’usages vous donneront une idée sur… Read More »

Implémentation d’un SPAM Filter avec Naive Bayes Classifier et Python

Lors de l’article précédent, j’ai expliqué le principe de fonctionnement du Naive Bayes Classifier. Ce dernier est un algorithme de Machine Learning particulièrement prisé pour l’analyse et la classification de texte. Durant cet article, on mettra en place un “SPAM Filter” en utilisant le Naive Bayes Classifier. Notre classifieur se basera sur Python et sa librairie de Machine Learning :… Read More »

Naive Bayes Classifier pour Machine Learning

Naive Bayes Classifier est un algorithme populaire en Machine Learning. C’est un algorithme du Supervised Learning utilisé pour la classification. Il est particulièrement utile pour les problématiques de classification de texte. Un exemple d’utilisation du Naive Bayes est celui du filtre anti-spam. Regardons de plus prés comment fonctionne cet algorithme. Probabilités conditionnelles Le naive Bayes classifier se base sur le théorème… Read More »

Data Scientist, Data Engineer, Data Analyst… Quelles sont les différences entre ces métiers ?

Le métier de data Scientist fait le buzz ces derniers temps. Le magazine Harvard Business School va jusqu’à le considérer comme le métier le plus sexy du 21éme siècle. La Data Science reste un domaine large aux contours flous. Cela conduit à la prolifération de nouveaux termes pour désigner de nouveaux métiers (ou pas si nouveau que ça… Read More »

Overfitting et Underfitting : Quand vos algorithmes de Machine Learning dérapent !

L’Overfitting (sur-apprentissage), et l’Underfitting (sous-apprentissage) sont les causes principales des mauvaises performances des modèles prédictifs générés par les algorithmes de Machine Learning. Dans cet article on verra ce que veut dire ces deux termes et dans quels cas ils se manifestent.   A quel point est-elle bonne ma fonction de prédiction ? En apprentissage supervisé (Supervised Learning), un… Read More »