Archives de catégorie : Machine Learning

Machine Learning

Data Science : Exploration de données avec Python et les statistiques

de | 19 octobre 2017

L’exploration de données est une étape importante du workflow de Data science. Toutefois, Les gens ne s’y attardent pas beaucoup, souvent à tort. La phase d’exploration de données permet de comprendre ses dernières. Grâce à l’analyse univariée et multivariée, on peut déduire certaines hypothèses qui pourront servir lors de la phase de modélisation. L’analyse univariée… Lire la suite »

Data preprocessing : Feature Scaling avec Python

de | 12 octobre 2017

Les données sont au centre des algorithmes de Machine Learning. Par conséquent, préparer au mieux ces données, permettra d’avoir de meilleures performances. La plupart du temps, en machine Learning, les Data Set proviennent avec des ordres de grandeurs différents. Cette différence d’échelle peut conduire à des performances moindres. Pour palier à cela, des traitements préparatoires sur les données… Lire la suite »

Data Science Workflow pour mieux construire un Data Product

de | 5 octobre 2017

Data science, Big Data et Machine Learning sont des termes populaires ces dernières années. Toutefois, les périmètres qu’englobent chacun de ces termes se chevauchent, tout en signifiant des choses différentes. Ce qui pourrait prêter à confusion ! Dans cet article, je vais décrire le flux de travail (workflow) d’un data scientist pour construire un Data product. Typiquement, j’expliquerai comment… Lire la suite »

Installer un environnement Python pour Machine Learning avec Anaconda

de | 20 septembre 2017

L’installation de Python peut-être un vrai challenge. Déjà il faut se décider entre les versions 2.X et 3.X du langage. Et par la suite, choisir les librairies nécessaires (ainsi que les versions compatibles) pour faire du Machine Learning. Sans oublier les subtilités liées aux différents OS (Windows, Linux, Mac…) qui peuvent rendre l’installation encore plus… Lire la suite »

Logistic Regression pour Machine Learning – Une Introduction Simple

de | 6 septembre 2017

Logistic regression (régression logistique) est un algorithme supervisé  de classification, populaire en Machine Learning. Lors de cet article, nous allons détailler son fonctionnement pour la classification binaire et par la suite on verra sa généralisation sur la classification multi-classes. La classification en Machine Learning La classification est une tâche très répandue en Machine Learning. Dans ce genre… Lire la suite »

Machine Learning applications : 10 cas d’usage pratiques

de | 29 août 2017

Machine Learning est un mot en vogue ces derniers temps. En réalité, pour avoir une meilleure intuition sur ce concept, il n’y a pas mieux que de comprendre les types de problèmes que l’apprentissage automatique tente de résoudre. Cet article énuméra 10 applications du Machine Learning les plus communes. Non seulement ces cas d’usages vous donneront… Lire la suite »

Implémentation d’un SPAM Filter avec Naive Bayes Classifier et Python

de | 5 août 2017

Lors de l’article précédent, j’ai expliqué le principe de fonctionnement du Naive Bayes Classifier. Ce dernier est un algorithme de Machine Learning particulièrement prisé pour l’analyse et la classification de texte. Durant cet article, on mettra en place un « SPAM Filter » en utilisant le Naive Bayes Classifier. Notre classifieur se basera sur Python et sa librairie de… Lire la suite »

Naive Bayes Classifier pour Machine Learning

de | 26 juillet 2017

Naive Bayes Classifier est un algorithme populaire en Machine Learning. C’est un algorithme du Supervised Learning utilisé pour la classification. Il est particulièrement utile pour les problématiques de classification de texte. Un exemple d’utilisation du Naive Bayes est celui du filtre anti-spam. Regardons de plus prés comment fonctionne cet algorithme. Probabilités conditionnelles Le naive Bayes classifier se base… Lire la suite »

Data Scientist, Data Engineer, Data Analyst… Quelles sont les différences entre ces métiers ?

de | 18 juillet 2017

Le métier de data Scientist fait le buzz ces derniers temps. Le magazine Harvard Business School va jusqu’à le considérer comme le métier le plus sexy du 21éme siècle. La Data Science reste un domaine large aux contours flous. Cela conduit à la prolifération de nouveaux termes pour désigner de nouveaux métiers (ou pas si… Lire la suite »

Overfitting et Underfitting : Quand vos algorithmes de Machine Learning dérapent !

de | 11 juillet 2017

L’Overfitting (sur-apprentissage), et l’Underfitting (sous-apprentissage) sont les causes principales des mauvaises performances des modèles prédictifs générés par les algorithmes de Machine Learning. Dans cet article on verra ce que veut dire ces deux termes et dans quels cas ils se manifestent.   A quel point est-elle bonne ma fonction de prédiction ? En apprentissage supervisé… Lire la suite »