Category Archives: Machine Learning

Machine Learning

implémentez une reconnaissance de chiffres manuscrits avec K-NN

Dans un article antécédent, j’ai abordé l’algorithme K-Nearest Neighbors (K-NN). On a vu qu’il s’agissait d’un algorithme d’apprentissage supervisé, utilisable aussi bien pour la régression que la classification. Dans cet article, on va implémenter K-NN sur un vrai jeu de données pour faire une classification multi-classes. Pré-requis Pour suivre ce tutoriel, vous devez disposer sur votre ordinateur, des éléments… Read More »

Introduction à l’algorithme K Nearst Neighbors (K-NN)

Lors de cet article, on découvrira l’algorithme K Nearest Neighbors (K-NN). Il s’agit d’un algorithme d’apprentissage supervisé. Il sert aussi bien pour la classification que la régression. Ainsi, nous allons voir le fonctionnement de cet algorithme, ses caractéristiques et comment il parvient à établir des prédictions. C’est parti ! Découverte de l’algorithme K Nearest Neighbors l’algorithme K-NN (K-nearest neighbors) est une méthode d’apprentissage supervisé.… Read More »

Initiation à l’utilisation de R pour le Machine Learning

  Note : cet article invité a été écrit par Claire Della Vedova du blog Statistiques et logiciel R. C’est quoi R ? R c’est à la fois un logiciel (libre de droit), et un langage de programmation, orienté objet et interprété (il ne nécessite donc pas de compilation). Au départ, R était surtout utilisé dans les domaines… Read More »

Implémentation du clustering des fleurs d’Iris avec l’algorithme K-Means, Python et Scikit Learn

Lors de mon article précédent, on a abordé l’algorithme K-Means. Il s’agit d’un algorithme de clustering populaire en apprentissage non-supervisé. Lors de cet article, on verra comment appliquer l’algorithme K-Means sur un vrai jeu de données en se basant sur la librairie Scikit Learn. C’est parti ! Prérequis : Avant d’attaquer le vif du sujet, sachez qu’il faut disposer… Read More »

Tout ce que vous voulez savoir sur l’algorithme K-Means

K-means (k-moyennes) est un  algorithme non supervisé  de clustering, populaire en Machine Learning. Lors de cet article, nous allons détailler son fonctionnement et dans quel cas d’usage il peut être appliqué. Qu’est ce que le clustering Le clustering est une méthode d’apprentissage non supervisé (unsupervised learning). Ainsi, on n’essaie pas d’apprendre une relation de corrélation entre un ensemble de features… Read More »

Comment traiter les données manquantes en Data Science

Dans les projets de Data Science, les données comportent souvent des valeurs aberrantes et des données manquantes (missing Data). Il est important d’identifier les données manquantes dans un jeu de données avant d’appliquer un algorithme de Machine Learning (ML). En effet, beaucoup de ces derniers reposent sur des méthodes statistiques qui supposent recevoir un jeu de données complet en entrée.… Read More »

Tout savoir sur les Valeurs Aberrantes (Outliers)

En Data Science, les jeux de données comportent souvent des irrégularités et des erreurs. Cela peut être des données manquantes ou des données aberrantes. Savoir traiter ces données permettra de produire un modèle prédictif accru et efficace. Dans cet article, on se focalisera sur les données aberrantes. Ainsi, on verra : Ce que c’est une valeur aberrante (Outlier… Read More »

6 Graphiques de Data Visualisation (Dataviz) pour explorer vos données

Bien que les statistiques soient importantes lors de la phase d’exploration de données, ces dernières ne sont pas suffisantes. L’article précédent montre à quel point la visualisation de données (Dataviz) est importante en Data Science. Visualiser les données peut s’effectuer de plusieurs manières. Cela se décide, entre autres, en fonction du type de données qu’on souhaite analyser, le… Read More »

Data visualisation (Dataviz) en Data Science

La visualisation des données (Data visualisation / Dataviz) est un domaine familier chez presque, tous les data scientist. Elle permet de tirer rapidement des informations grâce  aux représentations graphiques. La visualisation des données s’incorpore dans diverses phases du workflow d’un projet de Data Science. Notamment lors de l’exploration de données, visualisation des performances d’un Algorithme de Machine Learning… Read More »

Data Science : Exploration de données avec Python et les statistiques

L’exploration de données est une étape importante du workflow de Data science. Toutefois, Les gens ne s’y attardent pas beaucoup, souvent à tort. La phase d’exploration de données permet de comprendre ses dernières. Grâce à l’analyse univariée et multivariée, on peut déduire certaines hypothèses qui pourront servir lors de la phase de modélisation. L’analyse univariée permet d’explorer une… Read More »