La littérature française traitant le Machine Learning et la data science est peu abondante. Par ailleurs, voici une sélection courte, composée de deux livres français très intéressant à lire pour mieux s’initier dans la science de données.
Note : Je ne fais pas la publicité pour ces deux livres, je les ai lus et ils m’ont plu et je vous donne simplement mon avis personnel 🙂
1. Big Data et Machine Learning : Manuel du data scientist
Le livre est à sa deuxième édition. Il cible aussi bien les gens techniques que les manageurs. Lors de sa lecture, j’ai pu avoir une vision panoramique sur le big data et le machine learning. On comprend mieux comment s’imbrique les différentes outils du big data tout en ayant en esprit les problématiques rencontrées en entreprises.
Le bouquin ne se veut pas très technique. Cependant, il se décompose en trois parties:
- Les fondements du Big data
- Le métier du data scientist
- Les outils du Big Data
La première partie explique le pourquoi de l’émergence du Big data. Des motivations aussi bien économiques que techniques ont été en cause de la montée en puissance du phénomène. On y retrouve également comment le NoSQL trouve sa place dans l’écosystème et à quelle problématique il répond.
La deuxième partie explique le métier du data scientist. En effet, les frontières définissant ce métier sont encore vagues. Le livre tente de donner une définition du métier, en énumérant les compétences dont doit attester un data scientist, et les problématiques auxquelles il doit faire face au sein d’une organisation. Les explications vont en profondeur en expliquant les procédés d’un data scientist pour répondre aux besoins d’entreprise. Des concepts comme la préparation des données, la visualisation, le « feature engineering » sont abordés et expliqués dans leurs généralités dans cette section.
Finalement, le dernier volet couvre les outils du Big data. Il évoque les frameworks et les outils de programmation disponibles actuellement pour mettre en place un data product. La projection faite de ces outils sur le processus de travail d’un data scientist est particulièrement utile car elle permet de savoir comment sélectionner le meilleur outil pour une étape donnée.
2. Data Science : fondamentaux et études de cas
NB : je n’ai pas fini la lecture de ce livre mais voici mon ressenti jusqu’à présent
Ce livre vient combler un vrai manque de littérature française couvrant le Machine learning. La majeure partie du livre couvre les algorithmes les plus connus dans le Machine Learning. L’aspect technique et mathématique de ces algorithmes sont clairement et rigoureusement expliqués. Des notations mathématiques parfois complexes sont parfois déroutantes mais « l’esprit » des formules est généralement bien vulgarisé.
Hormis la partie algorithmique, des aspects tout aussi important sont évoqués, notamment la préparation des données, l’évaluation des modèles, la réduction dimensionnelle.
Des cas pratiques accompagnent la partie théorique. Des bouts de code écrits en python et le langage R viennent illustrer les concepts évoqués auparavant. Je n’ai pas eu encore le temps de les voir en détail, mais en survolant l’exemple de modélisation d’un algorithme de prédiction des survivants du Titanic, l’illustration me paraît assez étoffée.
Conclusion
Personnellement j’ai bien aimé la lecture des deux ouvrages. Pour ceux qui veulent s’initier au Big Data, je recommande de lire le premier livre qui se veut généraliste tout en adoptant le jargon du domaine. Le deuxième livre vous permettra d’apprendre la mécanique interne du Machine learning.
Si vous connaissez de bons livres, en français, traitant la data science en général, n’hésitez pas de les citer dans un commentaire ! 🙂
Ping : 5 Conseils d'experts pour apprendre le Machine Learning - Apprendre le Machine Learning de A à Z
Hello,
Traduit en français (NY Times best seller aux USA et Chine) il y a « BIG DATA la révolution des données est en marche »
Auteurs : Kenneth Cukier & Viktor Mayer-Schonberger
Très bon bouquin : « Big Data la revolution des donnees est en marche »
de Kenneth Cukier et Viktor Mayer-Schönberger
Niveau : Tout publique.
NB : Best seller USA (ny time) & Chine
Bonjour Mehdi,
Je vous remercie pour ces références et le partage 😉
Bonjour Younes!
Je confirme la qualité du deuxième livre » Data Science : fondamentaux et études de cas » qui fût ma première lecture dans le domaine.
Un livre complémentaire à ces lectures que je viens de dévorer est « Machine Learning avec Scikit-Learn » qui lui va un peu plus loin et explique clairement comment imbriquer les méthodes les unes avec les autres. Mais je reprécise que cette lecture est complémentaire au deux premiers livres!