top of page

Compétences et qualités requises

Malgré l’apparition de nombreuses formations, les entreprises peinent toujours à trouver des profils suffisamment qualifiés. Pour avoir plus de chance d'obtenir un bon poste à la fin de vos études, il faut que vous maîtrisiez, ou du moins connaissiez ces différents points. Le ou la Data Scientist doit avoir ou maîtriser:

 

1 – Une formation d’analyste

À l’heure actuelle, 88% des Data Scientists sont diplômés au minimum d’un master, et 46% d’entre eux sont titulaires d’un doctorat. Ce niveau d'études est recommandé pour développer les connaissances nécessaires à l’exercice de ce métier.  

Une grande partie des professionnels (32%) sont issus d’une formation dans le domaine des mathématiques et des statistiques. 19% ont étudié les sciences informatiques et 16% proviennent d’écoles d’ingénieurs.

 

2 – Le Data Scientist doit avoir des connaissances en statistiques

Il est essentiel pour un Data Scientist d’avoir au minimum des notions de calculs statistiques. Ces connaissances lui permettront de déterminer la bonne technique d’approche et d’analyse pour chaque donnée.

 

3 – Le Data Scientist doit maîtriser des outils analytiques

Une connaissance approfondie d’au moins un outil analytique tel que SAS ou R est en général exigée. Pour la science des données, la préférence s’accorde principalement vers R, le langage informatique historique et normé pour l’analyse et l’exploration des données.

 

4 – Les langages de programmation

Les postes de Data Scientist requièrent la maîtrise d’au moins un langage de programmation. Le plus couramment employé est Python, mais il peut être remplacé par Java, Perl ou C/C++.

 

5 – Des notions de Machine Learning

En complément des outils analytiques, connaitre quelques méthodes de Machine Learning peut être un réel atout pour la création d’un produit dirigée par les données. Il peut s’agir des forêts d’arbres décisionnels, de k plus proches voisins ou encore des méthodes d’ensemble. Comme ces différentes techniques peuvent être directement implémentées à l’aide des librairies R ou Python, il n’est pas indispensable de savoir comment fonctionnent leurs algorithmes. L’important est de comprendre leur fonctionnement dans les grandes lignes et de savoir quelle méthode est la plus pertinente selon la situation.

 

6 – La compréhension de l’algèbre linéaire et des fonctions de plusieurs variables

L’algèbre linéaire et les fonctions de plusieurs variables constituent la base de beaucoup de techniques de calculs statistiques et de machine learning. Même s’ils sont implémentés avec R ou sklearn, certaines entreprises dont le produit est dirigé par les données peuvent décider de développer leurs propres implémentations pour améliorer leurs algorithmes ou leurs performances prédictives.

 

7 – L’utilisation d’Hadoop

Si certaines entreprises ne l’exigent pas, la maîtrise de la plateforme Hadoop est le plus souvent requise. De même, une expérience avec les outils de traitement Hive et Pig est un argument supplémentaire en vue d’un recrutement. Les outils de cloud comme Amazon S3 ont également leur importance.

 

8 – La programmation en SQL

Hadoop et les bases de données NoSQL se sont largement imposés dans le domaine du Big Data. Toutefois, la plupart des recruteurs exigent des candidats la maîtrise de la programmation en SQL pour pouvoir formuler et exécuter des requêtes. D’ailleurs, le SQL tend à redevenir le langage prédominant dans le Big Data en 2016.

 

9 – La gestion de données non structurées

Pour devenir Data Scientist, il est indispensable de savoir gérer des données non structurées en provenance des réseaux sociaux, ou encore des flux vidéo ou audio. Ces données sont le principal challenge du Big Data.

Il est également important de savoir traiter les données comportant des imperfections, telles que des valeurs manquantes ou des chaînes de format incohérentes. Cette compétence est particulièrement importante au sein des entreprises n’étant pas habituées à l’analyse de données.

 

10 – Des compétences en ingénierie logicielle

Au sein d’une petite entreprise peu accoutumée à la science des données, un Data Scientist doit avoir des compétences d’ingénieur logiciel. Celles-ci lui permettront notamment de prendre en charge le développement d’un produit dirigé par les données ou le data logging.

 

11 – La curiosité intellectuelle

La curiosité intellectuelle est indispensable pour déceler les données les plus intéressantes et exploitables au sein d’un gigantesque volume de data. Pour mener à bien le travail de Data Scientist, il est nécessaire d’être créatif et de poser ses propres questions plutôt que de simplement répondre à celles qui se posent.

 

12 – L’esprit d’un entrepreneur

Pour parvenir à exploiter le Big Data d’une entreprise, il est nécessaire de comprendre les problèmes à résoudre et les nouvelles possibilités que les données peuvent offrir. C’est pourquoi le Data Scientist doit comprendre le monde de l’entreprise en général et l’industrie à laquelle il est affilié plus particulièrement.

 

13 – Le Data Scientist doit avoir le sens de la communication

Intégré au sein de l’entreprise, le Data Scientist doit impérativement être en mesure de communiquer ses découvertes techniques aux autres employés, des pôles marketing ou commerciaux par exemple. Son rôle est d’aider les décideurs à prendre les bonnes décisions, en leur fournissant les informations nécessaires.

Il doit également comprendre les problèmes des autres équipes et les aider à relever ces défis grâce à l’analyse des données. Pour ce faire, il est également important de maîtriser les outils de visualisation de données tels que ggplot ou d3.js.

​

         

          Alice TIRONNEAU

Source: magazine Le Big Data, le magazine cloud et big data

bottom of page