Aspirant scientifique des données? Maîtrisez ces fondamentaux.

Photo de Dmitri Popov sur Unsplash

La science des données est un domaine passionnant et en évolution rapide dans lequel s'impliquer. Il n'y a pas de pénurie de personnes talentueuses et analytiques. Des entreprises de toutes tailles recrutent des scientifiques des données, et ce rôle offre une réelle valeur ajoutée dans un large éventail d'industries et d'applications.

Souvent, les premières rencontres des gens avec le domaine passent par la lecture des titres de science-fiction générés par les principaux organismes de recherche. Les progrès récents ont fait naître la perspective d'un apprentissage automatique transformant le monde tel que nous le connaissons en l'espace d'une génération.

Cependant, en dehors du monde universitaire et de la recherche, la science des données est bien plus que des sujets d'actualité tels que l'apprentissage en profondeur et la PNL.

Une grande partie de la valeur commerciale d'un scientifique des données provient de la clarté et des informations que de grandes quantités de données peuvent apporter. Le rôle peut englober tout, de l'ingénierie des données à l'analyse des données et à la génération de rapports - avec peut-être un peu d'apprentissage automatique pour faire bonne mesure.

C'est particulièrement le cas dans une start-up. Les besoins des entreprises en début de croissance et à mi-parcours sont généralement très éloignés du domaine des réseaux de neurones et de la vision par ordinateur. (À moins, bien sûr, que ce soient des caractéristiques essentielles de leur produit / service).

Ils ont plutôt besoin d'une analyse précise, de processus fiables et de la capacité d'évoluer rapidement.

Par conséquent, les compétences requises pour de nombreux rôles de science des données annoncés sont vastes et variées. Comme toute poursuite dans la vie, une grande partie de la valeur vient de la maîtrise des bases. La légendaire règle 80:20 s'applique - environ 80% de la valeur provient de 20% de l'ensemble de compétences.

Voici un aperçu de certaines des compétences fondamentales que tout scientifique en herbe devrait maîtriser.

Commencez avec des statistiques

Le principal attribut qu'un scientifique des données apporte à son entreprise est la capacité de distiller les informations de la complexité. La clé pour y parvenir est de comprendre comment découvrir le sens à partir de données bruyantes.

L'analyse statistique est donc une compétence importante à maîtriser. Stats vous permet:

  • Décrire les données, pour fournir une image détaillée aux parties prenantes
  • Comparer les données et tester les hypothèses, pour éclairer les décisions commerciales
  • Identifier les tendances et les relations qui offrent une réelle valeur prédictive

Les statistiques fournissent un ensemble puissant d'outils pour donner un sens aux données commerciales et opérationnelles.

Mais méfiez-vous! La seule chose pire que des informations limitées sont les informations trompeuses. C'est pourquoi il est essentiel de comprendre les principes fondamentaux de l'analyse statistique.

Heureusement, vous pouvez suivre quelques principes directeurs.

Évaluez vos hypothèses

Il est très important de connaître les hypothèses que vous faites à propos de vos données.

Soyez toujours critique quant à la provenance et sceptique quant aux résultats. Pourrait-il y avoir une explication «sans intérêt» pour les tendances observées dans vos données? Quelle est la validité de votre test de statistiques ou de votre méthodologie? Vos données répondent-elles à toutes les hypothèses sous-jacentes?

Savoir quelles conclusions sont «intéressantes» et méritent d'être signalées dépend également de vos hypothèses. Un exemple élémentaire consiste à juger s'il est plus approprié de déclarer la moyenne ou la médiane d'un ensemble de données.

Souvent plus important que de savoir quelle approche adopter, il faut savoir laquelle ne pas adopter. Il existe généralement plusieurs façons d'analyser un ensemble de données donné, mais veillez à éviter les pièges courants.

Par exemple, les comparaisons multiples doivent toujours être corrigées. Vous ne devez en aucun cas chercher à confirmer une hypothèse en utilisant les mêmes données que celles utilisées pour la générer! Vous seriez surpris de la facilité avec laquelle cela se fait.

Distribution> Localisation

Chaque fois que je parle de statistiques d'introduction, je m'assure toujours de souligner un point particulier: la distribution d'une variable est généralement au moins aussi intéressante / informative que son emplacement. En fait, c'est souvent plus le cas.

La tendance centrale est utile à connaître, mais la distribution est souvent plus intéressante à comprendre!

En effet, la distribution d'une variable contient généralement des informations sur les processus génératifs (ou d'échantillonnage) sous-jacents.

Par exemple, les données de comptage suivent souvent une distribution de Poisson, alors qu'un système présentant une rétroaction positive («renforcement») aura tendance à faire apparaître une distribution de loi de puissance. Ne comptez jamais sur une distribution normale des données sans avoir préalablement vérifié soigneusement.

Deuxièmement, comprendre la distribution des données est essentiel pour savoir comment les utiliser! De nombreux tests et méthodes statistiques reposent sur des hypothèses sur la façon dont vos données sont distribuées.

À titre d'exemple artificiel, assurez-vous toujours de traiter les données unimodales et bimodales différemment. Ils peuvent avoir la même moyenne, mais vous perdriez une tonne d'informations importantes si vous ignoriez leurs distributions.

Pour un exemple plus intéressant qui illustre pourquoi vous devriez toujours vérifier vos données avant de rapporter des statistiques récapitulatives, jetez un œil au quatuor d'Anscombe:

Différentes données; mais moyennes, variances et corrélations presque identiques

Chaque graphique semble très distinctif, non? Pourtant, chacun a des statistiques récapitulatives identiques - y compris leurs moyennes, variance et coefficients de corrélation. Le tracé de certaines distributions révèle qu'elles sont assez différentes.

Enfin, la distribution d'une variable détermine la certitude que vous avez sur sa vraie valeur. Une distribution «étroite» permet une plus grande certitude, tandis qu'une distribution «large» permet moins.

La variance autour d'une moyenne est cruciale pour fournir un contexte. Trop souvent, des moyennes avec des intervalles de confiance très larges sont rapportées avec des moyennes avec des intervalles de confiance très étroits. Cela peut être trompeur.

Échantillonnage approprié

La réalité est que l'échantillonnage peut être un point difficile pour les scientifiques des données à vocation commerciale, en particulier pour ceux qui ont une formation en recherche ou en ingénierie.

Dans un cadre de recherche, vous pouvez affiner des expériences conçues avec précision avec de nombreux facteurs et niveaux différents et des traitements de contrôle. Cependant, les conditions commerciales «en direct» sont souvent sous-optimales du point de vue de la collecte de données. Chaque décision doit être soigneusement pesée par rapport au risque d'interrompre le «statu quo».

Cela nécessite que les scientifiques des données soient inventifs, mais réalistes, avec leur approche de la résolution de problèmes.

Les tests A / B sont un exemple canonique d'une approche qui illustre comment les produits et les plates-formes peuvent être optimisés à un niveau granulaire sans causer de perturbation majeure au statu quo.

Le test A / B est une norme de l'industrie pour comparer différentes versions de produits, afin de les optimiser

Les méthodes bayésiennes peuvent être utiles pour travailler avec des ensembles de données plus petits, si vous avez un ensemble raisonnablement informatif de priors à partir desquels travailler.

Avec toutes les données que vous collectez, assurez-vous de reconnaître ses limites.

Les données de l'enquête sont sujettes à un biais d'échantillonnage (ce sont souvent les répondants ayant les opinions les plus fortes qui prennent le temps de répondre à l'enquête). Les séries chronologiques et les données spatiales peuvent être affectées par l'autocorrélation. Enfin et surtout, faites toujours attention à la multicolinéarité lors de l'analyse des données provenant de sources connexes.

Ingénierie des données

C'est en quelque sorte un cliché de la science des données, mais la réalité est qu'une grande partie du flux de données est consacrée à la recherche, au nettoyage et au stockage des données brutes nécessaires à l'analyse en amont plus perspicace.

Comparativement, peu de temps est réellement passé à implémenter des algorithmes à partir de zéro. En effet, la plupart des outils statistiques sont livrés avec leur fonctionnement interne enveloppé dans des packages R soignés et des modules Python.

Le processus d'extraction-transformation-charge (ETL) est essentiel au succès de toute équipe de science des données. Les grandes entreprises disposeront d'ingénieurs de données dédiés pour répondre à leurs besoins complexes en matière d'infrastructure de données, mais les entreprises plus jeunes dépendront souvent de leurs scientifiques des données pour posséder leurs propres compétences en ingénierie des données.

La programmation en pratique

La science des données est hautement interdisciplinaire. En plus de compétences analytiques avancées et de connaissances spécifiques au domaine, le rôle nécessite également de solides compétences en programmation.

Il n'y a pas de réponse parfaite aux langages de programmation qu'un scientifique en herbe devrait apprendre à utiliser. Cela dit, au moins l'un de Python et / ou R vous servira très bien.

L'une ou l'autre (ou les deux) de ces langues constituent un excellent point de départ si vous souhaitez travailler avec des données

Quelle que soit la langue que vous choisissez, essayez de vous familiariser avec toutes ses fonctionnalités et l'écosystème environnant. Parcourez les différents packages et modules à votre disposition et configurez votre IDE parfait. Découvrez les API que vous devrez utiliser pour accéder aux plates-formes et services principaux de votre entreprise.

Les bases de données font partie intégrante du puzzle de tout flux de données. Assurez-vous de maîtriser un dialecte de SQL. Le choix exact n'est pas trop important, car basculer entre eux est un processus gérable lorsque cela est nécessaire.

Les bases de données NoSQL (telles que MongoDB) peuvent également être utiles si votre entreprise les utilise.

Devenir un utilisateur de ligne de commande en toute confiance contribuera grandement à augmenter votre productivité au jour le jour. La simple familiarité avec les scripts bash simples vous permettra de prendre un bon départ en ce qui concerne l'automatisation des tâches répétitives.

Codage efficace

Une compétence très importante que les aspirants scientifiques des données doivent maîtriser est le codage efficace. La réutilisabilité est la clé. Il vaut la peine de prendre le temps (quand il est disponible) d'écrire du code à un niveau d'abstraction qui permet de l'utiliser plusieurs fois.

Cependant, un équilibre doit être trouvé entre les priorités à court et à long terme.

Il est inutile de prendre deux fois plus de temps pour écrire un script ad hoc pour qu'il soit réutilisable s'il n'y a aucune chance qu'il soit à nouveau pertinent. Pourtant, chaque minute passée à refactoriser l'ancien code à réexécuter est une minute qui aurait pu être enregistrée auparavant.

Les meilleures pratiques en génie logiciel méritent d'être développées afin d'écrire un code de production vraiment performant.

Les outils de gestion de version tels que Git rendent le déploiement et la maintenance du code beaucoup plus rationalisés. Les planificateurs de tâches vous permettent d'automatiser les processus de routine. Des révisions régulières du code et des normes de documentation convenues faciliteront grandement la vie de votre équipe.

Dans n'importe quelle ligne de spécialisation technologique, il n'est généralement pas nécessaire de réinventer la roue. L'ingénierie des données ne fait pas exception. Des cadres tels que Airflow rendent la planification et la surveillance des processus ETL plus faciles et plus robustes. Pour le stockage et le traitement des données distribuées, il existe Apache Spark et Hadoop.

Il n'est pas essentiel pour un débutant de les apprendre en profondeur. Pourtant, la connaissance de l'écosystème environnant et des outils disponibles est toujours un avantage.

Communiquez clairement

La science des données est une discipline à part entière, avec un important front-end face aux parties prenantes: la couche de reporting.

Le fait est simple - une communication efficace apporte une valeur commerciale importante. Avec la science des données, un reporting efficace comporte quatre aspects.

  • Précision Ceci est crucial, pour des raisons évidentes. La compétence ici est de savoir comment interpréter vos résultats, tout en étant clair sur les limitations ou mises en garde qui peuvent s'appliquer. Il est important de ne pas surestimer ou sous-estimer la pertinence d'un résultat particulier.
  • Précision Cela est important, car toute ambiguïté dans votre rapport pourrait conduire à une mauvaise interprétation des résultats. Cela peut avoir des conséquences négatives plus tard.
  • Concis Gardez votre rapport aussi court que possible, mais pas plus court. Un bon format pourrait fournir un certain contexte à la question principale, inclure une brève description des données disponibles et donner un aperçu des résultats et des graphiques «principaux». Des détails supplémentaires peuvent (et devraient) être inclus dans une annexe.
  • Accessible Il y a un besoin constant d'équilibrer l'exactitude technique d'un rapport avec la réalité que la plupart de ses lecteurs seront des experts dans leurs propres domaines respectifs, et pas nécessairement la science des données. Il n'y a pas ici de réponse simple et universelle. Une communication et une rétroaction fréquentes aideront à établir un équilibre approprié.

Le jeu graphique

De puissantes visualisations de données vous aideront à communiquer efficacement des résultats complexes aux parties prenantes. Un graphique ou un graphique bien conçu peut révéler en un coup d'œil ce que plusieurs paragraphes de texte seraient nécessaires pour expliquer.

Il existe une large gamme d'outils de visualisation et de création de tableaux de bord gratuits et payants, notamment Plotly, Tableau, Chartio, d3.js et bien d'autres.

Pour des maquettes rapides, parfois vous ne pouvez pas battre un bon vieux tableur à la mode comme Excel ou Google Sheets. Ceux-ci feront le travail comme requis, bien qu'ils n'aient pas la fonctionnalité d'un logiciel de visualisation spécialement conçu.

Lors de la création de tableaux de bord et de graphiques, il y a un certain nombre de principes directeurs à considérer. Le défi sous-jacent est de maximiser la valeur informationnelle de la visualisation, sans sacrifier la «lisibilité».

Comment ne pas présenter les données - en général, restez simple (pour en savoir plus sur cet exemple, lisez cet article de blog sympa)

Une visualisation efficace révèle un aperçu de haut niveau en un coup d'œil. Les graphiques plus complexes peuvent prendre un peu plus de temps à être visualisés par le spectateur et devraient par conséquent offrir un contenu d'informations beaucoup plus important.

Si vous ne lisez qu'un seul livre sur la visualisation des données, le classique The Visual Display of Quantitative Information d'Edward Tufte est le choix exceptionnel.

Tufte a popularisé et inventé à lui seul une grande partie du domaine de la visualisation des données. Des termes largement utilisés tels que «graphique indésirable» et «densité de données» doivent leur origine au travail de Tufte. Son concept du «rapport données-encre» reste influent pendant trente ans.

L'utilisation de la couleur, de la disposition et de l'interactivité fera souvent la différence entre une bonne visualisation et une visualisation professionnelle de haute qualité.

Meilleure visualisation des données [Source]

En fin de compte, la création d'une excellente visualisation des données touche à des compétences plus souvent associées à l'UX et à la conception graphique qu'à la science des données. Lire sur ces sujets pendant votre temps libre est un excellent moyen de prendre conscience de ce qui fonctionne et de ce qui ne fonctionne pas.

N'oubliez pas de consulter des sites tels que bl.ocks.org pour vous inspirer!

La science des données nécessite un ensemble de compétences diversifié

Il y a quatre domaines de compétences clés dans lesquels vous, en tant que scientifique en herbe, devriez vous concentrer sur le développement. Elles sont:

  • Statistiques, y compris la théorie sous-jacente et l'application dans le monde réel.
  • Programmation, au moins en Python ou R, ainsi qu'en SQL et en utilisant la ligne de commande
  • Meilleures pratiques en ingénierie des données
  • Communiquer efficacement votre travail

Prime! Apprenez constamment

Si vous avez lu jusqu'ici et que vous vous sentez découragé, soyez assuré. La compétence principale dans un domaine en évolution rapide est d'apprendre à apprendre et à réapprendre. Il ne fait aucun doute que de nouveaux cadres, outils et méthodes verront le jour dans les années à venir.

Les compétences exactes que vous apprenez maintenant devront peut-être être entièrement mises à jour d'ici cinq à dix ans. Attendez-vous à ça. Ce faisant, et en étant préparé, vous pouvez garder une longueur d'avance grâce à un réapprentissage continu.

Vous ne pouvez jamais tout savoir, et la vérité est - personne ne le sait jamais. Mais, si vous maîtrisez les fondamentaux, vous serez en mesure de prendre quoi que ce soit d'autre sur la base du besoin de savoir.

Et c'est sans doute la clé du succès dans toute discipline en évolution rapide.