En savoir plus sur Plateformes de science des données et d'apprentissage automatique
Quelles sont les caractéristiques communes des solutions de science des données et d'apprentissage automatique ?
Les éléments suivants sont quelques caractéristiques de base des plateformes de science des données et d'apprentissage automatique qui peuvent aider les utilisateurs à préparer les données et à former, gérer et déployer des modèles.
Préparation des données : Les fonctionnalités d'ingestion de données permettent aux utilisateurs d'intégrer et d'ingérer des données provenant de diverses sources internes ou externes, telles que des applications d'entreprise, des bases de données ou des appareils Internet des objets (IoT).
Les données incorrectes (c'est-à-dire incomplètes, inexactes ou incohérentes) sont un non-départ pour la construction de modèles d'apprentissage automatique. Une mauvaise formation de l'IA engendre de mauvais modèles, qui à leur tour engendrent de mauvaises prédictions qui peuvent être utiles au mieux et préjudiciables au pire. Par conséquent, les capacités de préparation des données permettent de nettoyer les données et d'augmenter les données (dans lesquelles des ensembles de données connexes sont appliqués aux données de l'entreprise) pour s'assurer que le parcours des données démarre bien.
Formation des modèles : L'ingénierie des caractéristiques transforme les données brutes en caractéristiques qui représentent mieux le problème sous-jacent pour les modèles prédictifs. C'est une étape clé dans la construction d'un modèle et améliore la précision du modèle sur des données non vues.
Construire un modèle nécessite de le former en lui fournissant des données. Former un modèle est le processus de détermination des valeurs appropriées pour tous les poids et le biais à partir des données saisies. Deux méthodes clés utilisées à cette fin sont l'apprentissage supervisé et l'apprentissage non supervisé. Le premier est une méthode dans laquelle l'entrée est étiquetée, tandis que le second traite des données non étiquetées.
Gestion des modèles : Le processus ne se termine pas une fois le modèle publié. Les entreprises doivent surveiller et gérer leurs modèles pour s'assurer qu'ils restent précis et à jour. La comparaison de modèles permet aux utilisateurs de comparer rapidement les modèles à une référence ou à un résultat précédent pour déterminer la qualité du modèle construit. Beaucoup de ces plateformes disposent également d'outils pour suivre des métriques, telles que la précision et la perte.
Déploiement des modèles : Le déploiement de modèles d'apprentissage automatique est le processus de les rendre disponibles dans des environnements de production, où ils fournissent des prédictions à d'autres systèmes logiciels. Les méthodes de déploiement incluent les API REST, les interfaces graphiques pour l'analyse à la demande, et plus encore.
Qui utilise les produits de science des données et d'apprentissage automatique ?
Les data scientists sont très demandés, mais les professionnels qualifiés sont en pénurie. Le jeu de compétences est varié et vaste (par exemple, il est nécessaire de comprendre divers algorithmes, les mathématiques avancées, les compétences en programmation, et plus encore). Par conséquent, de tels professionnels sont difficiles à trouver et commandent une rémunération élevée. Pour résoudre ce problème, les plateformes incluent de plus en plus de fonctionnalités qui facilitent le développement de solutions d'IA, telles que les capacités de glisser-déposer et les algorithmes préconstruits.
De plus, pour que les projets de science des données soient lancés, il est essentiel que l'entreprise dans son ensemble y adhère. Les plateformes les plus robustes fournissent des ressources qui aident les utilisateurs non techniques à comprendre les modèles, les données impliquées et les aspects de l'entreprise qui ont été impactés.
Ingénieurs de données : Avec des capacités d'intégration de données robustes, les ingénieurs de données chargés de la conception, de l'intégration et de la gestion des données utilisent ces plateformes pour collaborer avec les data scientists et d'autres parties prenantes au sein de l'organisation.
Data scientists citoyens : Avec l'essor de fonctionnalités plus conviviales, les data scientists citoyens, qui ne sont pas formés professionnellement mais ont développé des compétences en données, se tournent de plus en plus vers les plateformes de science des données et d'apprentissage automatique pour intégrer l'IA dans leurs organisations.
Data scientists professionnels : Les data scientists experts utilisent ces solutions pour étendre les opérations de science des données tout au long du cycle de vie, simplifiant le processus d'expérimentation au déploiement et accélérant l'exploration et la préparation des données, ainsi que le développement et la formation des modèles.
Parties prenantes de l'entreprise : Les parties prenantes de l'entreprise utilisent ces outils pour obtenir une clarté sur les modèles d'apprentissage automatique et mieux comprendre comment ils s'intègrent dans l'entreprise et ses opérations dans son ensemble.
Mise en œuvre des plateformes de science des données et d'apprentissage automatique
Comment les outils logiciels DSML sont-ils mis en œuvre ?
La mise en œuvre diffère considérablement en fonction de la complexité et de l'échelle des données. Dans les organisations avec de vastes quantités de données provenant de sources disparates (par exemple, applications, bases de données, etc.), il est souvent sage d'utiliser une partie externe, que ce soit un spécialiste de la mise en œuvre du fournisseur ou un cabinet de conseil tiers. Avec une vaste expérience à leur actif, ils peuvent aider les entreprises à comprendre comment connecter et consolider leurs sources de données et comment utiliser le logiciel de manière efficace et efficiente.
Qui est responsable de la mise en œuvre de la plateforme DSML ?
Il peut nécessiter de nombreuses personnes ou équipes pour déployer correctement une plateforme de science des données, y compris des ingénieurs de données, des data scientists et des ingénieurs logiciels. Cela est dû au fait que, comme mentionné, les données peuvent traverser des équipes et des fonctions. En conséquence, une personne ou même une équipe n'a rarement une compréhension complète de tous les actifs de données d'une entreprise. Avec une équipe interfonctionnelle en place, une entreprise peut commencer à assembler ses données et commencer le parcours de la science des données, en commençant par une préparation et une gestion appropriées des données.
Quel est le processus de mise en œuvre des produits de science des données et d'apprentissage automatique ?
En termes de mise en œuvre, il est typique que la plateforme soit déployée de manière limitée et ensuite déployée de manière plus large. Par exemple, une marque de détail pourrait décider de tester A/B l'utilisation d'un algorithme de personnalisation pour un nombre limité de visiteurs sur son site pour mieux comprendre comment il fonctionne. Si le déploiement est réussi, l'équipe de science des données peut présenter ses résultats à son équipe de direction (qui pourrait être le CTO, selon la structure de l'entreprise).
Si le déploiement échoue, l'équipe peut revenir à la planche à dessin pour déterminer ce qui a mal tourné. Cela impliquera d'examiner les données d'entraînement et les algorithmes utilisés. Si elles essaient à nouveau, mais que rien ne semble réussir (c'est-à-dire que le résultat est erroné ou qu'il n'y a pas d'amélioration des prédictions), l'entreprise pourrait avoir besoin de revenir aux bases et de revoir ses données.
Quand devriez-vous mettre en œuvre des outils DSML ?
Comme mentionné précédemment, l'ingénierie des données, qui implique la préparation et la collecte des données, est une caractéristique fondamentale des projets de science des données. Par conséquent, les entreprises doivent faire de la mise en ordre de leurs données leur priorité absolue, en s'assurant qu'il n'y a pas d'enregistrements en double ou de champs mal alignés. Bien que cela semble basique, ce n'est rien de tel. Des données défectueuses en entrée entraîneront des données défectueuses en sortie.
Tendances des plateformes de science des données et d'apprentissage automatique
AutoML
AutoML aide à automatiser de nombreuses tâches nécessaires pour développer des applications d'IA et d'apprentissage automatique. Les utilisations incluent la préparation automatique des données, l'ingénierie des caractéristiques automatisée, la fourniture d'explicabilité pour les modèles, et plus encore.
IA intégrée
Les fonctionnalités d'apprentissage automatique et d'apprentissage profond sont de plus en plus intégrées dans presque tous les types de logiciels, que l'utilisateur en soit conscient ou non. Utiliser l'IA intégrée dans des logiciels comme CRM, l'automatisation du marketing, et les solutions d'analyse nous permet de rationaliser les processus, d'automatiser certaines tâches et d'obtenir un avantage concurrentiel avec des capacités prédictives. L'IA intégrée pourrait progressivement se développer dans les années à venir et pourrait le faire de la même manière que le déploiement en cloud et les capacités mobiles l'ont fait au cours de la dernière décennie. Finalement, les fournisseurs pourraient ne pas avoir besoin de mettre en avant les avantages de leur produit grâce à l'apprentissage automatique, car cela pourrait simplement être supposé et attendu.
Apprentissage automatique en tant que service (MLaaS)
L'environnement logiciel est passé à une structure de microservices plus granulaire, en particulier pour les besoins des opérations de développement. De plus, le boom des services d'infrastructure cloud publics a permis aux grandes entreprises d'offrir des services de développement et d'infrastructure à d'autres entreprises avec un modèle de paiement à l'utilisation. Le logiciel d'IA n'est pas différent, car les mêmes entreprises fournissent MLaaS pour d'autres entreprises.
Les développeurs profitent rapidement de ces algorithmes et solutions préconstruits en leur fournissant leurs données pour obtenir des informations. Utiliser des systèmes construits par des entreprises d'envergure aide les petites entreprises à économiser du temps, des ressources et de l'argent en éliminant le besoin d'embaucher des développeurs d'apprentissage automatique qualifiés. Le MLaaS se développera davantage à mesure que les entreprises continueront de s'appuyer sur ces microservices et que le besoin d'IA augmentera.
Explicabilité
En ce qui concerne les algorithmes d'apprentissage automatique, en particulier l'apprentissage profond, il peut être difficile d'expliquer comment ils sont arrivés à certaines conclusions. L'IA explicable, également connue sous le nom de XAI, est le processus par lequel le processus de prise de décision des algorithmes est rendu transparent et compréhensible pour les humains. La transparence est le principe le plus répandu dans la littérature actuelle sur l'éthique de l'IA, et donc l'explicabilité, un sous-ensemble de la transparence, devient cruciale. Les plateformes de science des données et d'apprentissage automatique incluent de plus en plus d'outils pour l'explicabilité, ce qui aide les utilisateurs à intégrer l'explicabilité dans leurs modèles et à les aider à répondre aux exigences d'explicabilité des données dans des législations telles que la loi sur la confidentialité de l'Union européenne et le RGPD.
Comment choisir la meilleure plateforme de science des données et d'apprentissage automatique (DSML)
Collecte des exigences (RFI/RFP) pour les plateformes DSML
Si une entreprise commence tout juste et cherche à acheter sa première plateforme de science des données et d'apprentissage automatique, ou quel que soit l'endroit où elle se trouve dans son processus d'achat, g2.com peut aider à sélectionner la meilleure option.
La première étape du processus d'achat doit impliquer un examen attentif des données de l'entreprise. Comme une partie fondamentale du parcours de la science des données implique l'ingénierie des données (c'est-à-dire la collecte et l'analyse des données), les entreprises doivent s'assurer que la qualité de leurs données est élevée et que la plateforme en question peut gérer adéquatement leurs données, tant en termes de format que de volume. Si l'entreprise a accumulé beaucoup de données, elle doit rechercher une solution qui peut évoluer avec l'organisation. Les utilisateurs doivent réfléchir aux points de douleur et les noter ; ceux-ci doivent être utilisés pour aider à créer une liste de critères. De plus, l'acheteur doit déterminer le nombre d'employés qui auront besoin d'utiliser ce logiciel, car cela détermine le nombre de licences qu'ils sont susceptibles d'acheter.
Prendre une vue d'ensemble de l'entreprise et identifier les points de douleur peut aider l'équipe à se lancer dans la création d'une liste de critères. La liste sert de guide détaillé qui inclut à la fois les fonctionnalités nécessaires et souhaitables, y compris le budget, les fonctionnalités, le nombre d'utilisateurs, les intégrations, les exigences de sécurité, les solutions cloud ou sur site, et plus encore.
Selon l'étendue du déploiement, produire une RFI, une liste d'une page avec quelques points décrivant ce qui est nécessaire d'une plateforme de science des données pourrait être utile.
Comparer les produits DSML
Créer une liste longue
De la satisfaction des besoins fonctionnels de l'entreprise à la mise en œuvre, les évaluations des fournisseurs sont une partie essentielle du processus d'achat de logiciels. Pour faciliter la comparaison, après que toutes les démonstrations soient terminées, il est utile de préparer une liste cohérente de questions concernant les besoins et préoccupations spécifiques à poser à chaque fournisseur.
Créer une liste courte
À partir de la liste longue des fournisseurs, il est utile de réduire la liste des fournisseurs et de proposer une liste plus courte de prétendants, de préférence pas plus de trois à cinq. Avec cette liste en main, les entreprises peuvent produire une matrice pour comparer les fonctionnalités et les prix des différentes solutions.
Conduire des démonstrations
Pour assurer une comparaison approfondie, l'utilisateur doit démontrer chaque solution de la liste courte en utilisant le même cas d'utilisation et les mêmes ensembles de données. Cela permettra à l'entreprise d'évaluer de manière équivalente et de voir comment chaque fournisseur se compare à la concurrence.
Sélection des plateformes DSML
Choisir une équipe de sélection
Avant de commencer, il est crucial de créer une équipe gagnante qui travaillera ensemble tout au long du processus, de l'identification des points de douleur à la mise en œuvre. L'équipe de sélection de logiciels doit être composée de membres de l'organisation qui ont les bons intérêts, compétences et temps pour participer à ce processus. Un bon point de départ est de viser trois à cinq personnes qui occupent des rôles tels que le principal décideur, le chef de projet, le propriétaire du processus, le propriétaire du système, ou l'expert en la matière du personnel, ainsi qu'un responsable technique, un administrateur informatique, ou un administrateur de la sécurité. Dans les petites entreprises, l'équipe de sélection des fournisseurs peut être plus petite, avec moins de participants, multitâches, et assumant plus de responsabilités.
Négociation
Ce n'est pas parce que quelque chose est écrit sur la page de tarification d'une entreprise que c'est fixe (bien que certaines entreprises ne bougeront pas). Il est impératif d'ouvrir une conversation concernant les prix et les licences. Par exemple, le fournisseur peut être disposé à accorder une réduction pour les contrats pluriannuels ou à recommander le produit à d'autres.
Décision finale
Après cette étape, et avant de s'engager pleinement, il est recommandé de lancer un test ou un programme pilote pour tester l'adoption avec un petit échantillon d'utilisateurs. Si l'outil est bien utilisé et bien reçu, l'acheteur peut être confiant que la sélection était correcte. Sinon, il pourrait être temps de revenir à la planche à dessin.