Comment l’informatique accélérée (Accelerated Computing) transforme la data science ?

Analyzing data. Close-up of young businessman pointing on the data presented in the chart with pen
Analyzing data. Close-up of young businessman pointing on the data presented in the chart with pen

Les grandes entreprises et les startups utilisent de plus en plus de logiciels pour accélérer la prise de décision dans la création de nouveaux produits et services.

Depuis près de vingt ans, des entreprises telles que Facebook, Amazon, JP Morgan et Uber expliquent comment utiliser avec succès la science des données pour développer leurs activités. Grâce à ces innovateurs et à d’autres, la capacité à extraire rapidement des informations exploitables de données en constante évolution est devenue une exigence concurrentielle.
Les entreprises peuvent utiliser l’IA pour apprendre à partir de quantités massives de données capturées à partir d’un large éventail de capteurs et de sources, mais aucune de ces connaissances ne peut être acquise sans traiter ces volumes de données.

Le problème est que la mise en place d’une pratique de science des données de bout en bout est plus facile à dire qu’à faire. Même si les entreprises rivalisent pour trouver les meilleurs scientifiques des données, elles se débattent avec la manière de tirer le meilleur parti de leur investissement en raison d’une différenciation mal définie entre les rôles de la science des données et des goulots d’étranglement créés par l’utilisation d’architectures de processeur anciennes en conjonction avec la tentative d’utiliser des outils et des logiciels anciens sur des volumes de données sans précédent. Les nouveaux types de données d’IA, comme l’audio et la vidéo utilisés dans la vision par ordinateur et l’IA conversationnelle, sont difficiles à intégrer dans les systèmes existants.

Chez NVIDIA, nous considérons que le rôle de l’ingénieur de données est d’ingérer des données non structurées et bruyantes et de les nettoyer pour les scientifiques de données qui explorent et expérimentent en construisant des modèles et en analysant des modèles. L’ingénieur en apprentissage automatique est la personne qui conçoit l’ensemble du processus de bout en bout de l’apprentissage automatique et profond.

À n’importe quel moment du cycle de vie de la science des données – utilisation de Jupyter Notebooks, exécution d’Apache Spark ou de SQL Server ETL (extraction, transformation et chargement) – la lenteur de l’informatique basée sur le processeur peut empêcher d’analyser des ensembles de données toujours plus volumineux assez rapidement pour être utiles à l’entreprise. En fait, une enquête de 2020 a révélé que plus de la moitié des professionnels de la science des données ont du mal à montrer l’impact de la science des données sur les résultats commerciaux.

« Il n’est pas toujours facile de faire passer les résultats de la science des données en production, là où ils peuvent avoir un impact sur l’entreprise », a déclaré la société de logiciels de science des données Anaconda dans le rapport qui a interrogé 2 360 personnes dans le monde. En fait, c’est un euphémisme. Il n’est jamais simple.

Une équipe de science des données moderne doit relever le défi de travailler en collaboration avec les DSI, les CTO et les unités commerciales pour créer un cycle de vie de bout en bout permettant d’extraire des informations exploitables des données. Les principaux fournisseurs de services de cloud et les startups se mobilisent pour atteindre cet objectif en proposant des plateformes de calcul accéléré et des logiciels pour accélérer le processus d’analyse et de traitement des données.

« La mise en production des résultats de la science des données deviendra de plus en plus importante, ce qui obligera les dirigeants comme les scientifiques des données à supprimer les obstacles au déploiement et les scientifiques des données à apprendre à communiquer la valeur de leur travail », recommande le rapport Anaconda.

Accélérer la mise en œuvre de la science des données à part entière

Certaines organisations accéléreront le retour sur investissement de l’IA en mettant en place une infrastructure centralisée et partagée à l’échelle des supercalculateurs. D’autres choisissent une approche hybride, en mélangeant l’infrastructure du cloud et du centre de données. Toutes s’efforcent de faciliter la formation et la mise à l’échelle des talents en science des données, de partager les meilleures pratiques et d’accélérer la résolution de problèmes d’IA complexes.

NVIDIA travaille avec tous les principaux fournisseurs de services de cloud computing et fabricants de serveurs pour aider les entreprises à transformer et à analyser des ensembles de données complexes et à utiliser l’apprentissage automatique pour automatiser l’analyse. Beaucoup de ces collaborations sont basées sur des plates-formes de calcul accéléré qui combinent à la fois le matériel et le logiciel pour accélérer la science des données.

La clé de ce travail est RAPIDS, une suite de bibliothèques logicielles open-source et d’API pour faire tourner des pipelines de science des données et d’analyse de bout en bout entièrement sur les GPU NVIDIA. Walmart est l’un des innovateurs qui contribue activement à la plate-forme et déploie RAPIDS en interne. Le leader mondial des supermarchés utilise l’IA pour tout améliorer, de l’expérience client à la tarification en passant par le stockage.

En masquant les complexités du travail avec le GPU et les protocoles de communication en coulisse dans l’architecture du centre de données, RAPIDS crée un moyen simple de réaliser la science des données. Alors que de plus en plus de scientifiques utilisent Dask, une bibliothèque flexible pour le calcul parallèle en Python et dans d’autres langages de haut niveau, fournir une accélération sans modification du code est essentiel pour améliorer rapidement le temps de développement.

L’accélération de la science des données accélère la réussite des entreprises
Peu d’entreprises prospères fonctionnent sans équipe financière, RH ou marketing. La science des données accélérée devient une fonction tout aussi essentielle, car les entreprises réalisent que leurs données sont la clé pour gagner plus de clients. Celles qui n’ont pas encore ajouté l’expertise de la science des données à leur activité opèrent aujourd’hui dans l’obscurité, tandis que leurs concurrents utilisent déjà la science des données pour mettre en lumière de nouvelles opportunités.

Dans tous les secteurs d’activité, les data scientists sont impatients de mettre à profit les atouts les plus précieux de leur entreprise. De l’ingénierie des données au déploiement de modèles d’IA en production, la science des données accélérée donne aux entreprises la vitesse nécessaire pour tester plus d’idées, trouver plus de réponses et favoriser le succès.

Soyez le premier à commenter

Poster un Commentaire

Votre adresse de messagerie ne sera pas publiée.


*