Les projets de science de la donnée nécessitent souvent une analyse exploratoire et des logiciels spécifiques comme des notebooks. De plus, les bonnes pratiques encouragent les scientifiques de la donnée à s’assurer de la reproductibilité de leurs études. Par ailleurs, correctement gérer les ressources d’un cluster dans le cloud peut s’avérer complexe et fastidieux sans solution d’orchestration et de gestion des ressources. C’est pourquoi utiliser Kubernetes pour les projets de Science de la donnée, par opposition à des outils plus classiques comme Slurm, peut être judicieux. Nous allons voir comment installer Open Data Hub, une solution d’orchestration basée sur OpenShift pour les projets de science de la donnée.

Installation de l’opérateur Open Data Hub

Pour installer l’opérateur OpenShift responsable du déploiement et de la gestion d’Open Data Hub, se rendre sur OperatorsOperatorHub et chercher “Open Data Hub”, puis cliquer sur Install. Vérifier que la version utilisée soit bien la version stable, la version 1.5.0 à la date de rédaction de cet article.

Installation de l'opérateur Open Data Hub

Une fois l’opérateur Open Data Hub installé, créer un projet opendatahub qui contiendra les ressources qui y sont liées:

vincent@fedora ~> oc new-project opendatahub
Now using project "opendatahub" on server "https://okd:6443".

Manifestes de déploiement

L’opérateur déploie Open Data Hub par le biais de manifestes téléchargés depuis ce dépôt git pour les versions d’Open Data Hub ≤ 1.10.0. Ces manifestes peuvent être changés en modifiant les fichiers YAML, pour obtenir une personnalisation fine des paramètres d’installation. Par exemple, il est possible de modifier les registres utilisés pour les images des pods composant Open Data Hub, comme openshift4/ose-oauth-proxy ou rhel7/etcd.

Pour cela, faire un clone local du dépôt git ou un fork directement sur GitHub. Une fois les modifications effectuées, il faut héberger la nouvelle version sur une URL accessible depuis le cluster OpenShift, dans un format compréhensible par go-getter, comme par exemple une archive .zip ou .tar.gz sur une adresse HTTPS.

Déploiement d’Open Data Hub et utilisation

Pour déployer Open Data Hub, se rendre sur Installed OperatorsOpen Data Hub, et sélectionner le projet opendatahub depuis la liste déroulante listant les projets. Ensuite, se rendre dans l’onglet Kf Def et cliquer sur Create KfDef pour ouvrir le formulaire de déploiement d’Open Data Hub.

Le formulaire va configurer la création d’une instance, c’est à dire un regroupement de ressources OpenShift telles que des ConfigMap, des Secret, des Deployement ou des Service. Le formulaire permet d’activer ou de désactiver les applications composant Open Data Hub qui seront installées via la partie applications. La partie repos permet elle de sélectionner les manifestes qui seront déployés.

Manifestes du déploiement d'Open Data Hub

Une fois le formulaire renseigné, appuyer sur le bouton Create. Pour accéder à Open Data Hub, se rendre dans la Partie NetworkingRoute pour obtenir l’URL du tableau de bord.

Tableau de bord d'Open Data Hub

Pour tester le bon fonctionnement d’Open Data Hub, créer un projet Data Science en se rendant dans la partie Data Science Projects, puis créer une nouvelle Workbench. Sélectionner une image parmi celle pré-installées ainsi que le dimensionnement du conteneur en termes de requests et limits Kubernetes, et le stockage. Les images pré-installées contiennent des logiciels spécifiques à la science de la donnée. Une fois les paramètres choisis, appuyer sur Create workbench. Cela va automatiquement lancer un pod avec les paramètres choisis, permettant par exemple de démarrer un notebook Jupyter. Une fois la workbench démarrée, appuyer sur Open pour ouvrir l’interface web de la workbench en fonction de l’image choisie. Si l’image est celle de Jupyter, l’interface de Jupyter s’affiche.

Notebook Jupyter

Les utilisateurs d’Open Data Hub qui sont membres de cluster-admin sur OpenShift ont des droits administrateurs qui permettent d’accéder aux options d’Open Data Hub. Il est par exemple possible d’importer et configurer d’autres images pour les workbenches, afin de donner l’accès à d’autres logiciels au sein des notebooks.

Open Data Hub permet ainsi de provisionner automatiquement des espaces de travail compartimentés pour les scientifiques de la donnée, en accord en avec les bonnes pratiques en matière de reproductibilité, de compartimentation et de gestion des ressources.

N’hésitez pas à nous contacter pour une présentation des capacités d’Open Data Hub adaptée à vos besoins ou pour connaître nos solutions d’hébergement souverain pour le calcul scientifique et l’intelligence artificielle.