Système de stockage de masse

Cette page s'adresse aux utilisateurs intéressés par le stockage de masse.
Elle décrit système implanté à l'UCL et ses modalités de fonctionnement.

  1. Introduction
  2. Historique
  3. Serveurs de stockage
  4. Usage du stockage de masse
  5. Utilisation avancée (FTP automatisés, scp, rsync)
  6. Sécurité
  7. Facturation

Votre capacité utilisée sur disques

 1. Introduction

La puissance de traitement des ordinateurs actuels permet d'engendrer des quantités de plus en plus importantes d'information. L'espace disque de tout ordinateur a tendance à se saturer en quelques mois. Un autre problème existant sur tout ordinateur est celui de la sauvegarde : archiver régulièrement l'entièreté d'un disque de plusieurs (milliers de) Go n'est pas une sinécure si le support est de capacité trop faible.

Il convient d'avoir conscience que les systèmes implantés ne sont pas à l'abri d'une catastrophe majeure telle qu'un incendie. Celui qui y conserve des informations difficiles à reconstituer doit donc voir le stockage de masse comme la copie de sauvegarde d'informations qu'il conserve ailleurs ou, à l'inverse, créer une copie de sauvegarde des informations confiées au système de stockage de masse.

Les utilisateurs de calcul intensif sont confrontés au même problème : le volume de leurs calculs est de plus en plus important, et la taille des fichiers de résultats est à l'avenant. Le même problème se pose quand les programmes traitent de grandes quantités de données, obligeant l'utilisateur à gérer de volumineux fichiers.

  2. Historique

    2.1 Les systèmes à bandes

Les bandes magnétiques ont été longtemps utilisées pour cela à travers plusieurs technologies. La dernière au C.I.S.M. était un robot HP de 4 dérouleurs et 59 bandes de type LTO (200 Go) avec le logiciel DiskXtender qui étaient en service depuis 2002.

 . 2.2 Les systèmes à disques

Après l’avènement des armoires à disques de type « disk array » et la chute spectaculaire de leur coût, ces dernières ont supplanté les bandes qui ont été abandonnées en mars 2006.Les configurations "disques" présentent en outre un avantage majeur : leur temps de réaction très court par rapport aux bandes permet des relectures plus fréquentes des données.

Début 2004, le système de stockage de masse a été étendu par l'adjonction de deux serveurs distants (situés aux bâtiments Pierre Curie et Pythagore), comportant chacun un espace disque sécurisé (RAID) de 4 To. Un seul serveur (diskus.cism.ucl.ac.be) était alors accessible directement par les utilisateurs pour le dépôt de leurs fichiers, via le protocole FTP. En un premier temps, les fichiers des utilisateurs étaient systématiquement recopiés sur le deuxième serveur appelé alors « replicus ». Ceci permettait de minimiser les risques de perte de données en cas de désastre sur un des deux sites. En octobre 2004, une nouvelle armoire à disques de 4 To a été ajoutée au serveur « diskus ». La copie systématique n’était plus possible. Les utilisateurs qui le souhaitent  peuvent alors déposer des données dans leur sous-répertoire "ALSOreplicus ", celles-ci sont automatiquement recopiées, endéans l'heure, sur le deuxième serveur.

En janvier 2006, le serveur de stockage "lms.cism.ucl.ac.be" , faisant partie de la grappe « lemaitre », a été mis en service au Pythagore avec une armoire à disques d'une capacité de stockage de 11 To. Comme pour "diskus", un dispositif de réplication de fichiers est mis en place vers « replicus », localisé au Pierre Curie. Le serveur « diskus » continue à fonctionner avec ses deux armoires, offrant chacune une capacité de l'ordre de 4 To. Sur chacun des deux serveurs, les fichiers des utilisateurs peuvent être simplement déposés et récupérés par FTP depuis tout ordinateur relié à l'interréseau.

Suite à une avarie de l’armoire à disques de « replicus », ce serveur est désaffecté en avril 2006. Le service de réplication de fichiers est transposé entre « diskus » et « lms » réciproquement, de manière à conserver la possibilité de déposer certains fichiers en deux copies, sur l'un ou l'autre serveur.

Le 22 juin 2007, le serveur "lms" (SUN Sunfire V440) a été remplacé par un SUN Galaxy X4500, plus performant (2 dual-core AMD 2.6GHz) et appelé "lmftp.cism.ucl.ac.be" ou "lmx".

Le 3 février 2009, un serveur "storage02" d'une capacité de 36 To a été mis en service au bâtiment de Hemptinne. Il est dédicacé au pôle ELIC (ex ASTR). Son système de fichiers "ZFS" permet la compression automatique des fichiers au moment de leur dépôt.

Un serveur "storage03" d'une capacité de 50 To a été mis en service le 18 août 2010 au bâtiment de Hemptinne également. Il a remplacé le serveur "diskus", désaffecté le 17 décembre 2010. Le serveur  "storage03" fut également doté d'un système de fichiers "ZFS" avec compression automatique. L'espace disque utilisable sur celui-ci par chaque pôle (ou entité assimilée) était désormais limité par des quotas. Le service de réplication de fichiers a été transposé entre « storage02 » et « storage03 », au bâtiment M. de Hemptinne d'une part, et « lmx » au Pythagore, et réciproquement.

En juillet 2011, 2 serveurs supplémentaires, chacun d'une capacité de 74 To et dotés d'un système de fichiers "ZFS", ont été mis en service: "storage04" et "storage05". Ils seront utilisés en priorité par ELIE, ELIC et NAPS qui ont largement contribué à leur acquisition.

La capacité du serveur "storage05" a été portée à 162 To en août 2013. Son système de fichiers "ZFS" est transformé en RAID Z2. La sécurité des données est ainsi renforcée par accroissement des disques de parité. Le système de fichiers "ZFS" du serveur "storage04" est également transformé en RAID Z2. En conséquence, l'espace disponible sur ces 2 serveurs a été réduit à 64 To et 155 To respectivement.

En janvier 2014, le serveur "storage02", atteint par la limite d'âge, est déclassé. Les données sont réorganisées sur les 3 autres serveurs.

En avril 2016, un serveur "storage06" d'une capacité de 120 To a été mis en service dans la salle Tier2 du Bâtiment Marc de Hemptinne. Le serveur "storage03", atteint par la limite d'âge, a été déclassé après copie des données sur "storage06".

  3. Les serveurs de stockage

storage04 : 64 To, a atteint la limite d'âge et sera remplacé incessamment.

storage05 : 155 To, a atteint la limite d'âge et sera remplacé incessamment.

storage06 : 120 To

storage07 : 316 To, destiné à remplacer les serveurs "storage04" et "storage05", en cours d'installation.

   4.. Usage du stockage de masse

Tout utilisateur d'un pôle (ou entité assimilée) qui dispose d'un nom de login sur un des serveurs de stockage peut y déposer ou reprendre un fichier à travers l'utilisation d'une session FTP. Pour obtenir un nom de login, voyez la page "devenir utilisateur" .

Ouvrir une session FTP:

·       se connecter par FTP à l’un des serveurs de stockage à disques (e.g. storage06.cism.ucl.ac.be);

·       entrer son logon et son mot de passe pour ce serveur;

Déposer un fichier dans le stockage de masse :

·       envoyez votre fichier vers les disques par une sous-commande "put nomdufichier". Vous pouvez vérifier que votre fichier se trouve bien dans le stockage de masse au moyen de la sous-commande dir (ou ls).

Récupérer un fichier :

·       get nomdufichier

Terminer la session FTP :

·       bye

Copies incrémentales

Les systèmes de stockage de masse ne gèrent pas les sauvegardes (backup) incrémentales (sauvetage de la différence par rapport à la sauvegarde précédente) ou de version. C'est la responsabilité de l'usager, en fonction des outils dont il dispose, de définir sa stratégie. Une bonne organisation des répertoires de réception est donc importante.

 5. Utilisation avancée

FTP automatisés

Si l'on veut lancer "en batch" (automatiquement) une session FTP :

en Unix, le fichier .netrc, combiné ou non avec une utilisation des mécanismes PIPE, devrait apporter une solution;

en Windows avec PuTTY, le client PSFTP et l'option " -b Fichier_de_Commandes".

Avec les autres logiciels Mac, X-Windows ou PC sous Windows, la réponse est incertaine. Toutes les implantations dites aimables, (FTPTOOL, COREFTP, WFTP, WS_FTP...) sont souvent basées sur une analyse des informations contenues dans les messages ou les réponses aux commandes "dir". Or, les messages des serveurs FTP ne sont pas tous bâtis sur un canevas reconnu par tous les clients.

Copies avec SCP ou RSYNC

Les utilisateurs ont aussi à leur disposition les commandes Unix "scp" ( PuTTY PSCP sous Windows) ou "rsync", par ex. pour des backups de serveurs. Les utilisateurs réserveront le "login shell" normal à l'accès exclusif à leurs données.

  6. Sécurité

La sécurité peut prendre plusieurs aspects:

  6.1 Protection physique des données

Les systèmes informatiques ne sont jamais totalement à l’abri d’une catastrophe majeure (incendie, …). Toutefois, les armoires à disques sont organisées selon le mode RAID 6: une partie des disques contient des informations redondantes de celles des autres disques, et qui permettent de reconstruire les données originales en cas d’altération. De plus, chaque système à disques étant "dédoublé" pour les fichiers que l’utilisateur place dans le sous-répertoire « ALSOreplicus », le risque de destruction totale est minimisé. En fonction de vos besoins et de l'importance de vos données, il vous appartient de poser votre problème, et nous vous aiderons à mettre en place une stratégie adéquate.

  6.2 Restriction d'accès et d'exploitation des fichiers

L'accès est soumis aux règles classiques des systèmes UNIX. Pour mémoire:

  • seul, le SUPERUSER dispose de tous les droits
  • l'accès est soumis à la fourniture du mot de passe. Tous les utilisateurs reçoivent maintenant un compte "Calcul Intensif" dont  le mot de passe est commun et se change de la même façon (yppasswd). Les mots de passe doivent être différents du nom d'utilisateur ainsi que de toute permutation circulaire ou inverse de ce nom. Les nouveaux mots de passe doivent différer des anciens d'au moins trois caractères et doivent comporter un minimum de 6 caractères dont au moins un numérique, spécial ou majuscule.
  • l'accès aux fichiers est réglé par les permissions d'un fichier placé dans un système de fichiers UNIX. Lors de la création du fichier, à défaut de mentions précisées lors de chaque session FTP (sous-commande "quote site umask"), les permissions attachées à ce fichier réserveront l'accès au seul propriétaire en mode lecture et écriture.
  • gardez en mémoire que chaque système d'exploitation informatique comprend un ensemble d'outils qui permettent le regroupement de fichiers, la compaction ou le cryptage de ceux-ci (citons des outils tels que TAR, COMPRESS, ZIPPEUR...). Si vous avez utilisé de tels outils avant l'envoi du fichier vers le serveur du stockage de masse, veillez à disposer d'un système d'exploitation comprenant les outils inverses qui vous permettent de reconstituer vos fichiers (et le conserver).

   7. Facturation

Dès le départ, la facturation du système de stockage de masse a été basée sur une distinction entre "gros" utilisateurs, payant un forfait couvrant une capacité convenue à l'avance (ceci pour garantir un revenu minimum sur une période donnée), et petits utilisateurs payant l'espace occupé (mesuré chaque mois) à un tarif défini à l'avance. Lorsqu'il y a dépassement du volume couvert par un forfait, le tarif  "petits utilisateurs" est appliqué à l'excédent. Le système étant optimisé pour traiter des fichiers volumineux, on évitera de déposer individuellement de trop petits fichiers mais on les regroupera (voir ci-dessus). Les transferts ne sont pas comptabilisés. Enfin, la facturation est annuelle.

Les "homes" des serveurs de calcul ("lemaitre", puis "green", et ensuite "manneback") ont fait l'objet d'une facturation particulière à partir du 1 décembre 2006. Cette facturation est suspendue depuis la mise hors service des deux premiers, et de la reconfiguration des "homes" de "manneback" en juillet 2016.

  7.1 Petits utilisateurs

Le tarif  "petits utilisateurs" a été abaissé de 0,0150 à 0,0125 € / Go / mois pour 2014 (réunion du CG-CISM le 21 janvier 2014) et maintenu pour les années 2015 et suivantes (réunion du CU-CISM le 20 janvier 2015)

Le système de fichiers ZFS dont sont pourvus les serveurs "storage04" à "storage07" permet la compression automatique des fichiers au moment de leur dépôt. De ce fait, il a été décidé (réunion du CD-CISM du 8 mars 2010) de facturer, à partir de mars 2010, l'espace disque réellement occupé et non plus la taille des fichiers. La taille minimale à facturer (anciennement 512 ko) est de ce fait abolie.

  7.2 Forfait par volume

Le coût des forfaits est basé sur le tarif  "petits utilisateurs". Une première formule avait été proposée lors de la réunion du CD-CISM le 2 juin 2008. Lors de la réunion du CD-CISM le 3 juillet 2008, elle a été approuvée avec application à partir du 1 janvier 2008. On s'est rendu compte en décembre 2008 que la formule qui figure dans le PV du 2 juin 2008 est entachée d'erreur. La formule ci-dessous est maintenant en vigueur. Soient "petit_util_TO" le coût annuel d'un TéraOctets au tarif "petits utilisateurs" et "MaxVolForfait" le plus grand volume (en To) couvert par forfait sur l'ensemble des pôles (ou entités assimilées) utilisatrices. Le coût annuel d'un volume "VolumeForfait" (en To) s'élève alors à:

                             petit_util_TO * 0.8 / ( 1 /  VolumeForfait + 1 / ( 2 * MaxVolForfait ) )

Exemple: avec "petit_util_TO" = 150 € / To / an et "MaxVolForfait" = 75 To en 2016, un volume d'un To est facturé 119,21 €.