Question Système de fichiers énorme?


Supposons que l'on dispose de 100 machines (chacune avec un disque dur de 2 To), toutes connectées dans un réseau.

Existe-t-il un moyen (sous Linux) de réunir ces 200 To d'espace disque combiné dans un seul dossier, qui peut être partagé à l'aide de NFS entre toutes les machines du réseau?

En empruntant cette voie, toutes les machines pourront lire / écrire dans le même dossier et ainsi, les E / S seront réparties uniformément entre elles. Est-ce une bonne idée si vous avez besoin d'un système de fichiers volumineux pour stocker des centaines de To de données? (Remarque: les données seront fractionnées en plusieurs fichiers plus petits, d’une taille d’environ 500 Go chacun).

Existe-t-il une solution toute faite (préférable, une solution open source) qui permet d'atteindre cet objectif?


6
2017-07-12 19:41


origine


"Les E / S seront réparties équitablement entre eux" - N'oubliez pas que toute solution distribuée nécessitera une bande passante entre les serveurs distribués (par exemple, l'hôte 1 devra avoir une certaine connaissance de l'activité issue de l'hôte 2 via l'hôte 100). Cette bande passante n'est pas triviale. - Stefan Lasiewski


Réponses:


Deux options qui me viennent à l’esprit sont GlusterFS et Hadoop HDFS.


7
2017-07-12 19:50



Merci; aucun mot d’information sur la différence d’installation / maintenance de GlusterFS contre. Hadoop? - user76976
Je n'ai pas utilisé HDFS; J'imagine que cela convient si vous utilisez déjà Hadoop pour le traitement parallèle des chiffres. Gluster ressemble plus à ce que vous recherchez: un NAS distribué, en effet. - bosmacs
Génial; est-ce difficile à installer? quand on veut ajouter un autre noeud à l'image, quel est le temps système? - user76976


IBM GPFS peut le faire (note: pas open-source).

Avec GPFS, vous pouvez créer des disques partagés en réseau (NSD) composés de tout type de stockage en mode bloc (local ou présenté via iSCSI ou FC, par exemple). Il serait tout à fait possible de créer un système de fichiers GPFS (périphérique) composé de NSD couvrant chaque disque dur de 2 To sur vos 100 serveurs.

Je ne ferai pas semblant de rappeler tous les chiffres marketing loufoques, mais GPFS fait partie des systèmes de fichiers en cluster les plus populaires pour les superordinateurs de la liste "Top 500", car il prend en charge des volumes de données extrêmement importants et des E / S parallèles extrêmement élevées. Wikipédia a quelques chiffres.

GPFS peut répliquer des blocs de données et de métadonnées sur le système de fichiers. Lorsque vous créez vos NSD, vous définissez un "groupe d'échecs" afin que GPFS écrive vos répliques de blocs ailleurs (vous ne voulez donc pas que les deux copies de votre bloc appartiennent au même groupe d'échecs). Vous pouvez également hiérarchiser le stockage en utilisant leur concept de "pools de stockage", grâce auquel vous pouvez définir des comportements tels que ... les fichiers auxquels vous avez accédé la semaine dernière sur des disques Fusion IO ou SSD, mais ensuite, déplacez les blocs vers un stockage moins cher.

Tous les nœuds de votre cluster auraient accès à un périphérique (tel que / dev / gpfs0) qu'ils pourraient monter et accéder car le système de fichiers entier était local pour chaque nœud. Vous avez mentionné NFS. Toutefois, dans ce modèle, il n’est pas nécessaire d’introduire le protocole supplémentaire, sauf si vous avez des systèmes extérieurs au cluster à 100 nœuds qui agissent en tant que consommateurs / clients des données et que vous ne souhaitez pas en faire des clients GPFS / serveurs NSD (en chargeant la Module de noyau GPFS). Cependant, vous pouvez facilement exporter des systèmes de fichiers GPFS via NFS et même utiliser si nécessaire Clustered-NFS (CNFS).

  • Je ne travaille pas pour IBM, mais j'ai un peu joué avec GPFS et cela m'a plu.

4
2017-07-12 22:16



Merci; Je préfère vraiment une solution open source si - user76976


Je n'ai pas encore eu l'occasion de jouer avec elle, donc je ne peux pas vous donner une critique complète, mais je dirais de jeter un coup d'œil sur le cloud Openstack -> http://www.openstack.org/projects/storage/


3
2017-07-12 19:46





Vous voulez probablement quelque chose comme PVFS.


2
2017-07-12 19:59





Il y a un liste complète sur Wikipedia.


2
2017-07-12 20:37



Il serait préférable de lier directement les "systèmes de fichiers à tolérance de pannes distribués en parallèle" - Karoly Horvath


Ceph est un autre, mais pas encore prêt. http://ceph.newdream.net/wiki/Main_Page


1
2017-07-14 20:45