Bonjour à tous,

J'étudie actuellement les solutions pour une problématique qui est de pouvoir "loger" prêt de 1TB de data par jour avec un délai de rétention de 7j (Donc 7TB glissant).

J'envisage de partir sur une infrastructure mêlant à la fois Kafka -> LogStash -> Elasticsearch -> Kibana sur un ensemble de serveurs dédiés.
Il me reste deux points à éclaircir et ce que j'ai pu lire à ce sujet est assez flou :

  • Est-ce qu'un cluster elasticsearch peut gérer la répartition de données dans différents serveurs et est-ce configurable ? (J'aimerai que les datas soient répartis entre tous les serveurs et que ca ne soit pas simplement dupliquer).
  • Pour Kafka et LogStash je vais utiliser du stockage SSD pour des soucis de rapidités, par contre pour Elasticsearch sur lequel je vais stocker 6TB, je me demande si un stockage HDD suffirait ? (Ca me permettrai d'envisager une plus grande réplication voir un délai de rétention plus grand si besoin)

Merci d'avance à vous!

Salut,
Si ce n'est pas fait je te suggère 2 articles officiels sur le sujet :

5 jours plus tard

Hello @juojuo,
Les clusters E/S sont autonome donc tu ajoutes autant de shard que tu souhaites ils vont repartir la charge de cpu et de data. par contre de memoire je suis pas sur que tu puisses limiter des shard en taille de disque.
Après tu peux faire des tests en injectant plus de data que supporter par un shard mais le but c'est que ce soit résilliant au maximum.

Je pense qu'un stockage HDD irait car l'important c'est a l'indexation donc je dirais il faut plus regarder la RAM que le disque.

Répondre…