Conseils pour infrastructure de logs de requetes HTTP

juojuo · 3 févr. 2024

Hello ,

Je dois mettre en place une infrastructure capable de logguer 1 milliard de requêtes HTTP par jour (Ca represente environ 1TB de donnée), en conservant ces données pendant 3 jours.
Pendant cette période, je dois les agréger selon certaines dimensions comme le domain, device ou le pays de l'IP.

Je pensais à utiliser ElasticSearch pour les logs puis Postgre pour les data aggrégés.

Cependant, je ne suis pas sûr qu'Elastic soit conçu pour gérer cette quantitée de données et s'il n'existe pas de meilleures solutions qui consommeraient peut être moins et seraient donc moins couteuses...

De plus, je ne sais pas exactement quelle est la meilleure solution pour envoyer ces logs à Elastic ou à une autre solution. Je ne pense pas qu'envoyer chaque requête HTTP à log par API a elastic soit la meilleure solution de procéder. Pensez-vous qu'il soit préférable d'enregistrer les logs dans un fichier et d'envoyer les fichiers périodiquement au système de logs (Peut etre logstash pour ca) ?

Merci beaucoup pour votre aide !

arckosfr · 4 févr. 2024

Hello,

J'aurais dit :
Broker de messagerie : KAFKA
Si tu veux "pré-parser" ta data : LogStash
Puis Elastic pour exploiter tes données

Image non contractuelle mais c'est pour bien voir l'ensemble.
Un Elastic mononoeud n'est pas tant consommateur. Dans tout les cas si tu as 1M de requête par jour il faudra quand même dimensionner au besoin

kis2a · 28 mars 2024

pourquoi garder autant de log ? 1to de log

tanguy · 14 avr. 2024

C'est verbeux, le mode débug

julienth37 · 16 avr. 2024

Salut juojuo
Rien que les IOps le système (même distribué) sous jacent va pas suivre (et je parle même pas du traitement), pour avoir autant de log tu doit avoir un paquet de serveurs sources, le plus simple est de faire des groupes et de les traiter séparément. Surtout que le recoupement peux tout à fait être fait après réduction des jeux de données.
Même principe qu'en monitoring, on monitore pas x centaines/millierss de machines avec un seul serveur sinon il s'écroule, on utilise des proxy pour la collecte et le pré-traitement, qui renvois à un/des serveurs centraux.
Vu le nombre de requètes, je devine qu'il y à moyen d'avoir un budget, pour traiter autant de log faut monter une infrastructure dédié.

Conseils pour infrastructure de logs de requetes HTTP

Jjuojuo

arckosfr

Kkis2a

tanguy

julienth37