• Serveurs
  • Conseils pour infrastructure de logs de requetes HTTP

Hello 👋,

Je dois mettre en place une infrastructure capable de logguer 1 milliard de requĂȘtes HTTP par jour (Ca represente environ 1TB de donnĂ©e), en conservant ces donnĂ©es pendant 3 jours.
Pendant cette période, je dois les agréger selon certaines dimensions comme le domain, device ou le pays de l'IP.

Je pensais à utiliser ElasticSearch pour les logs puis Postgre pour les data aggrégés.

Cependant, je ne suis pas sĂ»r qu'Elastic soit conçu pour gĂ©rer cette quantitĂ©e de donnĂ©es et s'il n'existe pas de meilleures solutions qui consommeraient peut ĂȘtre moins et seraient donc moins couteuses...

De plus, je ne sais pas exactement quelle est la meilleure solution pour envoyer ces logs Ă  Elastic ou Ă  une autre solution. Je ne pense pas qu'envoyer chaque requĂȘte HTTP Ă  log par API a elastic soit la meilleure solution de procĂ©der. Pensez-vous qu'il soit prĂ©fĂ©rable d'enregistrer les logs dans un fichier et d'envoyer les fichiers pĂ©riodiquement au systĂšme de logs (Peut etre logstash pour ca) ?

Merci beaucoup pour votre aide !

    Hello,

    J'aurais dit :
    Broker de messagerie : KAFKA
    Si tu veux "pré-parser" ta data : LogStash
    Puis Elastic pour exploiter tes données

    Image non contractuelle mais c'est pour bien voir l'ensemble.
    Un Elastic mononoeud n'est pas tant consommateur. Dans tout les cas si tu as 1M de requĂȘte par jour il faudra quand mĂȘme dimensionner au besoin

    2 mois plus tard

    pourquoi garder autant de log ? 1to de log đŸ˜±

    17 jours plus tard

    C'est verbeux, le mode dĂ©bug 😛

    Salut juojuo
    Rien que les IOps le systĂšme (mĂȘme distribuĂ©) sous jacent va pas suivre (et je parle mĂȘme pas du traitement), pour avoir autant de log tu doit avoir un paquet de serveurs sources, le plus simple est de faire des groupes et de les traiter sĂ©parĂ©ment. Surtout que le recoupement peux tout Ă  fait ĂȘtre fait aprĂšs rĂ©duction des jeux de donnĂ©es.
    MĂȘme principe qu'en monitoring, on monitore pas x centaines/millierss de machines avec un seul serveur sinon il s'Ă©croule, on utilise des proxy pour la collecte et le prĂ©-traitement, qui renvois Ă  un/des serveurs centraux.
    Vu le nombre de requÚtes, je devine qu'il y à moyen d'avoir un budget, pour traiter autant de log faut monter une infrastructure dédié.

    Répondre