Bonnes pratiques pour un hôte Docker en "prod"

Wonderfall · 4 avr. 2021

C'est une excellente question quant à l'ICC et l'usage de --link.
Le link est effectivement déprécié : https://docs.docker.com/network/links/

Du coup pour ICC, je ne sais pas trop si c'est encore d'actualité, j'attendrais le retour de quelqu'un de plus expérimenté comme xataz. Je ferai des recherches approfondies dessus, mais il me semble que l'ICC aujourd'hui ne s'applique qu'au bridge par défaut.

L'idée c'est effectivement de gérer tes propres réseaux désormais. Par exemple imaginons tu un conteneur Postgres, il est inutile qu'il soit dans le réseau "frontend", et aussi inutile qu'il soit connecté à l'extérieur (d'où --internal). Tu pourras créer un réseau isolé dédié à l'app en question (app <-> db <-> redis par exemple).

Effectivement pour Traefik le plus commun est de créer un gros réseau dédié, c'est le plus simple. Par contre, toutes les apps de ce réseau peuvent communiquer entre "elles" donc il faut effectivement faire attention si par exemple la sécurité d'une app repose sur le proxy.

Alors il me semble (à vérifier) que Traefik doit simplement pouvoir router vers ces différents conteneurs, donc tu peux voir le sujet à l'envers et faire des réseaux uniques pour chaque lien Traefik <-> conteneur. Mais ça demande un peu plus de configuration, par contre c'est nécessaire pour vraiment bien isoler entre des conteneurs qui n'ont pas besoin de communiquer entre eux (et c'est la bonne pratique).

Pour iptables, la chaine DOCKER-USER est à configurer soi-même ou par défaut elle laisse passer le trafic de/vers l'extérieur ?

Elle est là par défaut, et oui elle laisse passer le traffic. Après pour bloquer spécifiquement l'accès d'un réseau Docker à l'extérieur, je n'ai pas utilisé iptables personnellement.

Tu utilises un daemon.json pour configurer le daemon Docker ? Si oui, tu pourrais le partager pour avoir une idée ?

Oui j'utilise daemon.json, le mien est très simple (enfin c'est relatif) et sur mon serveur perso je n'utilise pas encore le rootless. J'ai juste mis btrfs, le live restore activé, les runtimes alternatifs (gvisor, kata), etc. Rien de spécial !

{
    "data-root": "/docker",
    "debug": false,
    "live-restore": true,
    "userland-proxy": false,
    "iptables": true,
    "icc": false,
    "runtimes": {
        "runsc": {
            "path": "/usr/bin/runsc"
        },
        "kata": {
            "path": "/snap/bin/kata-containers.runtime"
        }
    },
    "storage-driver": "btrfs"
}

(Pourquoi je n'utilise pas les user namespaces : pas compatibles avec kata et gvisor, et c'est redondant avec eux. gvisor par exemple fonctionne avec son namespace séparé de l'hôte. Sinon, je conseille de l'utiliser, c'est une isolation bonne à prendre avec runc.)

julienth37 · 5 avr. 2021

hydrog3n mouaif bouffer xGB d'espace libre pour ça je trouve ça un peu con ^^ Une machine ça se monitore et comme une des règles de base c'est 50% d'espace libre minimum c'est assez tôt que t'as une alerte qui te permet d'éviter un disque plein !
Je préfère de la surveillance (de toute façon il y a d'autres choses à surveiller donc il en faut) à une bidouille.

NicCo · 5 avr. 2021

Merci encore @Wonderfall pour tous ces détails. J'allais commencer à tester l'usage de --link, je vais finalement m'en passer vu ton lien

Je vais aussi chercher de mon côté si je trouve des éléments sur ICC, dans tous les cas j'ai déjà un montage de réseau comme tu le décris en première partie, un frontend pour tout ce qui sort vers l'extérieur et un backend pour les DB, Redis ou autres qui n'ont pas besoin de sortir.

Je vais revoir ce point, passer le backend en internal (le paramètre est aussi valable pour un bridge ? Je n'ai trouvé des utilisations qu'avec overlay jusqu'à présent mais je n'ai qu'un hôte Docker).
Et pour le reste ça voudrait dire de créer un réseau (ou 2 si utilisation d'un backend) par app et tous les déclarer (pas les backend) dans le docker-compose de traefik ? Je n'en ai pas 100 non plus, peut-être une dizaine, c'est jouable. Les réseaux configurés au sein d'un même docker-compose n'ont pas de visibilité entre eux ?

Pour iptables, je suis loin d'être un expert Linux mais tu utilises quoi du coup ?

Merci pour le daemon.json, il y a déjà l'option data-root à côté de laquelle j'étais passé et qui peut être pratique. Les runtimes ce sera une étape future avant le rootless, je pense que mon niveau débutant ne me permet pas encore de m'aventurer là dedans
Le BtrFS il faudrait que je regarde aussi mais ça rajoute de la complexité en gestion si j'ai bien compris. Pour le moment je n'ai pas l'impression d'avoir rencontré de problème en ext4.

En priorité ça va être user-namespace et réseaux, la suite reste à déterminer

NicCo · 5 avr. 2021

Dans les sources du script de bench sécurité du CIS, j'ai trouvé ceci :

Alternatively, you can follow the Docker documentation and create a custom network and only
join containers that need to communicate to that custom network. The --icc parameter only applies
to the default docker bridge, if custom networks are used then the approach of segmenting networks
should be adopted instead.

Donc à priori effectivement ça ne s'applique qu'au default.

J'ai trouvé ceci aussi pour vérifier si l'ICC est actif ou non :

Get ICC setting for a specific network
docker inspect -f '{{index .Options "com.docker.network.bridge.enable_icc"}}' [network]

Et ceci pour créer le réseau en désactivant l'ICC (ne peut être fait qu'à la création du réseau) :

Create a network and explicitly enable ICC
docker network create -o com.docker.network.bridge.enable_icc=true [network]

Il faut que je teste si la désactivation de l'ICC dans le daemon.json avant la création de nouveaux réseaux applique automatiquement la désactivation de l'ICC

Wonderfall · 5 avr. 2021

Je vais revoir ce point, passer le backend en internal (le paramètre est aussi valable pour un bridge ? Je n'ai trouvé des utilisations qu'avec overlay jusqu'à présent mais je n'ai qu'un hôte Docker).

Visiblement oui. Dans mon docker-compose quand je spécifie un réseau qui doit être isolé de l'extérieur, j'utilise internal: true.

Les réseaux configurés au sein d'un même docker-compose n'ont pas de visibilité entre eux ?

Tu peux avoir plein de réseaux dans un même compose, ça ne pose pas de soucis. La visibilité c'est dès lors que 2 ou plus de conteneurs sont dans un même réseau. (Ou si tu utilises l'option host, mais déconseillé sauf cas particulier.)

Pour iptables, je suis loin d'être un expert Linux mais tu utilises quoi du coup ?

J'ai un iptables.conf basique comme ça :

*filter
:INPUT ACCEPT [0:0]
:FORWARD DROP [0:0]
:OUTPUT ACCEPT [0:0]
:FILTERS - [0:0]
:DOCKER-USER - [0:0]

-F INPUT
-F DOCKER-USER
-F FILTERS

-A INPUT -i lo -j ACCEPT
-A INPUT -j FILTERS

-A DOCKER-USER -i eno1 -j FILTERS

# Allow existing connections
-A FILTERS -m state --state ESTABLISHED,RELATED -j ACCEPT

# Allow ping
-A FILTERS -p icmp --icmp-type echo-request -j ACCEPT

# Allow HTTP
-A FILTERS -p tcp --dport 8080 -m conntrack --ctstate NEW --ctorigdstport 80 -j ACCEPT
-A FILTERS -p tcp --dport 4430 -m conntrack --ctstate NEW --ctorigdstport 443 -j ACCEPT

# Allow containers to interact with full addresses
-A FILTERS -m state --state NEW -p tcp --dport 80 -j ACCEPT
-A FILTERS -m state --state NEW -p tcp --dport 443 -j ACCEPT

# Allow SSH
-A FILTERS -m state --state NEW -p tcp --dport 22 -j ACCEPT

# Reject everything else
-A FILTERS -j REJECT --reject-with icmp-host-prohibited

COMMIT

C'est à titre d'exemple, j'ai viré des besoins perso, mais tu vois l'idée. (Et mes règles HTTP/HTTPS sont bizarres car mon conteneur Traefik est non-root.)

Il faut que je teste si la désactivation de l'ICC dans le daemon.json avant la création de nouveaux réseaux applique automatiquement la désactivation de l'ICC

De ce que j'avais compris l'ICC en tant qu'option n'a plus de sens dès lors que tu gères tes user-defined bridges. C'était surtout valable à l'époque quand il n'y avait qu'un seul bridge, etc.

J'attendrais xataz pour t'en dire plus dessus.

NicCo · 5 avr. 2021

Merci pour les réponses @wonderyan, on va attendre le passage de @xataz pour avoir plus d'infos

Pour l'ICC s'il est actif sur tous les réseaux et si le --link est déprécié je ne vois pas comment tu peux faire communiquer les containers entre eux. Vu que chez toi l'option est active dans le daemon.json tu n'as pas de problème de communication inter container (si tu utilises un traefik par exemple) ?

Wonderfall · 5 avr. 2021

Comme dit, ce paramètre ne s'applique a priori qu'au bridge par défaut. C'était une option plus ou moins indispensable avant que Docker ne se développe, car par défaut, tous les conteneurs étaient sur le même réseau. Pas terrible niveau isolation, donc c'était mieux de tout restreindre et d'utiliser des --link pour décider qui communique avec qui.

Docker a évolué depuis et comme dit, tu peux créer tes propres réseaux bridge (user-defined bridge). C'est la façon "moderne" de faire communiquer des conteneurs entre eux. C'est aussi simple que ça :

docker network create mon_reseau
docker run -d --network mon_reseau --name conteneur_1 image_1
docker run -d --network mon_reseau --name conteneur_2 image_2

Et l'équivalent docker-compose est possible aussi.
Et pouf les 2 conteneurs vont pouvoir communiquer ensemble. Les user-defined bridge ont la particularité de permettre une résolution DNS via Docker (contrairement au bridge par défaut qui utilisait /etc/hosts). Par exemple dans conteneur_1, tu peux tout à fait ping/curl conteneur_2 par exemple. A noter qu'avec des runtimes isolés, cette résolution DNS ne fonctionnera pas, donc il faut passer par des IP statiques, c'est pour ça je ne conseille pas pour l'instant de changer de runtime.

Par exemple pour Traefik, tu peux créer un réseau app_frontend et ajouter Traefik et ton app à ce réseau, que tu précises à Traefik via le label sur l'app. Et imaginons que tu veuilles un réseau interne à ton app pour qu'elle communique avec un conteneur SQL, tu ajouteras les deux à un réseau commun (avec le flag --internal pour l'isoler de l'extérieur).

En résumé, te casse pas la tête avec l'ICC, les --link et tout, fais des réseaux par groupe de conteneurs qui doivent communiquer entre eux !

NicCo · 5 avr. 2021

Merci encore @Wonderfall
Je vais regarder tout ça et avancer sur le sujet, une dernière question sur le daemon.json. Est-ce que tu as testé les paramètres suivants, recommandés par le CIS d'après ce que j'ai pu lire :

{
"icc": false, # point déjà abordé, à gérer par la création de réseaux
"userns-remap": "default", # à mettre en place (si non utilisation de runtime)
"userland-proxy": false, # ? option assez floue pour moi
"iptables" : true, # à activer pour que docker puisse manipuler iptables ?!
"no-new-privileges": true, # ? un peu abstrait pour moi en utilisation réelle
"log-driver" : "syslog", # pas d'importance sur le fonctionnement de docker
"live-restore": true # à activer pour que les containers puissent continuer à fonctionner si problème de daemon
}

Merci !

Wonderfall · 6 avr. 2021

Pas de soucis !

Comme tu peux le voir dans mon daemon.json, j'ai activé :

live-restore : cette fonction permet effectivement aux conteneurs de continuer à fonctionner sans que le daemon Docker soit actif. En effet Docker est une "coquille" qui orchestre le tout à l'aide des OCI runtimes (runc par défaut donc), donc c'est pertinent de pouvoir le mettre à jour sans tout devoir redémarrer.
userland-proxy : historiquement Docker utilisait une application dans l'espace utilisateur pour gérer les connexions des conteneurs, mais c'est une surface d'attaque supplémentaire. Docker moderne prend en charge iptables à la place (pas activé par défaut car iptables dépend des kernel, et quand c'est pas à jour...).
no-new-privileges : c'est une protection supplémentaire (utile avec runc) pour éviter des escalations de privilèges dans le conteneur. Par exemple, pour éviter qu'un utilisateur devienne root. Je conseille d'activer cette option aussi, je ne l'ai pas dans mon daemon.json car je le précise dans mes docker-compose (security-opt, je te laisse Google ça).

Le reste on l'a déjà abordé.

NicCo · 6 avr. 2021

Et encore merci @Wonderfall il ne me reste plus qu'à mettre tout ça en application
Donc le userland-proxy est à mettre à false et iptables à true, les 2 vont de paire si je comprends bien.

Je vais m'attaquer à ça cette semaine, si tu as d'autres astuces ou d'autres options (sécurité ou autre) à activer dans les docker-compose (comme no-new-privileges) je suis preneur aussi merci !

hydrog3n · 6 avr. 2021

julienth37 Chacun fait ce qu'il veut je passe pas m'a nuit a regarder mes alertes. Si le serveur s'emballe sur l'espace disque c'est une simple solution pour débloquer rapidement l'espace disque et travailler correctement. Je ne dis en rien qu'un système d'alerte n'est pas utile.

Wonderfall · 8 avr. 2021

NicCo Notre discussion m'a inspiré à faire un article pour détailler mon aventure avec les runtimes si ça t'intéresse : https://wonderfall.space/gvisor-kata-containers/

Après m'être renseigné longuement et avoir discuté avec quelques chercheurs sur des chans Matrix obscurs, je conseille vivement de s'intéresser à gVisor, c'est vraiment le futur ce truc.

NicCo · 8 avr. 2021

Génial cet article @Wonderfall
Est-ce que tu penses que c'est jouable pour un débutant comme moi de se lancer sur gVisor ? Dans ce cas tu n'utilises pas les userns dans le daemon.json ?

Wonderfall · 8 avr. 2021

NicCo Je pense que c'est jouable, c'est pas dur à installer, ça demande en soit pas de configuration par défaut. Le but de gVisor c'est vraiment d'apporter des conteneurs sandboxés à tout le monde sans les défauts des VM.

Alors le problème, c'est que peut-être tes applications ne tourneront pas bien avec gVisor. Faut tester au cas par cas, si tout va bien pour toi, alors franchement je ne vois pas le défaut, t'as une sécurité digne de production.

Du coup non, pas besoin de cette option comme expliqué ici.

NicCo · 8 avr. 2021

Merci @Wonderfall
Du coup tu peux choisir d'utiliser le runtime avec certaines applis et de rester avec le runtime par défaut avec d'autres ?

Wonderfall · 8 avr. 2021

NicCo C'est expliqué dans l'article, mais en gros, avec Docker en CLI tu précises avec --runtime, et dans un docker-compose c'est tout simplement runtime:. Si tu précises rien, ça sera runc, celui de base.

NicCo · 8 avr. 2021

Wonderfall Ok merci, je pensais qu'une fois ajouté au daemon.json par défaut ça désactivait le runtime de base. Mais c'est vrai qu'en y réflechissant tu dis qu'on peut déclarer plusieurs runtimes

NicCo · 12 avr. 2021

Banip Je suis en train de tester l'UDP et j'ai quelques questions :

Si tu es sur un dédié la question ne se pose pas normalement mais à la maison, tu es quand même obligé de mettre en place un NAT du ou des ports que tu veux utiliser en UDP ?
Tu attaques sur l'adresse ts.domain.tld ou ts2.domain.tld mais tu ne déclares pas cette adresse dans ton teamspeak.yml ? Tu la déclares ailleurs ?
Tu n'exposes pas les ports 9987 et 9988 dans le docker-compose de ton traefik ?
Dans l'interface traefik, je n'ai rien dans UDP, alors que j'ai bien mes containers dans HTTP, c'est normal ?
Tu aurais un exemple de docker-compose pour ton serveur TS ?
Merci !

Aerya · 13 avr. 2021

Wonderfall Merci pour l'article et notamment l'explication VS Kata. Je faisais tourner certains Dockers dans des VM (Whonix ou Qubes notamment) mais effectivement c'était plus du bricolage qu'autre chose pour la plupart (ne nécessitant pas d'anonymat spécifique surtout).

Banip · 13 avr. 2021

NicCo Je suis en train de tester l'UDP et j'ai quelques questions :

Pas de problème je vais essayer de répondre à tout, bonne lecture

Si tu es sur un dédié la question ne se pose pas normalement mais à la maison, tu es quand même obligé de mettre en place un NAT du ou des ports que tu veux utiliser en UDP ?

Je suis sur un dédié effectivement, si mon traefik était @home je ferai quand même tout passer par traefik.
J'irais même plus loin et je mettrais tout ce qui est exposé au web en DMZ au cas ou quelqu'un réussisse à pirater ton serveur qu'il ne puisse pas redescendre dans le réseau domestique et soit arrêté dans la DMZ.

Tu attaques sur l'adresse ts.domain.tld ou ts2.domain.tld mais tu ne déclares pas cette adresse dans ton teamspeak.yml ? Tu la déclares ailleurs ?

Exacte, mon serveur fait aussi DNS j'ai donc deux entrées SRV dans ma déclaration DNS comme l'indique la documentation de teamspeak :

; A record
chronos IN A XXX.XXX.XXX.XXX
; SRV record
_ts3._udp.ts.domain.tld. 86400 IN SRV 0 5 9987 chronos
_ts3._udp.ts2.domain.tld. 86400 IN SRV 0 5 9988 chronos

Tu n'exposes pas les ports 9987 et 9988 dans le docker-compose de ton traefik ?

Si tu es obligé si tu veux que traefik gère ton entrypoints après :

version: "3.2"

networks:
  traefik:
    external:
      name: traefik

services:
  traefik:
    image: traefik:v2.3.6
    container_name: traefik
    volumes:
      - /path/file/static/traefik/:/etc/traefik/
      - /var/run/docker.sock:/var/run/docker.sock:ro
    ports:
      - 80:80
      - 443:443
      - 21:21
      - 9900-9999:9900-9999/udp # j'ai pour projet de gérer 100 serveurs teamspeak
    networks:
      - traefik
    restart: unless-stopped

Mais grâce aux entrées SRV quand la requête ts.domain.tld arrive au serveur on sait qu'en réalité on demande le port 9987 comme si tu tapais IP:9987 dans la requête. De l'autre coté dans la configuration de traefik j'ai deux entrypoints udp :

entryPoints:
  web:
    address: ":80"
  websecure:
    address: ":443"
  ftp:
    address: ":21"
  ts9987:
    address: ":9987/udp"
  ts9988:
    address: ":9988/udp"

Et ensuite dans mon dossier conf que traefik watch j'ai le fichier teamspeak.yml :

udp:
  services:
    ts9987:
      loadBalancer:
        servers:
        - address: "teamspeak:9987"
    ts9988:
      loadBalancer:
        servers:
        - address: "teamspeak:9988"
  routers:
    ts9987:
      entryPoints:
        - "ts9987"
      service: "ts9987"
    ts9988:
      entryPoints:
        - "ts9988"
      service: "ts9988"

De cette manière les ports 9987 et 9988 ne sont pas en listening malgré qu'ils soient déclarés dans le docker-compose de traefik - 9900-9999:9900-9999/udp :

root@chronos:~# netstat -ntpl |grep 9987
root@chronos:~# netstat -ntpl |grep 9988

Dans l'interface traefik, je n'ai rien dans UDP, alors que j'ai bien mes containers dans HTTP, c'est normal ?

Dès que j'ai mon fichier teamspeak.yml dans mon dossier conf je vois bien mes routers UDP :
Traefik
Il faut fouiller dans les logs de traefik voir si tu n'as pas un problème dans ton fichier .yml, tu peux même prendre le mien et regarder si ça fonctionne.

Tu aurais un exemple de docker-compose pour ton serveur TS ?

Voici, j'ai mis quelques #annotations sur certains points :

version: '3'

services:

#############
# teamspeak #
#############
  teamspeak:
    image: teamspeak
    container_name: teamspeak
    ports:
      - 9987 # Je laisse les ports que mes applications utilisent, cela n'expose en rien les ports du host vers le docker, c'est simplement pour pouvoir me souvenir si j'ai la tête dans les fichiers qui utilise quoi sans devoir me reconnecter au dashboard traefik.
      - 30033
      - 10011
    environment:
      - TS3SERVER_LICENSE=accept
    volumes:
      - /path/to/static/files/ts3:/var/ts3server
    restart: always
    networks:
      - traefik # Bien penser à déclarer qu'on utilise le network traefik (et bien le créer avant) sinon le traefik ne verra pas le teamspeak.

networks: # Obligé de redéclarer le netork traefik car ce fichier docker-compose est séparé du docker-compose de traefik
  traefik:
    external:
      name: traefik

Merci !

Content si j'ai pu t'aider

J'attire ton attention sur la doc des routeurs UDP de traefik, tu ne pourra pas faire fonctionner une application derrière sub.domain.tld si cette application ne fournit pas d'entrée SRV car traefik sur les routeur UDP ne gère pas de règle host SNI.

Bonnes pratiques pour un hôte Docker en "prod"

Wonderfall

julienth37

NNicCo

NNicCo

Wonderfall

NNicCo

Wonderfall

NNicCo

Wonderfall

NNicCo

hydrog3n

Wonderfall

NNicCo

Wonderfall

NNicCo

Wonderfall

NNicCo

NNicCo

Aerya

Banip