Politique de redondance

Schéma de la tête

Double redondance (à Brest) :

  • 2 machines pour s'occuper du fw et du routage
  • 2 connections : adista & renater

Simple redondance (à Rennes) :

  • 2 connections : quantic & renater

Le fw se base sur 3 indicateurs pour déterminer d'un changement :

  • connectivité interne, le fw vérifie s'il peut accéder à une liste de sites externe (configuré dans /srv/qos/healthchecker/checker.conf)
  • connectivité externe, une sonde vérifie si elle peut accéder à une liste de sites externe (
  • connectivité admin, le fw teste s'il est coupé ou non du réseau, en pinguant d'autres noeuds (l'autre fw, les sondes, ...)

Le fw actif teste en permanence toutes les connections disponibles pour savoir s'il est utile de switcher.

Services

2 services sont utilisés :

Redondance entre les machines

Utilisation de keepalived configuré dans /etc/keepalived/keepalived.conf qui teste l'ip admin et appelle le script /srv/qos/scripts/node-changed.sh en cas de modification de la connection (passage en master/backup). Ce dernier up/down les interfaces et les ips partagées entre les machines.

Redondance entre les connections

Un magnification service healthchecker est disponible dans /srv/qos/healthchecker/ ce serice check régulièrement des ip externes via les 2 co pour déterminer si elle sont up ou non. En cas de changement de status, la configuration du service reselqos est modifiée en fonction et le service recharger.

Politiques

  • Perte de connexion, signalée en interne :

    1. Si une autre connexion est disponible, on bascule dessus
    2. Sinon si un autre fw est disponible, on bascule dessus
  • Perte de connexion, signalée par la sonde : (non développé pour l'instant)

    1. Si la connexion actuelle est vue comme disponible, cela signifie que le problème ne vient pas de la co mais du fw. Si un autre fw est disponible, on bascule alors dessus
    2. Sinon si une autre connexion est disponible, on bascule dessus
  • Perte de connexion admin (eth0.994) : Le fw est vu comme "coupé" du réseau, il va alors se désactiver (i.e. retirer les ips partagées) et attendre d'être reconnecté.