Rapports-Intervention/ri-10-09-2018-Bascule-FAI,-Onduleurs,-Blade.md
... ...
@@ -43,4 +43,42 @@ Une coupure de service partielle ou totale a eu lieu le samedi 8 septembre entre
43 43
44 44
## Investigations onduleurs
45 45
46
+### De l'importance d'un parc ondulé et configuré
47
+
48
+Il a été constaté a de multiples reprises que si le parc de machines du ResEl est ondulé au i1 et i11, la configuration logicielle des machines n'a pas été faite afin de déclencher une extinction propre en cas de coupure de courant.
49
+
50
+Cela a probablement été la cause de nombreuses pannes de disques durs, corruptions de RAID, pannes d'équipements réseau, etc.
51
+
52
+Le technopôle subit environ 2 à 3 coupures par an, et à chaque fois, tout le parc se coupe brutalement.
53
+
54
+### apcupsd
55
+
56
+Le logiciel `apcupsd` s'installe facilement sur Debian et sert justement à surveiller l'état des onduleurs APC à travers un câble USB ou une liaison série. Il est aussi possible d'écouter via le réseau ce qu'un autre `apcupsd`, ce dernier connecté à un onduleur, raconte à son sujet.
57
+
58
+`apcupsd` n'est configuré correctement sur aucune machine.
59
+
60
+Il a été découvert lors des investigations que les deux onduleurs du i11, des SURT3000XL, sont définitivement incompatibles avec apcupsd.
61
+
62
+### Actions entreprises
63
+
64
+Les deux onduleurs du i1, des SmartUPS 750, supportent très bien `apcupsd`. Un test a été fait sur Kyubey. La commande d'arrêt envoyée par `apcupsd` entraîne l'arrêt propre de toutes les VM gérées par Proxmox, lorsque le niveau de batterie du SmartUPS atteint un niveau critique.
65
+
66
+Les alimentations des machines du i1 ont par ailleurs été disposées à l'équilibre entre les deux onduleurs SmartUPS 750 indépendants.
67
+
68
+### Propositions pour une extinction automatique au i11
69
+
70
+On peut utiliser apcupsd sur Camille, Nikita, Debora en mode "client" : il écouterait le démon qui tourne sur Kyubey. Problème : si le i1 est coupé mais pas le i11, tout le parc s'éteindra quand même. Autre problème : la capacité de batterie au i11 est supposée moindre qu'au i1. Dans ces conditions, `apcupsd` attendra trop longtemps au i11 par défaut pour lancer la séquence d'extinction.
71
+
72
+On peut envisager de modifier au i11 le temps maximum sur batterie pour pallier ce problème.
73
+De même, il est possible de personnaliser le script exécuté par `apcupsd` pour envoyer à des équipements réseau (kuma) une commande d'arrêt (puisque kuma ne supporte pas _a priori_ `apcupsd`.
74
+
75
+**Si l'on s'autorise des achats.** On peut acheter des cartes Ethernet de supervision pour les vieux onduleurs du i11 qui disposent d'un "Smart Slot". Ils exposeront alors une interface SNMP sur le réseau, que `apcupsd` sait gérer. Sinon, on peut envisager le remplacement d'un des deux onduleurs (pas du luxe au vu de leur âge), mais cela coûte cher pour avoir des modèles de même puissance (3000VA).
76
+
77
+###Débat : onduleur ON-line ou IN-line
78
+
79
+Je laisse la parole aux experts en génie électrique, mais en gros la problématique est résumée par ce document d'APC : http://www.apc.com/salestools/JSII-5YQSBR/JSII-5YQSBR_R0_FR.pdf
80
+
81
+## Investigations sur le blade Ronflex
82
+
83
+
46 84