Salut,
Aujourd'hui (comme tout les premiers dimanches du mois) j'ai le checkarray de mdadm qui vérifie mes grappes raid.
Mais aujourd'hui j'ai été un peu plus curieux que d'habitude et je suis allé voir dans les logs système ce qu'il y avait à ce sujet, et là :
Nov 1 00:58:53 myserver kernel: [626524.436632] md3: mismatch sector in range 44263296-44263304
Nov 1 00:58:53 myserver kernel: [626524.499667] md3: mismatch sector in range 44293472-44293480
Nov 1 01:50:15 myserver kernel: [629606.402455] md3: mismatch sector in range 1273678968-1273678976
Nov 1 01:50:25 myserver kernel: [629616.207309] md3: mismatch sector in range 1277627016-1277627024
Nov 1 01:50:27 myserver kernel: [629618.437539] md3: mismatch sector in range 1278723888-1278723896
Nov 1 01:50:27 myserver kernel: [629618.446194] md3: mismatch sector in range 1278744832-1278744840
Nov 1 01:51:01 myserver kernel: [629653.057899] md3: mismatch sector in range 1292478184-1292478192
Nov 1 01:51:01 myserver kernel: [629653.059383] md3: mismatch sector in range 1292491072-1292491080
Nov 1 01:51:06 myserver kernel: [629657.965370] md3: mismatch sector in range 1294694912-1294694920
Nov 1 01:51:06 myserver kernel: [629657.972483] md3: mismatch sector in range 1294718960-1294718968
Nov 1 01:51:12 myserver kernel: [629664.117061] md3: mismatch sector in range 1296869104-1296869112
Nov 1 01:51:14 myserver kernel: [629665.805842] md3: mismatch sector in range 1297567072-1297567080
Il s'agit d'un RAID5 avec 3 disques de 8TO. En vérifiant le compteur "mismatch" :
root@myserver# cat /sys/block/md3/md/mismatch_cnt
96
Sur cette même machine, j'ai 3 autres RAID (RAID1 pour les 3 autres) et aucune des autres grappes n'a ce problème.
J'ai une autre machine qui possède également plusieurs RAID (1 RAID5 et 2 RAID1). Pas de problème à signaler pour les RAID1, par contre pour le RAID5 :
root@myotherserver# cat /sys/block/md2/md/mismatch_cnt
6600
J'ai fais un peu de lecture à ce sujet et il y a la possibilité qu'un (ou plusieurs) des disques dans la grappe aient un/des problèmes physiques. Je viens de prévoir des tests smartmontools longs sur les disques (un après l'autre, ça prendra donc du temps avant d'avoir les résultats) pour voir s'il détecte quelque chose, mais déjà à première vue, ça sent pas bon (même si j'ai lu il y a longtemps que sur les Seagate, ce genre de valeur n’était pas signe d'un problème):
Disque 1:
1 Raw_Read_Error_Rate 0x000f 083 064 044 Pre-fail Always - 194725524
Disque 2:
1 Raw_Read_Error_Rate 0x000f 079 064 044 Pre-fail Always - 80134563
Disque 3:
1 Raw_Read_Error_Rate 0x000f 074 064 044 Pre-fail Always - 25850780
Dans le cas des 2 RAID5 (un sur chaque serveur), au dessus j'ai un chiffrement luks dans lequel j'ai un lvm.
Avez-vous des conseils afin de vérifier s'il s'agit d'un réel problème (à part attendre pour voir les résultats des selftests smartmontools)?