Recréer raid 10 sans perte de données ?

Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

Recréer raid 10 sans perte de données ?

Ouraios

Bonjour à tous,

Tout d'abord infos pratiques sur mon serveur :
2xSSD de 256 Go en RAID 1
4xHDD de 12 To en RAID 10
Enfin ça c'était avant cette nuit ...

Cette nuit OVH a détecté un problème sur le serveur qui l'empêchait de boot et sont intervenus en rescue mode.

Le problème d'aprés leur mail de résolution était le suivant : Le serveur reste bloqué durant la phase de boot sur le message : (duplicated md2)

En me connectant je me retrouve avec les disks montés comme ci-dessous

Mon Raid10 HDD a donc sauté sans qu'il ne m'en ait informé et ont mis visiblement le boot efi dessus en raid1 (du moins ça avait l'air d'être leur intention) entre les 2 premiers HDD
Est ce qu'il y a moyen que je remonte mes 4 disks en raid10 malgré cette partition de boot efi et de dire à mdadm de de recover les données en raid 10 ?
J'avais beaucoup de données dessus et ça me ferait chier qu'elle ne soit pas récupérable ...

Rathorian

Ouraios Salut,

Est-ce que tu as fait une mise à jour du serveur pour qu'il reboot ?

Dans la majorité des cas, quand il y a un problème sur un serveur, OVH ne touche à rien sur les partitions et mets simplement le serveur en rescue.

Maintenant je vois effectivement 2 partitons sur SDC et SDD ( sans raid ) avec SDD pour un /boot/efi.
Là c'est bizarre, si tu dis que tu avais raid 10 sur tes disques de 12T.

Ta partiton de boot avait été créer à quel endroit à l'installation ? en EFI ?

Ouraios

Rathorian

Rathorian Est-ce que tu as fait une mise à jour du serveur pour qu'il reboot ?

Je n'ai fait aucune mise à jour du serveur pour qu'il reboot, à la base est devenue injoignable sur les ping de monitoring réseau de OVH du coup OVH m'a envoyé un mail pour me prévenir qu'un technicien allait intervenir sur le serveur pour qu'il recommunique à nouveau.

S'en est suivi leur modification étrange en forçant un reboot de la machine alors qu'aprés inspection des logs la machine n'avait plus le réseau mais continuait de tourner normalement et elle même n'arrivait plus à communiquer vers l'extérieur.

Lorsque j'ai reçu le mail de résolution la raison qui a fait que le reboot n'a pas fonctionné était la suivante "duplicate md2"

Aprés inspection dans le mdadm.conf il y avait 2 lignes de configurations pour md2 effectivement et cela doit être clairement dû à une faute de ma part.

Mais je ne vois pas en quoi cette erreur a forcé le technicien d'OVH à déplacer la partition de boot sur un de mes HDDs qui était en RAID 10 et qu'il me bascule du coup les 2 autres HDDs en raid0 ... il suffisait de commenter la deuxième ligne md2 dans le mdadm.conf pour corriger le soucis de boot ...

Rathorian Ta partiton de boot avait été créer à quel endroit à l'installation ? en EFI ?

Elle avait été créé en efi sur sda1 d'ailleurs en remontant sda1 je vois bien exactement les mêmes fichiers que sur sdd1

Par ailleurs chose intéressante lorsque je compare le résultat des 2 commandes suivantes :

root@debian:~$ mdadm --examine /dev/sdf
/dev/sdf:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : c681059e:c6d5c4ad:5574e20f:22585e87
Name : debian.example.com:3 (local to host debian.example.com)
Creation Time : Sun Dec 8 02:22:32 2019
Raid Level : raid10
Raid Devices : 4

Avail Dev Size : 23437506560 (11175.87 GiB 12000.00 GB)
Array Size : 23437506560 (22351.75 GiB 24000.01 GB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264080 sectors, after=0 sectors
State : clean
Device UUID : ffdeb712:8226a27b:ad4083c6:bd127989

Internal Bitmap : 8 sectors from superblock
Update Time : Sat Jul 31 02:18:29 2021
Bad Block Log : 512 entries available at offset 96 sectors
Checksum : e8f1308f - correct
Events : 292680
     Layout : near=2
 Chunk Size : 512K
Device Role : Active device 3
Array State : AAAA ('A' == active, '.' == missing, 'R' == replacing)

root@debian:~$ mdadm -D /dev/md3
/dev/md3:
Version : 1.2
Raid Level : raid0
Total Devices : 2
Persistence : Superblock is persistent

         State : inactive

Working Devices : 2

          Name : debian.example.com:3  (local to host debian.example.com)
          UUID : c681059e:c6d5c4ad:5574e20f:22585e87
        Events : 292680

Number   Major   Minor   RaidDevice

   -       8       64        -        /dev/sde
   -       8       80        -        /dev/sdf

On voit que la première commande montre que /dev/sdf fait parti d'un raid10 composé de 4 HDDs ce que j'avais avant donc ok nickel sauf qu'ensuite la deuxième commande montre que l'array de mon RAID 10 est en fait un RAID0 composé que de 2 HDDs (alors que les 2 ont bien le même Array UUID !!

Et enfin cerise sur la gâteau on peut voir que le RAID10 a un dernier Update Time à 02h18 et devinez quoi, la panne commence à 02h28 et se finit à 03h19 et là mon RAID10 s'est transformé en RAID0.

J'ai l'impression que quoiqu'il arrive mes données seront pas récupérables, j'ai fait un ticket à OVH pour leur demander des explications et leur demander un dédommagement mais si vous pensez qu'il y a un moyen de récupérer mes données même si ce n'est qu'en partie de quelques façons que ce soit je suis preneur !

Je me dis que peut être qu'en supprimant le raid0 et en demandant à mdadm de recréer le raid10 je pourrai récupérer mes données quasi intacte vu qu'aprés tout une seule partition de 500Mo sur chacun de mes 2 premiers disques a été créé donc je me dis que le reste des données doit toujours se trouver là.

Mais j'ai peur de faire une fausse manip qui ferait que je les perde à jamais, donc si vous avez des idées je suis preneur !

Rathorian

Ouraios Salut

Pour commencer se serait cool de refaire fonctionner le serveur sans utiliser tes 4 HDD de 12T.

Si au début ton /boot/efi était sur /dev/sda1 (et que les fichiers sont toujours présent comme tu la dit), tu pourrais modifier en rescue ton fichier fstab pour boot dessus et commenter tout ce qui concerne du raid en rapport avec tes 4 DD's dans le fichier fstab et mdadm.conf

Faudrait y aller par étape, tranquillou, après je suis pas un non plus xD

Ouraios

Rathorian ah mais mon serveur re fonctionne nickel j’ai commenté le md2 qui était en double dans la conf mdadm et j’ai juste umount /boot/efi de sdd1 pour le mount sur sda1 et repassage en boot sur ssd au lieu du boot network qu’ils m’ont mis et c’est tout bon il a redémarré nickel 😊 maintenant c’est ce foutu raid10 au lieu de raid0 que je cherche à récupérer et là je cale ^^

Et vu que j’ai réussi à fixer le boot sans problème je ne comprends pourquoi le mec de OVH m’a pété mon raid10 vu qu’il n’y en avait absolument pas besoin ^^

Rathorian

Ouraios Et si tu montes le raid0 (md3) qui à été créer à priori par OVH.
Il y aurait pas tes données dedans à récupérer pour ensuite recréer ton raid 10 ?