Récupération de données d’un volume SHR en échec lors de la reconstruction (Synology NAS)

Vous avez remplacé un disque de 4 To par un disque de 8 To dans votre grappe Synology SHR. La reconstruction du volume a démarré, a progressé pendant un certain temps — puis s’est arrêtée. DSM indique Dégradé ou Planté, ou la barre de progression n’a pas bougé depuis des heures. Le NAS peut être devenu totalement non réactif. Cet article explique la récupération de données après un plantage de reconstruction SHR : ce qui s’est réellement passé dans la grappe, comment analyser l’état actuel sans l’aggraver, et comment restaurer vos fichiers (récupération de données Synology, dépannage NAS, récupération RAID/SHR).

Avant toute intervention

Trois réactions paraissent logiques lorsqu’une reconstruction du RAID se bloque — et chacune peut transformer une situation récupérable en perte définitive :

🔄

Redémarrage du NAS

Un ensemble RAID dégradé conserve l’état de ses membres en mémoire. Un redémarrage force mdadm à relire les superblocs sur les disques : si ces superblocs sont désynchronisés à la suite d’une reconstruction interrompue, l’ensemble peut ne pas se réassembler du tout après le redémarrage.

💽

Retrait des disques

Il peut même s’agir d’un disque indiqué comme défectueux par DSM. Le retrait d’un membre modifie le nombre de disques de l’ensemble RAID et entraîne la mise à jour par mdadm des superblocs des disques restants, enregistrant le retrait comme un événement permanent. Cela peut exclure définitivement un disque qui était pourtant lisible.

🔧

Cliquer sur « Réparer » dans le gestionnaire de stockage

La commande « Réparer » lance une nouvelle tentative de reconstruction. Si la reconstruction initiale a échoué en raison d’erreurs de lecture sur un disque existant, une seconde tentative relira les mêmes secteurs — ce qui peut aggraver les dommages sur un disque déjà sollicité et augmenter le risque d’une nouvelle défaillance.

⚡

Coupure d’alimentation forcée

Une coupure d’alimentation brutale pendant une reconstruction active d’un volume RAID (même si celle-ci est figée) peut entraîner l’écriture de blocs de parité partiels sur le nouveau disque, laissant l’ensemble RAID dans un état où ni les données anciennes ni les nouvelles ne sont cohérentes. Utilisez toujours la procédure d’arrêt de DSM si l’interface est encore accessible.

🔬

Exécuter fsck ou btrfs check

Les outils de réparation du système de fichiers opèrent au niveau du volume — un niveau au‑dessus de l’ensemble RAID. Les lancer sur un RAID dégradé signifie qu’ils lisent des données reconstruites susceptibles de contenir des erreurs de parité et qu’ils peuvent réécrire des métadonnées corrompues sur le disque.

🔀

Ajout d’un disque supplémentaire

L’insertion d’un disque de secours dans une grappe RAID défaillante déclenche une tentative de reconstruction automatique par DSM. Sans avoir identifié la cause de l’échec de la première reconstruction, une seconde tentative se heurtera au même problème — et entraînera en outre une nouvelle série de lectures complètes de la grappe sur un matériel déjà fortement sollicité.

Pourquoi la reconstruction a échoué

Lorsque SHR remplace un disque d’une capacité différente, il effectue bien plus que la simple copie des données. La séquence est la suivante :

mdadm lit toutes les partitions de données des disques restants à un débit séquentiel soutenu — pendant des heures voire des jours sur des configurations de plusieurs téraoctets.
La parité est calculée et écrite sur le nouveau disque. Pour un SHR avec des disques de capacités mixtes, mdadm utilise plusieurs périphériques md de tailles différentes empilés, ce qui rend le calcul de la parité plus complexe que dans un RAID 5 à géométrie fixe.
LVM recalcule l’allocation des extents physiques à l’échelle du pool de stockage étendu. Si le nouveau disque est plus grand, cela implique de remapper la topologie du groupe de volumes — une opération distincte qui s’exécute en parallèle ou après la reconstruction mdadm.

Toute erreur à n’importe quelle étape interrompt la séquence. Trois causes principales expliquent la majorité des échecs de reconstruction SHR :

🧱

Erreurs de lecture irrécupérables (URE)

Les disques destinés au grand public présentent un taux d’URE d’environ 1 lecture erronée pour 10¹⁴ bits lus. Sur un disque de 4 To, cela se traduit statistiquement par la probabilité d’une erreur de lecture quelque part lors d’un passage séquentiel complet. En fonctionnement normal, ces secteurs sont rarement sollicités. Lors d’une reconstruction RAID, chaque secteur est lu — et un seul secteur illisible interrompt le calcul de la parité pour l’ensemble de la bande (stripe). Le disque n’a pas besoin d’être défaillant ; il suffit qu’il renvoie une erreur de lecture au mauvais moment.

🔌

Délai d’attente SATA sous charge

Une connexion (câble ou backplane) qui est limite en conditions de charge normales peut échouer de façon récurrente lors des lectures soutenues à haut débit effectuées pendant une reconstruction. Le noyau consigne une erreur SATA dans le journal, mdadm considère le disque comme injoignable et le marque comme défectueux — alors que le disque est physiquement sain. Le disque réapparaît après une reconnexion, mais mdadm l’a déjà retiré de l’ensemble RAID.

⚙️

Tâches DSM en arrière-plan

Synology planifie automatiquement les tests S.M.A.R.T., l’indexation multimédia (Photo Station, Video Station) et les scrubs Btrfs (vérifications d’intégrité). Si l’une de ces tâches s’exécute simultanément à une reconstruction RAID, elle concurrence la même bande passante d’E/S disque. Sur un système déjà soumis à une lecture soutenue de l’ensemble du disque, des opérations d’E/S supplémentaires peuvent accroître la latence de lecture au point de provoquer l’expiration des commandes du disque (timeout), entraînant le même symptôme que celui d’un problème de connexion physique.

Pour une comparaison plus approfondie des risques liés à la reconstruction RAID et de la récupération directe des données, consultez notre article sur reconstruction RAID vs récupération logicielle.

Lire l’état actuel de l’ensemble RAID

Avant toute tentative de récupération, vérifiez précisément ce que signale mdadm. Si un accès SSH est disponible, deux commandes donnent l’état complet. Pour un guide détaillé d’interprétation de la sortie mdadm et de la récupération RAID, consultez notre guide de récupération RAID mdadm. Ci‑dessous figurent les motifs spécifiques à rechercher dans ce scénario.

cat /proc/mdstat — affiche l’état d’assemblage et, si une reconstruction est en cours, sa progression et sa vitesse actuelles.

Une reconstruction gelée ressemble à ceci :

Rebuild stuck — progress not advancing

Personalities : [raid5] [raid6] [raid1]
md3 : active raid5 sdb3[0] sdc3[1] sdd3[2]
      5860468736 blocks super 1.2 level 5, 64k chunk, algorithm 2 [3/2] [UU_]
      [================>....]  recovery = 83.2% (2436352/2930234) finish=∞ speed=0K/sec
unused devices: <none>

finish=∞ et speed=0K/sec confirment que la reconstruction est bloquée — mdadm attend un secteur illisible (erreur de lecture irrécupérable).

Un ensemble RAID en panne se présente ainsi :

Array inactive — not assembling

Personalities : [raid5] [raid6] [raid1]
md3 : inactive sdb3[0](S) sdc3[1](S)
      5860468736 blocks super 1.2
unused devices: <none>

inactive avec les indicateurs (S) (de secours) signifie que mdadm n’a pas assemblé d’ensemble actif — les périphériques sont présents mais non assemblés. Les données sont physiquement sur les disques mais inaccessibles.

Le tableau ci‑dessous établit la correspondance entre l’état affiché dans DSM (Synology) et la situation réelle, ainsi que la marche à suivre :

Ce que DSM affiche	Interprétation	À ne pas faire	Étape suivante
Reconstruction gelée, vitesse = 0 Dégradé	URE (erreur de lecture irrécupérable) sur un disque existant bloque l’écriture de la parité. Ensemble RAID dégradé mais intact.	Ne pas attendre ; ne pas relancer la reconstruction	RS RAID Retrieve
Un disque marqué Faulty, reconstruction arrêtée Dégradé	mdadm a exclu un disque après des lectures répétées ou des erreurs SATA. Fonctionnement sans redondance.	Ne pas retirer le disque marqué Faulty	Contrôle S.M.A.R.T., puis RS RAID Retrieve
Pool de stockage : planté Planté	mdadm n’a pas pu maintenir le quorum. Ensemble RAID inactif — données présentes mais inaccessibles.	Ne pas cliquer sur « Réparer » ; ne pas redémarrer	RS RAID Retrieve
NAS non réactif, DSM ne se charge pas Inconnu	Blocage possible du noyau pendant les E/S de reconstruction. État de l’ensemble RAID incertain.	Ne pas forcer l’arrêt si cela peut être évité	Arrêt propre en maintenant le bouton d’alimentation, puis RS RAID Retrieve

Récupération de données avec RS RAID Retrieve

💻

RS RAID Retrieve Windows · Linux · macOS

Difficulté :

Faible

RS RAID Retrieve reconstruit la configuration d’un volume SHR (Synology Hybrid RAID) à partir des superblocs mdadm présents sur les disques restants. Il gère les ensembles RAID dégradés lorsqu’un membre est manquant ou marqué comme défectueux, et fournit un accès en lecture seule au volume pour la récupération sélective de fichiers et la récupération de données RAID — sans déclencher une nouvelle tentative de reconstruction.

Étape 1 — Brancher les disques et vérifier la S.M.A.R.T.

Arrêter le NAS proprement si possible. Brancher tous les disques — y compris celui que DSM a signalé comme défaillant — sur une machine de récupération et ouvrir le moniteur S.M.A.R.T. intégré de RS RAID Retrieve. Contrôler chaque disque, pas seulement celui qui a présenté une défaillance. Lors d’une reconstruction RAID, le disque qui paraît sain est souvent celui qui a provoqué la panne en raison d’erreurs de lecture sur un membre existant.

Étape 2 — Imager tout disque présentant des valeurs S.M.A.R.T. élevées

Si un disque affiche un compteur de secteurs réalloués non nul, des secteurs en attente ou des erreurs non corrigeables, créez une image secteur par secteur (image bit‑à‑bit) de ce disque à l’aide de la fonction d’imagerie intégrée de RS RAID Retrieve avant d’effectuer l’analyse. Toutes les opérations de récupération de données ultérieures sont réalisées sur cette image. Cela protège le disque source des lectures supplémentaires pendant l’analyse et empêche une dégradation supplémentaire d’un disque déjà sollicité.

Étape 3 — Reconstruction automatique de l’ensemble RAID

RS RAID Retrieve lit le superbloc mdadm présent sur chaque disque ou image connectés, identifie l’UUID de l’ensemble, les rôles des membres, le niveau RAID et les paramètres de striping, et reconstitue la structure du volume SHR. Pour un ensemble dégradé comportant un membre manquant ou défaillant, le programme peut reconstituer les données à partir des disques restants — en calculant les blocs manquants à partir de la parité, exactement comme le ferait mdadm en mode dégradé, mais sans écrire quoi que ce soit sur les disques.

Étape 4 — Parcourir et récupérer les fichiers

Arrêtez proprement le NAS si possible. Connectez tous les disques — y compris celui que DSM a signalé comme défaillant — à une machine de récupération pour la récupération de données et ouvrez le moniteur S.M.A.R.T. intégré de RS RAID Retrieve. Vérifiez chaque disque, pas seulement celui qui a échoué : lors d’une reconstruction RAID, le disque qui paraît sain est souvent celui qui a provoqué la défaillance en générant des erreurs de lecture sur les autres membres du RAID.

🔍

Fonctionne sur des ensembles RAID dégradés et défaillants

Reconstruit des volumes SHR à partir des membres restants sans nécessiter un ensemble RAID complet et sain — y compris les ensembles inactifs que mdadm refuse d’assembler.

📊

Surveillance S.M.A.R.T.

Vérifiez l’état de santé du disque (diagnostic du disque dur) avant d’effectuer l’analyse. Indique quel disque a provoqué l’échec de la reconstruction et si la création d’une image disque est nécessaire avant la récupération des données.

💾

Image disque

Créer une image au niveau secteur (copie bit à bit) d’un disque défaillant avant la récupération de données. Toutes les opérations s’effectuent sur l’image, protégeant ainsi le disque original contre des cycles de lecture supplémentaires.

🔗

Connexion SSH

Si le NAS est encore sous tension et accessible sur le réseau, RS RAID Retrieve peut établir une connexion SSH pour la récupération RAID — sans avoir à retirer physiquement les disques du châssis.

Quand la récupération logicielle ne suffit pas

Si plusieurs disques n’apparaissent pas lorsqu’ils sont connectés au poste de récupération, ou si les attributs S.M.A.R.T. affichent des valeurs critiques sur plus d’un membre de l’ensemble RAID, la situation dépasse le seul cadre logiciel. Une grappe SHR‑1 comportant deux disques défaillants ne dispose d’aucune parité permettant la reconstruction des données — il n’existe aucun chemin mathématique pour reconstituer les données manquantes uniquement par voie logicielle.

Arrêtez et contactez un laboratoire de récupération de données si vous observez

Deux disques ou plus non détectés, ou affichant immédiatement une défaillance S.M.A.R.T. au démarrage
Cliquetis, grincements ou échecs répétés de mise en rotation sur un disque
RS RAID Retrieve ne peut pas reconstruire l’ensemble RAID même en mode manuel
Les disques sont chauds au toucher quelques minutes après la connexion

La récupération physique — remplacement de tête, transfert de plateaux — nécessite un environnement en salle blanche. Chaque cycle d’alimentation supplémentaire sur un disque dur en panne mécanique réduit la probabilité de récupération des données.

Après récupération : prévenir la prochaine défaillance de reconstruction

Un échec de reconstruction lors du remplacement d’un disque n’est pas aléatoire. Il exploite une vulnérabilité précise : au moment exact où la grappe RAID n’a plus de redondance, tous les disques restants subissent une charge de lecture soutenue maximale. Les étapes suivantes réduisent la probabilité que ce scénario se reproduise.

📋

Vérifier le S.M.A.R.T. avant de remplacer un disque

Effectuez un test S.M.A.R.T. étendu complet sur tous les disques restants avant de retirer le disque à remplacer. Un disque présentant des secteurs réalloués ou des erreurs en attente entraînera probablement une URE (erreur de lecture irrécupérable) lors de la reconstruction du RAID qui s’ensuit.

🔕

Désactiver les tâches DSM en arrière-plan pendant la reconstruction

Accédez à Panneau de configuration → Planificateur de tâches et suspendez, pendant toute la durée de la reconstruction du RAID, les tests S.M.A.R.T. programmés, les vérifications (scrub) Btrfs et les analyses de la bibliothèque multimédia. Les opérations d’E/S concurrentes constituent l’une des causes d’échec de reconstruction les plus évitables.

🔌

Rebrancher les câbles SATA avant de commencer

Une connexion marginale, qui fonctionne sous une charge réduite, risque d’échouer face au débit soutenu d’une reconstruction RAID sur plusieurs jours. Débranchez puis rebranchez tous les câbles de données et d’alimentation SATA avant d’initier la procédure de remplacement.

🗂️

Ne pas mélanger les lots de disques

Les disques durs (HDD) ou SSD achetés simultanément et issus du même lot de fabrication présentent une usure comparable. Lorsqu’un disque tombe en panne, ses pairs du même lot sont statistiquement susceptibles de suivre peu après. Procurez-vous des disques de remplacement auprès d’un fabricant différent ou provenant d’un lot de production distinct.

🔔

Activer les notifications par e‑mail dans DSM

Panneau de configuration → Notification → E‑mail. DSM peut vous alerter dès qu’un disque est signalé comme défectueux ou qu’un pool de stockage se dégrade. Détecter la panne précocement — avant que la reconstruction RAID n’ait dépassé 60 heures — préserve davantage d’options de récupération.

💾

Conservez une sauvegarde indépendante

SHR (Synology Hybrid RAID) offre une tolérance de panne, ce n’est pas une sauvegarde. Une grappe dégradée pendant une reconstruction n’offre aucune protection contre une seconde défaillance. Hyper Backup vers un disque externe ou une destination cloud constitue la seule garantie qu’une erreur de reconstruction ne se transforme pas en perte de données irréversible.

Une défaillance de reconstruction lors du remplacement d’un disque constitue l’un des scénarios de perte de données SHR les plus fréquents, précisément parce qu’elle survient au pire moment : charge d’E/S maximale sur le matériel le plus ancien de la grappe, sans aucune marge de redondance. Une fois les données récupérées, il convient de considérer l’incident comme un signal — non seulement concernant le disque défaillant, mais aussi l’état de santé de l’ensemble des composants qui fonctionnaient avec lui.

Questions fréquemment posées

Pas nécessairement, et c'est l'un des malentendus les plus dangereux concernant les reconstructions RAID. Dans le RAID 5 et le SHR, les données ne sont pas écrites séquentiellement disque par disque : la parité est répartie entre tous les disques sous forme de bandes (stripes). Une reconstruction à 97 % signifie que 97 % des bandes ont été recalculées et écrites, mais l'ensemble du volume n'est cohérent qu'à l'atteinte de 100 %. Une reconstruction interrompue laisse la table de parité partiellement mise à jour, de sorte que toute bande chevauchant la frontière entre zones reconstruites et non reconstruites se retrouve dans un état indéfini. Il est impossible d'accéder sélectivement « à la partie terminée » : le volume se monte soit entièrement et correctement, soit pas du tout.

Oui, mais probablement pas parce que le nouveau disque est défectueux. Quand mdadm marque un disque comme Faulty pendant une reconstruction, c’est en réponse à un événement — une erreur de lecture, un timeout SATA, ou une commande qui ne s’est pas terminée dans la fenêtre de délai du noyau. Le nouveau disque est une cible d’écriture pendant la reconstruction, pas une source de lecture. S’il apparaît comme Faulty, la cause la plus probable est un problème de connexion SATA (câble, port du backplane ou slot du contrôleur) qui s’est manifesté sous la charge d’écriture soutenue de la reconstruction. Avant de conclure que le disque est mort, essayez de le réinsérer dans une baie différente et de le connecter avec un autre câble. Les données S.M.A.R.T. du disque seront proches de zéro sur une unité neuve et ne devraient pas afficher d’erreurs — si elles en affichent, alors le disque lui‑même est en cause.

C’est une option raisonnable si le NAS de remplacement est identique ou compatible, mais elle comporte le même risque que toute reconstruction : si l’un des disques existants présente une URE (Unrecoverable Read Error — erreur de lecture irrécupérable) ou un état de santé marginal, la reconstruction sur le nouveau matériel rencontrera le même problème. Avant de migrer, vérifiez le S.M.A.R.T. de chaque disque. Si tous les disques sont sains, la procédure de migration des disques durs de Synology préserve la configuration du pool de stockage et des volumes — DSM sur la nouvelle unité reconnaîtra l’ensemble RAID existant et reprendra son fonctionnement plutôt que de reconstruire à partir de zéro. En revanche, si le plantage de la reconstruction initiale était dû à une erreur de lecture sur un disque déjà présent, la migration n’y remédiera pas : le disque problématique accompagne l’ensemble RAID, quel que soit le châssis dans lequel il est installé.

La vitesse de reconstruction sur du matériel Synology tourne généralement entre 50–120 MB/s dans des conditions idéales — pas d'E/S concurrentes, disques sains, connexions stables. À 60 MB/s, la reconstruction d'un volume de 4 TB prend environ 18–19 heures ; pour 8 TB, environ 37 heures. La vitesse fluctue naturellement, et DSM bride la priorité de reconstruction pour garder le NAS utilisable, donc une reconstruction lente n'est pas automatiquement un problème. Une reconstruction bloquée, en revanche, se reconnaît facilement : /proc/mdstat affichera speed=0K/sec et finish=∞, et le pourcentage n'avancera pas pendant 15–30 minutes. Cette combinaison précise — vitesse nulle et temps restant infini — signifie que mdadm est bloqué sur un secteur illisible et réessaie indéfiniment. Attendre plus longtemps ne change rien : le secteur ne redeviendra pas lisible tout seul.