Vous avez remplacé un disque de 4 To par un disque de 8 To dans votre grappe Synology SHR. La reconstruction du volume a démarré, a progressé pendant un certain temps — puis s’est arrêtée. DSM indique Dégradé ou Planté, ou la barre de progression n’a pas bougé depuis des heures. Le NAS peut être devenu totalement non réactif. Cet article explique la récupération de données après un plantage de reconstruction SHR : ce qui s’est réellement passé dans la grappe, comment analyser l’état actuel sans l’aggraver, et comment restaurer vos fichiers (récupération de données Synology, dépannage NAS, récupération RAID/SHR).

Avant toute intervention
Trois réactions paraissent logiques lorsqu’une reconstruction du RAID se bloque — et chacune peut transformer une situation récupérable en perte définitive :
Redémarrage du NAS
Un ensemble RAID dégradé conserve l’état de ses membres en mémoire. Un redémarrage force mdadm à relire les superblocs sur les disques : si ces superblocs sont désynchronisés à la suite d’une reconstruction interrompue, l’ensemble peut ne pas se réassembler du tout après le redémarrage.
Retrait des disques
Il peut même s’agir d’un disque indiqué comme défectueux par DSM. Le retrait d’un membre modifie le nombre de disques de l’ensemble RAID et entraîne la mise à jour par mdadm des superblocs des disques restants, enregistrant le retrait comme un événement permanent. Cela peut exclure définitivement un disque qui était pourtant lisible.
Cliquer sur « Réparer » dans le gestionnaire de stockage
La commande « Réparer » lance une nouvelle tentative de reconstruction. Si la reconstruction initiale a échoué en raison d’erreurs de lecture sur un disque existant, une seconde tentative relira les mêmes secteurs — ce qui peut aggraver les dommages sur un disque déjà sollicité et augmenter le risque d’une nouvelle défaillance.
Coupure d’alimentation forcée
Une coupure d’alimentation brutale pendant une reconstruction active d’un volume RAID (même si celle-ci est figée) peut entraîner l’écriture de blocs de parité partiels sur le nouveau disque, laissant l’ensemble RAID dans un état où ni les données anciennes ni les nouvelles ne sont cohérentes. Utilisez toujours la procédure d’arrêt de DSM si l’interface est encore accessible.
Exécuter fsck ou btrfs check
Les outils de réparation du système de fichiers opèrent au niveau du volume — un niveau au‑dessus de l’ensemble RAID. Les lancer sur un RAID dégradé signifie qu’ils lisent des données reconstruites susceptibles de contenir des erreurs de parité et qu’ils peuvent réécrire des métadonnées corrompues sur le disque.
Ajout d’un disque supplémentaire
L’insertion d’un disque de secours dans une grappe RAID défaillante déclenche une tentative de reconstruction automatique par DSM. Sans avoir identifié la cause de l’échec de la première reconstruction, une seconde tentative se heurtera au même problème — et entraînera en outre une nouvelle série de lectures complètes de la grappe sur un matériel déjà fortement sollicité.
Pourquoi la reconstruction a échoué
Lorsque SHR remplace un disque d’une capacité différente, il effectue bien plus que la simple copie des données. La séquence est la suivante :
mdadm lit toutes les partitions de données des disques restants à un débit séquentiel soutenu — pendant des heures voire des jours sur des configurations de plusieurs téraoctets.
La parité est calculée et écrite sur le nouveau disque. Pour un SHR avec des disques de capacités mixtes, mdadm utilise plusieurs périphériques md de tailles différentes empilés, ce qui rend le calcul de la parité plus complexe que dans un RAID 5 à géométrie fixe.
LVM recalcule l’allocation des extents physiques à l’échelle du pool de stockage étendu. Si le nouveau disque est plus grand, cela implique de remapper la topologie du groupe de volumes — une opération distincte qui s’exécute en parallèle ou après la reconstruction mdadm.
Toute erreur à n’importe quelle étape interrompt la séquence. Trois causes principales expliquent la majorité des échecs de reconstruction SHR :
Erreurs de lecture irrécupérables (URE)
Les disques destinés au grand public présentent un taux d’URE d’environ 1 lecture erronée pour 1014 bits lus. Sur un disque de 4 To, cela se traduit statistiquement par la probabilité d’une erreur de lecture quelque part lors d’un passage séquentiel complet. En fonctionnement normal, ces secteurs sont rarement sollicités. Lors d’une reconstruction RAID, chaque secteur est lu — et un seul secteur illisible interrompt le calcul de la parité pour l’ensemble de la bande (stripe). Le disque n’a pas besoin d’être défaillant ; il suffit qu’il renvoie une erreur de lecture au mauvais moment.
Délai d’attente SATA sous charge
Une connexion (câble ou backplane) qui est limite en conditions de charge normales peut échouer de façon récurrente lors des lectures soutenues à haut débit effectuées pendant une reconstruction. Le noyau consigne une erreur SATA dans le journal, mdadm considère le disque comme injoignable et le marque comme défectueux — alors que le disque est physiquement sain. Le disque réapparaît après une reconnexion, mais mdadm l’a déjà retiré de l’ensemble RAID.
Tâches DSM en arrière-plan
Synology planifie automatiquement les tests S.M.A.R.T., l’indexation multimédia (Photo Station, Video Station) et les scrubs Btrfs (vérifications d’intégrité). Si l’une de ces tâches s’exécute simultanément à une reconstruction RAID, elle concurrence la même bande passante d’E/S disque. Sur un système déjà soumis à une lecture soutenue de l’ensemble du disque, des opérations d’E/S supplémentaires peuvent accroître la latence de lecture au point de provoquer l’expiration des commandes du disque (timeout), entraînant le même symptôme que celui d’un problème de connexion physique.
Pour une comparaison plus approfondie des risques liés à la reconstruction RAID et de la récupération directe des données, consultez notre article sur reconstruction RAID vs récupération logicielle.
Lire l’état actuel de l’ensemble RAID
Avant toute tentative de récupération, vérifiez précisément ce que signale mdadm. Si un accès SSH est disponible, deux commandes donnent l’état complet. Pour un guide détaillé d’interprétation de la sortie mdadm et de la récupération RAID, consultez notre guide de récupération RAID mdadm. Ci‑dessous figurent les motifs spécifiques à rechercher dans ce scénario.
cat /proc/mdstat — affiche l’état d’assemblage et, si une reconstruction est en cours, sa progression et sa vitesse actuelles.
Une reconstruction gelée ressemble à ceci :
Personalities : [raid5] [raid6] [raid1] md3 : active raid5 sdb3[0] sdc3[1] sdd3[2] 5860468736 blocks super 1.2 level 5, 64k chunk, algorithm 2 [3/2] [UU_] [================>....] recovery = 83.2% (2436352/2930234) finish=∞ speed=0K/sec unused devices: <none>
finish=∞ et speed=0K/sec confirment que la reconstruction est bloquée — mdadm attend un secteur illisible (erreur de lecture irrécupérable).
Un ensemble RAID en panne se présente ainsi :
Personalities : [raid5] [raid6] [raid1] md3 : inactive sdb3[0](S) sdc3[1](S) 5860468736 blocks super 1.2 unused devices: <none>
inactive avec les indicateurs (S) (de secours) signifie que mdadm n’a pas assemblé d’ensemble actif — les périphériques sont présents mais non assemblés. Les données sont physiquement sur les disques mais inaccessibles.
Le tableau ci‑dessous établit la correspondance entre l’état affiché dans DSM (Synology) et la situation réelle, ainsi que la marche à suivre :
| Ce que DSM affiche | Interprétation | À ne pas faire | Étape suivante |
|---|---|---|---|
| Reconstruction gelée, vitesse = 0 Dégradé | URE (erreur de lecture irrécupérable) sur un disque existant bloque l’écriture de la parité. Ensemble RAID dégradé mais intact. | Ne pas attendre ; ne pas relancer la reconstruction | RS RAID Retrieve |
| Un disque marqué Faulty, reconstruction arrêtée Dégradé | mdadm a exclu un disque après des lectures répétées ou des erreurs SATA. Fonctionnement sans redondance. | Ne pas retirer le disque marqué Faulty | Contrôle S.M.A.R.T., puis RS RAID Retrieve |
| Pool de stockage : planté Planté | mdadm n’a pas pu maintenir le quorum. Ensemble RAID inactif — données présentes mais inaccessibles. | Ne pas cliquer sur « Réparer » ; ne pas redémarrer | RS RAID Retrieve |
| NAS non réactif, DSM ne se charge pas Inconnu | Blocage possible du noyau pendant les E/S de reconstruction. État de l’ensemble RAID incertain. | Ne pas forcer l’arrêt si cela peut être évité | Arrêt propre en maintenant le bouton d’alimentation, puis RS RAID Retrieve |
Récupération de données avec RS RAID Retrieve
RS RAID Retrieve reconstruit la configuration d’un volume SHR (Synology Hybrid RAID) à partir des superblocs mdadm présents sur les disques restants. Il gère les ensembles RAID dégradés lorsqu’un membre est manquant ou marqué comme défectueux, et fournit un accès en lecture seule au volume pour la récupération sélective de fichiers et la récupération de données RAID — sans déclencher une nouvelle tentative de reconstruction.
Étape 1 — Brancher les disques et vérifier la S.M.A.R.T.
Arrêter le NAS proprement si possible. Brancher tous les disques — y compris celui que DSM a signalé comme défaillant — sur une machine de récupération et ouvrir le moniteur S.M.A.R.T. intégré de RS RAID Retrieve. Contrôler chaque disque, pas seulement celui qui a présenté une défaillance. Lors d’une reconstruction RAID, le disque qui paraît sain est souvent celui qui a provoqué la panne en raison d’erreurs de lecture sur un membre existant.
Étape 2 — Imager tout disque présentant des valeurs S.M.A.R.T. élevées
Si un disque affiche un compteur de secteurs réalloués non nul, des secteurs en attente ou des erreurs non corrigeables, créez une image secteur par secteur (image bit‑à‑bit) de ce disque à l’aide de la fonction d’imagerie intégrée de RS RAID Retrieve avant d’effectuer l’analyse. Toutes les opérations de récupération de données ultérieures sont réalisées sur cette image. Cela protège le disque source des lectures supplémentaires pendant l’analyse et empêche une dégradation supplémentaire d’un disque déjà sollicité.
Étape 3 — Reconstruction automatique de l’ensemble RAID
RS RAID Retrieve lit le superbloc mdadm présent sur chaque disque ou image connectés, identifie l’UUID de l’ensemble, les rôles des membres, le niveau RAID et les paramètres de striping, et reconstitue la structure du volume SHR. Pour un ensemble dégradé comportant un membre manquant ou défaillant, le programme peut reconstituer les données à partir des disques restants — en calculant les blocs manquants à partir de la parité, exactement comme le ferait mdadm en mode dégradé, mais sans écrire quoi que ce soit sur les disques.
Étape 4 — Parcourir et récupérer les fichiers
Arrêtez proprement le NAS si possible. Connectez tous les disques — y compris celui que DSM a signalé comme défaillant — à une machine de récupération pour la récupération de données et ouvrez le moniteur S.M.A.R.T. intégré de RS RAID Retrieve. Vérifiez chaque disque, pas seulement celui qui a échoué : lors d’une reconstruction RAID, le disque qui paraît sain est souvent celui qui a provoqué la défaillance en générant des erreurs de lecture sur les autres membres du RAID.
Fonctionne sur des ensembles RAID dégradés et défaillants
Reconstruit des volumes SHR à partir des membres restants sans nécessiter un ensemble RAID complet et sain — y compris les ensembles inactifs que mdadm refuse d’assembler.
Surveillance S.M.A.R.T.
Vérifiez l’état de santé du disque (diagnostic du disque dur) avant d’effectuer l’analyse. Indique quel disque a provoqué l’échec de la reconstruction et si la création d’une image disque est nécessaire avant la récupération des données.
Image disque
Créer une image au niveau secteur (copie bit à bit) d’un disque défaillant avant la récupération de données. Toutes les opérations s’effectuent sur l’image, protégeant ainsi le disque original contre des cycles de lecture supplémentaires.
Connexion SSH
Si le NAS est encore sous tension et accessible sur le réseau, RS RAID Retrieve peut établir une connexion SSH pour la récupération RAID — sans avoir à retirer physiquement les disques du châssis.
Quand la récupération logicielle ne suffit pas
Si plusieurs disques n’apparaissent pas lorsqu’ils sont connectés au poste de récupération, ou si les attributs S.M.A.R.T. affichent des valeurs critiques sur plus d’un membre de l’ensemble RAID, la situation dépasse le seul cadre logiciel. Une grappe SHR‑1 comportant deux disques défaillants ne dispose d’aucune parité permettant la reconstruction des données — il n’existe aucun chemin mathématique pour reconstituer les données manquantes uniquement par voie logicielle.
Arrêtez et contactez un laboratoire de récupération de données si vous observez
- Deux disques ou plus non détectés, ou affichant immédiatement une défaillance S.M.A.R.T. au démarrage
- Cliquetis, grincements ou échecs répétés de mise en rotation sur un disque
- RS RAID Retrieve ne peut pas reconstruire l’ensemble RAID même en mode manuel
- Les disques sont chauds au toucher quelques minutes après la connexion
La récupération physique — remplacement de tête, transfert de plateaux — nécessite un environnement en salle blanche. Chaque cycle d’alimentation supplémentaire sur un disque dur en panne mécanique réduit la probabilité de récupération des données.
Après récupération : prévenir la prochaine défaillance de reconstruction
Un échec de reconstruction lors du remplacement d’un disque n’est pas aléatoire. Il exploite une vulnérabilité précise : au moment exact où la grappe RAID n’a plus de redondance, tous les disques restants subissent une charge de lecture soutenue maximale. Les étapes suivantes réduisent la probabilité que ce scénario se reproduise.
Vérifier le S.M.A.R.T. avant de remplacer un disque
Effectuez un test S.M.A.R.T. étendu complet sur tous les disques restants avant de retirer le disque à remplacer. Un disque présentant des secteurs réalloués ou des erreurs en attente entraînera probablement une URE (erreur de lecture irrécupérable) lors de la reconstruction du RAID qui s’ensuit.
Désactiver les tâches DSM en arrière-plan pendant la reconstruction
Accédez à Panneau de configuration → Planificateur de tâches et suspendez, pendant toute la durée de la reconstruction du RAID, les tests S.M.A.R.T. programmés, les vérifications (scrub) Btrfs et les analyses de la bibliothèque multimédia. Les opérations d’E/S concurrentes constituent l’une des causes d’échec de reconstruction les plus évitables.
Rebrancher les câbles SATA avant de commencer
Une connexion marginale, qui fonctionne sous une charge réduite, risque d’échouer face au débit soutenu d’une reconstruction RAID sur plusieurs jours. Débranchez puis rebranchez tous les câbles de données et d’alimentation SATA avant d’initier la procédure de remplacement.
Ne pas mélanger les lots de disques
Les disques durs (HDD) ou SSD achetés simultanément et issus du même lot de fabrication présentent une usure comparable. Lorsqu’un disque tombe en panne, ses pairs du même lot sont statistiquement susceptibles de suivre peu après. Procurez-vous des disques de remplacement auprès d’un fabricant différent ou provenant d’un lot de production distinct.
Activer les notifications par e‑mail dans DSM
Panneau de configuration → Notification → E‑mail. DSM peut vous alerter dès qu’un disque est signalé comme défectueux ou qu’un pool de stockage se dégrade. Détecter la panne précocement — avant que la reconstruction RAID n’ait dépassé 60 heures — préserve davantage d’options de récupération.
Conservez une sauvegarde indépendante
SHR (Synology Hybrid RAID) offre une tolérance de panne, ce n’est pas une sauvegarde. Une grappe dégradée pendant une reconstruction n’offre aucune protection contre une seconde défaillance. Hyper Backup vers un disque externe ou une destination cloud constitue la seule garantie qu’une erreur de reconstruction ne se transforme pas en perte de données irréversible.
Une défaillance de reconstruction lors du remplacement d’un disque constitue l’un des scénarios de perte de données SHR les plus fréquents, précisément parce qu’elle survient au pire moment : charge d’E/S maximale sur le matériel le plus ancien de la grappe, sans aucune marge de redondance. Une fois les données récupérées, il convient de considérer l’incident comme un signal — non seulement concernant le disque défaillant, mais aussi l’état de santé de l’ensemble des composants qui fonctionnaient avec lui.





