Категории

Глюки Proxmox, причину пока не знаю. размонтировались одновременно все диски

2025-10-14 20:21:38 | Статья из категории: Linux

Глюк proxmox или аппаратный сбой - размонтировались все хранилища sata в один момент
proxmox в один момент все диски отмонтировались и перестало работать все, и почта и облако, роутер и др. Причину не понял. если есть мысли пишите. Короч перегрузил proxmox, все пока в штатном режиме, завтра посмотрю.
Ну вот сегодня чет уже есть, в логах какие то аппаратные глюки. в техподдрежку заявку оставлю пусть посмотрат может перегрев или контакт плохой или аппаратная что то.

🔥 Проблема: «Всё упало. Диски пропали. Zabbix не отвечает. Что за напасть?»

В логах — I/O ошибки, виртуальные машины — не запускаются И самое страшное — два диска разом перестали монтироваться.

JBD2: I/O error when updating journal superblock
EXT4-fs error: Detected aborted journal
Remounting filesystem read-only

🧩 Диагностика: что происходит?

Первые признаки

systemd-journald[328]: Failed to write entry... Input/output error

→ Это не падение сервера, а ошибка записи из-за сбоя на уровне диска.

Проверка дисков

lsblk

Диски видны, но не смонтированы.

smartctl -a /dev/sdc
smartctl -a /dev/sdd

Оба диска — физически здоровы (SMART: PASSED).

dmesg | grep -i "error\|io"

Ошибки вроде device offline error и JBD2: I/O error — признаки повреждения файловой системы, а не железа.

🔍 Причина: что пошло не так?

🚀 Решение: как всё вернуть

1. Удали мусорные хранилища

pvesm remove pbx171server

→ Убирает ошибки подключения к недоступному бэкап-серверу.

2. Создай точки монтирования

sudo mkdir -p /mnt/pve/ssd
sudo mkdir -p /mnt/pve/data

3. Смонтируй диски вручную

sudo mount /dev/sdc1 /mnt/pve/ssd
sudo mount /dev/sdd1 /mnt/pve/data

Безопасно! Данные не стираются.

4. Проверь содержимое

ls /mnt/pve/ssd/
ls /mnt/pve/data/

→ Все данные на месте!

5. Перезагрузи Proxmox

sudo reboot

После перезагрузки всё примонтировалось автоматически. Полёт нормальный.

🧰 Полезные команды для диагностики

Проверка дисков

lsblk
sudo blkid /dev/sdc1
sudo blkid /dev/sdd1

SMART-статус

sudo smartctl -a /dev/sdc
sudo smartctl -a /dev/sdd

Проверка файловой системы (только чтение)

sudo fsck.ext4 -n /dev/sdc1
sudo fsck.ext4 -n /dev/sdd1

Монтирование

sudo mount -o ro /dev/sdc1 /mnt/pve/ssd   # только чтение
sudo mount /dev/sdd1 /mnt/pve/data          # чтение/запись

Службы Proxmox

systemctl status pve-cluster
systemctl status pvestatd

Удаление хранилища

pvesm remove имя_хранилища

💡 Профилактика

  1. Не добавляй диски в Proxmox, пока не проверишь SMART и файловую систему.
  2. Всегда делай бэкапы — даже если диски «надёжные».
  3. Используй ИБП — чтобы избежать аварийного отключения.
  4. Мониторь диски через Zabbix или аналоги.
  5. Не забывай про свои бэкап-серверы — иначе они превратятся в «фантомные хранилища» 😅

📌 Вывод

Я не потерял данные. Я не был взломан. Я просто столкнулся с редким, но решаемым сбоем.

Спасение сервера — это не волшебство, а системный подход:
— Диагностика →
— Поиск причины →
— Безопасное решение →
— Профилактика.

📌 P.S.

Если ты дошёл до конца — ты уже готов к любому сбою.
Держись, и пусть твой сервер всегда будет в полёте! 💪

Анализ аварийного отвала локальных хранилищ в Proxmox: как искать причину

14 октября 2025 года на сервере Proxmox произошёл сбой: все локальные хранилища (на SATA-дисках) отмонтировались, хотя системный NVMe-диск продолжал работать, и сам хост не падал. После перезагрузки всё восстановилось. Разбираем, как диагностировать подобные инциденты.

Симптомы

Ключевые команды для диагностики

1. Посмотреть логи ядра предыдущей сессии

sudo journalctl -b -1 -k | grep -i -E "ata|reset|error|link|flush"

2. Найти, какой диск соответствует ata-порту

dmesg | grep "ata9"
# Или:
lsblk -d -o NAME,MODEL,SERIAL

3. Проверить SMART всех дисков

for disk in /dev/sd?; do
  echo "=== $disk ==="
  sudo smartctl -a $disk | grep -E "Model|Serial|Power_On_Hours|Temperature_Celsius|Reallocated|Pending|UDMA_CRC"
done

4. Искать ошибки FLUSH CACHE в syslog

grep -i "FLUSH" /var/log/syslog

Интерпретация логов

Если в логах есть:

Почему отвалились сразу несколько дисков?

Если SMART чистый, но сбой затронул несколько дисков одновременно — причина НЕ в самих накопителях. Возможные источники:

  1. Питание дисков: просадка напряжения, использование разветвителя ("молнии"), слабый БП.
  2. SATA-кабели: окисление, обрыв, плохой контакт — особенно при операциях записи (FLUSH требует стабильности).
  3. Контроллер SATA (чипсет материнской платы): перегрев, сбой, баг драйвера — особенно если диски на соседних портах (ata8, ata9).

Что делать

  1. Заменить SATA-кабели на новые (лучше с защёлками).
  2. Подключить каждый диск к отдельному разъёму питания от БП (без разветвителей).
  3. Проверить температуру чипсета и вентиляцию сервера.
  4. Обновить BIOS/UEFI и ядро Proxmox до актуальной версии.
  5. Настроить мониторинг: smartd, логирование dmesg, алерты на I/O errors.

Важно

Даже если после перезагрузки всё «заработало» — проблема остаётся. Такие сбои почти всегда повторяются и могут привести к полной потере данных. Не игнорируйте их!

Комментарии

Пока нет комментариев. Будьте первым!

Оставить комментарий

← Назад к списку статей

Важно: Блог-эксперимент

Блог только запустил, все статьи генерирую через нейросеть т.к. лень, возможны ошибки. Просто чтобы вы знали и не запускали ядерный реактор по моим статьям ))
Если у вас есть вопросы, или Нашли неточность? пишите в коментах — вместе поправим и сделаем статью более качественной. Я лично объясню нюансы из практики.

Посетителей сегодня: 0


кто я | книга | контакты без контактов

© Digital Specialist | Не являемся сотрудниками Google, Яндекса и NASA