Страницы

Сохранить статью у себя в соцсети:

четверг, 30 августа 2012 г.

§ Intel RAID controllers monitoring via Zabbix.

Мониторинг контроллеров от Intel с помощью Zabbix.

Продолжая тему мониторинга контроллеров, опишу процесс настройки мониторинга для контроллеров Intel. Для работы с этими контроллерами используется весьма функциональная утилита megacli, которая позволяет творить более серъезные вещи чем просто мониторинг.
Алгоритм прежний:
  • устанавливаем необходимое ПО;
  • пишем скрипт сбора данных;
  • правим конфигурацию агента zabbix;
  • импортируем шаблон.
Устанавливаем sys-block/megacli и app-admin/sudo. Sudo потребуется для запуска утилиты с правами root.
# cave resolve sys-block/megacli app-admin/sudo -x
# vi /etc/sudoers
zabbix ALL=(ALL) NOPASSWD: /opt/bin/megacli

Скачиваем скрипт сбора данных. Внутри скрипта перечислены команды для сбора конкретных данных, где посредством параметров определяется с какого контроллера, о каких дисках, забирать информацию.
# wget https://www.dropbox.com/s/linl4lj03bxmqtc/megacli.sh -O /var/lib/zabbix/scripts/megacli.sh
# vi /etc/zabbix/megacli.conf 
# $1 - название подпараметра
# $2 - номер RAID-адаптера
# $3 - номер диска
UserParameter=raid.megacli[*],/var/lib/zabbix/scripts/megacli.sh $1 $2 $3
# echo 'Include=/etc/zabbix/megacli.conf' >> /etc/zabbix/zabbix_agentd.conf
# /etc/init.d/zabbix-agentd restart

Теперь скачиваем шаблон Template_Megacli и делаем импорт в шаблоны. Теперь есть возможность забирать следующие данные:
  • adp.name - имя контроллера;
  • adp.degraded_raid - количество RAID массивов в состоянии degraded;
  • adp.critical_drive - количество дисков в состоянии failed;
  • adp.failed_drive - количество дисков в состоянии critical;
  • memory.correctable_errors - счетчик поправимых ошибок;
  • memory.uncorrectable_errors - счетчик непоправимых ошибок;
  • drive.media_errors - счетчик ошибок возникших в среде передачи данных;
  • drive.other_errors - счетчик прочих ошибок;
  • drive.predictive_errors - счетчик ошибок связанных с электроникой;
  • drive.size - размер диска;
  • drive.state - статус диска;
  • drive.temperature - температура диска (зависит от версии прошивки контроллера).
Обращаю внимание что многие триггеры в шаблоне имеют важность "Disaster".
На данный момент на одном из серверов есть деградированный RAID массив.
На этом все.

На главную "Virtualizing Linux"

2 комментария:

  1. Здравствуйте! К сожалению, ссылка на скрипт битая: https://www.dropbox.com/s/linl4lj03bxmqtc/megacli.sh

    ОтветитьУдалить
  2. ой ой.. Добрый день, эта статья уже deprecated, нужно её переписать. Берите скрипты с репозитория на гитхабе, там уже добавлен auto-discovery для устройств. https://github.com/lesovsky/zabbix-extensions/tree/master/files/hwraid-megacli/

    ОтветитьУдалить

Популярные сообщения

Профиль в Google+ Яндекс цитирования Яндекс.Метрика