Системы защиты электропитания
с высоким коэффициентом доступности


Цель данной статьи - рассмотреть важные аспекты, связанные с коэффициентом доступности электропитания (КДЭ), призванные помочь администраторам информационных систем (ИС) увеличить коэффициенты доступности (КД) приложений и информационных систем (ИС) в целом. В статье приводится классификация существующих систем бесперебойного электропитания по уровню КДЭ, с помощью которой администраторы ИС могут выбрать наиболее рациональное для себя в отношении Уцена + качествоФ решение.

Начнем изложение с ряда очевидных утверждений, которые трудно оспорить.

Первое. ИС на базе ПК давно переросли то время, когда ПК использовался, прежде всего, в качестве АРМ или интеллектуальной пишущей машинки. Сегодня эти ИС помогают эксплуатирующим их организациям и компаниям осуществлять их основную деятельность: банку Ч зарабатывать деньги, милиции Ч ловить преступников и т.д. Эти ИС собирают данные и, перерабатывая их, поставляют руководителям информацию, необходимую для принятия ответственных решений. И простои либо перебои в работе ИС ведут уже не просто к задержкам в отправке деловой переписки (что, впрочем, тоже может иметь серьезные последствия), а к параличу основной деятельности, к потерям, имеющим прямое денежное выражение. Поэтому обеспечение надежной и безостановочной работы ИС является предметом постоянной заботы тех, кто призван их разрабатывать, устанавливать и поддерживать. И, конечно же, именно для повышения надежности работы ИС их (или, как необходимый минимум, их наиболее критичные узлы) защищают при помощи источников бесперебойного электропитания.

Второе. Надежность любой сложной системы (в том числе ИС) ограничена надежностью самого слабого узла. Сегодня в таких общих для любой ИС процессах, как обработка и хранение данных, давно применяются технологии кластеризации и зеркализации (ЦП), RAID (хранение данных) и т.п. Поэтому, инвестируя немалые средства в такие технологии для всемерного повышения надежности и бессбойной работы ИС, есть смысл задуматься: а какое же звено осталось самым слабым? Таким сегодня является чаще всего ИБП традиционной моноблочной конструкции, который, как правило, и защищает серверные комнаты и прочие критичные аппликации. К этому выводу за последние годы пришло большое количество исследовательских и консалтинговых институтов и ассоциаций пользователей компьютерных технологий, в числе которых можно упомянуть, в частности, Gartner Group, 7х24 Exchange (называвшуюся ранее Uninterruptible Uptime Users Group -UUUG), Uptime Institute.

Давайте теперь зададимся вопросом: а что является количественной характеристикой надежности? Наиболее часто здесь употребима величина СВМС (Среднее Время Между Сбоями) или СВНО (Среднее Время Наработки на Отказ). Та же характеристика в англоязычной литературе чаще всего носит название MTBF (Mean Time Between Failures). Здесь есть как минимум один нюанс. А именно: производитель той или иной техники называет вам величину СВМС равной, скажем, 30,000 час., т.е. примерно 10 лет. При этом само устройство производится всего в течение 3 лет. Да и срок его эксплуатации, ограниченный моральным устареванием, в любом случае не превысит, допустим, 5 лет. В чем же смысл СВМС, равной в нашем случае 10 годам? Естественно, здесь идет речь о хорошо известном в статистике Уусреднении по ансамблюФ, т.е. если для 1,000 работающих устройств за год произошло в общей сложности 100 сбоев, то это позволяет говорить о том, что среднее время между сбоями составляет 1,000 х 1 год/ 100 = 10 лет. Понятно, что величина СВМС, определяемая таким образом, является чисто статистическим параметром, справедливым для большого количества работающих устройств, а отнюдь не характеристикой индивидуального изделия. То есть ничто не запрещает устройству, обладающему СВМС в 10 лет, выйти из строя на следующий день после запуска в эксплуатацию. Просто вам не повезло.

Представим теперь два устройства, запущенных одновременно в эксплуатацию, проработавших в течение трех лет и одновременно, в один день вышедших из строя. После этого одно из них пришлось ремонтировать в течение пяти рабочих дней, а второе Ч пять минут. ИС в целом простаивала соответственно те же самые 5 дней и 5 минут (мы здесь ведем речь о критичных устройствах). Понятно, что, кроме параметра СВМС, очень важное значение имеет другая величина - СВВУ (Среднее Время Восстановления Устройства), или MTTR (Mean Time To Repair). И поэтому в последнее время в статьях и обзорах, посвященных надежности ИС, все чаще встречается понятие КД, который определяется весьма просто - это относительное значение суммарного количества времени нормальной бессбойной работы системы за год. Обычно компании измеряют КД приложений, так как этот параметр напрямую определяет степень производительности прикладных программ их пользователей. Поскольку важнейшие приложения или их составляющие физически распределены по всему предприятию, иногда даже достигая компьютеров потребителей и поставщиков, администраторы ИС должны принять необходимые меры, чтобы обеспечить высокие значения КД приложений по предприятию в целом.

Исходя из того, что время нормальной работы в среднем равно СВМС, а время простоя возникает после аварии или отказа, и соответственно равно СВВУ, можно определить КД следующим образом:

КД = СВМС / (СВМС + СВВУ).

Понятно, что СВМС должно быть как можно больше, а СВВУ как можно меньше. Рассмотрим теперь существующие способы достижения этих целей для аппаратного обеспечения. Даже при увеличении затрат на разработку, изощренных схемных решениях, 100% входном контроле компонентов, многократном тестировании изделия в процессе производства существует потолок надежности отдельных компонент. Типичные современные системы защиты питания, основанные лишь на высокой надежности отдельных узлов, имеют максимальные СВМС в пределах от 50,000 до 500,000 час. В то же время применение параллельного резервирования, уже упомянутое выше, позволяет добиться существенного увеличения СВМС при тех же затратах на себестоимость изделия. На рис. 1 изображен качественный характер изменения надежности изделия в зависимости от его себестоимости, при этом кривая 1 соответствует устройству без резервирования, кривая 2 Ч устройству с применением резервирования.

РИСУНОК 1. Изменение надежности изделия в зависимости от затрат на его разработку и изготовление

Обратимся теперь к СВВУ. Общепризнанным подходом в конструировании на сегодняшний день, позволяющим всемерно снизить СВВУ, является применение принципа Угорячей заменыФ неисправных или требующих обслуживания узлов.

Уже очевиден подход, который и применяется сегодня для создания наиболее ответственных и критичных узлов и устройств, работающих в составе ИС. Это Ч разбиение узла (устройства и т.п.) на N параллельно соединенных модулей с добавлением N+1-гo, N+2-го и т.д. модулей для повышения уровня резервирования (или, что то же самое, избыточности) ПЛЮС возможность замены (увеличения или уменьшения) числа этих модулей на ходу, в УгорячемФ состоянии.

Соотношения между КДЭ, избыточностью и возможностями Угорячей заменыФ легко прояснить с помощью диаграммы КДЭ. На диаграмме КДЭ системы защиты электропитания располагаются на плоскости в зависимости от того, насколько они удовлетворяют двум составляющим КДЭ - избыточности и возможности Угорячей заменыФ. С ростом числа узлов, допускающих режим Угорячей заменыФ, точка, отвечающая системе на плоскости, перемещается вверх, а с ростом числа избыточных узлов - слева направо. В зависимости от требуемой величины КДЭ и планируемых затрат, администраторы ИС могут найти оптимальное решение.

РИСУНОК 2. Различные типы систем защиты электропитания

С помощью диаграммы КДЭ современные системы защиты электропитания классифицируются по уровню КД следующим образом.

Традиционный (моноблочный) ИБП (Standalone UPS) не обладает ни избыточностью, ни возможностями Угорячей заменыФ. Как видно из таблицы, традиционный ИБП дает нормальную степень доступности электропитания, используя надежность ИБП как такового. Такие системы наиболее эффективны в диапазоне малых мощностей (до 5кВА), когда несколько моноблочных ИБП могут защитить отдельные критические звенья системы. Чтобы получить централизованное решение для систем большей мощности (более 5 кВА), пользователи должны выбрать систему с более высоким КДЭ.

Отказоустойчивый ИБП (Fault Tolerant UPS) иногда описывают как систему с Уразумной избыточностьюФ. Системы этого типа имеют избыточные компоненты. Однако не все главные узлы можно заменять в режиме Угорячей заменыФ. Системы этого типа имеют более высокий КДЭ, поскольку система продолжает защищать нагрузку даже в случае отказа одной из ее компонент. Но поскольку неисправность компоненты часто означает необходимость замены всего ИБП, системы этого типа имеют серьезные недостатки: дорогостоящий и требующий времени ремонт. Эти ремонтно-восстановительные работы неизбежно приводят к простою систем и большим неудобствам для администраторов ИС. Отказоустойчивые системы ИБП могут иметь часть узлов, допускающих режим Угорячей заменыФ, например, батареи или блоки силовой электроники. В основном же большое число критически важных узлов, например, блоки процессорной электроники, не являются заменяемыми в УгорячемФ режиме И чем больше таких компонент, тем ниже коэффициент доступности электропитания

Модульный ИБП (Modular UPS). Как и отказоустойчивый ИБП, дает высокие значения КДЭ. Эти системы имеют многочисленные компоненты с режимом Угорячей заменыФ и обычно используются в многосерверных средах и телекоммуникационном оборудовании. Многие модульные ИБП предусматривают также избыточность батарей. Однако преимущество этих систем по сравнению с отказоустойчивыми ИБП в том, что отказ в любой из основных компонен ликвидируется в Угорячем режимеФ, что исключает плановые простои на вызов сервисной поддержки.

Высшую степень защиты электропитания обеспечивают системы матричной архитектуры Power Array. В Power Array все блоки - силовой электроники, батарей и процессорные - являются и избыточными, и заменяемыми в Угорячем режимеФ Системы такого типа дают очень высокие значения КДЭ и являются защитой высшего уровня для администраторов. ИС Power Array обычно стоят на 10 - 20% дороже моноблочных ИБП сходной мощности, и в среднем на 5 - 10% дороже отказоустойчивых или модульных ИБП.

Диаграмма может быть уточнена далее, поскольку в каждой системе защиты электропитания имеется три важнейших блока: батареи, силовая электроника и процессорная электроника. Чем больше компонент обладают свойствами Угорячей заменяемостиФ и избыточности, тем выше КДЭ системы. Реальные ИБП часто относятся к УгибриднымФ системам, у которых часть узлов обладает свойством Угорячей заменяемостиФ, а другая часть - свойством избыточности, например, Matrix Ч UPS, производимый АРС. Вся его электроника - и силовая, и процессорная, сгруппирована в допускающий горячую замену блок, батарейная же подсистема является и модульной с возможностью Угорячей заменыФ, и резервированной Ч все батарейные модули включены параллельно.


Заключение
В заключение отметим, что администраторы ИС могут использовать диаграмму КДЭ и индекс ИДЭ для определения правильного решения по выбору системы защиты питания для своих приложений. Моноблочные, модульные ИБП и системы Power Array - все они обладают преимуществами для потребителя, так как система определяется их стоимостью. Хотя отказоустойчивые ИБП имеют высокий КДЭ (таковыми они и предлагаются на рынке), у них есть и серьезные недостатки, такие, как большое время восстановления (СВВУ) и большие неудобства для администраторов ИС.

В таблице представлены примеры систем защиты питания и промышленные модели каждого типа.

Тип системы Определение Примеры
Моноблочный ИБП Без избыточностии без Угорячей заменыФ Liebert UPStation
Отказоустойчивый ИБП С избыточностью,но без Угорячей заменыФ PK US9003
Модульный ИБП С Угорячей заменойФ, но без избыточности APC Matrix, Exide Prestige
Power Array Все главные узлы обладают избыточностью
и допускают Угорячую заменуФ
APC Symmetra

А.Л.Солодовников, рук. отдела по работе с корпоративными заказчиками Оформить заказ на бесплатное получение брошюры и видеокассеты по Symmetra можно по адресу: www.apcc.spb.ru


Дистрибьютеры APC:
Marvel Ч (812) 325-10-40
OCS Ч (812) 325-87-25

Региональные дистрибьютеры
Complete Ч (812) 327-3180
Аспект СПб Ч (8332) 386-446

Топ ресселеры:
Аякс Ч 325-8725
Миком Ч 559-9886
MT Computers Ч 186-9590
МБ Инфо Ч 327-3484
Элтекс Ч 352-2628

Представительство в Санкт-Петербурге тел./факс: (812) 587-1709 www.users.nevalink.ru/apcc e-mail: ikamensky@apcc.spb.su


КОМПЬЮТЕР ИНФОРМ