Кластерные системы под управлением MS Windows
NT Server на INTEL платформах
Двумя основными задачами при построении вычислительных
систем для критически важных приложений, связанных с обработкой транзакций,
управлением базами данных и обслуживанием телекоммуникаций, является обеспечение
высокой производительности и безотказного функционирования систем. Наиболее
эффективный способ достижения заданного уровня производительности - применение
параллельных масштабируемых архитектур. Задача обеспечения безотказности
функционирования системы имеет три составляющих: надежность, готовность
и удобство обслуживания.
Повышение надежности основано на принципе предотвращения
неисправностей путем снижения интенсивности отказов и сбоев за счет применения
электронных схем и компонентов с высокой и сверхвысокой степенью интеграции,
снижения уровня помех, облегченных режимов работы схем, обеспечение тепловых
режимов их работы, а также за счет совершенствования методов сборки аппаратуры.
Повышение уровня готовности предполагает подавление влияния
отказов и сбоев на работу системы с помощью средств контроля и коррекции
ошибок, а также средств автоматического восстановления вычислительного
процесса после проявления неисправности, включая аппаратурную и программную
избыточность, на основе которой реализуются различные варианты отказоустойчивых
архитектур.
Основные эксплуатационные характеристики системы существенно
зависят от удобства ее обслуживания, в частности от ремонтопригодности,
контролепригодности и т.д.
Повышение степени безотказности систем предполагают улучшение
этих трех параметров, которые тесно взаимосвязаны.
Предметом данной статьи является рассмотрение решений
повышения производительности и готовности систем за счет применения кластерных
архитектур на основе Intel платформ.
В последние годы в литературе по вычислительной технике
все чаще употребляется термин "системы высокой готовности" (High Availability
Systems). Все типы систем высокой готовности имеют общую цель - минимизацию
времени простоя. Имеется два типа времени простоя компьютера: плановое
и неплановое. Минимизация каждого из них требует различной стратегии и
технологии. Плановое время простоя обычно включает время, принятое руководством
для проведения работ по модернизации системы и для ее обслуживания. Неплановое
время простоя является результатом отказа системы или компонента. Хотя
системы высокой готовности возможно больше ассоциируются с минимизацией
неплановых простоев, они оказываются также полезными для уменьшения планового
времени простоя.
Существует несколько типов систем высокой готовности,
такие как системы горячей замены (горячего резервирования), системы с дублированием
аппаратных средств и т.д., отличающиеся своими функциональными возможностями
и стоимостью. Разновидностью систем с высокой готовностью являются кластерные
системы, обладающие наименьшей аппаратной избыточностью. Следует отметить,
что высокая готовность не дается бесплатно. Стоимость систем высокой готовности
превышает стоимость обычных систем. Вероятно, наибольшее распространение
в мире кластерные системы получили благодаря тому, что они обеспечивают
достаточно высокий уровень готовности систем при относительно низких удельных
затратах. Термин "кластеризация" на сегодня в компьютерной промышленности
имеет много различных значений. Строгое определение могло бы звучать так:
"реализация объединения машин, представляющего единое целое для операционной
системы, системного программного обеспечения, прикладных программ и пользователей".
Серверы, объединенные в кластер, могут при отказе одного из компонентов
кластера очень быстро перераспределить работу на другие компоненты внутри
кластера.
Использование многими пользователями популярной операционной
среды MS Windows NT предопределило стремление фирм-производителей оборудования
создать собственные кластерные системы. Типичными представителями кластерных
решений на платформе Intel являются:
-
HP NetServer на базе интерфейса SCSI, работающий с внешней дисковой
стойкой HP Rack Storage/8 или дисковым массивом HP Storage System/6 фирмы
Hewlett-Packard;
-
PowerEdge на базе дискового интерфейса Ultra2/LVD (SCSI-3 Fast 40)
фирмы Dell c дисковой системой PowerEdge Scalable Disk System;
-
Compaq Cluster/S100 на базе интерфейса SCSI фирмы Compaq;
-
Compaq Cluster/F100 на базе интерфейса Fibre Channel фирмы Compaq;
-
Compaq Cluster HA/F500 на базе интерфейса Fibre Channel фирмы Compaq;
-
MegaRAID Clustering Kit фирмы American Megatrends, Inc. (AMI).
Более подробно остановимся на наиболее производительной системе
фирмы Compaq Compaq Cluster HA/F500 и кластерном наборе фирмы American
Megatrends, Inc. (AMI) MegaRAID Clustering Kit.
В настоящее время Compaq Cluster HA/F500 реализован
и продается для таких ОС, как: VMS, Himalaya, Digital UNIX, SCO Unix, Novell,
Microsoft Windows NT. В среде Microsoft Windows NT Compaq Cluster HA/F500
представляет собой двухсерверный кластер (MSCS сейчас поддерживает только
двухсерверный кластер), который состоит из серверов Compaq ProLiant или
Alpha Servers и системы внешней памяти Compaq StorageWorks на базе интерфейса
Fibre Channel - RA8000/ESA12000. В совокупности этот кластер предлагает
самый высокий уровень готовности без единственных точек отказа под управлением
MS Cluster Server.
Для обеспечения данного решения, которое в частности может
включать многие стандартные компоненты, установленные у заказчика, Compaq
Cluster HA/F500 может быть отконфигурирован с использованием многих моделей
серверов Compaq. Это означает, что потребители могут собрать кластер в
значительной мере из имеющихся стандартных компонентов, в том числе и серверов
Compaq.
И, поскольку это решение целиком построено на серверах
и других компонентах стандартной архитектуры, оно будет стоить заказчику
значительно меньше, чем аналогичные системы на базе RISC/UNIX, в то же
время без потери высокой готовности и надежности. Тем самым это решение
является оптимальным для таких критических приложений в бизнесе как почтовые
системы, системы Интернет/Intranet, системы планирования ресурсов, баз
данных и т.д.
Все компоненты Compaq Cluster HA/F500, такие, как серверы
Compaq, системы памяти Compaq Storage Systems, программное обеспечение
Microsoft и Compaq software, документация по интеграции и т.д. были тщательно
протестированы с использованием прикладных программ Microsoft, SAP, BAAN,
PeopleSoft, Oracle, Informix, и других.
Compaq Cluster HA/F500 состоит из следующих компонент:
-
Высокопроизводительные серверы Compaq ProLiant (Смотрите www.compaq.com
для детальной матрицы поддерживаемых серверов).
-
Система памяти Compaq Storage Works на базе стандарта Fibre Channel (RA8000,
ESA12000-с возможностью установки до 24 устройств и RAID- контроллеров).
-
Оборудование для соединения компонент Fibre Channel (оптические кабели,
переключатели, конвертеры).
-
Microsoft Cluster Server (приобретается отдельно в составе Microsoft NT
Server Enterprise Edition).
-
Набор Compaq Cluster HA/F500 Kit (Compaq Cluster HA/F500 Kit предоставляет
дополнительное ПО по управлению и администрированию кластером, а также
документацию по установке, прокладке кабелей и т.д.).
HA/F500 включает сдвоенные концентраторы Fibre Channel и сдвоенные
дисковые контроллеры в системе внешней памяти RA8000/ESA12000, работающие
по схеме active-active для достижения полной аппаратной избыточности доступа
от серверов кластера к системе внешней памяти. Эти избыточные соединения
полностью поддерживаются программным обеспечением Compaq, включенным в
Cluster Kit.
В конфигурации HA F/500 Single Loop в каждом сервере кластера
устанавливается по одному хост-контроллеру Fibre Channel. Через петлю Fibre
Channel хост-контроллеры в серверах могут взаимодействовать с контроллерной
парой RAID-контроллеров в системе внешней памяти RA8000 или ESA12000. При
необходимости расширения указанной конфигурации могут быть добавлены как
кабинеты с дополнительными дисками, так и дополнительная система RA8000
или ESA12000, также со сдвоенной парой контроллеров RAID.
Как видно из этой схемы, каждый сервер кластера имеет
по два установленных хост-контроллера Fibre Channel, что обеспечивает дополнительный
уровень надежности и отказоустойчивости кластера в целом. Через два отдельных
концентратора Fibre Channel (которые могут быть размещены в различных помещениях/зданиях)
серверы также соединяются с контроллерной парой RAID-контроллеров. Напомним,
что в обеих схемах кэш-память RAID-контроллеров зеркалируется и сами контроллеры
работают по схеме active-active.
Примером важных приложений, которые могут быть установлены
на Compaq Cluster HA/F500 являются: MS SQL Server 6.5; СУБД Oracle Parallel
Server 8.0.5; MS Exchange Server; Microsoft IIS и т.д. т.е. все богатство
продукции Microsoft и других ведущих производителей программного обеспечения.
При работе на таком многомашинном комплексе эти приложения продолжают функционировать
при отказе любого из узлов системы или отказе любого дискового накопителя
системы. При этом гарантируется автоматический перенос выполнения приложений
на исправную часть кластера.
Compaq Cluster HA/F500 позволит вам работать более
продуктивно, так как у вас никогда не будет простоев или потерь данных
(даже когда вы захотите заменить систему на более мощную!) и благодаря
своей масштабируемости, обеспечит полную защиту ваших инвестиций.
Интерес представляет также недорогой Claster Kit (около
10тыс.USD) фирмы American Megatrends, Inc. (AMI)-MegaRAID Clustering
Kit, заметно отличающийся на фоне дорогих (от 15 до 40тыс.USD - без
учета стоимости серверов и MSCS) кластерных систем. Данный набор позволяет
на основе имеющихся у пользователя серверов, организовать кластерную систему,
докупив лишь необходимое для этого оборудование.
В состав данного набора входят:
-
два MegaRAID Ultra 428 controllers;
-
четыре MegaRAID Cluster Enablers 436 серии;
-
комплект внешних соединительных Ultra SCSI кабелей;
-
Microsoft Cluster Server (MSCS)-сертификат подсистемы;
-
внешняя дисковая подсистема AMI 8 Bay Sub-System (AMI 8 Bay Sub-System
при использовании даже имеющихся у заказчика дисковых накопителей с интерфейсом
SCA Wide Ultra SCSI позволяет создать законченную кластерную систему).
Серверы кластера MSCS соединяются общими шинами SCSI с дисковой
подсистемой и физически независимыми сетями. Каждый сервер является владельцем
одного или нескольких локальных дисков. Каждым общим диском владеет только
один узел в кластере. Это право владения может перемещаться с одного узла
на другой при отказе узла-владельца.
Аварийное переключение (failover) - это процесс, заставляющий
ресурсы кластера переключаться с отказавшего узла на оставшийся работоспособным
узел. Процесс восстановления после отказа (failback) происходит, когда
ресурс переходит на ранее отказавший узел после того, как он стал вновь
доступным. Процесс failover инициируется сервисом Cluster Service при обнаружении
сбоя на одном из узлов кластера. Так как каждый узел следит за состоянием,
как своих процессов, так и процессов, выполняющихся на другом узле, необходимость
аварийного переключения определяется без задержек.
На проходившем 12-16 ноября в Лас Вегосе COMDEX '98 AMI
продемонстрировала первый сертифицированный Microsoft for NT clustering
PCI RAID controller (MegaRAID Ultra (Series 428). Были отмечены его высокие
показатели по надежности поддержания кластерной системы в рабочем состоянии
при отказе отдельных компонентов системы.
Данный кластерный набор позволяет, не прибегая к значительным
материальным затратам и используя имеющееся у пользователя оборудование,
создать высоконадежную вычислительную систему, отвечающую всем требованиям
систем для критически важных приложений, используя при этом всю мощь операционной
среды MS Windows NT.
Юрий Екимов фирма Окта, тел.327-8496