Кластерные системы под управлением MS Windows NT Server на INTEL платформах

   Двумя основными задачами при построении вычислительных систем для критически важных приложений, связанных с обработкой транзакций, управлением базами данных и обслуживанием телекоммуникаций, является обеспечение высокой производительности и безотказного функционирования систем. Наиболее эффективный способ достижения заданного уровня производительности - применение параллельных масштабируемых архитектур. Задача обеспечения безотказности функционирования системы имеет три составляющих: надежность, готовность и удобство обслуживания.
   Повышение надежности основано на принципе предотвращения неисправностей путем снижения интенсивности отказов и сбоев за счет применения электронных схем и компонентов с высокой и сверхвысокой степенью интеграции, снижения уровня помех, облегченных режимов работы схем, обеспечение тепловых режимов их работы, а также за счет совершенствования методов сборки аппаратуры.
   Повышение уровня готовности предполагает подавление влияния отказов и сбоев на работу системы с помощью средств контроля и коррекции ошибок, а также средств автоматического восстановления вычислительного процесса после проявления неисправности, включая аппаратурную и программную избыточность, на основе которой реализуются различные варианты отказоустойчивых архитектур.
   Основные эксплуатационные характеристики системы существенно зависят от удобства ее обслуживания, в частности от ремонтопригодности, контролепригодности и т.д.
   Повышение степени безотказности систем предполагают улучшение этих трех параметров, которые тесно взаимосвязаны.
   Предметом данной статьи является рассмотрение решений повышения производительности и готовности систем за счет применения кластерных архитектур на основе Intel платформ.
   В последние годы в литературе по вычислительной технике все чаще употребляется термин "системы высокой готовности" (High Availability Systems). Все типы систем высокой готовности имеют общую цель - минимизацию времени простоя. Имеется два типа времени простоя компьютера: плановое и неплановое. Минимизация каждого из них требует различной стратегии и технологии. Плановое время простоя обычно включает время, принятое руководством для проведения работ по модернизации системы и для ее обслуживания. Неплановое время простоя является результатом отказа системы или компонента. Хотя системы высокой готовности возможно больше ассоциируются с минимизацией неплановых простоев, они оказываются также полезными для уменьшения планового времени простоя.
   Существует несколько типов систем высокой готовности, такие как системы горячей замены (горячего резервирования), системы с дублированием аппаратных средств и т.д., отличающиеся своими функциональными возможностями и стоимостью. Разновидностью систем с высокой готовностью являются кластерные системы, обладающие наименьшей аппаратной избыточностью. Следует отметить, что высокая готовность не дается бесплатно. Стоимость систем высокой готовности превышает стоимость обычных систем. Вероятно, наибольшее распространение в мире кластерные системы получили благодаря тому, что они обеспечивают достаточно высокий уровень готовности систем при относительно низких удельных затратах. Термин "кластеризация" на сегодня в компьютерной промышленности имеет много различных значений. Строгое определение могло бы звучать так: "реализация объединения машин, представляющего единое целое для операционной системы, системного программного обеспечения, прикладных программ и пользователей". Серверы, объединенные в кластер, могут при отказе одного из компонентов кластера очень быстро перераспределить работу на другие компоненты внутри кластера.
   Использование многими пользователями популярной операционной среды MS Windows NT предопределило стремление фирм-производителей оборудования создать собственные кластерные системы. Типичными представителями кластерных решений на платформе Intel являются:

   Более подробно остановимся на наиболее производительной системе фирмы Compaq Compaq Cluster HA/F500 и кластерном наборе фирмы American Megatrends, Inc. (AMI) MegaRAID Clustering Kit.
   В настоящее время Compaq Cluster HA/F500 реализован и продается для таких ОС, как: VMS, Himalaya, Digital UNIX, SCO Unix, Novell, Microsoft Windows NT. В среде Microsoft Windows NT Compaq Cluster HA/F500 представляет собой двухсерверный кластер (MSCS сейчас поддерживает только двухсерверный кластер), который состоит из серверов Compaq ProLiant или Alpha Servers и системы внешней памяти Compaq StorageWorks на базе интерфейса Fibre Channel - RA8000/ESA12000. В совокупности этот кластер предлагает самый высокий уровень готовности без единственных точек отказа под управлением MS Cluster Server.
   Для обеспечения данного решения, которое в частности может включать многие стандартные компоненты, установленные у заказчика, Compaq Cluster HA/F500 может быть отконфигурирован с использованием многих моделей серверов Compaq. Это означает, что потребители могут собрать кластер в значительной мере из имеющихся стандартных компонентов, в том числе и серверов Compaq.
   И, поскольку это решение целиком построено на серверах и других компонентах стандартной архитектуры, оно будет стоить заказчику значительно меньше, чем аналогичные системы на базе RISC/UNIX, в то же время без потери высокой готовности и надежности. Тем самым это решение является оптимальным для таких критических приложений в бизнесе как почтовые системы, системы Интернет/Intranet, системы планирования ресурсов, баз данных и т.д.
   Все компоненты Compaq Cluster HA/F500, такие, как серверы Compaq, системы памяти Compaq Storage Systems, программное обеспечение Microsoft и Compaq software, документация по интеграции и т.д. были тщательно протестированы с использованием прикладных программ Microsoft, SAP, BAAN, PeopleSoft, Oracle, Informix, и других.
   Compaq Cluster HA/F500 состоит из следующих компонент:    HA/F500 включает сдвоенные концентраторы Fibre Channel и сдвоенные дисковые контроллеры в системе внешней памяти RA8000/ESA12000, работающие по схеме active-active для достижения полной аппаратной избыточности доступа от серверов кластера к системе внешней памяти. Эти избыточные соединения полностью поддерживаются программным обеспечением Compaq, включенным в Cluster Kit.
   В конфигурации HA F/500 Single Loop в каждом сервере кластера устанавливается по одному хост-контроллеру Fibre Channel. Через петлю Fibre Channel хост-контроллеры в серверах могут взаимодействовать с контроллерной парой RAID-контроллеров в системе внешней памяти RA8000 или ESA12000. При необходимости расширения указанной конфигурации могут быть добавлены как кабинеты с дополнительными дисками, так и дополнительная система RA8000 или ESA12000, также со сдвоенной парой контроллеров RAID.
   Как видно из этой схемы, каждый сервер кластера имеет по два установленных хост-контроллера Fibre Channel, что обеспечивает дополнительный уровень надежности и отказоустойчивости кластера в целом. Через два отдельных концентратора Fibre Channel (которые могут быть размещены в различных помещениях/зданиях) серверы также соединяются с контроллерной парой RAID-контроллеров. Напомним, что в обеих схемах кэш-память RAID-контроллеров зеркалируется и сами контроллеры работают по схеме active-active.
   Примером важных приложений, которые могут быть установлены на Compaq Cluster HA/F500 являются: MS SQL Server 6.5; СУБД Oracle Parallel Server 8.0.5; MS Exchange Server; Microsoft IIS и т.д. т.е. все богатство продукции Microsoft и других ведущих производителей программного обеспечения. При работе на таком многомашинном комплексе эти приложения продолжают функционировать при отказе любого из узлов системы или отказе любого дискового накопителя системы. При этом гарантируется автоматический перенос выполнения приложений на исправную часть кластера.
   Compaq Cluster HA/F500 позволит вам работать более продуктивно, так как у вас никогда не будет простоев или потерь данных (даже когда вы захотите заменить систему на более мощную!) и благодаря своей масштабируемости, обеспечит полную защиту ваших инвестиций.
   Интерес представляет также недорогой Claster Kit (около 10тыс.USD) фирмы American Megatrends, Inc. (AMI)-MegaRAID Clustering Kit, заметно отличающийся на фоне дорогих (от 15 до 40тыс.USD - без учета стоимости серверов и MSCS) кластерных систем. Данный набор позволяет на основе имеющихся у пользователя серверов, организовать кластерную систему, докупив лишь необходимое для этого оборудование.
   В состав данного набора входят:    Серверы кластера MSCS соединяются общими шинами SCSI с дисковой подсистемой и физически независимыми сетями. Каждый сервер является владельцем одного или нескольких локальных дисков. Каждым общим диском владеет только один узел в кластере. Это право владения может перемещаться с одного узла на другой при отказе узла-владельца.
   Аварийное переключение (failover) - это процесс, заставляющий ресурсы кластера переключаться с отказавшего узла на оставшийся работоспособным узел. Процесс восстановления после отказа (failback) происходит, когда ресурс переходит на ранее отказавший узел после того, как он стал вновь доступным. Процесс failover инициируется сервисом Cluster Service при обнаружении сбоя на одном из узлов кластера. Так как каждый узел следит за состоянием, как своих процессов, так и процессов, выполняющихся на другом узле, необходимость аварийного переключения определяется без задержек.
   На проходившем 12-16 ноября в Лас Вегосе COMDEX '98 AMI продемонстрировала первый сертифицированный Microsoft for NT clustering PCI RAID controller (MegaRAID Ultra (Series 428). Были отмечены его высокие показатели по надежности поддержания кластерной системы в рабочем состоянии при отказе отдельных компонентов системы.
   Данный кластерный набор позволяет, не прибегая к значительным материальным затратам и используя имеющееся у пользователя оборудование, создать высоконадежную вычислительную систему, отвечающую всем требованиям систем для критически важных приложений, используя при этом всю мощь операционной среды MS Windows NT.

Юрий Екимов фирма Окта, тел.327-8496