Многопроцессорные SMP-системы фирмы Silicon Graphics.

Хорошо известно, что компьютеры от Silicon Graphics являются мировыми лидерами в области графических применений - и по производительности графических подсистем, и по отношению стоимость/производительность, и по уровню развития соответствующего программного обеспечения. Хотя продукция SGI неоднократно становилась победителем ("горячим утюгом") по данным AIM, т.е. в областях, не имеющих отношения к графическим прилоджениям, силы SGI вне сферы компьютерной графики в России известны еще недостаточно.

В данной статье рассматриваются мультипроцессорные системы фирмы SGI. Silicon Graphics была пионером применения многопроцессорных RISC-компьютеров SMP-архитектуры. В настоящее время SGI предлагает на рынке системы CHALLENGE DM/L/XL, POWER CHALLENGE L/XL и графические супер-ЭВМ Onyx/POWER Onyx.

Чья голова лучше ?

В табл.1 приведены оценки производительности различных 64-разрядных микропроцессоров, которыми комплектуются сегодня серверы SGI. В таблице имеются данные для чипа R10000 (он может быть использован в подобных системах в ближайшем будущем), а также для некоторых процессоров конкурирующих фирм. Выбирая себе "микропроцессорную голову", наиболее подходящую для интересующих Вас приложений, следует понимать, что в системах от SGI имеется в этом смысле два разных класса компьютеров.

Для коммерческих приложений, ориентирующихся на целочисленные операции, оптимальны системы на базе чипа R4400. Для научных применений, связанных с операциями с плавающей запятой, оптимальны компьютеры на базе R8000. Для систем на базе чипа R10000 будет характерен универсализм - эффективность в обеих областях применения.

Из табл.1 видно, что по целочисленной производительности 250 МГц-версия R4400 опережает других конкурентов, за исключением DEC Alpha 21164. Ответом на угрозу со стороны Pentium Pro (P6) от Intel, компьютеры на базе которого, вероятно, скоро начнут поставляться, должен стать, очевидно, R10000.

В области вычислений с плавающей запятой чип R8000 далеко впереди других конкурентов, кроме все того же Alpha 21164. Оценка SPECfp92 для R10000 выше, чем для процессоров от DEC. Но здесь самое время задать вопрос, а насколько хороши (адекватны) оценки производительности SPECfp92/SPECint92 ? Ответ на сегодня, увы, однозначен - нет. Достаточно большие размеры кэша современных микропроцессоров делают малоинформативной эту оценку для больших задач. Сейчас выходит на арену новая методика SPEC-95. А пока можно воспользоваться имеющимися данными с поправками на реальную жизнь.

Эти поправки упрочают позиции процессоров MIPS/SGI в SMP-серверах: во-первых, все они комплектуются 4Мбайт кэшем L2 (кроме 150 МГц- чипов R4400 в CHALLENGE DM, где размер кэша L2 составляет 1 Мбайт), что крайне важно как для коммерческих, так и для научных применений. И, во-вторых, необходимо быстро передавать данные из RAM в процессор и обратно, т.е. нужна быстродействующая системная шина. Рассматриваемые нами компьютеры от SGI и здесь - в лидерах (см. ниже). Но по обоим этим параметрам многопроцессорные ЭВМ DEC AlphaServer 8200/8400 - рядом. Они также содержат внешний кэш 4 Мбайт - правда, не на отдельной шине, как в R8000, а на системной шине. Но зато сама их системная шина имеет более высокую пропускную способность.

Производительность процессоров у других SMP- серверов, например, Convex SPP1200/CD - на базе HP PA-RISC 7200, Cray CS6400 - на базе SuperSparc и др., заметно ниже. IBM SP2 в первую очередь ориентирована на распределенную (кластерную) модель. Поэтому в классе больших SMP-систем серверы SGI вместе с пожалуй основным конкурентом - DEC 8200/8400 имеют по данному параметру ясно выраженное преимущество.

Но вернемся к нашим головам (от SGI). Читателя, которого особенно интересует, что бывает у головы внутри, мы отсылаем к публикациям по R10000 (OCC # 8,1995) и R8000 (журнал "Открытые системы", вып.4 за 1994 год). Для тех же, кого внутреннести интересуют не столь подробно, мы поясним только вкратце, почему R8000, имеющий всего 90 МГц тактовой частоты, опережает почти всех по плавающей запятой, имея достаточно приличную целочисленную производительность.

Конечно же, таких причин много. Но, несомненно, к главным относится высокий уровень суперскалярности: 2 целочисленных операции плюс 2 команды с плавающей запятой могут обрабатываться одновременно за 1 такт. Если учесть, что в списке инструкций R8000 имеется команда MADD, "объединяющая" умножение со сложением, то конвейеры могут выполнить 4 FLOP за такт, т.е. пиковая производительность составляет 300 MFLOPS и 360 MFLOPS для 75- и 90-МГц вариантов R8000 соответственно. К этому следует добавить наличие эффективных режимов адресации (сразу 2 регистра - базовый и индексный - могут принимать участие в формировании адреса) и специальных команд условной пересылки. Последнее позволяет эффективно выполнять циклы, содержащие внутри логические операторы IF.

На процессорных платах, которыми комплектуются SMP-сервера SGI, может быть до 4 чипов R4400 или до двух R8000. Наконец, нелишне напомнить, что все они совместимы снизу вверх (R4400-R8000-R10000).

Главная артерия

Процессорные платы, модули оперативной памяти, плата подсистемы ввода- вывода - все эти "внутренние органы" cервера SMP- архитектуры получают и передают необходимые данные через системную шину, которая является поэтому своеобразной главной артерией.

Системная шина SMP-серверов от SGI (POWERpath-2) включает независимую 256-разрядную шину данных и 40-разрядную шину адреса, т.е. обеспечена возможность иметь физическую память размером до 1 Тбайт. Оба тракта имеют контроль по четности и работают в синхронном режиме на частоте 47.6 МГц (такт 21 нс). POWERpath-2 обеспечивает высокую пропускную способность, маленькие времена задержки и гарантирует когерентность кэша разных процессоров. Каждая транзакция занимает 5 циклов шины. За 5 тактов передается, например, блок кэша размером 128 байт в POWER CHALLENGE. Транзакции для операций чтения являются расщепленными, т.е. POWERpath-2 освобождается для обработки новых транзакций сразу после того, как подсистема памяти получает запрос. Подсистема памяти может поместить данные на шину (ответ на запрос) позднее, как часть отдельной транзакции. Такой механизм, базирующийся на одновременной работе шины адреса и шины данных, обеспечивает параллельную обработку нескольких запросов на чтение.

POWERpath-2 имеет пиковую пропускную способность 2 Гбайт/с (поддерживается свыше 1.2 Гбайт/с). Для сравнения, шина AlphaServer 8200/8400 имеет поддерживаемую производительность 1.6 Гбайт/с, Cray CS6400 - 1.3 Гбайт/с. Другие SMP-серверы заметно отстают, например, HP 9000 T500 имеет пиковую пропускную способность шины 1 Гбайт/с. Хотя POWERpath-2 не является на сегодня абсолютным лидером по формальному показателю пропускной способности, ее реальная скорость обработки запросов - 9.5 миллионов транзакций в секунду - впечатляет.

Возможности наращивания конфигурации SMP-систем определяются в первую очередь числом слотов системной шины. В компьютерах CHALLENGE L/POWER CHALLENGE L/CHALLENGE DM имеется 5 слотов POWERpath-2, в CHALLENDE XL/POWER CHALLENGE XL- 15 слотов. Графические супер-ЭВМ Onyx/POWER Onyx в этом смысле аналогичны соответствующим серверам CHALLENGE/POWER CHALLENGE. В слоты POWERpath-2 могут вставляться 3 типа плат - процессорные, модули памяти и платы подсистемы ввода-вывода POWERchannel-2. Понятно, что в любом компьютере должно быть минимум по одной плате каждого типа.

ЭВМ CHALLENGE L/POWER CHALLENGE L могут включать 3 процессорные платы (2-12 процессоров R4400/1-6 процессоров R8000 соответственно). CHALLENGE DM имеют дополнительные ограничения (1-4 процессора R4400). CHALLENGE XL/POWER CHALLENGE XL могут иметь до 9 процессорных плат (до 36 и до 18 процессоров соответственно).

Емкость оперативной памяти составляет от 64 Мбайт до 16 Гбайт для XL-моделей, или до 6 Гбайт - для моделей L и DM. В зависимоти от типа используемых DRAM-микросхем одна плата памяти может содержать до 512 Мбайт или до 2 Гбайт.

Интересно сравнить эти возможности комплектации с AlphaServer 8200/8400, использующих шину TurboLaser. В системах 8200, как и в моделях CHALLENGE L, имеется 5 слотов системной шины, поэтому и ограничения те же - до 6 процессоров, до 6 Гбайт RAM. А вот в ЭВМ серии 8400 слотов TurboLaser всего 9, что сильно уступает моделям CHALLENGE/POWER CHALLENGE. Как максимальное количество процессоров (12), так и максимальный размер RAM (14 Гбайт) в DEC 8400 меньше, чем в POWER CHALLENGE XL. В AlphaServer 8400 нельзя получить одновременно и максимально допустимый размер RAM, и максимальное число процессоров, т.к. не хватит слотов шины TurboLaser. В системах CHALLENGE XL/POWER CHALLENGE XL ограничения заметно мягче. Например, допустима комплектация POWER CHALLENGE XL одновременно 16 Гбайт RAM и 12 процессорами R8000.

В соответствии с максимально допустимым числом плат RAM в моделях L и DM, память может иметь степень расслоения до 4, в моделях XL- до 8. На одной плате памяти достижимо двукратное расслоение, при этом она способна передавать 1.2 Гбайт/с. Во всех многопроцессорных серверах от SGI RAM защищена кодами ECC, т.е. корректируются одиночные и детектируются двойные ошибки памяти.

Внешний мир

Подсистема ввода-вывода в рассматриваемых серверах SGI базируется на платах POWERchannel-2, которые вставляются в слоты POWERpath-2 и осуществляют интерфейс этой шины с 64-разрядными HIO-шинами. Последние имеют пропускную способность 320 Мбайт/с каждая. Модели XL могут иметь до 4 модулей POWERchannel-2 и соответственно 4 шины HIO, модели DM и L - до 3 модулей. Суммарная пропускная способность ввода-вывода составляет до 1.2 Гбайт/с и до 960 Мбайт/с соответсвенно.

Каждая плата POWERchannel-2 содержит 2 контроллера F&W SCSI-2 (конфигурируемых как single-ended или дифференциальные), контроллер VME-64, 4 последовательных и 1 параллельный порт, и контроллер Ethernet. Последний является интеллигентным и не требует вмешательства процессора при приеме или передаче пакетов данных.

Кроме того, POWERchannel-2 имеет интерфейсы высокоскоростной графической подсистемы и 2 т.н. интерфейса плоского кабеля (FCI), через которые возможно подсоединение дополнительных шин VME, графических подсистем и адаптеров HiPPI, FDDI, а также ATM. VME-64 в режиме DMA имеет пропускную способность до 60 Мбайт/с. Отметим, что стандарт VME вообще довольно популярен в мире супер-ЭВМ : он используется также в Cray J90 и Convex C4/XA.

Наконец, каждая плата POWERchannel-2 имеет 2 слота шины HIO, к которым можно подключить 2 т.н. HIO-модуля. Они бывают двух типов - F ( к ним могут подсоединяться FCI-интерфейсы) и S. Последние модули содержат по 3 контроллера F&W SCSI-2 (2 дифференциальных и один конфигурируемый как single-ended или дифференциальный). Итого при двух HIO-модулях S- типа плата POWERchannel-2 содержит восемь 16-разрядных контроллеров SCSI-2 с пропускной способностью 20 Мбайт/с каждый, а 4 платы (в моделях XL) - 32 контроллера.

Поскольку каждый SCSI-контроллер может обслуживать до 15 устройств, одна плата POWERchannel-2 может управлять до 120 дисковыми устройствами, передавая 160 Мбайт/с, а 4 платы - соответственно 480 дисковыми устройствами с суммарной пропускной способностью 640 Мбайт/с. При комплектации предлагаемыми SGI 4.3-Гбайтными дисками это дает до 2 Тбайт дискового пространства (до 1.5 Тбайт - в моделях L/DM). В случае применения RAID-технологии максимальный объем дискового пространства составляет до 6.3 Тбайт или 4.7 Тбайт для моделей XL или L/DM соответственно.

Вероятно, читатель уже утомился от всей этой кучи шин, контроллеров и внешних устройств. Одновременная работа всего этого хозяйства обеспечивается благодаря высокой пропускной способности параллельно работающих HIO-шин.

Кроме дисков, SGI предлагает широкий спектр других внешних устройств, в т.ч. разнообразные ленточные накопители (4-мм DAT, 8-мм Exabyte, DLT и др.). Понятно, что все они не могут уместиться в основном корпусе компьютеров SGI (25.3" x 20.5" x 32" для моделей L и DM; 62.3" x 27" x 48" для моделей XL). Хотя его во многих случаях может быть достаточно - например, в моделях L имеется 7 позиций для дисковых накопителей - Silicon Graphics поставляет также дополнительные стойки для внешних устройств (Vault L-до 34 Гбайт, Vault XL - до 412 Гбайт на стойку).

Успешное наступление

Если оставить в стороне графические супер-ЭВМ Onyx/POWER Onyx, то в соответствии со сказанным ранее, компьютеры CHALLENGE DM/L/XL ориентированы в первую очередь на коммерческие применения, а POWER CHALLENGE L/XL - на работу с плавающей запятой. Системы CHALLENGE DM относятся к среднему классу. Среди их вероятных конкурентов можно назвать, например, серверы HP 9000-800 серии К и IBM RS/6000 R30. Относительно невысокое быстродействие 150 МГц-процессоров R4400 в CHALLENGE DM (см. табл.1) компенсируется большой пропускной способностью POWERpath-2. Представляется, что в этом секторе рынка конкуренция для SGI должна быть выше, чем для более мощных компьютеров CHALLENGE L/XL.

Последние могут эффективно использоваться в больших системах обработки транзакций, в т.ч. OLTP, в качестве мощных файл-серверов (12-процессорный CHALLENGE XL имеет производительность 7023 SPECSFS) и в приложениях систем реального времени. Эти серверы применяются для работы с различными БД, в т.ч. содержащими данные мультимедиа, и для визуализации БД. Компьютеры CHALLENGE активно используются телекоммуникационными компаниями, в геоинформационных системах и др. Наличие разнообразного программного обеспечения HSM третьих фирм (EMASS, Titan, StorageTek, Legato и др.), работающих в ОС IRIX от SGI, в сочетании с мощными возможностями подсистемы ввода-вывода делает целесообразным применение данных ЭВМ для хранилищ данных, например, для архивации медицинских БД.

Системы CHALLENGE могут использоваться и как фронтальные ЭВМ для обработки больших потоков данных в суперкомпьютерных приложениях, и как самостоятельные суперкомпьютерные серверы в применениях с интенсивной целочисленной обработкой. Это характерно для задач ядерной физики, поэтому компьютеры CHALLENGE инсталлированы, например, в крупных европейских центрах - CERN (Швейцария) и DESY (Германия). Эти системы популярны и в различных областях химии - синтетической, аналитической химии, молекулярной биологии и др. Специальные решения SGI предлагает и для нефтегазового сектора. A недвано SGI обратилась к новой для себя области рынка и анонсировала системы высокой надежности, основанные на двухмашинном кластере на базе ЭВМ CHALLENGE.

Иллюстрируя производительность СУБД, поставщики компьютеров часто приводят оценки для различных тестов TPC. Значительно реже даются аудиторски подтвержденные значения (CHALLENGE XL в конфигурации 31 x R4400 150 МГц с кэш 4 Мбайт, 1 Гбайт RAM и свыше 400 Гбайт дискового пространства в СУБД Oracle v.7 имела 2049 tpsA). Но для корректного сопоставления различных ЭВМ сравнение должно проводиться в близких конфигурациях, что бывает не всегда.

Пожалуй, наиболее успешным (благодаря выпуску копьютера POWER CHALLENGE) было наступление SGI на рынке супер-ЭВМ. В известном списке TOP 500 крупнейших суперкомпьютерных центров мира Silicon Graphics по числу инсталляций в первых 100 ВЦ оказалась на втором месте просле Cray Research. Отражением серьезности намерений SGI в этой области явилось образование Supercomputer System Division, - отвечающего за разработку и развитие бизнеса суперкомпьютеров отделения, которое в фирме растет наиболее быстрыми темпами. Silicon Graphics совместно с Национальным центром суперкомпьютерных приложений США (NCSA) объявили о программе разработки "суперкомпьютерного окружения будущего", интегрирующего высокопроизводительные вычисления, средства информационной супермагистрали и технологию визуализации. SGI и NCSA сотрудничают также в разработке новых технологий для коммерческих применений - управления большими БД, цифрового видео, объектно-реляционных СУБД, виртуальной реальности и др.- в сферах телекоммуникации, финансов и промышленности. А недавно глава SGI Эдвард Мак-Кракен был награжден национальной американской медалью по технологии за работы в области трехмерной графики и супер-ЭВМ.

Причины такого успеха можно объяснить, если посмотреть на данные табл.2 и табл.3. В первой приведены характеристики конфигураций самых мощных супер-ЭВМ Cray Research, в т.ч. анонсированных в этом году Cray T90, а также минисупер-ЭВМ Cray J90, и компьютеров от SGI на базе R8000(90 МГц). POWER CHALLENGE XL превосходит старшие модели Cray по размеру оперативной памяти, уступая по производительности ввода-вывода и максимальному размеру дискового пространства. Больший возможный размер памяти в системах SGI связан с использованием дешевой DRAM- технологии по сравнению с дорогой высокопроизводительной SRAM- памятью в Cray C90/T90.

Резкое отставание серверов SGI по пропускной способности RAM связано с ориентацией этих компьютеров на иерархическую модель памяти, включающую большой кэш. Это - типичный подход для всех SMP-серверов на базе RISC-процессоров. Супер-ЭВМ, имеющие относительно мало векторных регистров, для поддержания высокого темпа вычислений нуждаются в огромной скорости обмена данными с RAM. Вместе с тем, имеется ряд приложений, для которых характерна интенсивная работа с RAM при плохой локализации обращений к ней, так что большая кэш-память не спасает. В этом случае применение векторных супер-ЭВМ более целесообразно.

По пиковой производительности POWER CHALLENGE уступает большим векторным ЭВМ Cray. Однако 90 МГц- процессор R8000 оказался быстрее, чем процессоры в Cray Y-MP (333 MFLOPS) и минисуперкомпьютере Cray J90 (200 MFLOPS). Известно, что с ростом числа процессоров эффективность распараллеливания сильно уменьшается. Задачи, которые хорошо распараллеливаются при большом числе процессоров, часто могут эффективно выполняться и в рамках модели распределенной памяти, в т.ч. в кластерных системах. Такие приложения бывают, например, в динамике жидкости, обработке сейсмоданных и др. Silicon Graphics предлагает пользователям кластер POWER CHALLENGEarray (см. табл.), который может содержать до 8 SMP-серверов POWER CHALLENGE L/XL. Он имеет до 144 процессоров с пиковой производительностью 52 GFLOPS и до 128 Гбайт RAM, превосходя по ряду показателей супер-ЭВМ Сray. Серверы связываются в кластер через FDDI или HiPPI.

Данные тестов LINPACK (табл.3) показывают, что при равном числе процессоров SMP-компьютеры от SGI опережают Cray J90 и уступают СRAY C90 как на средних (N=100), так и на длинных (N=1000) векторах всего в 3 раза. Уровень рас- параллеливания (отношение производительности n процессоров к производительности одного процессора) в серверах SGI немного выше, чем в DEC AlphaServer 8400, и, в свою очередь, немного ниже, чем у Сray.

Наиболее интересно, конечно, сравнение производительности на реальных задачах. Сиcтемы POWER CHALLENGE очень популярны в вычислительной химии. Для ряда расчетов в области квантовой химии и молекулярной динамики было найдено, что процессоры R8000 c частотой 75 МГц в POWER CHALLENGE уступают Cray C90 в 1.7-3.5 раза.

К основным причинам популярности POWER CHALLENGE относится не только высокое быстродействие, но и хорошее соотношение цена/производительность. Стоимость минимальной конфигурации СRAY T90 составляет 2.5 миллиона долларов, или около 1.4 млн. долларов за GFLOPS; у сегодняшних СRAY C90 этот показатель раза в 3 похуже. Цена стартовой конфигурации СRAY J90 равна 225 тыс. долларов (цена/производительность - около 0.3 млн. долларов/GFLOPS). POWER CHALLENGE в минимальной конфигурации имеет стоимость гораздо ниже, чем CRAY J90 и соответственно показатель цена/производительность - лучше, чем в ЭВМ СRAY. К этому следует добавить отсутствие необходимости в мощных системах охлаждения для компьютеров от SGI.

Самым грозным конкурентом суперкомпьютерных серверов SGI сегодня является, вероятно, AlphaServer 8200/8400. Эти ЭВМ имеют более высокую реактивность и пропускную способность RAM. Производительность их процессоров на целочисленных операциях и при работе с длинными векторами выше, чем в компьютерах SGI. Однако уже на векторах средней длины результаты близки (см. табл.3). Предварительные данные о временах выполнения расчетов по наиболее популярной в мире квантовохимической программе Gaussian-94 для использующих те же микропроцессоры рабочих станций AlphaStation 600 (Alpha 21164, 275 МГц) и POWER Indigo 2 (R8000, 75 МГц) показывают, что компьютеры Silicon Graphics немного отстают на более длинных векторах и немного быстрее - на коротких.

Очень важно сравнить и соотношение цена/производительность, для чего следует обратиться к соответствующим фирмам или их дилерам.

Первые инсталляции SMP-систем от SGI в России были осуществлены, в частности, в Уральском фонде медицинского страхования в Екатеринбурге (CHALLENGE L), на машиностроительном заводе в Туле и в фонде "Детское кино" Ролана Быкова (Onyx) и др. Несомненно, рассмотренные серверы должны представлять интерес для отечественного потребителя.

Таблица 1. Производительность процессоров

МикропроцессорЧастота,МГцSPEC
int92
SPEC
fp92
R800075108.7310.6
(POWER CHALLENGE
L,XL,POWER Onyx)
90132396
R4400(CHALLENGE:
- DM
- L,XL


150
200
250

93.7
141
180.2

97.1
143
177.5
R10000(*)200311604
DEC Alpha 21164300
333(*)
341
400
512
570
Intel Pentium
Pentium Pro(P6,*)
120
200
172
366
108
283
HP PA-RISC 7200100136215
IBM POWER271.5131 279

(*) : в настоящее время в ЭВМ не поставляется

Таблица 2. Конфигурации супер-ЭВМ

ЭВМ Количество
ЦП
Пиковая
производительность,
GFLOPS
RAM,Гбайт Производительность
RAM
Гбайт/с
Производительность
I/O,
Гбайт/с
Диски,ТБайт
СRAY T90
CRAY C90
CRAY J90
1-32
1-16
4-32
1.8-28.8
1-15.2
0.8-6.4
0.5-8
до 8
0.25-8
100-800

до 51
до 8

до 2.4
до 256

до 0.36
POWER CHALLENGE XL 1-18 0.36-6.5 0.064-16 до 1.2 до 1.2 до 6.3
POWER CHALLЕNGEarray до 144 до 51.8 до 128 до 9.6 до 4 до 63

Таблица 3. Данные тестов LINPACK (MFLOPS)

ЭВМ,
время цикла
Количество
ЦП
N=100 N=1000 Пиковая
производительность
CRAY C90,
4.2 нс
16
8
4
2
1
479
468
388
387
387
10780
6175
3275
1703
902
15238
7619
3810
1905
952
CRAY J90,
10 нс
16
8
4
2
1


117
109
104
2709
1425
730
376
200
3200
1600
800
400
200
POWER CHALLENGE XL
90 МГц
16
8
4
2
1




126
3240
2045
1124
569
308
5760
2880
1440
720
360
300 МГц 8
4
2
1



140
2282
1351
757
411
4800
2400
1200
600