По словам компании, Liqid может превратить серверы Dell в локальные мощности для обучения ИИ-моделей, предоставив до 30 графических процессоров NVIDIA L40S одному серверу Dell R760.
Liqid поставляет программное и аппаратное обеспечение Composable Server Matrix, используя PCIe шину и коммутатор для соединения процессоров x86 и памяти с модулями, оснащенными ускорителями, системами хранения и сетевым оборудованием. Цель состоит в том, чтобы динамически конфигурировать или компоновать серверы для определенных рабочих нагрузок, используя выверенные объемы ресурсов серверных компонентов, чтобы неиспользуемые ресурсы не простаивали в сервере с фиксированной конфигурацией, как это бывает в других случаях. После завершения рабочей нагрузки ресурсы компонентов возвращаются в пул Liqid для повторного использования.
Она также может использоваться для динамической настройки серверов с гораздо большим количеством ресурсов ускорителей, чем обычно поддерживает статическая конфигурация. Именно это компания Dell демонстрирует на выставке Dell Technologies World 2024 (DTW24), которая проходит на этой неделе в Лас-Вегасе.
Соучредитель и главный стратег компании Liqid Сумит Пури (Sumit Puri) рассказал в своем блоге: "Эффективное развертывание приложений искусственного интеллекта имеет решающее значение для наших клиентов. Инновационная конфигурация UltraStack от Liqid, разработанная в сотрудничестве с Dell Technologies и NVIDIA, объединяет 30 графических процессоров NVIDIA L40S за одним CPU. Это позволяет меньшему количеству серверов выполнять больший объем работы, значительно сокращая капитальные и операционные расходы, а также существенно повышая производительность, эффективность и устойчивость ИИ".
В ноябре прошлого года Liqid анонсировала 16-GPU UltraStack эталонной архитектуры для серверов Dell R760xa и графических процессоров NVIDIA L40S. В марте этого года она обновила эту архитектуру до 20 GPU и теперь пошла дальше, поддерживая до 40 GPU L40S.
Графические процессоры NVIDIA L40S в целом менее мощные, чем ускорители H100 и A100, а также более новые системы Blackwell GB200 и B200, что означает меньшее количество ядер, меньший объем памяти и меньшую пропускную способность. Обучение генеративных моделей ИИ, на которых работают такие системы, как Llama 2 и GPT-4o, проводится на массивных GPU-фермах с сотнями, а то и тысячами графических процессоров стоимостью многие миллионы долларов. Это делает такое обучение недоступным для всех предприятий, кроме предприятий класса гиперскейлеров, таких как Meta и крупные публичные облака.
Небольшие тренировочные прогоны, такие как отработка обобщенной модели для конкретных случаев использования, вполне реально проводить в домашних условиях или арендовать время у провайдера с фермой GPU, например у CoreWeave. Решение о том, стоит ли пользоваться услугами провайдера оборудования, может быть связано с вопросами суверенитета данных, а также с опасениями по поводу раскрытия особо важной информации за пределами корпоративных ИТ-стен или длительного времени передачи данных на облачный ресурс GPU-фермы.
Именно здесь на помощь приходит компания Liqid, которая с помощью технологии UltraStack может превратить один сервер Dell R760 AI в мини BasePod для тонкой настройки модели с использованием собственных данных. Сопутствующая ей технология SmartStack позволяет использовать один и тот же ресурс GPU и предоставлять его многим клиентам в виде динамически компонуемых фрагментов.
Компания Liqid сертифицировала модульные инфраструктурные системы Dell PowerEdge, в том числе PowerEdge серии C - C6620, C6625 и C6615 - с помощью своего предложения SmartStack. Это позволяет подключать до 20 графических процессоров к одному модульному серверному узлу. SmartStack также поддерживает MX7000 и позволяет подключать до 20 GPU к модульным серверам MX760c, MX750c и MX740c.