Nvidia покупает SchedMD: ИИ-специалисты опасаются ПО и ограничений

Приобретение компанией Nvidia разработчика SchedMD вызвало волну обсуждений в среде специалистов по искусственному интеллекту и суперкомпьютерам. В центре внимания — не только сама сделка, но и то, как именно крупнейший в мире производитель чипов для ИИ распорядится открытым программным обеспечением, от которого зависят дата-центры и национальные вычислительные центры.

Сигналом для рынка стало заявление Nvidia в декабре прошлого года: компания сообщила о намерении купить SchedMD и тем самым получить контроль над открытым программным продуктом Slurm. Этот инструмент отвечает за планирование вычислительных задач — по сути, он распределяет ресурсы между множеством процессов в суперкомпьютерных системах. Slurm считается критически важным для обучения больших языковых моделей, которые лежат в основе чат-ботов, включая Claude от Anthropic. Помимо коммерческих и исследовательских проектов, Slurm применяется и на государственных суперкомпьютерах: его используют, в частности, для прогнозирования погоды и разработки ядерного оружия.

По данным самой SchedMD, программное обеспечение Slurm поддерживает работу примерно 60% суперкомпьютеров в мире. Пользователи и инженеры, работающие с этими системами, опасаются, что Nvidia в долгосрочной перспективе может «тонко» изменить правила игры: например, выпускать обновления так, чтобы они в первую очередь лучше работали на собственных чипах. В качестве возможной иллюстрации упоминается сценарий, при котором программные доработки появлялись бы быстрее для решений Nvidia, чем для альтернативных платформ, включая процессоры и ускорители Advanced Micro Devices (AMD). При этом Slurm используется как слой управления, который позволяет корректно организовывать работу чипов Nvidia в суперкомпьютерах и в ИИ-ориентированных дата-центрах.

Одновременно в отрасли есть и другая надежда. Многие надеются, что Nvidia, являющаяся самой дорогой публичной компанией в мире, направит ресурсы на обновление Slurm и ускорит развитие системы, которая изначально создавалась для вычислений в государственных структурах и постепенно распространилась в ведущие лаборатории и «фронтирные» проекты в области ИИ.

Ранее подобные опасения внутри профессионального сообщества не становились достоянием широкой публики. В ответ на дискуссии Nvidia заявила, что «клиенты везде выигрывают от нашего открытого исходного кода и бесплатного ПО». Компания подчеркнула, что Slurm — открытый проект, и что она продолжит добавлять улучшения «для всех». Когда объявлялась сделка по приобретению SchedMD, Nvidia также говорила о намерении развивать и широко распространять «open-source, vendor-neutral software» — то есть открытое программное обеспечение без привязки к конкретному вендору (поставщику оборудования).

Почему в отрасли сомневаются в «нейтральности»

Точку зрения Nvidia можно свести к следующему: компания рассматривает сделку как способ расширить собственные инвестиции в открытые технологии, которые помогают развитию ИИ. По словам Аддисона Снелла, генерального директора консалтинговой фирмы Intersect360 Research, Nvidia действительно может принести пользу пользователям Slurm — особенно государственным лабораториям — помогая внедрять более современные подходы в машинном обучении параллельно с традиционными задачами суперкомпьютеров.

Однако Снелл отметил, что у части участников рынка остается ключевой страх: в будущем Nvidia может превратить общедоступный инструмент в продукт, который будет работать заметно лучше или даже почти исключительно с «своими» решениями. Речь, по его формулировке, может идти о том, чтобы оптимизации вели к вытеснению конкурирующих технологий, включая платформы Intel или AMD, а также продукты других компаний в сфере вычислительной инфраструктуры для ИИ.

Один из инженеров, который давно работает со Slurm в суперкомпьютерных средах, пояснил логику потенциальной проверки. На практике, по его мнению, будет видно, насколько быстро Nvidia интегрирует в код Slurm новые чипы AMD, которые запланированы к выходу в течение текущего года, по сравнению с тем, как быстро внедряются изменения, связанные с собственными технологиями Nvidia. В частности, речь может идти о взаимодействии Slurm с сетевыми решениями Nvidia, включая InfiniBand — технологией высокоскоростного обмена данными, которая часто используется в дата-центрах и кластерах суперкомпьютеров.

Те, кто выражает обеспокоенность, — это не случайные наблюдатели. Три из опрошенных специалистов работают в индустрии ИИ, а двое из них обладают знаниями о том, как устроена эксплуатация суперкомпьютеров. Важно, что все они сталкивались с системами, где используется не только оборудование Nvidia, то есть их оценки опираются на реальный опыт работы в смешанных инфраструктурах.

При этом не все пользователи Slurm разделяют тревогу прямо сейчас. Несколько экспертов, которые применяют это ПО, заявили, что в моменте не видят немедленных причин для беспокойства, но осознают существование подобных опасений и внимательно следят за тем, как Nvidia будет развивать Slurm. Для многих в отрасли приобретение Nvidia стало своеобразным «тестом намерений»: вопрос не в том, будет ли компания что-то менять, а в том, как именно изменится баланс возможностей для разных производителей чипов.

Slurm и его распространение в ИИ-лабораториях

Программный пакет Slurm от SchedMD произносится как «sked-em-dee». Он известен тем, что помогает организовать «очереди» и распределение ресурсов в кластерах — от вычисления отдельных задач до больших тренировочных циклов. В индустрии ИИ Slurm применяется в лабораториях и компаниях для части рабочих процессов, связанных с обучением моделей.

Как отмечают отраслевые источники, Slurm используют Meta Platforms, французский стартап Mistral и Anthropic — в том числе для отдельных элементов процесса обучения. В случае OpenAI, по словам представителя компании, применяется иной подход, основанный на технологии, разработанной Google в рамках своего программного стека.

При этом Anthropic, Mistral и Meta не дали комментариев по запросам.

История, усилившая подозрения

Среди причин, почему опасения возникли именно сейчас, специалисты называют прошлый опыт Nvidia с приобретениями. В 2022 году компания купила Bright Computing. Программное обеспечение Bright Computing, по оценкам представителей индустрии, можно использовать и на оборудовании других производителей, но оно оптимизировано под Nvidia. В результате пользователи, которые остаются на альтернативных чипах, могут столкнуться с потерей производительности, если не выполнят дополнительные настройки и доработки.

Nvidia отвергла эти утверждения. Компания заявила, что технологии Bright Computing поддерживают «почти любой CPU или GPU-ускоренный кластер» — то есть применимы к широкому спектру вычислительных систем. В данном контексте CPU и GPU — это центральные и графические процессоры, которые в совокупности образуют «скелет» многих дата-центров и вычислительных платформ.

Как устроены открытые проекты и что именно обещает Nvidia

Технологический фон спора важен: открытый исходный код сам по себе не означает, что любой пользователь может за один день получить полностью готовое решение «под ключ». В реальности требуется инженерная работа, чтобы довести код до состояния, пригодного для стабильной эксплуатации в конкретных кластерах, с учетом драйверов, сетевой инфраструктуры и особенностей аппаратной конфигурации.

Тем не менее Nvidia подчеркивает свою позицию относительно участия сообщества. Компания заявила, что поощряет других присоединяться к развитию экосистемы свободного и открытого программного обеспечения. В заявлении также говорится о «послужном списке» компании: Nvidia, по ее словам, продолжает предоставлять бесплатные и улучшенные продукты после приобретения фирм, разрабатывающих open-source решения.

Отдельно Nvidia сообщила, что намерена «продолжать» поддержку открытого ПО, а также обучение и разработку Slurm — для сотен клиентов SchedMD.

Таким образом, ключевой вопрос для отрасли сейчас звучит просто: смогут ли пользователи Slurm сохранить прежнюю свободу выбора аппаратной платформы, или же развитие после сделки приведет к более ощутимой зависимости от конкретных решений Nvidia. Именно эта перспектива и превращает приобретение SchedMD в проверку не только технической, но и рыночной модели — на фоне растущей роли ИИ-вычислений в мировой инфраструктуре.