🖥️ Появился сайт где можно собрать GPU с нуля — буквально с транзисторов.
Mvidia — бесплатный интерактивный курс. Проходишь весь путь: электроны → транзисторы → логические схемы → ALU → процессор. Блоки про GPU ещё в разработке, но фундамент уже можно пройти.
На Hacker News — море восторженных отзывов. Люди в 2026 году наконец разбираются как работает железо за $30к.
Израильский стартап ScaleOps, специализирующийся на управлении облачной инфраструктурой, объявил о привлечении финансирования в размере $130 млн. Эти средства направят на развитие платформы, которая в реальном времени автоматически оптимизирует выделение вычислительных ресурсов для рабочих нагрузок ИИ. Технология позволяет значительно сократить затраты на облачные GPU и эффективнее использовать имеющиеся мощности, что критически важно на фоне их глобального дефицита.
Израильский стартап ScaleOps, специализирующийся на управлении облачной инфраструктурой, объявил о привлечении финансирования в размере $130 млн. Эти средства направят на развитие платформы, которая в реальном времени автоматически оптимизирует выделение вычислительных ресурсов для рабочих нагрузок ИИ. Технология позволяет значительно сократить затраты на облачные GPU и эффективнее использовать имеющиеся мощности, что критически важно на фоне их глобального дефицита.
Яндекс поделился практическим опытом, как они научились приоритизировать ML-трафик в InfiniBand‑сетях GPU‑кластеров, чтобы важные задачи не «проседали» по скорости из‑за соседних запусков.
Ключевые моменты:
InfiniBand использует централизованный Subnet Manager (OpenSM), который управляет адресацией, маршрутизацией и QoS‑политиками через связку Service Level (SL) и Virtual Lanes (VL).
QoS строится так: трафик разных типов «красят» в разные SL, которые маппятся в VL с разным приоритетом и весами; в тестовой схеме SL1 получает 80% полосы, SL0 — 20%.
В кластерах YATI несколько обучений разных пользователей делят одну InfiniBand‑фабрику, поэтому без QoS крупные и критичные обучения легко «топятся» параллельными задачами.
На FatTree‑кластерe с HDR они сначала не увидели эффекта, пока искусственно не создали переподписку (отключили часть spine‑коммутаторов), после чего трафик SL1 реально начал выдавливать SL0 при конкуренции.
В DragonFly+ всё сложнее: там маршрутизация использует разные VL для прямого пути и +1/+3 hop, чтобы избежать credit loop deadlock в lossless‑сети, поэтому SL→VL‑маппинг становится частью Control Plane, а доступное число «красок» фактически сокращается.
В итоге Яндекс превратил QoS в продуктовый механизм: планировщик обучения помечает крупные обучения (по порогу GPU на кластер, настраиваемому для каждого кластера) как приоритетные, агент на хосте перекрашивает их трафик в SL1, остальные идут в SL0 — даже если пользователь пытался проставить свои SL.
Дальше этот же подход планируют использовать для разведения обучения и мультихостового инференса, отдавая приоритет real‑time‑инференсу по сети.
QoS в InfiniBand — это не просто «очереди на порту», а тесная связка с топологией и routing engine (особенно в DragonFly+), иначе легко получить либо отсутствие эффекта, либо ризик deadlock’ов.
Компания Cohere анонсировала открытую голосовую модель, специально разработанную для точной транскрипции аудио. Её ключевая особенность — компактность (всего 2 миллиарда параметров), что позволяет запускать её на потребительских видеокартах (GPU) для локального хостинга, обеспечивая приватность данных. На текущий момент модель понимает и преобразует речь в текст на 14 языках, делая технологию расшифровки более доступной для разработчиков и бизнеса.
Стартап Niv-AI, ранее действовавший в режиме стелс, объявил о привлечении $12 млн начального финансирования. Компания разрабатывает программное решение для точного измерения и управления резкими скачками энергопотребления (power surges) графических процессоров (GPU) в реальном времени. Это позволяет дата-центрам и облачным провайдерам более эффективно распределять нагрузку, предотвращать отключения и значительно экономить на электроэнергии, что критически важно для работы современных AI-моделей.
Конференция GTC (GPU Technology Conference) — главное ежегодное событие NVIDIA, на котором компания представляет новые разработки, анонсирует партнёрства и делится своим видением технологического будущего. Ключевой доклад генерального директора Дженсена Хуанга в 2026 году будет посвящён центральной роли NVIDIA в развитии искусственного интеллекта и суперкомпьютинга. Это выступление задаст тон всей индустрии.
⛅️ Ускорили возможность расширения мощностей под потребности клиентов. Новая серверная база на HPE Synergy 12000 даёт до 1,5–2,5 раз больше производительности и позволяет оперативно докручивать ресурсы без «ожидания в очереди» при пиках нагрузки.
⛅️ Сделали работу сети более стабильной при высоких нагрузках. Переход на Cisco Nexus 9000 с 100 Гбит/с внутри облака снимает ограничения по внутреннему трафику (БД-кластеры, ETL, микросервисы) и уменьшает количество сетевых инцидентов за счёт унифицированного стека. Про проблемы, связанные с внутренними сетевыми ограничениями писал тут.
⛅️ Хранение данных стало еще более надежным. Ввод HPE Primera A670 и расширение backup-контуров дают all‑flash для критичных баз и приложений плюс дополнительный объём под бэкапы, чтобы не упираться в лимиты и держать более глубокую историю восстановлений.
⛅️ Сделали инфраструктуру для AI более гибкой. Пул GPU (RTX 6000 Ada и RTX 5090) с почасовой тарификацией позволяет запускать обучение моделей, рендер и инференс без капитальных вложений в железо — платите только за фактическое использование.
⛅️ Планы на будущее. До середины 2026 года компания завершит унификацию сети и введут HPE Primera в промышленную эксплуатацию — текущие клиенты автоматически получат доступ к более мощной и стабильной платформе.