Nvidia Rubin та Groq: Нова ера інференсу ШІ та масового обслуговування

Технологічні гіганти, як-от Anthropic та Meta, пройшли етап «гонки озброєнь» у тренуванні моделей, витративши на це сотні мільярдів доларів. Тепер фокус індустрії зміщується на інференс — процес масової та миттєвої обробки запитів мільярдів користувачів. Генеральний директор Nvidia Дженсен Хуанг розкрив нову архітектуру обробки даних, яка розділить цей процес на два спеціалізовані етапи.

Двоетапна модель обробки запитів: Vera Rubin + Groq

Згідно з новою стратегією, обробка кожного слова користувача тепер відбуватиметься за чітким розподілом ролей між залізом:

Стадія «Prefill» (Підготовка): На цьому етапі слова користувача перетворюються на зрозумілі для ШІ токени. За цю надпотужну обчислювальну роботу відповідатимуть нові чипи Vera Rubin від Nvidia. Це «фундамент», який готує контекст для моделі.
Стадія «Decode» (Генерація): Коли система безпосередньо формує відповідь слово за словом, у гру вступають розробки стартапу Groq. Їхні чипи (LPU) спеціалізуються на надшвидкій швидкості виведення тексту, що дозволяє ШІ «відповідати» миттєво, без затримок.

Архітектура Rubin: Стрибок продуктивності

Nvidia готується до масштабного домінування на ринку інференсу. Нова архітектура Rubin демонструє вражаючі показники порівняно з попереднім поколінням Blackwell:

У 3,5 раза швидша у тренуванні складних моделей.
У 5 разів швидша безпосередньо в інференсі (обробці запитів).

Масове виробництво архітектури Rubin заплановане на другу половину 2026 року, що має зняти дефіцит обчислювальних потужностей для таких гігантів, як Meta, що інтегрують ШІ у кожен свій продукт.

Раніше повідомлялося, що Nvidia планує інвестувати $30 млрд в OpenAI: Reuters розкрив деталі угоди.

Перегляди: 2

Читайте також

У США схвалили інвестицію Nvidia в Intel: угода може сягати $5 млрд

Instagram почав тестування застосунку для телевізорів

OpenAI дозволить еротичний контент у ChatGPT: навіщо компанії та які ризики

Волл-стріт готується до можливого «вибуху» бульбашки штучного інтелекту

Революція інференсу: Nvidia та Groq об’єднують зусилля для масового обслуговування ШІ

Двоетапна модель обробки запитів: Vera Rubin + Groq

Архітектура Rubin: Стрибок продуктивності

Читайте також

Нафтовий параліч: Ірак зупиняє видобуток на родовищах іноземних гігантів через блокаду Затоки

Україна на порозі демографічної пустелі: ООН прогнозує найменшу частку молоді у світі до 2050 року

Енергетичний апокаліпсис 2026: МЕА називає війну з Іраном найбільшою загрозою в історії людства

Феноменальний старт: Олександр Хижняк нокаутував суперника у першому раунді дебютного бою в профі

Трагедія сім’ї Бєлових у Запоріжжі: відкрито збір на допомогу дівчатам, які втратили батьків

Ліквідація наслідків обстрілів Запоріжжя: 60 пошкоджених будинків та робота на генераторах

Революція інференсу: Nvidia та Groq об’єднують зусилля для масового обслуговування ШІ

Нафтовий параліч: Ірак зупиняє видобуток на родовищах іноземних гігантів через блокаду Затоки

Україна на порозі демографічної пустелі: ООН прогнозує найменшу частку молоді у світі до 2050 року

Енергетичний апокаліпсис 2026: МЕА називає війну з Іраном найбільшою загрозою в історії людства

Феноменальний старт: Олександр Хижняк нокаутував суперника у першому раунді дебютного бою в профі

Трагедія сім’ї Бєлових у Запоріжжі: відкрито збір на допомогу дівчатам, які втратили батьків

Ліквідація наслідків обстрілів Запоріжжя: 60 пошкоджених будинків та робота на генераторах

Революція інференсу: Nvidia та Groq об’єднують зусилля для масового обслуговування ШІ

Близький Схід на межі катастрофи: Іран висунув США зустрічний ультиматум — під загрозою питна вода мільйонів

Блискавичний нокаут: Даніель Лапін знищив суперника за 90 секунд на шоу Усика під Києвом

Золотий дубль у Торуні: Ярослава Магучіх — дворазова чемпіонка світу, Юлія Левченко здобула історичне «срібло»