Революція інференсу: Nvidia та Groq об’єднують зусилля для масового обслуговування ШІ

Screenshot 46

Технологічні гіганти, як-от Anthropic та Meta, пройшли етап «гонки озброєнь» у тренуванні моделей, витративши на це сотні мільярдів доларів. Тепер фокус індустрії зміщується на інференс — процес масової та миттєвої обробки запитів мільярдів користувачів. Генеральний директор Nvidia Дженсен Хуанг розкрив нову архітектуру обробки даних, яка розділить цей процес на два спеціалізовані етапи. 

Двоетапна модель обробки запитів: Vera Rubin + Groq

Згідно з новою стратегією, обробка кожного слова користувача тепер відбуватиметься за чітким розподілом ролей між залізом:

  1. Стадія «Prefill» (Підготовка): На цьому етапі слова користувача перетворюються на зрозумілі для ШІ токени. За цю надпотужну обчислювальну роботу відповідатимуть нові чипи Vera Rubin від Nvidia. Це «фундамент», який готує контекст для моделі.

  2. Стадія «Decode» (Генерація): Коли система безпосередньо формує відповідь слово за словом, у гру вступають розробки стартапу Groq. Їхні чипи (LPU) спеціалізуються на надшвидкій швидкості виведення тексту, що дозволяє ШІ «відповідати» миттєво, без затримок.

Архітектура Rubin: Стрибок продуктивності

Nvidia готується до масштабного домінування на ринку інференсу. Нова архітектура Rubin демонструє вражаючі показники порівняно з попереднім поколінням Blackwell:

  • У 3,5 раза швидша у тренуванні складних моделей.

  • У 5 разів швидша безпосередньо в інференсі (обробці запитів).

Масове виробництво архітектури Rubin заплановане на другу половину 2026 року, що має зняти дефіцит обчислювальних потужностей для таких гігантів, як Meta, що інтегрують ШІ у кожен свій продукт.

Раніше повідомлялося, що Nvidia планує інвестувати $30 млрд в OpenAI: Reuters розкрив деталі угоди.