Технологічні гіганти, як-от Anthropic та Meta, пройшли етап «гонки озброєнь» у тренуванні моделей, витративши на це сотні мільярдів доларів. Тепер фокус індустрії зміщується на інференс — процес масової та миттєвої обробки запитів мільярдів користувачів. Генеральний директор Nvidia Дженсен Хуанг розкрив нову архітектуру обробки даних, яка розділить цей процес на два спеціалізовані етапи.
Двоетапна модель обробки запитів: Vera Rubin + Groq
Згідно з новою стратегією, обробка кожного слова користувача тепер відбуватиметься за чітким розподілом ролей між залізом:
-
Стадія «Prefill» (Підготовка): На цьому етапі слова користувача перетворюються на зрозумілі для ШІ токени. За цю надпотужну обчислювальну роботу відповідатимуть нові чипи Vera Rubin від Nvidia. Це «фундамент», який готує контекст для моделі.
-
Стадія «Decode» (Генерація): Коли система безпосередньо формує відповідь слово за словом, у гру вступають розробки стартапу Groq. Їхні чипи (LPU) спеціалізуються на надшвидкій швидкості виведення тексту, що дозволяє ШІ «відповідати» миттєво, без затримок.
Архітектура Rubin: Стрибок продуктивності
Nvidia готується до масштабного домінування на ринку інференсу. Нова архітектура Rubin демонструє вражаючі показники порівняно з попереднім поколінням Blackwell:
-
У 3,5 раза швидша у тренуванні складних моделей.
-
У 5 разів швидша безпосередньо в інференсі (обробці запитів).
Масове виробництво архітектури Rubin заплановане на другу половину 2026 року, що має зняти дефіцит обчислювальних потужностей для таких гігантів, як Meta, що інтегрують ШІ у кожен свій продукт.
Раніше повідомлялося, що Nvidia планує інвестувати $30 млрд в OpenAI: Reuters розкрив деталі угоди.





