Аналітична компанія Relum оприлюднила підсумковий грудневий звіт щодо точності роботи провідних нейромереж світу. Головною сенсацією стало лідерство чат-бота Grok від компанії xAI, який продемонстрував найнижчу схильність до «галюцинацій» серед усіх конкурентів.
Про це йдеться у дослідженні, результати якого публікує видання Relum.
Битва точних відповідей: результати тестування
Експерти проаналізували десять найпопулярніших моделей штучного інтелекту за рівнем ризику для корпоративного сектору. Виявилося, що розпіарені гіганти ринку значно частіше видають недостовірну інформацію, ніж новіші розробки.
Рівень помилок (галюцинацій) моделей ШІ:
-
Grok (xAI): 8% — найвищий показник надійності.
-
Perplexity: 13% — лідер серед пошукових ШІ-інструментів.
-
DeepSeek (Китай): 14% — найкраща модель з Азії.
-
Claude (Anthropic): 17% — стабільний результат для складних текстів.
-
Microsoft Copilot: 27% — середній рівень надійності.
-
ChatGPT (OpenAI): 35% — високий ризик помилкових даних.
-
Google Gemini: понад 40% — найнижчий рівень точності в рейтингу.
Читайте також: ChatGPT думає замість нас? Чи шкодить штучний інтелект людському мисленню
Чому це важливо для бізнесу?
Фахівці наголошують, що у 2025 році штучний інтелект перестав бути просто розвагою: понад 65% компаній у США вже інтегрували нейромережі у свої робочі процеси. Для корпоративного сектору точність у 60% (як у Gemini) є неприйнятною, оскільки це створює юридичні та фінансові ризики.
«Бізнес починає обирати ШІ-інструменти не за гучним брендом, а за показником фактичної точності. Галюцинації нейромереж стають головним бар’єром для впровадження технологій у медицину, юриспруденцію та фінанси», — зазначають аналітики Relum.
Прогноз на 2026 рік
Очікується, що боротьба за зниження рівня «галюцинацій» стане головним трендом наступного року. На тлі створення Європейського фонду штучного інтелекту на €12 млрд, компанії OpenAI та Google будуть змушені змінити підхід до навчання моделей, щоб не втратити корпоративний ринок, який стрімко переходить до надійніших Grok та Claude.





