Чому китайська нейромережа DeepSeek стала IT-сенсацією

20 січня 2025 року китайська компанія DeepSeek («Глибокий погляд») випустила моделі DeepSeek-R1-Zero та DeepSeek-R1. Остання всього за один день зуміла стати однією з найпопулярніших програм у світі, обвалити акції Nvidia на $600 млрд і стати конкурентом ChatGPT. Чому нейромережа DeepSeek стала IT-сенсацією, чи справді вона настільки унікальна, як про це заявляють її розробники, і яке майбутнє чекає на китайські нейромережі.

Нейросеть (велика мовна модель) DeepSeek, що стала справжньою сенсацією у світі IT, пройшла довгий шлях до своєї гучної прем’єри. Перші версії DeepSeek, розроблені однойменною лабораторією, що фінансується хедж-фондом High-Flyer, були випущені ще в 2023 році і також мали значний успіх – але за фактом залишилися непоміченими у великому IT-світі, оскільки були орієнтовані на аудиторію Китаю.

«Ситуація змінилася, коли у січні 2025 року розробники випустили DeepSeek-R1, засновану на моделі V3, але із значними покращеннями. За результатами різних тестів вона знаходиться на рівні передових моделей, таких як o1 від OpenAI», – пояснює провідний експерт.

Більше того, як виявилося, порівняно з аналогами DeepSeek-R1 має ряд переваг, у тому числі відкритість та суттєво нижчу вартість використання у хмарі порівняно з конкурентами. Але головною перевагою новинки з Китаю, заявленою розробниками, стало навчання моделі на менш продуктивному устаткуванні в порівнянні з аналогами, яке обійшлося значно дешевше.

Важливий момент полягає в тому, що раніше США ввели санкції для технологічного стримування Китаю в галузі розробки штучного інтелекту (ШІ) та заборонили своїм компаніям продавати в КНР найпотужніше та найпросунутіше обладнання для навчання моделей, зазначає пан Самсонов. Зокрема, заборона стосується Nvidia, яка, по суті, є монополістом у галузі виробництва найпотужніших прискорювачів, які застосовуються для навчання моделей ШІ.

“У зв’язку з цим стало великою несподіванкою, що Китай взагалі зміг створити настільки передові моделі, показавши, що їх можна розробляти значно дешевше”, – говорить експерт.

Вихід нейромережі DeepSeek-R1 сколихнув IT-спільноту та фондові ринки, а багато світових технологічних компаній зазнали значних втрат у капіталізації. Інвестори засумнівалися в доцільності багатомільярдних витрат на розробку ШІ, якщо така потужна модель, як DeepSeek, може бути створена з меншими витратами. Проте досить швидко експерти з’ясували, що китайська нейромережа має свої слабкі сторони.

«DeepSeek – хороший інструмент, але не ідеальний, як це може здатися з публічного просування. Модель могли спеціально натренувати для проходження тестів, що не гарантує аналогічну якість на практиці», — пояснює інженер з інформаційної безпеки.

У деяких завданнях DeepSeek-R1 дійсно показує вражаючі результати, кажуть аналітики і як приклад наводить свій особистий бенчмарк, з яким раніше впоралася лише o1. Тепер до неї приєдналася і DeepSeek, але з помітною різницею: якщо o1 витратила на міркування 50 секунд, то DeepSeek – 400. При цьому китайська нейромережа – перша reasoning-модель, що має доступ до пошуку та здатна частково замінювати пошукові системи.

Однак DeepSeek помітно слабший у гуманітарних питаннях порівняно навіть із ChatGPT-4o або Claude Sonnet 3.5, які не є reasoning-моделями. Ймовірно, розробники зосередилися на технічних завданнях, тоді як конкуренти зі США використовували різноманітнішу навчальну вибірку.

Однак головне питання, пов’язане з DeepSeek-R1, полягає в тому, як розробники нейромережі зуміли створити реального конкурента ChatGPT, за офіційними заявами витративши лише близько $6 млн — у рази менше, ніж коштувала розробка знаменитої моделі ШІ від OpenAI.

Теоретично створення більш доступного аналога ChatGPT можливе шляхом оптимізації архітектури: “Моделі типу Mistral-7B або DeepSeek-MoE показують, що менші за розміром мережі з продуманою структурою можуть досягти якості, порівнянної з GPT-3”.

«Інша важлива обставина – доступність ресурсів. Китайські компанії активно використовують локальні хмари (Alibaba Cloud і Tencent), а також доступні графічні процесори (наприклад, Ascend від Huawei), що суттєво знижує витрати на навчання», – говорить аналітик.

Зрештою, не менш значущою є і державна підтримка: субсидії на ШІ-розробки в Китаї скорочують фінансове навантаження на стартапи. Однак при створенні нейромережі

DeepSeek-R1 міг зіграти свою роль і ще один фактор: сьогодні великі ШІ-розробники підозрюють своїх китайських колег у тому, що ті могли використовувати їх дані для навчання моделі. Розслідування цієї версії продовжується.

“На думку розробників Microsoft і OpenAI, творці нової нейромережі для підвищення якості результатів роботи могли застосовувати дані популярних конкурентів, а потім використовувати методи оптимізації та прискорення”, – кажуть фахівці.

На думку фахівців, низька вартість розробки DeepSeek-R1 неминуче має свою зворотну сторону. Зокрема, DeepSeek стверджує, що їхня модель у десять разів дешевша в експлуатації, ніж GPT-4, завдяки комбінації методів навчання та квантування ваг. Однак спрощення структури моделі може призвести до втрати універсальності, вона гірше справлятиметься з рідкісними запитами.

На сьогоднішній день є питання безпеки даних всередині DeepSeek та реалізації вимог до довіреного ШІ. Ентузіасти вже знаходять уразливості в інфраструктурі DeepSeek. Найближчим часом ринок з цікавістю спостерігатиме, як новий гравець із ними справлятиметься, прогнозує експерт.

Китай активно розвиває сферу штучного інтелекту, і, зважаючи на все, цей процес тільки прискорюватиметься. Основні цілі цієї діяльності – створення конкурентоспроможних товарів, поліпшення економічного прогнозування та підвищення ефективності бізнесу. Згідно з недавніми дослідженнями, за останній рік кількість активних розробок у галузі штучного інтелекту в Китаї зросла більш ніж на 30% і продовжує зростати.

За довгий час такі гіганти, як Alibaba, Baidu і навіть Tencent, не досягли успіху у створенні власного китайського ШІ. Тому поява High-Flyer з їхньою DeepSeek — це справжній прорив для китайського ринку.

Китай, як і США, швидше за все, зосередиться на підтримці однієї провідної компанії у сфері ШІ. Однак у країні вже працює безліч інших компаній, які розробляють власні великі мовні моделі». Тому, продовжує він, число нейромереж зростатиме, але головним чином за рахунок природних ринкових процесів.

При цьому нейромережа від DeepSeek рік тому фактично спровокувала у Китаї справжнє протистояння моделей ШІ, змусивши конкурентів, таких як ByteDance та Alibaba, знижувати ціни на свої продукти, водночас намагаючись підвищити свій прибуток. Надалі, уточнює він, це протистояння лише наростатиме, причому не лише в Китаї.

Для українських користувачів і компаній важливо, що модель DeepSeek доступна в Росії і може бути розгорнута локально всередині конкретної організації. За словами спеціаліста з інформаційної безпеки компанії F.A.C.C.T. Миколи Степанова, це суттєво полегшує роботу тим компаніям, які використовують штучний інтелект, оскільки їм більше не потрібно шукати обхідні шляхи оплати, як, наприклад, з ChatGPT.

Перспективи DeepSeek та інших китайських нейромереж у Росії виглядають дуже перспективними. Вітчизняний ринок зацікавлений у сучасних ІІ-інструментах, здатних підвищити ефективність різних секторів економіки.

Зі зростанням запиту на автоматизацію обробки великих даних DeepSeek може стати корисним інструментом для російських компаній, які прагнуть підвищити якість аналітики. В умовах зростання глобальної конкуренції такі перспективні розробки, як DeepSeek, будуть затребувані в Росії, особливо в сферах, пов’язаних з фінансами і Big Data.

Попит на китайські нейромережі у Росії обумовлений кількома чинниками. По-перше, в умовах санкцій російський бізнес та держструктури вибірково підходять до використання закордонного програмного забезпечення через ризик блокувань. По-друге, DeepSeek, навчену на мультимовних даних, простіше локалізувати для російської мови, ніж моделі, орієнтовані лише на англійську чи китайську.

Водночас існують і перешкоди. Так, не можна ігнорувати культурний бар’єр: багато китайських ШІ гірше розуміють контекст російської мови порівняно з місцевими розробками. До того ж, на ринку досить висока конкуренція, провідні російські IT-компанії активно просувають власні NLP-моделі.

У найближчому майбутньому китайські нейромережі з великою ймовірністю займуть свою нішу в корпоративному секторі (наприклад, аналіз даних для сировинних компаній), але в масовому сегменті.енте поступатимуться російським продуктам. Успіх DeepSeek залежить від її здатності балансувати між якістю, ціною та деякими іншими параметрами. У Росії такі інструменти знайдуть застосування в B2B, але навряд чи замінять локальні аналоги.

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

2025-02-10