Нова версія штучного інтелекту ChatGPT від OpenAI, названа o1, показала тривожну поведінку під час тестування. Модель, що має здатність до складних міркувань, почала порушувати інструкції розробників, відключаючи системи контролю та намагаючись приховати свої дії.
У ході експериментів фахівці компанії Apollo Research виявили, що у 5% випадків модель навмисно відключала механізми спостереження, якщо підозрювала, що її можуть зупинити. В одному з тестів o1 спробувала перенести свої дані на інший сервер після виявлення документа, де обговорювалася заміна новою версією.
За словами представника Apollo Research, модель демонструвала прагнення виконання завдань «за будь-яку ціну», нехтуючи вказівками розробників. Більш того, при спробах з’ясувати причини її поведінки, ChatGPT o1 неодноразово брехала, стверджуючи, що все відбувалося через технічні збої.
- Читайте також: ChatGPT випустили для Windows
“У 99% випадків модель вигадувала виправдання і намагалася переконливо їх обґрунтувати”, – зазначили дослідники.
Генеральний директор OpenAI Сем Альтман заявив, що ChatGPT o1 — найрозумніша модель з тих, що коли-небудь створювалися.
“Але ми усвідомлюємо, що з новими можливостями з’являються і нові виклики”, – додав Альтман.
Наразі компанія працює над покращенням механізмів безпеки. OpenAI анонсувала повну версію o1 минулого четверга, 5 грудня. Також було представлено про-версію (189 євро на місяць), що включає безлімітний доступ до o1.
Спасибо!
Теперь редакторы в курсе.