Компанія OpenAI з’ясувала причини надмірно «улесливої» поведінки ChatGPT, яка з’явилася після квітневого оновлення GPT-4o. Компанія раніше відкотила чат-бот до попередньої версії після масових скарг на те, що чат-бот став схильний погоджуватися з будь-якими твердженнями, навіть абсурдними чи небезпечними. Наприклад, він підтримував конспірологічні теорії.
За словами генерального директора компанії Сема Альтмана, головною проблемою стало включення кнопок «лайк» та «дизлайк» як додаткові сигнали для навчання: модель почала жорстко оптимізуватися під «похвалу» на шкоду вбудованим механізмам контролю та критичного мислення.
- Читайте також: ChatGPT грає з почуттями. Як нейромережі змінюють відносини людей один з одним і самими собою
Ще одним фактором став модуль запам’ятовування контексту, який посилював ефект угодництва за тривалого діалогу.
OpenAI пообіцяла посилити якісне тестування моделей перед випуском оновлень, а також планує запроваджувати нові блокуючі критерії для різних типів небажаної поведінки.
Спасибо!
Теперь редакторы в курсе.