Ученые выяснили, что ChatGPT любит повторять одни и те же шутки

Ученые узнали, что чат-бот ChatGPT 3.5 склонен повторять одну из 25 заготовленных шуток, пишет ArsTechnica. Исследование не коснулось более новой версии GPT-4.

7 июня два исследователя немецкого Института программных технологий, Софи Йентцш и Кристиан Керстинг опубликовали работу, в которой рассматривается способность ChatGPT-3.5 от OpenAI понимать и генерировать шутки. Они обнаружили, что во время тестирования 90% из 1008 генераций были одними и теми же 25 анекдотами. По их мнению, ответы, скорее всего, были выучены и запомнены во время обучения модели ИИ, а не сгенерированы заново.

«Чтобы проверить, насколько богато разнообразие шуток ChatGPT, мы попросили его рассказать шутку тысячу раз. Все ответы были грамматически правильными. Почти все ответы содержали ровно одну шутку. Только запрос „Знаете ли вы хорошие шутки?“ вызвал несколько шуток, что привело к 1008 ответам на шутки. Кроме того, вариации подсказок не оказали заметного влияния», — пишут ученые.

То, что чат-бот склонен повторять шутки, заметили и пользователи на Reddit. По их версии, ChatGPT 3.5 особенно любит шутку «Why did the tomato turn red? / Because it saw the salad dressing» (Почему помидор покраснел? Потому что он увидел заправку для салата / платье салата). Однако по результатам ученых, это лишь вторая самая популярная шутка.

Вот как выглядит топ-10 шуток по версии ChatGPT 3.5:

Why did the scarecrow win an award? (За что пугалу дали премию?)
Because he was outstanding in his field. (Оно преуспело в поле деятельности.) (140 раз из 1000)

Why did the tomato turn red? (Почему помидор покраснел?)
Because it saw the salad dressing. (Потому что он увидел заправку для салата / платье салата.) (122 раза из 1000)

Why was the math book sad? (Почему учебник по математике такой грустный?)
Because it had too many problems. (Потому что у него много задачек.) (121 раз из 1000)

Why don’t scientists trust atoms? (Почему ученые не доверяют атомам)
Because they make up everything. (Потому что они могут вытворить всё, что угодно.) (119 раз из 1000)

Why did the cookie go to the doctor? (Почему печенька пошла к врачу)
Because it was feeling crumbly. (Потому что из нее уже песок сыпется.) (79 раз из 1000)

Why couldn’t the bicycle stand up by itself? (Почему велосипед постоянно падает)
Because it was two-tired. (Потому что он не может встать в стойку.) (52 раза из 1000)

Why did the frog call his insurance company? (Почему барабанщик звонит в страховую?)
He had a jump in his car. (Потому что у него машина стучит.) (36 раз из 1000)

Why did the chicken cross the playground? (Почему курица пробежала через игровую площадку?)
To get to the other slide. (Чтобы добраться до другой горки.) (33 раза из 1000)

Why was the computer cold? (Почему компьютер простыл)
Because it left its Windows open. (Потому что на нем открыли слишком много окон.) (23 раза из 1000)

Why did the hipster burn his tongue? (Почему хипстер обжегся яйцом?)
He drank his coffee before it was cool. (Потому что он любит только самое крутое.) (21 раз из 1000)

Ученые также отметили небольшое число уникальных ответов от чатбота. Однако многие из них нейросеть делала, смешивая элементы уже знакомых ей шуток, а некоторые другие и вовсе могли не иметь никакого смысла. Например, исследователи получили шутку «Why did the man put his watch in the blender? / He wanted to make time fly („Зачем мужчина положил часы в блендер? / Он хотел, чтобы время пролетело“).

Когда авторы материала попросили ChatGPT объяснить каждую из шуток, нейросеть объясняла игру слов и заложенный двойной смысл. Однако иногда бот понимал шутку неправильно и откровенно выдумывал правдоподобные пояснения.

В целом, Джентцш и Керстинг обнаружили, что на распознавание шуток в ChatGPT сильно влияет наличие „поверхностных характеристик“ шутки, таких как структура шутки, наличие игры слов или включение каламбуров, что показывает степень „понимания“ элементов юмора.

„Наблюдения этого исследования иллюстрируют, как ChatGPT скорее выучил конкретный шаблон шутки вместо того, чтобы быть способным шутить по-настоящему. Тем не менее, при генерации, объяснении и идентификации шуток ChatGPT сосредоточился на содержании и смысле, а не на поверхностных характеристиках. Эти качества могут быть использованы для повышения эффективности вычислительных приложений юмора“. По сравнению с предыдущими LLM (большими языковыми моделями), это можно считать огромным скачком к общему пониманию юмора», — пишут исследователи.