XenBaza
www.xenbaza.ru
Ученые из Универа штата Пенсильвания задавали GPT-4o по 50 вопросов из разных областей знаний, формулируя их в разном тоне: от очень вежливого до крайне грубого. Более резкий тон повысил точность ответов с 80.8% до 84.8%
Однако эту работу раскритиковала другая группа исследователей — выборка слишком маленькая, указывают они. Поэтому они протестировали несколько моделей, каждую на сотнях вопросов.
В их эксперименте Gemini 2.0 Flash оказалась невосприимчива к тону, а результаты GPT-4o mini и Llama4 Scout в гуманитарных задачах ухудшались при грубом обращении.
Подобрать универсальный стиль промпта ученые пытаются уже не первый год, однако результаты до сих пор противоречивые. Например, для ранних моделей GPT-3.5 и LLama2-70B вежливые запросы работали заметно эффективнее грубых: модели прямо зеркалили поведение пользователя.
Ученые из Пенсильванского университета вовсе пришли к выводу, что даже для одной модели сложно предсказать реакцию на тон запроса. Иногда вежливость улучшает результат, а иногда — снижает.
Универсального бенчмарка на эффективность грубости и лести для ИИ пока нет. А новые версии моделей (со своими нюансами) выходят быстрее объективных исследований их поведения.
Остается экспериментировать самим!