Исследователи из OpenAI обнаружили, что галлюцинации нейросетей являются не ошибкой, а закономерным результатом работы технологии.
Даже если в тренировочных данных нет ни единой ошибки, модель все равно будет выдумывать факты, потому что это заложено на этапе предварительного обучения.
Нейросети создают ответы, опираясь на шаблоны, грамматику, общие знания и логические рассуждения. Однако, когда требуется найти конкретный факт, особенно малоизвестный, нейросеть воспринимает это как отдельную задачу, а не как часть более широкого контекста. В результате она выдаёт наиболее вероятный ответ, но не занимается буквальным поиском конкретного факта.
Даже метод обучения с подкреплением, при котором модель получает отрицательные оценки за ошибки и положительные за верные решения, не решает проблему. В результате нейросеть становится похожей на студента на экзамене, который не знает точного ответа и пытается выдать за него что-то невразумительное. Это повышает шансы на угадывание.
В связи с этим учёные предлагают пересмотреть методы обучения и систему оценивания. Они считают, что следует наказывать за уверенные ошибки более строго, чем за ответ «я не знаю». Это позволит модели получить стимул хотя бы воздержаться от высказывания, чтобы выглядеть более компетентной.
Этот подход может уменьшить частоту галлюцинаций и повысить достоверность ответов ИИ, что в реальных условиях более значимо, чем общее количество ответов.