Почему лучшие нейросети не могут решить детские задачки?

Tristan · 21 Окт 2025

Для предотвращения утечки данных выбрали албанский вариант заданий за март 2025 года.

Исследователи из MathArena решили провести эксперимент: они «отправили ИИ в школу», предложив ему задачи из международной детской олимпиады «Кенгуру».

Для предотвращения утечки данных выбрали албанский вариант заданий за март 2025 года. В него вошли 168 задач, предназначенных для учеников с 1-го по 12-й класс. Задания перевели на английский язык и представили в виде единого изображения, включающего текст, рисунок и варианты ответов, как на настоящей олимпиаде. Это потребовало от модели не просто чтения текста, а его визуального восприятия, что позволило ей "видеть" задания.

Были проведены испытания восьми моделей, включая закрытые GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 и Grok 4, а также две открытые модели — GLM-4.5V и Qwen3-VL-235B.

Парадоксально, но с увеличением возраста учеников задачи становятся сложнее, и это усложняет работу моделей. Однако результаты оказались неожиданными: модели справились с задачами для 1-2 классов от 32% до 69%, тогда как для 11-12 классов их успешность достигала 95%!

В начальных классах 80 % заданий требуют анализа изображений — например, определения цвета сектора или подсчёта кубиков. У старшеклассников большинство задач представлены в текстовой форме. Однако проблема не только в визуальных элементах: даже если исключить вопросы с картинками, разница остаётся.

Источник проблем в работе больших языковых моделей (LLM) лежит в их способе мышления. Для маленьких детей ключевыми являются базовые навыки, такие как зрительное восприятие и пространственное воображение, которые нейросетям даются с трудом. Для более зрелой аудитории характерны абстрактные размышления, в которых искусственный интеллект чувствует себя уверенно. Это демонстрирует парадокс Моравека: машины способны легко решать сложные математические задачи, такие как взятие интеграла, но при этом испытывают трудности с различением простых визуальных объектов, например, зеленого треугольника и синего квадрата. Чтобы «видеть мир глазами», моделям необходимо развивать не интеллект, а способность к восприятию.

Почему лучшие нейросети не могут решить детские задачки?

Tristan

Похожие темы