Ученые показали, что искусственный интеллект всегда будет галлюцинировать и догадываться «как студент на экзамене»; виноваты системы оценки искусственного интеллекта.

Существенная проблема с искусственным интеллектом, таким как ChatGPT, заключается в его склонности к «галлюцинациям» — по сути, к выдумыванию информации. Поскольку эти фабрикации непредсказуемы, пользователям, которые полагаются на ИИ в помощи с написанием текстов, необходимо тщательно проверять создаваемый им контент. В противном случае они рискуют распространять неверную информацию. По данным исследователей OpenAI, эта проблема неизбежна (сообщает Computer World).

🧐

Думаешь, 'медвежий рынок' — это что-то про Baldur's Gate 3? Тебе сюда. Объясним, почему Уоррен Баффет не покупает щиткоины.

Диверсифицировать портфель

Искусственный интеллект всегда будет выдавать галлюцинации.

Недавнее исследование под названием «Почему языковые модели галлюцинируют» обнаружило, что системы искусственного интеллекта часто выдумывают информацию, потому что способ их тестирования вознаграждает *любой* ответ, даже если он неверен. Современные критерии оценки ИИ отдают приоритет предоставлению ответа над признанием незнания, что заставляет их уверенно гадать, вместо того чтобы сказать «Я не знаю».

Это поведение похоже на поведение учеников, которые готовы написать что угодно в ответ на вопрос теста, лишь бы не оставлять его пустым.

Подобно тому, как ученики могут угадывать ответы на сложные вопросы в тестах, большие языковые модели иногда выдумывают ответы, когда не уверены, представляя их как правдивые. Эти правдоподобные, но неверные утверждения, часто называемые «галлюцинациями», продолжают возникать даже в самых продвинутых системах и могут подорвать наше доверие к ним.

Я читал о том, как различные чат-боты на основе искусственного интеллекта сопоставляются с ChatGPT, и это довольно дико. Они провели тест, в котором задали простой вопрос — сколько букв ‘d’ в слове ‘deepseek’? Казалось бы, легко, верно? Но DeepSeek-V3 ошибся десять раз подряд, утверждая, что там либо две, либо три буквы ‘d’. И это еще не все — Claude 3.7 Sonnet вообще ответил шестью или семью! Серьезно? Это довольно простой тест, и эти ИИ действительно с ним боролись.

ChatGPT-5 также склонен к галлюцинациям, хотя, по словам ученых, в меньшей степени. Модель продемонстрировала это еще в августе, когда ответила «Я не знаю» на вопрос интернет-пользователя, что впечатлило многих, включая Илона Маска, поскольку это было воспринято как очень человеческая реакция. Интересно, что в эксперименте более примитивные модели допускали меньше ошибок, чем более продвинутые (o1 с 16% галлюцинаций, o3 с 33% галлюцинаций и o4-mini с 48% галлюцинаций).

Исследования показывают, что системы искусственного интеллекта неизбежно время от времени будут «галлюцинировать» — выдавать неверную или бессмысленную информацию. Вместо того, чтобы пытаться полностью устранить это, нам следует сосредоточиться на управлении этим явлением. Текущие методы оценки также нуждаются в пересмотре, чтобы не поощрять системы просто угадывать, а вместо этого вознаграждать их за признание того, что они чего-то не знают. Однако для достижения этого необходимы четкие правила и стандарты в отрасли.

Смотрите также

2025-09-23 10:32