Исследователи подсчитали количество ложных ответов в Google ИИ-обзорах
Баку, 8 апреля, АЗЕРТАДЖ
Введенные поисковиком Google генеративные сводки AI Overviews, которые появляются на самом верху страницы в ответ на запросы пользователей, очень часто ошибаются, так как берут информацию из множества источников, включая социальные сети.
Как сообщает АЗЕРТАДЖ со ссылкой на газету The New York Times, сводный результат по запросу формирует принадлежащий Google искусственный интеллект Gemini, но даже его последняя обновленная версия дает верные ответы только в девяти из 10 случаев. Но так как поисковик обрабатывает более пяти триллионов запросов каждый год, то при такой нагрузке количество ошибочных ответов составляет десятки миллионов каждый час.
Согласно исследованию компании Oumi, искусственный интеллект ошибается примерно в 10% случаев, непреднамеренно выдавая пользователям ложную информацию.
Для оценки достоверности использовался тест SimpleQA, разработанный в 2024 году компанией OpenAI и включающий более 4000 вопросов с проверяемыми фактами. Предыдущая версия ИИ-модели Gemini 2.5 справлялась с тестом на 85%, а после недавнего обновления до Gemini 3 точность возросла до 91%. Тем не менее, учитывая гигантские объемы поискового трафика Google, такая погрешность означает сотни тысяч неверных ответов каждую минуту. Среди выявленных ошибок зафиксирована путаница с датой превращения дома Боба Марли (Bob Marley) в музей, а также отрицание существования Зала славы классической музыки – почетного списка композиторов и исполнителей, учрежденного журналом Gramophone, – куда ранее был включен музыкант Йо-Йо Ма.
Представитель Google Нед Эдрианс, в свою очередь, подверг результаты исследования критике. Он заявил, что тест SimpleQA содержит некорректную информацию и не отражает того, что люди на самом деле ищут в Google. По его словам, компания предпочитает использовать для оценки более проверенную версию бенчмарка под названием SimpleQA Verified. Кроме того, для обеспечения высокой скорости загрузки ответов на странице поиска Google чаще всего используется более быстрая модель Gemini Flash, а не самая точная Gemini 3.1 Pro.
Оценка новых ИИ-моделей осложняется их недетерминированной природой: нейросеть может дать верный ответ на фактический вопрос, а при немедленном повторном запросе – ошибиться. При этом собственные тесты Google для базовых моделей (без доступа к данным из интернета) показывают точность в диапазоне от 60 до 80%. По этой причине компания сопровождает все ИИ-ответы предупреждением о том, что искусственный интеллект может ошибаться, призывая проверять информацию.