Эксперты усомнились в справедливости победы ИИ над людьми в IQ-тестах
Эксперимент журналиста Максима Лотта, в котором нейросеть показала лучший результат IQ-теста по сравнению со средним у людей, интересен, но не является основанием для сравнения искусственного интеллекта (ИИ) и человеческого или оценки развития ИИ, в этом следует быть осторожными, заявили опрошенные РБК эксперты.
В начале марта журналист Максим Лотт опубликовал результаты проведенного им эксперимента с нейросетями, в котором он применил визуальный IQ-тест компании Mensa. Сначала все нейросети провалили тест, но потом Лотт описал используемые в нем картинки текстом, после чего ИИ справился с тестом.
Лучший результат показала Claude-3 от Anthropic (бывшие разработчики OpenAI, которая создала Chat GPT, занявшую второе место), вышедшая за день до проведения эксперимента, — 101 балл. Это выше среднего показателя для человека, за который обычно берется 100 баллов. Журналист заключил, что, согласно закону Мура, через два года нейросети смогут показывать результат 140 баллов, что гораздо больше среднего показателя для человека.
Технический директор «Яков и партнеры Digital» Федор Чемашкин отметил, что генеративный ИИ обучают на «огромном массиве данных», в который входит и информация о тестах IQ, которые подвергаются критике, поскольку проверяют в основном логическое мышление и зависят от психоэмоционального состояния. Специалист считает, что итоги теста Лотта были ожидаемы, ИИ со временем будет только лучше проходить такие тесты, так как изучает различные модели логического мышления и не зависит от психоэмоционального состояния.
Чемашкин считает, что более показательными будут оценки ИИ, основанные на решении нейросетью реальных задач, в том числе из корпоративного сектора, включая оценку способности ИИ осмысленно решать такие задачи. Такие бенчмарки уже существуют, и показатели по ним показывают прогресс в развитии искусственного интеллекта, добавил эксперт.
С ним согласна и руководитель проектов «Яков и партнеры», соавтор исследования «Искусственный интеллект в России — тренды и перспективы» Марина Дорохова. Она назвала использование теста IQ как одного из возможных бенчмарков для ИИ «интересным подходом», но отметила, что как пользователей, так и компании больше интересует оценка способности нейросети решать прикладные задачи. Кроме того, существует множество тестов IQ.
«Способность сети выдать 100-процентный результат на тесте IQ не имеет прямой связи с интеллектом. Машинный и человеческий интеллект — это принципиально разные категории, с разными принципами функционирования. И в общем случае без аккуратной методологии испытаний их сравнение на подобных тестах не имеет смысла, кроме маркетингового, и ничего не предсказывает», — так оценивает эксперимент директор по науке компании «Тридиви» (ГК «Папилон») Алексей Самосюк.
Самосюк называет его формально корректным, но отмечает, что без доступа к моделям нельзя проверить чистоту теста. «Ведь ровно такой же результат способна выдать средняя вопросно-ответная система, если заранее скормить ей ответы. И даже лучше», — заявил он.
Дорохова призвала быть осторожными с такими выводами, поскольку в эксперименте использовался лишь один из множества IQ-тестов.
Что касается вывода Лотта о том, что, согласно закону Мура, через пару лет можно будет ожидать, что нейросети в тесте IQ будут набирать более 140 баллов, специалисты согласны, что ИИ развивается очень быстро, но эта оценка не основывается только на этом эксперименте.
Эксперты из «Яков и партнеры» отмечают, что ИИ уже оказывает все большое влияние как на экономику и бизнес, так и на повседневную жизнь. По оценкам компании, общий эффект от внедрения ИИ российским бизнесом к 2028 году может достичь 4,2–6,9 трлн руб. и обеспечить прирост до 4% ВВП. Однако технологии продолжают развиваться, появляются новые возможности их применения в бизнесе, так что оценка может измениться, уточнил Чемашкин.
Кроме того, увеличилась и скорость появления новых генеративных моделей, нацеленных на разные потребности и задачи, добавила Дорохова, что приближает возможность появления у каждого пользователя личного цифрового помощника.
«Со временем большие языковые модели будут становиться все более универсальными и научатся не только выполнять большой спектр задач без дообучения, но и смогут «выйти» в физический мир и взаимодействовать с окружающей средой: заказать такси, забронировать авиабилет, отправить письмо», — считает она.
По мнению Самосюка, развитие ИИ напрямую зависит от того, сколько в это вкладывают средств: «Само там ничего не прогрессирует, текущий прогресс — результат миллиардных инвестиций в отрасль на протяжении многих лет. И эти инвестиции действительно значительно выросли в последние годы».