График METR: почему все неправильно понимают прогресс ИИ
Дата публикации

Что такое график METR и почему он вызывает споры
Когда крупные игроки вроде OpenAI, Google или Anthropic представляют новую языковую модель, сообщество искусственного интеллекта замирает в ожидании. Все ждут обновления знаменитого графика от METR - некоммерческой организации, занимающейся оценкой моделей и исследованием угроз. Этот график появился в марте прошлого года и с тех пор стал центром обсуждений в мире ИИ.
График показывает, что определенные способности искусственного интеллекта растут по экспоненте. Более того, свежие модели превосходят даже этот впечатляющий тренд. Особенно ярко это проявилось с выходом Claude Opus 4.5 от Anthropic в конце ноября. В декабре METR объявила: новая версия способна самостоятельно выполнять задачи, на которые у человека уходит около пяти часов. Это огромный скачок, превышающий прогнозы экспоненциального роста.
Реакция была драматичной. Один исследователь безопасности из Anthropic написал, что изменит направление своих исследований после этих результатов. Другой сотрудник компании просто выразился: «мама, забери меня отсюда, мне страшно». Но реальность сложнее этих эмоциональных откликов.
Погрешности и неопределенность в измерениях
Оценки способностей конкретных моделей от METR имеют существенные погрешности. Как сама организация четко заявила в социальных сетях, Opus 4.5 может регулярно справляться только с задачами, занимающими у людей около двух часов. Или же модель способна решать задачи длительностью до 20 часов. Из-за неопределенностей, присущих методике, точно узнать невозможно.
«Люди во многих отношениях слишком много читают в этом графике», - говорит Сидни Фон Аркс, член технического персонала METR. Более того, график не измеряет способности ИИ в целом и не претендует на это. Чтобы построить его, METR тестирует модели в основном на задачах кодирования. Сложность каждой задачи определяется тем, сколько времени требуется человеку на ее выполнение - метрика, которую принимают не все.
Claude Opus 4.5 может справляться с определенными задачами, требующими пяти часов у человека. Но это совсем не означает, что модель близка к замене живого работника. Узнайте больше о практическом применении ИИ-технологий на AI Projects.
Как устроена методология METR
METR была основана для оценки рисков, которые несут передовые системы искусственного интеллекта. Хотя организация наиболее известна графиком экспоненциального тренда, она также работала с ИИ-компаниями для детальной оценки их систем. В июле 2025 года METR опубликовала широко освещенное исследование, предполагающее, что ИИ-ассистенты для кодирования могут фактически замедлять работу программистов.
Но именно экспоненциальный график создал репутацию METR. Организация, похоже, имеет сложные отношения с восторженным приемом этого графика. В январе Томас Ква, один из ведущих авторов статьи, представившей график, написал пост в блоге. Он ответил на критику и прояснил ограничения методики. METR сейчас работает над более подробным документом с часто задаваемыми вопросами.
Однако Ква не оптимистичен, что эти усилия существенно изменят дискуссию. «Думаю, машина хайпа в любом случае просто вырежет все оговорки», - говорит он. Тем не менее команда METR считает, что график говорит что-то значимое о траектории прогресса ИИ. «Вы абсолютно не должны привязывать свою жизнь к этому графику», - отмечает Фон Аркс. «Но также, - добавляет она, - держу пари, что этот тренд продолжится».
Что означает «временной горизонт» модели
Часть проблемы с графиком METR в том, что он намного сложнее, чем выглядит. Ось X достаточно проста - она отслеживает дату выпуска каждой модели. Но ось Y - вот где начинаются сложности. Она фиксирует «временной горизонт» каждой модели - необычную метрику, которую создала METR и которую, по словам Квы и Фон Аркс, часто неправильно понимают.
Чтобы точно понять, что такое временные горизонты моделей, полезно знать всю работу, которую METR вложила в их расчет. Сначала команда собрала набор задач - от быстрых вопросов с вариантами ответов до детальных задач по кодированию. Все они так или иначе относились к разработке программного обеспечения. Затем они попросили живых программистов попытаться решить большинство этих задач и оценили, сколько времени им потребовалось. Так задачам присвоили базовое человеческое время. Некоторые задачи занимали у экспертов считанные секунды, другие требовали нескольких часов.
Когда METR тестировала большие языковые модели на этом наборе, выяснилось: продвинутые модели легко справлялись с быстрыми задачами. Но по мере того как модели пытались решить задачи, на которые у людей уходило все больше времени, их точность начинала падать. По результатам работы модели исследователи вычисляли точку на временной шкале человеческих задач, в которой модель успешно выполняла около 50% задач. Эта точка и есть временной горизонт модели.
Распространенные заблуждения о графике
Вся эта детализация есть в блоге и научной статье, которые METR выпустила вместе с оригинальным графиком временных горизонтов. Но график часто распространяется в социальных сетях без этого контекста, и истинное значение метрики временного горизонта теряется. Одно распространенное заблуждение - что числа на оси Y графика (около пяти часов для Claude Opus 4.5, например) представляют продолжительность времени, в течение которого модели могут работать самостоятельно. Это не так.
Они представляют, сколько времени требуется людям для выполнения задач, с которыми модель может успешно справиться. Ква видел эту ошибку так часто, что специально исправил ее в самом начале своего недавнего поста. Когда его спросили, какую информацию он добавил бы к версиям графика, циркулирующим онлайн, он сказал, что включил бы слово «человеческое» всякий раз, когда упоминается время выполнения задачи.
Насколько сложной и широко неправильно интерпретируемой ни была бы концепция временного горизонта, она имеет базовый смысл. Модель с часовым временным горизонтом могла бы автоматизировать некоторые скромные части работы программиста. Модель с 40-часовым горизонтом потенциально могла бы выполнить дни работы самостоятельно.
Критика метрики времени выполнения
Но некоторые эксперты ставят под сомнение, является ли время, которое люди тратят на задачи, эффективной метрикой для количественной оценки возможностей ИИ. «Не думаю, что это обязательно данность - что если что-то занимает больше времени, это будет более сложная задача», - говорит Иниолува Дебора Раджи, аспирантка Калифорнийского университета в Беркли, изучающая оценку моделей.
Фон Аркс говорит, что она тоже изначально скептически относилась к тому, что временной горизонт - правильная мера. Ее убедили результаты анализа, проведенного ею и коллегами. Когда они рассчитали 50%-ный временной горизонт для всех основных моделей, доступных в начале 2025 года, а затем нанесли каждую на график, они увидели: временные горизонты для топовых моделей увеличивались со временем. Более того, темп прогресса ускорялся.
Каждые примерно семь месяцев временной горизонт удваивался. Это означает, что самые продвинутые модели могли выполнять задачи, занимавшие у людей 9 секунд в середине 2020 года, 4 минуты в начале 2023 года и 40 минут в конце 2024 года. «Могу теоретизировать сколько угодно о том, имеет ли это смысл, но тренд налицо», - говорит Фон Аркс.
Влияние графика на общественное мнение
Именно эта драматическая закономерность сделала график METR таким блокбастером. Многие узнали о нем, прочитав «AI 2027» - вирусную научно-фантастическую историю и количественный прогноз, предполагающий, что сверхразумный ИИ может уничтожить человечество к 2030 году. Авторы «AI 2027» основывали некоторые свои предсказания на графике METR и широко цитировали его. По словам Фон Аркс, «немного странно, когда многие люди знакомы с вашей работой через эту довольно предвзятую интерпретацию».
Конечно, множество людей ссылаются на график METR, не представляя масштабных смертей и разрушений. Для некоторых энтузиастов ИИ экспоненциальный тренд указывает, что ИИ скоро откроет эру радикального экономического роста. Венчурная компания Sequoia Capital недавно опубликовала пост под названием «2026: Это AGI», использующий график METR для аргументации, что ИИ, способный действовать как сотрудник или подрядчик, скоро появится. «Провокация действительно была типа: 'Что вы будете делать, когда ваши планы измеряются веками?'» - говорит Соня Хуанг, генеральный партнер Sequoia и один из авторов поста.
Для практического понимания возможностей современного ИИ и его внедрения в бизнес-процессы посетите AI Projects.
Разрыв между графиком и реальностью
Но то, что модель достигает часового временного горизонта на графике METR, не означает, что она может заменить час человеческой работы в реальном мире. Во-первых, задачи, на которых оцениваются модели, не отражают сложности и путаницы реальной работы. В своем оригинальном исследовании Ква, Фон Аркс и их коллеги количественно оценили то, что они называют «грязностью» каждой задачи.
Критерии включали: знает ли модель точно, как ее оценивают, и может ли она легко начать сначала, если совершит ошибку (для грязных задач ответ на оба вопроса был бы «нет»). Они обнаружили, что модели заметно хуже справляются с грязными задачами, хотя общая закономерность улучшения сохраняется как для грязных, так и для не-грязных.
И даже самые грязные задачи, которые рассматривала METR, не могут предоставить много информации о способности ИИ взяться за большинство профессий, потому что график основан почти полностью на задачах кодирования. «Модель может становиться лучше в кодинге, но она не станет волшебным образом лучше ни в чем другом», - говорит Дэниел Кан, доцент кафедры компьютерных наук Университета Иллинойса в Урбана-Шампейн.
В последующем исследовании Ква и его коллеги действительно обнаружили, что временные горизонты для задач в других областях также, похоже, находятся на экспоненциальных траекториях. Но эта работа была гораздо менее формальной.
Научная ценность исследования METR
Несмотря на эти ограничения, многие люди восхищаются исследованием группы. «Исследование METR - одно из наиболее тщательно разработанных в литературе для такого рода работы», - сказал мне Кан. Даже Гэри Маркус, бывший профессор Нью-Йоркского университета и профессиональный критик больших языковых моделей, описал большую часть работы, вложенной в график, как «потрясающую» в посте блога.
Некоторые люди почти наверняка продолжат читать график METR как предсказание нашей гибели, вызванной ИИ. Но в реальности это нечто гораздо более банальное - тщательно сконструированный научный инструмент, который придает конкретные числа интуитивному ощущению прогресса ИИ людьми. Как охотно согласятся сотрудники METR, график далек от совершенного инструмента. Но в новой и быстро развивающейся области даже несовершенные инструменты могут иметь огромную ценность.
«Это группа людей, старающихся изо всех сил создать метрику при множестве ограничений. Она глубоко ущербна во многих отношениях», - говорит Фон Аркс. «Я также думаю, что это одна из лучших вещей в своем роде».
Выводы: что на самом деле показывает график
График METR стал символом прогресса искусственного интеллекта, но его истинное значение часто искажается. Метрика временного горизонта не измеряет время автономной работы ИИ, а показывает сложность задач по человеческим меркам. График основан преимущественно на задачах кодирования и не отражает способности моделей в других областях.
Погрешности измерений значительны - модель может справляться с задачами от двух до 20 часов при заявленном показателе в пять часов. Экспоненциальный рост впечатляет, но не означает скорую замену человеческих работников. Модели хуже справляются с «грязными» задачами из реального мира, где нет четких критериев оценки.
Тем не менее график остается ценным инструментом для отслеживания прогресса ИИ. Он дает конкретные цифры там, где раньше были только интуитивные ощущения. Исследование METR признается экспертами как одно из наиболее тщательно разработанных в своей области. График не предсказывает апокалипсис и не обещает немедленную экономическую революцию - он просто показывает, как развиваются определенные способности ИИ в кодировании.
Для тех, кто хочет понять реальные возможности современного искусственного интеллекта и его практическое применение в бизнесе, важно смотреть за пределы одного графика и учитывать все ограничения методологии.