ChatGPT Health против Dr. Google: 7 фактов о новом медицинском помощнике

Дата публикации

Революция в поиске медицинской информации

Последние два десятилетия любой человек с новыми симптомами начинал с одного и того же шага - искал информацию в интернете. Эта практика стала настолько распространенной, что получила ироничное название "Dr. Google". Сегодня ситуация меняется: миллионы людей переключаются на языковые модели для получения медицинских консультаций.

По данным OpenAI, каждую неделю 230 миллионов пользователей задают ChatGPT вопросы, связанные со здоровьем. Эта статистика стала фоном для запуска нового продукта - ChatGPT Health, представленного в начале этого месяца.

Запуск произошел в неудачный момент. За два дня до анонса новостной портал SFGate опубликовал историю Сэма Нельсона, подростка, который погиб от передозировки после длительных бесед с ChatGPT о комбинировании различных препаратов. Эта трагедия заставила журналистов задуматься о разумности использования инструмента, способного причинить такой серьезный вред, для получения медицинских советов.

Что представляет собой ChatGPT Health

ChatGPT Health не является принципиально новой моделью. Это скорее оболочка, которая предоставляет существующим моделям OpenAI специальные инструкции и инструменты для консультаций по здоровью. Среди возможностей - доступ к электронным медицинским картам пользователя и данным фитнес-приложений при наличии разрешения.

Большие языковые модели, включая ChatGPT, могут допускать медицинские ошибки. OpenAI подчеркивает, что ChatGPT Health задуман как дополнительная поддержка, а не замена врача. Однако когда доктора недоступны или не могут помочь, люди обращаются к альтернативным источникам информации.

Для практических рекомендаций по внедрению ИИ-решений в бизнес-процессы посетите сайт AI Projects.

Мнение врачей: за и против

Некоторые медики видят в языковых моделях настоящий прорыв для медицинской грамотности. Обычный пациент с трудом ориентируется в огромном массиве онлайн-информации о здоровье и часто не может отличить качественные источники от красиво оформленных, но сомнительных сайтов. Языковые модели теоретически способны выполнить эту работу за них.

Марк Суччи, доцент Гарвардской медицинской школы и практикующий рентгенолог, отмечает изменения в поведении пациентов. Раньше лечение людей, искавших симптомы в Google, требовало "большой работы по снижению тревожности и борьбе с дезинформацией". Теперь же пациенты с любым уровнем образования задают вопросы на уровне студентов младших курсов медицинских вузов.

Выпуск ChatGPT Health и последующее объявление Anthropic о новых медицинских интеграциях для Claude показывают, что гиганты ИИ-индустрии все активнее признают и поощряют использование своих моделей в медицинских целях. Такое применение несет риски из-за известной склонности языковых моделей соглашаться с пользователями и придумывать информацию вместо признания незнания.

Сравнение с беспилотными автомобилями

Однако риски нужно сопоставлять с потенциальными преимуществами. Здесь уместна аналогия с беспилотными автомобилями: когда власти решают, разрешать ли Waymo работать в их городе, ключевой показатель - не наличие аварий с участием роботакси, а сравнение вреда от них с текущей ситуацией, когда за рулем находятся люди.

Если Dr. ChatGPT окажется улучшением по сравнению с Dr. Google - а ранние данные это подтверждают - он потенциально может снизить огромное бремя медицинской дезинформации и необоснованной тревожности, которое создал интернет.

Сложности оценки эффективности

Определить эффективность чат-ботов вроде ChatGPT или Claude для потребительского здравоохранения непросто. "Оценивать открытый чат-бот чрезвычайно сложно", - говорит Даниэль Биттерман, клинический руководитель направления науки о данных и ИИ в медицинской системе Mass General Brigham.

Большие языковые модели хорошо справляются с медицинскими лицензионными экзаменами, но эти тесты используют вопросы с множественным выбором, которые не отражают реальное использование чат-ботов для поиска медицинской информации.

Сириша Рамбхатла, доцент кафедры управленческих наук и инженерии в Университете Ватерлоо, попыталась устранить этот пробел, оценив ответы GPT-4o на экзаменационные вопросы без доступа к вариантам ответов. Медицинские эксперты признали полностью правильными лишь около половины ответов. Но вопросы с множественным выбором специально составляются так, чтобы варианты ответов не выдавали решение полностью, и они все еще далеки от того, что пользователь реально вводит в ChatGPT.

Результаты реальных исследований

Другое исследование, протестировавшее GPT-4o на более реалистичных запросах от добровольцев, показало правильность ответов примерно в 85% случаев. Амулья Ядав, доцент Пенсильванского университета, руководящий Лабораторией ответственного ИИ для социальной эмансипации и возглавивший исследование, признается, что лично не является поклонником медицинских языковых моделей для пациентов.

Но он откровенно признает, что с технической точки зрения они справляются с задачей - ведь врачи-люди ставят неверные диагнозы в 10-15% случаев. "Если смотреть беспристрастно, кажется, что мир изменится, нравится мне это или нет", - отмечает он.

Для людей, ищущих медицинскую информацию онлайн, языковые модели действительно представляются лучшим выбором, чем Google. Суччи также пришел к выводу, что языковые модели могут быть лучшей альтернативой веб-поиску, когда сравнил ответы GPT-4 на вопросы о распространенных хронических заболеваниях с информацией в панели знаний Google - информационном блоке, который иногда появляется справа от результатов поиска.

С момента публикации исследований Ядава и Суччи в первой половине 2025 года OpenAI выпустила несколько новых версий GPT, и разумно ожидать, что GPT-5.2 покажет еще лучшие результаты.

Ограничения и риски технологии

Исследования имеют важные ограничения: они фокусируются на простых фактических вопросах и рассматривают только краткие взаимодействия между пользователями и чат-ботами или поисковыми инструментами. Некоторые слабости языковых моделей - прежде всего склонность к угодничеству и галлюцинациям - могут проявляться сильнее в более длительных беседах и с людьми, сталкивающимися со сложными проблемами.

Рива Ледерман, профессор Мельбурнского университета, изучающая технологии и здравоохранение, отмечает, что пациенты, недовольные диагнозом или рекомендациями врача, могут обратиться за вторым мнением к языковой модели. И модель, если она склонна к угодничеству, может побудить их отвергнуть советы доктора.

Некоторые исследования обнаружили, что языковые модели галлюцинируют и проявляют угодничество в ответ на медицинские запросы. Например, одно исследование показало, что GPT-4 и GPT-4o охотно принимают и используют неверную информацию о лекарствах, включенную в вопрос пользователя. В другом GPT-4o часто придумывал определения для несуществующих синдромов и лабораторных тестов, упомянутых в запросе.

Учитывая обилие медицински сомнительных диагнозов и методов лечения в интернете, такие паттерны поведения могут способствовать распространению медицинской дезинформации, особенно если люди воспринимают языковые модели как заслуживающие доверия.

OpenAI сообщает, что модели серии GPT-5 значительно менее склонны к угодничеству и галлюцинациям, чем предшественники, поэтому результаты этих исследований могут не применяться к ChatGPT Health. Компания также оценила модель, лежащую в основе ChatGPT Health, на ответах на специфические медицинские вопросы, используя публично доступный бенчмарк HeathBench.

HeathBench вознаграждает модели, которые выражают неуверенность, когда это уместно, рекомендуют обращаться за медицинской помощью при необходимости и воздерживаются от создания ненужного стресса, сообщая пользователям, что их состояние серьезнее, чем на самом деле. Разумно предположить, что модель ChatGPT Health продемонстрировала такое поведение при тестировании, хотя Биттерман отмечает, что некоторые запросы в HeathBench были сгенерированы языковыми моделями, а не пользователями, что может ограничить применимость бенчмарка к реальному миру.

Преимущества перед традиционным поиском

Языковая модель, избегающая алармизма, кажется явным улучшением по сравнению с системами, заставляющими людей убеждать себя в наличии рака после нескольких минут просмотра страниц. По мере развития больших языковых моделей и продуктов на их основе преимущество Dr. ChatGPT над Dr. Google, вероятно, будет расти.

Внедрение ChatGPT Health - определенно шаг в этом направлении: просматривая медицинские записи, ChatGPT потенциально может получить гораздо больше контекста о конкретной ситуации со здоровьем, чем можно включить в любой поисковый запрос Google. Правда, многие эксперты предостерегают от предоставления ChatGPT такого доступа по соображениям конфиденциальности.

Чтобы узнать больше о безопасном внедрении ИИ-технологий, посетите AI Projects.

Влияние на систему здравоохранения

Даже если ChatGPT Health и другие новые инструменты действительно представляют значительное улучшение по сравнению с поиском в Google, они все равно могут негативно повлиять на здоровье в целом. Подобно тому, как автоматизированные транспортные средства, даже будучи безопаснее машин с водителями-людьми, могут оказаться вредными, если побуждают людей меньше пользоваться общественным транспортом, языковые модели могут подорвать здоровье пользователей, если заставят их полагаться на интернет вместо живых врачей, даже при повышении качества медицинской информации онлайн.

Ледерман считает такой исход вероятным. В своих исследованиях она обнаружила, что члены онлайн-сообществ, посвященных здоровью, склонны доверять пользователям, которые хорошо выражают свои мысли, независимо от достоверности информации. Поскольку ChatGPT общается как грамотный человек, некоторые могут доверять ему слишком сильно, возможно, исключая своего врача. Но языковые модели определенно не заменяют живого доктора - по крайней мере, пока.

Выводы: будущее медицинских консультаций с ИИ

ChatGPT Health представляет собой амбициозную попытку улучшить доступ к медицинской информации. Исследования показывают, что современные языковые модели могут превосходить традиционный поиск в Google по точности и полезности ответов на медицинские вопросы. Однако технология остается несовершенной и требует осторожного подхода.

Ключевой вопрос не в том, делает ли ИИ ошибки - их допускают и люди. Важно, становится ли общая ситуация лучше или хуже с появлением таких инструментов. Ранние данные обнадеживают, но необходимы дальнейшие исследования долгосрочных эффектов использования ИИ-помощников в медицине.

Пациентам следует помнить, что ChatGPT Health и подобные инструменты - это вспомогательные средства, а не замена профессиональной медицинской помощи. Использование их для предварительной информации и формулирования вопросов к врачу может быть полезным, но окончательные решения о здоровье должны приниматься совместно с квалифицированными специалистами.