GPT-4 на основе зрения для радиологических исследований: эффективность и проблемы
Искусственный интеллект (ИИ) добился значительных успехов в различных областях, включая здравоохранение, где его роль быстро развивается. Большие языковые модели (LLM), такие как GPT-4 от OpenAI, продемонстрировали впечатляющие возможности в обработке естественного языка, решении сложных задач, таких как реферирование, перевод и ответы на вопросы. Недавно, с введением возможностей зрения в GPT-4, модель расширила свои функциональные возможности для анализа и интерпретации изображений, открыв двери для многочисленных приложений в таких областях, как радиология. В этой статье оценивается производительность GPT-4 со зрением (GPT-4V) на вопросах экзамена по радиологии в процессе обучения, области, где интерпретация изображений имеет решающее значение, и исследуются ее сильные и слабые стороны при обработке вопросов на основе текста и изображений.
Базовые показатели GPT-4 с Vision на рентгенологических исследованиях
Было проведено исследование для оценки производительности GPT-4V с использованием вопросов диагностической радиологии в рамках обучения (DXIT), общепринятого эталона для оценки знаний резидентов-радиологов. Набор данных, использованный в этой оценке, включал текстовые и основанные на изображениях вопросы, что позволило провести детальную оценку возможностей модели в интерпретации текстовых и визуальных данных. Общая точность GPT-4V составила 65,3%, при этом наблюдалось значительное различие между ее производительностью в вопросах на основе текста (81,5%) и на основе изображений (47,8%). Это различие подчеркивает компетентность модели в понимании и обработке текстовой медицинской информации, одновременно выявляя ее проблемы в точной интерпретации радиологических изображений.
Разница в точности также распространилась на различные специализации радиологии. GPT-4V показала исключительные результаты в областях без вопросов, основанных на изображениях, таких как физика и общая радиология, где она достигла точности 87% и 83% соответственно. Однако производительность модели в вопросах, основанных на изображениях, была значительно ниже в специализациях, которые в значительной степени полагались на интерпретацию изображений, таких как ядерная медицина и детская радиология. Эти результаты подчеркивают, что, хотя GPT-4V в значительной степени освоила понимание текста, ее возможности визуальной диагностики остаются ограниченными.
Влияние методов подсказок на точность GPT-4V
Проектирование подсказок, или разработка входных инструкций, данных моделям ИИ, играет решающую роль в определении точности и эффективности их ответов. В этом исследовании были проанализированы пять различных стилей подсказок, чтобы проследить их влияние на производительность GPT-4V. Эти подсказки варьировались от базовых, коротких и длинных инструкций до подсказок с цепочкой мыслей, каждая из которых различалась по деталям и указаниям, предоставленным модели.
Подсказка цепочки мыслей, которая побуждает модель рассуждать шаг за шагом по информации, оказалась самой эффективной техникой для текстовых вопросов. Она превзошла другие стили подсказок, включая исходную подсказку, повысив точность на 8,9% в некоторых случаях. Однако никаких существенных улучшений не наблюдалось, когда эта техника применялась к вопросам на основе изображений, что указывает на то, что основные проблемы GPT-4V в радиологии связаны с ее навыками интерпретации изображений, а не с тем, как она обрабатывает или подходит к вопросам.
Кроме того, GPT-4V иногда отказывался отвечать на вопросы, особенно с изображениями, из-за встроенных протоколов безопасности, разработанных для предотвращения неопределенных или вредных выводов. Хотя такие меры предосторожности необходимы для обеспечения надежности и безопасности в клинических условиях, они также подчеркивают ограничение способности GPT-4V выполнять диагностические задачи автономно, поскольку модель может воздерживаться от принятия критических решений, когда информация неполна или неоднозначна.
Ограничения в интерпретации радиологических изображений
Самым заметным открытием при оценке GPT-4V в радиологии стала его недостаточная эффективность в вопросах, основанных на изображениях. В радиологии интерпретация визуальных данных лежит в основе диагностических процессов, где врачи должны выявлять едва заметные отклонения или поражения, чтобы прийти к точным выводам. Хотя GPT-4V продемонстрировал способность анализировать и понимать сложную медицинскую терминологию, его способность правильно определять и диагностировать состояния на основе радиологических изображений была ограничена.
Одной из существенных выявленных проблем была тенденция GPT-4V давать галлюцинаторные ответы, когда модель уверенно давала неверную интерпретацию изображения, иногда локализуя поражения в неправильных органах. Например, в одном случае GPT-4V ошибочно поместила поражение на противоположную сторону тела, но все равно пришла к правильному диагнозу. Эти галлюцинации вызывают опасения относительно надежности GPT-4V в клинических условиях, где неверные интерпретации могут иметь серьезные последствия для результатов лечения пациентов.
Более того, производительность модели в вопросах, основанных на изображениях, значительно различалась в зависимости от специализации, с более высокой точностью, наблюдаемой в рентгенологии грудной клетки и мочеполовой системы, но плохими результатами в ядерной медицине, где только на 20% вопросов, основанных на изображениях, были даны правильные ответы. Эта изменчивость говорит о том, что визуальное понимание модели далеко от обобщенного, и ее эффективность сильно зависит от сложности изображений и конкретной рентгенологической специализации.
Заключение
Интеграция возможностей зрения в GPT-4 знаменует собой значительный прогресс в потенциальной роли ИИ в таких областях медицины, как радиология. Однако результаты этого исследования показывают, что хотя GPT-4V демонстрирует похвальную производительность в диагностических задачах на основе текста, его возможности интерпретации на основе изображений не достигают точности, требуемой в клинической практике. Ограничения модели в визуальном анализе, в частности ее склонность к галлюцинациям и ее разная производительность в зависимости от узких специальностей, подчеркивают необходимость дальнейших исследований и разработок для улучшения ее диагностических возможностей.
Более того, проектирование подсказок имеет решающее значение для максимизации возможностей обработки текста модели, при этом подсказки цепочки мыслей обеспечивают наилучшие результаты для текстовых вопросов по радиологии. Однако эти улучшения не переносятся на визуальные задачи, что указывает на то, что текущие визуальные возможности модели относительно невосприимчивы к различным стратегиям подсказок.
В заключение следует отметить, что GPT-4V обещает стать вспомогательным инструментом в радиологии, особенно для задач с большим объемом текста, таких как создание отчетов и поиск знаний. Однако его применение в критической области интерпретации изображений остается ограниченным, что требует будущих итераций модели для устранения этих пробелов. До тех пор GPT-4V следует рассматривать как дополнительное средство, а не как самостоятельный диагностический инструмент в радиологии. Дальнейшие усовершенствования, включая специализированное обучение анализу радиологических изображений, могут помочь сократить разрыв между текстом и интерпретацией изображений, раскрывая весь потенциал ИИ в области радиологии.
Источник: Radiology