GPT-4V в радиологии: перспективы и подводные камни

26.10.2024

Благодаря достижениям в области искусственного интеллекта, отрасль здравоохранения быстро изучает новые технологии для поддержки принятия клинических решений. Одной из таких технологий является GPT-4 Vision (GPT-4V), мультимодальная большая языковая модель (LLM), разработанная для обработки как текста, так и изображений, включая радиологические изображения. Хотя она и обещает огромные перспективы, появились опасения относительно ее надежности. Недавнее исследование, опубликованное European Radiology, выявило как потенциальные преимущества, так и серьезные ограничения, которые могут повлиять на принятие GPT-4V в клинических условиях.

Потенциальные преимущества GPT-4V в радиологии

Способность GPT-4V интегрировать модели компьютерного зрения с языковым мышлением открывает новые возможности для помощи рентгенологам в интерпретации сложных исследований изображений. Как модель, обученная на огромных объемах данных, GPT-4V теоретически может рационализировать рабочие процессы, обобщая радиологические результаты, помогая в создании отчетов и предлагая поддержку клинических решений. Исследование показало, что производительность GPT-4V значительно улучшилась при предоставлении клинического контекста, перейдя с диагностической точности 8,3% без контекста до 63,6% при предоставлении контекста. Это указывает на то, что, хотя GPT-4V далека от совершенства, у нее есть потенциал в вспомогательных ролях, особенно когда доступна клиническая информация для руководства ее интерпретацией.

Успех инструмента в диагностике определенных состояний подчеркивает его потенциал для помощи в повседневных радиологических задачах. Например, он показал себя лучше всего в рентгенографических и ангиографических исследованиях, где четкие, недвусмысленные результаты легче интерпретировать. Это говорит о том, что GPT-4V можно использовать для предварительного скрининга изображений и пометки потенциальных проблем для рентгенологов, позволяя им сосредоточиться на более сложных случаях. Используя эту возможность, рентгенологи могут сократить свою рабочую нагрузку и повысить эффективность в клинических условиях, при условии наличия соответствующих механизмов надзора для уменьшения ошибок.

Проблемы и ограничения в точности диагностики

Хотя GPT-4V подает надежды, его диагностическая точность без клинического контекста была тревожно низкой, всего 8,3%. Этот низкий показатель производительности отражает значительную проблему автономного использования GPT-4V в реальных медицинских условиях. Даже в клиническом контексте система по-прежнему неверно интерпретировала многие изображения, фальсифицировала выводы и неверно идентифицировала модальности визуализации. Например, в некоторых случаях модель неправильно диагностировала анатомическую область или ошибочно принимала модальность визуализации, например, путая изображения компьютерной томографии (КТ) с рентгенограммами. Эти ошибки подчеркивают неотъемлемые ограничения текущей конструкции GPT-4V, в частности, ее склонность больше полагаться на текстовую информацию, чем на само изображение.

Еще одной серьезной проблемой является согласованность модели с течением времени. При просьбе перечитать изображения через 30 и 90 дней точность падала до 30%, что поднимает вопросы о надежности GPT-4V в течение длительных периодов использования. Это снижение предполагает, что любое реальное применение GPT-4V в радиологии потребует постоянного мониторинга и периодической переоценки, чтобы гарантировать, что он продолжает работать так, как ожидалось. Эта непоследовательность в сочетании с его тенденцией фальсифицировать результаты почти в двух третях своих ответов показывает, что GPT-4V далека от готовности к развертыванию в критических медицинских приложениях без существенных улучшений.

Вопросы этики и безопасности

Внедрение GPT-4V в радиологических условиях вызывает существенные этические и охранные проблемы. В своей нынешней форме производительность модели может поставить под угрозу безопасность пациентов, особенно если поставщики медицинских услуг без рентгенологического опыта полагаются на нее при принятии клинических решений. Вывод исследования о том, что GPT-4V сфабриковал результаты визуализации почти в 63% своих контекстуализированных показаний, свидетельствует о тревожном отсутствии надежности. Эти сфабрикованные результаты могут ввести в заблуждение медицинских работников, что может привести к неправильной диагностике, ненадлежащему лечению или задержке ухода за пациентами.

Кроме того, в обсуждениях ИИ в здравоохранении возникает концепция «предвзятости автоматизации». Поскольку GPT-4V и другие инструменты ИИ все больше интегрируются в клинические рабочие процессы, существует риск того, что врачи могут чрезмерно полагаться на эти системы, доверяя их результатам без достаточной проверки. Эта чрезмерная зависимость может подорвать клиническую экспертизу, поскольку рентгенологи могут начать слишком много полагаться на выводы, полученные с помощью ИИ, вместо того чтобы полагаться на свои суждения и опыт. Кроме того, при использовании таких моделей ИИ, как GPT-4V, которые обрабатывают конфиденциальные данные пациентов, возникают проблемы с конфиденциальностью. Необходимо принять надежные меры для обеспечения конфиденциальности пациентов и предотвращения утечек данных.

Учитывая эти проблемы, очевидно, что GPT-4V не следует использовать изолированно. Вместо этого он может служить дополнительным инструментом, предлагая потенциальные предложения и идеи, оставляя принятие окончательного решения обученным рентгенологам. Хотя во многих случаях диагностические рассуждения модели точны, они все еще требуют человеческого контроля, чтобы гарантировать, что выводы основаны на надежных медицинских принципах, а не на сфабрикованных данных.

GPT-4V предлагает как потенциал, так и риски в области радиологии. Его способность повышать точность диагностики в клинических контекстах, особенно в рентгенологических и ангиографических исследованиях, демонстрирует его перспективность в качестве дополнительного инструмента для рентгенологов. Однако существенные ограничения, такие как низкая точность диагностики без контекста, частая фальсификация результатов и непостоянная производительность с течением времени, должны быть устранены, прежде чем GPT-4V сможет быть широко принят в клинической практике. Кроме того, этические и безопасные проблемы, связанные с его использованием, подчеркивают необходимость тщательного надзора и регулирования для предотвращения смещения автоматизации и обеспечения безопасности пациентов. Сотрудничество между разработчиками, специалистами здравоохранения и регулирующими органами будет иметь решающее значение для обеспечения того, чтобы эти инструменты вносили значимый вклад в уход за пациентами без ущерба для безопасности или качества.

Источник: European Radiology

←

Предыдущая статья об ИИ

Cледующая статья об ИИ

→

Другие статьи И.И. блога

GPT-4V в радиологии: перспективы и подводные камни

Здравоохранение внедряет ИИ с осторожностью

Исследователи из Йельской школы медицины разработали ИИ-инструмент для выявления риска сердечной недостаточности по ЭКГ

Медицинские отрасли, на которые ИИ окажет наибольшее влияние

Улучшение онкологической визуализации с помощью больших языковых моделей

И.И. блог

GPT-4V в радиологии: перспективы и подводные камни

Здравоохранение внедряет ИИ с осторожностью

Исследователи из Йельской школы медицины разработали ИИ-инструмент для выявления риска сердечной недостаточности по ЭКГ

Медицинские отрасли, на которые ИИ окажет наибольшее влияние

Улучшение онкологической визуализации с помощью больших языковых моделей

Поиск

И.И. блог