Улучшение радиологических отчетов с помощью больших языковых моделей
Отчеты по радиологии необходимы в клинической практике, предоставляя ключевую диагностическую информацию из исследований визуализации. Эти отчеты обычно состоят из двух частей: подробные результаты визуализации и раздел отпечатков, который предоставляет диагностическое резюме, включая дифференциальные диагнозы и рекомендации. Интерпретация и создание этих отпечатков требуют значительных знаний, и могут возникать ошибки или несоответствия. Для решения этих проблем изучаются последние достижения в области искусственного интеллекта, в частности, большие языковые модели (LLM), как инструменты для автоматического создания радиологических отпечатков. В недавней статье в Radiology рассматриваются разработка, оценка и потенциальные последствия построения LLM специально для создания радиологических отчетов.
Проблемы при получении рентгенологических оттисков
Из-за специализированной и нюансной природы радиологических данных, создание радиологических впечатлений является сложной задачей. Радиологам необходимо интегрировать множество элементов, таких как история болезни пациента, клинические симптомы и результаты визуализации, чтобы предоставить всестороннее и точное диагностическое впечатление. Различия в интерпретации этих результатов среди радиологов в сочетании с когнитивными предубеждениями могут привести к разным выводам, даже при наличии схожих данных визуализации.
Одной из центральных проблем автоматизации этого процесса является обеспечение того, чтобы сгенерированные впечатления были клинически точными и лингвистически подходящими. Ранние попытки использовать LLM общего назначения, такие как GPT-2 и GPT-3, показали, что, хотя языковые модели могли соответствовать рентгенологам по грамматике и читабельности, их диагностическая точность была ниже. Это подчеркнуло необходимость обучения в предметной области для создания моделей, которые могли бы справиться с уникальными требованиями рентгенологии. Следовательно, были предприняты целенаправленные усилия по созданию LLM, которые были бы специально адаптированы для рентгенологических данных, тонко настроенных для распознавания сложностей и тонкостей, связанных с отчетностью по рентгенологии.
Разработка LLM по специальности «Радиология»
В ответ на эти проблемы исследователи разработали специализированную LLM, используя обширный набор данных медицинских текстов, отчетов по радиологии и другой соответствующей клинической информации. Модель, известная как WiNGPT-7B, была обучена на 20 ГБ как медицинских, так и общих текстов и доработана с 1,5 ГБ данных, которые включали 800 отчетов по радиологии в паре с инструкциями. Этот обширный процесс предварительной подготовки и доработки был разработан для того, чтобы снабдить модель способностью генерировать оттиски с помощью различных методов визуализации, таких как КТ, МРТ и рентгенография, в нескольких анатомических областях.
Процесс обучения включал несколько критических этапов. Во-первых, данные из различных источников были преобразованы в текстовый формат и тщательно очищены для удаления шума, такого как нерелевантные ссылки или реклама. Основа модели, Llama 2 7B, использовалась в качестве основы, обеспечивая надежные возможности понимания естественного языка. Методы обучения с инструкциями, такие как Self-Instruct и Evol-Instruct, использовались для дальнейшего совершенствования способности модели следовать сложным подсказкам и генерировать соответствующие контексту результаты.
После обучения модель была оценена с использованием большого набора данных реальных отчетов по радиологии. Результаты показали, что LLM может генерировать впечатления, которые как лингвистически, так и клинически согласуются с окончательными впечатлениями, написанными рентгенологами. Однако исследование также выявило определенные ограничения, особенно в отношении точности конкретной диагностики, что подчеркивает необходимость постоянного совершенствования таких моделей.
Оценка эффективности впечатлений, полученных в результате обучения по программе LLM
Оценка работы LLM была ключевым компонентом этого исследования. Сгенерированные моделью впечатления сравнивались с впечатлениями, написанными рентгенологом, с использованием таких метрик, как полнота, точность и баллы F1. В большой тестовой выборке из почти 4000 пациентов LLM достиг медианного полноты 0,775, точности 0,84 и балла F1 0,772. Эти результаты указывают на высокий уровень согласия между LLM и экспертами-людьми, особенно с точки зрения полноты и фактической согласованности.
В дополнение к этим количественным показателям группа экспертов провела качественную оценку работы LLM, оценив впечатления, основанные на научной терминологии, согласованности, конкретной диагностике, дифференциальной диагностике, рекомендациях по управлению, корректности, полноте и отсутствии предвзятости. LLM последовательно набирал хорошие баллы в большинстве областей, особенно в согласованности и научной терминологии. Однако его работа была несколько менее благоприятной в предоставлении конкретных диагнозов, что отражает неотъемлемую сложность воспроизведения человеческого диагностического мышления без доступа к более широкому клиническому контексту.
Несмотря на эти ограничения, общая оценка показала, что оттиски, созданные LLM, были клинически полезны и тесно связаны с окончательными оттисками, созданными рентгенологами. Отзывы экспертной группы подтвердили, что LLM может быть ценным инструментом для поддержки рентгенологов в создании высококачественных стандартизированных отчетов, особенно в условиях большого объема, где ограничения по времени могут привести к изменчивости качества отчетов.
Заключение
Разработка LLM, адаптированных для радиологии, знаменует собой значительный прогресс в области медицинского ИИ. Они предлагают потенциал для оптимизации процесса отчетности по радиологии и повышения согласованности и точности диагностических впечатлений. Хотя проблемы остаются, особенно в улучшении способности модели генерировать конкретные диагнозы, текущие исследования демонстрируют осуществимость использования LLM в клинической практике.
Интегрируя LLM в рабочий процесс радиологии, больницы и клиники могли бы потенциально снизить когнитивную нагрузку на рентгенологов, позволяя им сосредоточиться на более сложных случаях и взаимодействии с пациентами. Кроме того, по мере того, как эти модели продолжают развиваться, их способность помогать в других областях радиологии, таких как анализ изображений и принятие клинических решений, также может расширяться. Будущие исследования должны быть сосредоточены на уточнении этих моделей, устранении их текущих ограничений и изучении их более широкого применения в клинической медицине.
Источник: RSNA Radiology