Совместная роль ИИ и врачей США в выявлении врожденных пороков сердца

04.06.2024

Дородовое выявление врожденных пороков сердца плода (ВПС) имеет решающее значение для снижения послеродовой заболеваемости и смертности. Несмотря на такие усилия, как ультразвуковые скрининги в середине триместра, показатели выявления сильно различаются в разных регионах. В Великобритании Программа скрининга аномалий плода выявляет около 69,2% дефектов атриовентрикулярной перегородки (ДАВС) с помощью УЗИ и до 79,4% с помощью комбинированных подходов к скринингу.

Искусственный интеллект (ИИ), в частности сверточные нейронные сети, показывают многообещающие результаты в автоматизации обнаружения врожденных пороков сердца плода по ультразвуковым изображениям. Однако интерпретация ультразвука остается зависимой от операторов-людей из-за нюансной природы принятия клинических решений. Совместное использование ИИ вместе с врачами может повысить точность диагностики, хотя недавние исследования показывают неоднозначные результаты в других областях медицинской визуализации, таких как рентгенография грудной клетки.

Для оптимизации партнерства клинициста и ИИ в интерпретации УЗИ крайне важно изучить, как помощь ИИ влияет на общую эффективность диагностики таких состояний, как фетальный AVSD. Кроме того, предоставление клиницистам более подробной информации о выходных данных модели ИИ, таких как уровни достоверности и влиятельные области изображения, может снизить такие риски, как неприятие алгоритма (недостаточное использование ИИ) или смещение автоматизации (чрезмерная зависимость от ИИ). Существует ограниченное количество исследований того, как люди взаимодействуют с ИИ, особенно в интерпретации УЗИ, что подчеркивает необходимость дальнейших исследований в этой области.

Недавно в специализированном центре кардиологии плода, имеющем доступ к обширному архиву изображений сердечных аномалий, было проведено исследование, что позволило обучить и проверить модель искусственного интеллекта для классификации ультразвуковых изображений плода на категории нормальных и с дефектом атриовентрикулярной перегородки (ДАВС).

Разработка моделей ИИ

Модель ИИ была разработана с использованием вручную размеченного набора данных из 173 ультразвуковых сканирований плода (98 нормальных сердец, 75 случаев AVSD). Набор данных включал 121 130 изображений, извлеченных из нескольких видео УЗИ, с упором на высококачественные четырехкамерные изображения. Технические подробности разработки модели приведены в Приложении S1.

Для эксперимента из тестовых и проверочных наборов модели ИИ было отобрано подмножество из 500 четырехкамерных изображений 36 плодов (16 с AVSD, 20 с нормальными сердцами). Эти изображения были представлены врачам в четырех различных условиях:

Обычное изображение без информации ИИ.
Изображение с двоичной классификацией ИИ (нормальное или AVSD).
Изображение с классификацией ИИ и показателем достоверности по шкале температуры, указывающим на вероятность ДВСД.
Изображение с классификацией ИИ, оценкой уверенности и градиентно-взвешенной картой активации классов (grad-CAM), выделяющей влиятельные области.

В исследовании приняли участие врачи из отделения кардиологии плода, включая консультантов, врачей-стажеров и сонографистов с различным опытом работы в области УЗИ плода. Каждый врач оценил 2000 изображений (500 на состояние), рандомизированных и классифицировал их как нормальные или AVSD. Они прошли обучение по интерпретации результатов ИИ и значению показателей уверенности и изображений grad-CAM.

Измерение результата

Точность диагностики оценивалась путем сравнения классификаций клиницистов по четырем состояниям. Статистический анализ с использованием теста Макнемара оценивал различия в точности между состояниями, при этом значимость устанавливалась на уровне P ≤ 0,05. Точность определялась как доля правильных классификаций по отношению к общему количеству изображений.

Целью данного исследования было определить, повышает ли помощь искусственного интеллекта в сочетании с дополнительной информацией, такой как оценки уверенности и визуальные средства (grad-CAM), диагностическую эффективность при различении ДВСД плода от нормальных сердечных заболеваний во время ультразвуковых исследований.

Влияние искусственного интеллекта на эффективность работы врачей при ультразвуковой диагностике атриовентрикулярного перегиба у плода

В исследовании приняли участие десять врачей, в том числе два консультанта-кардиолога плода, пять немедицинских сонографистов и три врача-стажера детской кардиологии. Консультанты-кардиологи плода имели большой опыт работы, от 20 до 29 лет после получения квалификации, и специальные знания в области кардиологии плода. Сонографисты имели в среднем 27,4 года после получения квалификации и 14,2 года в области ультразвуковой диагностики плода, все прошли обучение в Фонде фетальной медицины. Врачи-стажеры имели в среднем восемь лет после получения квалификации, из них 2,7 года в детской кардиологии и менее одного года в области кардиологии плода.

Модель ИИ достигла точности 0,798 (95% ДИ, 0,760–0,832) при диагностике AVSD по ультразвуковым изображениям плода с чувствительностью 0,868 и специфичностью 0,728. Клиницисты, интерпретируя изображения без помощи ИИ, показали значительно лучшие результаты, чем модель ИИ, с точностью 0,844 (95% ДИ, 0,834–0,854), особенно среди более опытных участников (точность 0,873, P < 0,001).

Внедрение бинарной классификации ИИ вместе с изображениями (Условие 2) улучшило общую эффективность работы клиницистов до точности 0,865 (P < 0,001). Однако предоставление дополнительной информации, такой как достоверность модели (Условие 3), привело к снижению точности по сравнению с бинарной классификацией (0,850 против 0,865, P = 0,002). Аналогичные тенденции наблюдались с grad-CAM (Условие 4), особенно среди более опытных клиницистов.

При стратификации по корректности ИИ врачи работали значительно лучше, когда советы ИИ были правильными (точность 0,908 против 0,761 при неправильном совете, P < 0,001). Неправильные советы ИИ приводили к заметному снижению эффективности (точность 0,693), что усугублялось дополнительной информацией (достоверность модели или grad-CAM).

В исследовании подчеркивается, что, хотя помощь ИИ может повысить точность диагностики, особенно при наличии правильных рекомендаций, дополнительная информация, выходящая за рамки бинарной классификации, не всегда улучшает работу врачей и может даже ухудшить ее, особенно среди более опытных специалистов.

Интеграция ИИ для обнаружения AVSD и взаимодействия врачей

Исследователи продемонстрировали значительное улучшение диагностической эффективности, когда врачи получали помощь ИИ при интерпретации изображений УЗИ плода, по сравнению с использованием только ИИ или врачей. Это улучшение наблюдалось как среди опытных экспертов по кардиологии плода, так и среди менее опытных врачей-стажеров, даже когда производительность автономного ИИ была ниже, чем у врачей. Это говорит о том, что интеграция ИИ в скрининг УЗИ плода на предмет структурных пороков развития, таких как дефекты атриовентрикулярной перегородки (ДАВС), может быть полезной, несмотря на то, что ни люди, ни ИИ не достигают идеальной точности.

Исследование показало, что опытные врачи-кардиологи плода превзошли ИИ в одиночку, тогда как менее опытные операторы показали результаты, сопоставимые с ИИ в одиночку. Влияние помощи ИИ может различаться в разных клинических условиях, что требует дальнейшего изучения. Подобная изменчивость наблюдалась и в других исследованиях медицинской визуализации, касающихся эффективности ИИ в повышении точности диагностики.

Когда ИИ ставил неверные диагнозы, эффективность работы клиницистов значительно снижалась из-за увеличения количества ложноположительных и ложноотрицательных результатов. Это подчеркивает важность «калибровки доверия», когда клиницисты учатся доверять выводам ИИ в соответствии с их точностью. Однако предоставление дополнительной информации о модели ИИ, такой как оценки уверенности или изображения grad-CAM, выделяющие влиятельные области, не улучшило калибровку доверия клиницистов в этом исследовании. Фактически, это иногда приводило к тому, что клиницисты ошибочно доверяли выводам ИИ, когда они были неверными — явление, известное как «смещение автоматизации».

Исследование признает несколько ограничений, включая его ретроспективный характер с использованием неподвижных изображений, а не ультразвуковых видео в реальном времени, что может повлиять на обобщаемость результатов в клинической практике. Кроме того, набор данных был сосредоточен на случаях, диагностированных до рождения, и может не представлять собой случаи, которые обычно упускаются в программах скрининга. Будущие исследования направлены на разработку методов ИИ для клинического использования в реальном времени и на расширение моделей ИИ для охвата более широкого спектра врожденных пороков сердца.

Результаты показывают, что совместный подход между врачами и ИИ может улучшить точность диагностики при УЗИ плода, поддерживая потенциальную клиническую полезность. Однако решение таких проблем, как калибровка доверия ИИ и влияние неверных рекомендаций ИИ, имеет решающее значение для безопасной интеграции в клинические рабочие процессы. Необходимы дальнейшие исследования для совершенствования моделей ИИ и оптимизации их внедрения в различных клинических условиях.

Источник: Ultrasound in Obstetrics and Gynecology

←

Предыдущая статья об ИИ

Cледующая статья об ИИ

→

Другие статьи И.И. блога