
Тестовые наборы данных в воспроизводимом ИИ для радиологии
Быстрое развитие технологий искусственного интеллекта (ИИ) в здравоохранении, особенно в радиологии, привело к значительным достижениям в диагностике и лечении. Однако обобщаемость и применимость алгоритмов ИИ в реальном мире остаются проблемой. Одним из критических факторов, ограничивающих их внедрение, является отсутствие высококачественных контрольных наборов данных, которые являются репрезентативными для различных групп населения и клинических сценариев, в которых применяются системы ИИ. Контрольные наборы данных позволяют проводить последовательную проверку инструментов ИИ, способствуя доверию и надежности в клинических условиях. В недавнем обзоре, опубликованном в Insights into Imaging, исследуется важность создания контрольных наборов данных для радиологии, при этом особое внимание уделяется репрезентативности, точности маркировки и доступности наборов данных как ключевым аспектам для обеспечения воспроизводимости и обобщаемости.
Репрезентативность контрольных наборов данных
Для того чтобы модели ИИ эффективно работали в различных клинических условиях, контрольные наборы данных, используемые для обучения и проверки, должны быть репрезентативными для реальных популяций и спектров заболеваний. Многие системы ИИ шатаютсяпоскольку их базовые наборы данных взяты из узких или однородных популяций, что ограничивает способность моделей обобщать различные демографические группы или среды здравоохранения. Крайне важно гарантировать, что наборы данных включают в себя разнообразный диапазон тяжести заболеваний, демографических данных пациентов и методов визуализации. Однако это легче сказать, чем сделать, особенно когда речь идет о редких заболеваниях или состояниях, требующих больших размеров выборки для обеспечения надлежащего представления. Одним из возможных решений этой проблемы является использование методов генерации синтетических данных для дополнения наборов данных недостаточно представленными случаями, хотя этот метод имеет свои собственные предубеждения и ограничения. Включение синтетических случаев может повысить точность модели для таких задач, как сегментация или обнаружение, но к нему следует подходить с осторожностью, чтобы избежать внесения непреднамеренных предубеждений.
Правильная маркировка и аннотация данных
Точная маркировка данных — еще один краеугольный камень создания ценных наборов данных для проверки ИИ в радиологии. В идеале маркировка данных должна основываться на определенных истинах, таких как результаты биопсии или долгосрочные наблюдения за пациентами. Однако во многих случаях этот уровень информации недоступен, и мнения экспертов используются в качестве доверенных лиц. Это вносит изменчивость в зависимости от опыта рентгенологов и качества аннотаций. Консенсус среди нескольких экспертов или голосование большинства обычно используется для смягчения этой изменчивости, но это остается несовершенным решением. Кроме того, следует использовать стандартизированные форматы маркировки, такие как DICOM-SEG или NIfTI для медицинской визуализации, чтобы обеспечить согласованность между наборами данных. Помимо основных меток изображений, включение расширенных метаданных, таких как демографические данные пациента, клиническая история и технические детали процесса визуализации, улучшает контекстное понимание данных, что особенно полезно при последующем анализе и разработке моделей.
Доступность и прозрачность в разработке эталонных наборов данных
Создание доступных и прозрачных наборов контрольных данных имеет жизненно важное значение для содействия воспроизводимым моделям ИИ в радиологии. Эти наборы данных должны сопровождаться полной документацией, подробно описывающей их состав, предполагаемые варианты использования и любые применяемые этапы предварительной обработки. Этот уровень прозрачности помогает исследователям и разработчикам понять область действия и ограничения наборов данных, снижая риск переобучения и смещения в моделях ИИ. Кроме того, наборы данных должны соответствовать принципам FAIR — находимым, доступным, совместимым и многоразовым, — чтобы их можно было широко использовать в исследовательском сообществе. Доступность также имеет важное значение для обеспечения внешней проверки, поскольку многие исследовательские группы и коммерческие организации сталкиваются с трудностями при получении соответствующих данных для этой цели. Однако доступность данных должна быть сбалансирована с необходимостью конфиденциальности пациентов, регулируемой такими правилами, как GDPR в Европе и HIPAA в США. Одним из новых решений является федеративное обучение, при котором модели ИИ обучаются в нескольких учреждениях без необходимости централизованного обмена данными, что позволяет сохранять конфиденциальность и одновременно повышать надежность моделей в разных наборах данных.
Наборы контрольных данных играют важную роль в продвижении ИИ в радиологии, обеспечивая воспроизводимость, внешнюю проверку и обобщение в различных клинических условиях. Для создания эффективных наборов данных необходимо тщательно продумать репрезентативность, точную маркировку и обеспечение доступности в рамках ограничений правил конфиденциальности. Хотя генерация синтетических данных и федеративное обучение предлагают многообещающие подходы для преодоления некоторых проблем, связанных с созданием наборов данных, необходимы постоянные усилия по стандартизации и расширению доступности высококачественных наборов данных. В конечном счете, разработка надежных контрольных наборов данных поможет гарантировать, что моделям ИИ можно доверять и интегрировать в клиническую практику, что приведет к улучшению результатов лечения пациентов и более широкому внедрению технологий ИИ в радиологии.
Источник: Insights into Imaging