Синтетические и деидентифицированные данные в аналитике здравоохранения
Стремительная цифровизация здравоохранения и интеграция электронных медицинских карт (ЭМК) вывели данные на передний план аналитики здравоохранения. Организации, стремящиеся к ценностно-ориентированному лечению, все больше полагаются на данные для принятия обоснованных решений, улучшения результатов лечения пациентов и стимулирования исследований. Однако выбор правильного типа данных для аналитических инициатив имеет решающее значение. Специалисты здравоохранения в основном используют три типа данных — реальные, синтетические и обезличенные — каждый из которых предлагает уникальные преимущества и проблемы. Понимание того, когда использовать каждый тип данных, может существенно повлиять на успех проектов аналитики здравоохранения.
Важность реальных данных
Данные реального мира (RWD) относятся к информации, собранной из различных источников, отражающей фактическое состояние здоровья пациентов. Электронные медицинские карты, данные по претензиям, реестры медицинских устройств, результаты, сообщаемые пациентами, и цифровые медицинские устройства — все это вносит свой вклад в этот набор данных. RWD играет решающую роль в формировании фактических данных (RWE), которые играют важную роль в регулировании и разработке медицинских вмешательств. Доказательства, полученные из RWD, информируют о клинических испытаниях и терапевтических достижениях, особенно в таких областях, как лечение рака и точная медицина.
Однако, несмотря на свой потенциал, RWD создает проблемы. Качество данных, доступность и релевантность для конкретных проектов часто подрывают его практическое использование. Кроме того, поскольку организации здравоохранения все чаще используют новые технологии, такие как искусственный интеллект (ИИ), для обработки RWD, они должны сохранять бдительность в отношении целостности данных и пригодности для конкретных исследовательских целей. Хотя RWD дает массу информации, понимание того, когда это уместно и как управлять присущими ему ограничениями, имеет решающее значение для заинтересованных сторон.
Преимущества и ограничения синтетических данных
В отличие от RWD, синтетические данные искусственно генерируются и разрабатываются для отражения характеристик реальных наборов данных без содержания идентифицируемой информации. Синтетические данные предлагают убедительную альтернативу, где конфиденциальность и гармонизация данных имеют решающее значение. Моделируя реальные сценарии, синтетические данные позволяют исследователям обучать алгоритмы, разрабатывать приложения и проводить клинические исследования, минимизируя риски конфиденциальности.
Несмотря на свои преимущества, синтетические данные имеют свои недостатки. Например, искусственная природа синтетических наборов данных может вносить смещения или ошибки, ставя под угрозу качество анализа. Кроме того, точное создание синтетических популяций пациентов может быть сложной задачей, что ограничивает применимость набора данных в крупномасштабных исследованиях. Такие проблемы, как утечка данных, когда информация из обучающего набора непреднамеренно влияет на тестовый набор, могут подорвать производительность и надежность модели ИИ. Заинтересованные стороны в здравоохранении должны тщательно оценивать эти риски, чтобы определить, соответствуют ли синтетические данные их аналитическим целям.
Обезличенные данные и проблемы конфиденциальности
Как следует из названия, обезличенные данные подразумевают маскировку или удаление персональных идентификаторов для обеспечения конфиденциальности при сохранении полезности набора данных. Этот тип данных необходим для соблюдения положений Закона о переносимости и подотчетности медицинского страхования (HIPAA), что позволяет организациям обмениваться информацией, не нарушая конфиденциальности пациентов. Исследователи часто используют обезличенные данные для анализа демографических тенденций, оценки различий в здравоохранении и улучшения ухода за пациентами.
Однако деидентификация не является надежным решением. По мере того, как инструменты ИИ и машинного обучения становятся все более сложными, риск повторной идентификации увеличивается. Даже при удалении прямых идентификаторов наборы данных все равно могут быть повторно связаны с отдельными лицами через другие косвенные переменные, такие как географические данные или сроки лечения. Эти проблемы побуждают к обсуждениям о модернизации правил HIPAA для решения возникающих рисков конфиденциальности, связанных с передовыми технологиями. Организации здравоохранения должны принять надежные протоколы деидентификации, которые выходят за рамки текущих правил, чтобы эффективно защищать данные пациентов.
Реальные, синтетические и деидентифицированные данные служат различным целям в аналитике здравоохранения. Реальные данные предлагают непревзойденное понимание результатов лечения пациентов и поддерживают принятие решений на основе фактических данных, но они сопряжены с проблемами качества и релевантности. Синтетические данные представляют собой альтернативу, благоприятную для конфиденциальности, но требуют осторожного обращения для предотвращения предвзятости и ошибок. Между тем, деидентифицированные данные сочетают полезность и конфиденциальность, но остаются уязвимыми для рисков повторной идентификации. Осознавая преимущества и ограничения каждого типа данных, организации здравоохранения могут стратегически выбирать наиболее подходящие наборы данных для своих инициатив. Это понимание не только улучшает исследования и уход за пациентами, но и прокладывает путь к более безопасному и эффективному использованию новых технологий в секторе здравоохранения.
Источник: TechTarget