Доктор Василий Ковалев из Объединенного института проблем информатики Национальной академии наук Беларуси знает все о важности сотрудничества. Как глава отдела анализа биомедицинских изображений, он и его команда обнаружили, что только глядя вперед, они могут преодолеть препятствие в своих исследованиях.

Доктор Ковалев (на фото выше) и его команда специализируются на использовании технологий биомедицинского анализа изображений и технологий глубокого обучения в медицинской диагностике и лечении. Но использование большого количества персональных медицинских данных, связанных с обучением глубоких нейронных сетей (ГНС), поставило перед научным сообществом ряд этических и правовых проблем, а также проблем, связанных с безопасностью.
Они исследовали два пути преодоления этой проблемы: разработка подходящих данных искусственного изображения, которые были неотличимы от реальных образцов при обучении моделям глубокого обучения; и повышение уровня безопасности для противостояния так называемым «состязательным атакам» на ГНС.
Таким образом, команда приступила к применению методов глубокого обучения для решения традиционных задач компьютерной диагностики заболеваний. В то же время они начали разрабатывать новые методы и программное обеспечение для автоматической генерации искусственных биомедицинских изображений и изучать методы создания вредоносных изображений, используемых в состязательных атаках, и подходящие способы защиты.
Создание медицинских изображений людей, которых не существует
«В последнее время был достигнут огромный прогресс в новых методах анализа и классификации изображений, основанных на подходах глубокого обучения», — объясняет доктор Ковалев. «Такие методы часто дают очень хорошие результаты. Но существенным недостатком является то, что они используют очень большие коллекции биомедицинских изображений с соответствующей маркировкой для обучения нейронных сетей».
Эти большие коллекции, даже если они полностью обезличены, все еще сомнительны с точки зрения этики и безопасности. Но Ковалев и его команда разработали решение. Они придумали метод, использующий генерирующие состязательные сети для автоматической генерации медицинских изображений, которые можно использовать вместо реальных.
После достижения высокого визуального качества и адекватных количественных свойств искусственных изображений их можно использовать как для обучения моделям глубокого обучения, так и в образовательных и иллюстративных целях для обеспечения качества программного обеспечения.
«Используя этот случай, — продолжает доктор Ковалев, — ученые могут свободно проводить любые исследования на основе таких искусственных данных». Все идет нормально. Но исследования по созданию изображений были основаны на очень больших частных медицинских базах данных с ограниченным доступом. Они включали в себя базу данных рентгенологического исследования грудной клетки, содержащую около двух миллионов изображений в цифровом виде, базу данных трехмерных компьютерных томографических изображений 10, 000 пациентов и базу данных гистологических
изображений, используемых для диагностики рака. Некоторые слайды были размером в несколько терабайт.
Все это требовало высокой вычислительной мощности, чего не хватало белорусской команде. Таким образом, они начали изучать другую область своих исследований — проблему безопасности, связанную с технологиями анализа биомедицинских изображений в реальной диагностике заболеваний.
Борьба с «состязательными атаками»
Так в чем была проблема? Исследователи обнаружили феномен безопасности — если к оригинальному изображению были внесены небольшие изменения, кто-то может заставить хорошо обученные ГНС принять неправильное решение. В контексте процессов медицинской диагностики это была очень опасная ситуация. Здоровый человек со слегка измененным изображением может получить результаты, которые считаются подозрительными на рак. «Экспериментально доказано, что практически любая глубокая нейронная сеть может быть вынуждена принять неправильное решение», — объясняет доктор Ковалев.
Таким образом, белорусские исследователи провели ряд вычислительных экспериментов по глубокому обучению для изучения уязвимости различных медицинских изображений с целью защиты компьютеризированных систем диагностики заболеваний от потенциальных атак вредоносных медицинских изображений.
Они снова столкнулись с тем же самым блокатором — отсутствием высокой вычислительной мощности. Им нужен был доступ к ВПВ (высокопроизводительные вычисления).
Так как же они получили доступ к ВПВ?
В обоих случаях для работы с таким большим объемом данных и использования самых современных методов и программного обеспечения для анализа изображений команде потребовались очень мощные вычислительные ресурсы.
«Мы быстро поняли, что было бы очень важно объединить усилия с другими исследовательскими объектами», — признается доктор Ковалев. Ученые подали заявку на программу Enlighten Your Research (EYR) — инициативу, осуществляемую финансируемым ЕС проектом «Восточное партнерство Connect» (EaPConnect). Этот проект направлен на то, чтобы объединить исследователей, ученых и студентов из Армении, Азербайджана, Беларуси, Грузии, Молдовы и Украины, чтобы они могли сотрудничать друг с другом и со своими коллегами по всему миру, подключаясь через высоконадежные высокопроизводительные сети и специализированные онлайн-сервисы.
Команда Ковалева прошла квалификацию на EYR, и результаты были незамедлительными. Недостаток в вычислении был устранен. Они получили доступ к европейским ресурсам высокопроизводительных вычислений через инфраструктуру, предоставляемую белорусской национальной научно-исследовательской сетью BASNET и общеевропейской научно-исследовательской сетью GÉANT.
Наконец, они могли продолжить свою работу. Теперь они могут выполнять большинство своих экспериментов и делиться новыми знаниями и созданными искусственными изображениями с европейскими партнерами.
Эта история была впервые опубликована программой EaP Connect.