О создании центра и формировании научного коллектива, преимуществах байесовского подхода в машинном обучении и загадочных эффектах в обучении нейросетей рассказывает заведующий центром – профессор факультета компьютерных наук Дмитрий Ветров.
Как, когда и при каких обстоятельствах создавался Международный центр глубинного обучения и байесовских методов?
Идея создания международной лаборатории возникла, когда я с деканом Факультета компьютерных наук НИУ ВШЭ (ФКН) обсуждал свой переход из Сколтеха в Вышку на полную ставку весной 2016 года. Он рекомендовал принять участие в конкурсе международных лабораторий. После некоторых колебаний я принял решение в конкурсе поучаствовать, и в итоге наша заявка оказалась в числе победителей. Позднее эта международная лаборатория была преобразована в Центр глубинного обучения и байесовских методов, который стал своеобразной зонтичной структурой, включающей в себя лаборатории, поддерживаемые Samsung и Сбером.
Как формировался научный коллектив? Расскажите о знакомстве и совместной работе с научным руководителем центра Нови Квадрианто?
Центр создан на основе исследовательской группы байесовских методов, которая включает в себя примерно 30 студентов, аспирантов и молодых ученых. Часть из них является сотрудниками центра. Так что с подбором людей проблем не было. Самая большая трудность заключалась в поиске научного руководителя подразделения, наличие которого являлось одним из условий конкурса международных лабораторий. Вообще, не могу не заметить, что в который раз я убедился во вредности попыток зарегламентировать как можно больше моментов при объявлении тех или иных конкурсов. Требование о наличии научного руководителя из зарубежного университета с большим числом публикаций и готовностью проводить 90 дней в году в России, возможно, звучит нормально в других областях, но оно спорно в области искусственного интеллекта. В нашей области хорошие специалисты и так нарасхват, их очень сложно прельстить перспективой пребывания в течение трех месяцев в году в России. Тем более что и деньги, как правило, они могут большие получить по месту основной работы, сотрудничая с IT-компаниями. В итоге есть высокий риск, что на такие условия согласятся как раз специалисты-неудачники, которые не смогли хорошо устроиться у себя в стране. Мне кажется, что при проведении подобных конкурсов стоило бы проявить большую гибкость, а часть жестких требований заменить на рекомендации.
В процессе поисков научного руководителя лаборатории я обратился к большому числу своих зарубежных коллег. Многие писали, что с удовольствием готовы поработать с нашей группой над теми или иными научными проектами, но проводить три месяца в году в России не соглашался никто. И уже когда я потерял надежду, один из коллег, к которому я обращался ранее, порекомендовал написать своему бывшему постдоку профессору Нови Квадрианто, который работал в Университете Сассекса в Великобритании. Мы быстро нашли общий язык и в итоге буквально в последний момент смогли подать заявку на конкурс. Мне очень повезло. Нови Квадрианто оказался хорошим молодым специалистом. Я узнал много нового в процессе научных обсуждений с ним. Он неоднократно приезжал в Вышку, дважды выступал на нашей летней школе по нейробайесовским методам. К нему ездили стажироваться мои студенты и аспиранты. А результатом успешного сотрудничества стала совместная статья о применении нейронных сетей для решения некоторых задач комбинаторной оптимизации, опубликованная в 2020 году на одной из конференций уровня А*. В настоящее время мы продолжаем работу в этом направлении.
Центр ведет свою деятельность на стыке двух направлений анализа данных – глубинного обучения и байесовских методов машинного обучения. Что представляет собой каждое из них и в чем их отличия? Чем объясняется необходимость сращивания нейросетевых и байесовских моделей машинного обучения в науке? В чем преимущества такого подхода?
Действительно, одним из направлений работы центра является разработка нейробайесовских моделей, которые сочетают в себе современные нейронные сети и так называемый байесовский подход в машинном обучении, который обладает рядом преимуществ относительно классической статистики. Например, с помощью байесовского вероятностного моделирования можно учитывать специфику конкретной решаемой задачи при настройке параметров по данным, корректно обрабатывать пропуски в данных, обучать сложные генеративные модели, получать решения с заранее заданными свойствами, упрощать обученные модели и многое другое. Объединение этих двух парадигм – в теории – может существенно улучшить существующие нейросетевые модели. Несколько упрощая, результатом обучения байесовской нейросетевой модели является не одна сеть, а целое вероятностное распределение в пространстве нейросетей. На пути такого объединения возникает целый ряд вычислительных и математических сложностей, над преодолением которых работают многие исследовательские группы в мире, включая нашу. Если бы в современных нейронных сетях удалось бы выполнить точный байесовский вывод, мы получили бы универсальную обучаемую модель, способную обучаться решению новых задач, не забывая, как при этом решать старые. А это главное требование, предъявляемое к сильному ИИ. Впрочем, полагаю, что для того, чтобы этого добиться, нам потребуется переход к квантовым вычислениям, который, к счастью, не за горами. На существующей аппаратной и математической базе удается построить только грубые приближения байесовского вывода, но даже они придают нейросетевым моделям новые интересные свойства.
Другим важным направлением наших фундаментальных исследований является попытка изучить ряд загадочных эффектов, которые происходят при обучении современных нейронных сетей. Сильно упрощая, можно сказать, что они ведут себя не так, как предсказывает теория, а некоторые наблюдаемые явления пока вообще не поддаются объяснению. К числу последних можно отнести, например, т.н. двойной спуск по эпохам. Это ситуация, когда при обучении нейронной сети ее ошибка (на независимых валидационных данных) сначала снижается, потом подскакивает, а затем снова начинает снижаться. Причины такого поведения не до конца понятны, и исследовать такие явления очень интересно.
Сегодня специалист по анализу данных – одна из самых желанных и востребованных профессий на рынке труда. Как в центре сосуществуют фундаментальные и прикладные аспекты деятельности? Что интересует студентов больше?
В центре мы ведем работу как над фундаментальными, так и над прикладными проектами. Последние осуществляются по заказу различных крупных компаний. Мне как ученому, конечно, больше нравятся фундаментальные исследования, тем более что сейчас в глубинном обучении как никогда много загадочного и необъяснимого. К сожалению, на фундаментальные исследования большой бюджет не получишь, поэтому приходится «подрабатывать». Впрочем, у нашей группы достаточно хорошая репутация, чтобы к нам обращались с наукоемкими проектами, поработать над которыми интересно, а результат работы вполне можно опубликовать. Большинство моих сотрудников тоже предпочитает работать над более фундаментальными направлениями.
Какие цели ставит перед собой центр в перспективе ближайших лет?
Как я уже говорил, сейчас научное сообщество плохо понимает процессы, происходящие при обучении нейросетей. Никто не может объяснить ряд странных и даже загадочных эффектов, которые наблюдаются в процессе обучения. Например, известно, что в пространстве весов нейронной сети существует бесконечное число значений, при которых достигается нулевая ошибка при обучении (а в этом, формально говоря, и заключается цель обучения сети). При этом подавляющее большинство из них очень плохие, то есть при таких весах нейронная сеть будет работать сколь угодно плохо на новых данных. Но при этом алгоритмы обучения почему-то «не видят» эти плохие значения и сходятся к таким весам, при которых нейронная сеть показывает высокое качество работы на новых данных. С другой стороны, нет никаких гарантий, что, изменив процедуру обучения нейросети, не удастся еще сильнее повысить качество работы. Это прямое следствие отсутствия понимания динамики обучения. В последние два-три года появился ряд эмпирических работ, в которых сделаны попытки разобраться в происходящем. Одной из целей нашего центра является выработка общей интуиции об этой динамике, на основе которой можно было бы построить более эффективные методы обучения нейронных сетей. Такие методы позволили бы обучаться на основе меньших объемов данных; обучаться быстрее и до более высокого качества; использовать неразмеченные данные и т.д.