Революция в науке о белках – и снова машинное обучение. За что именно дали Нобелевскую премию по химии в 2024 году

Нобелевскую премию по химии в 2024 году дали за предсказание структуры белков – с помощью машинного обучения. Двое из трех лауреатов – Демис Хассабис и Джон Джампер – работают в Google, и только Дэвид Бейкер – университетский ученый. Их работы произвели революцию в науке о белках, а значит, расширили возможности и современной медицины, и фармацевтики, и всех наук о живом.

Снова белки

О том, что такое белки и почему они так важны, Настоящее Время подробно писало в минувший понедельник, рассказывая о премии по физиологии и медицине, которую дали за расшифровку кусочка механизма биосинтеза белков в организме, поэтому не будем повторяться. Сегодняшняя премия – не о том, как наше тело создает белки, а о том, как они устроены. Как мы уже говорили, все белки состоят из аминокислот – сравнительно небольшого количества довольно несложных строительных блоков. Но благодаря их комбинациям и расположению в пространстве белков великое множество – и они обеспечивают огромное количество самых разных функций в живых организмах. Чтобы понимать, как они работают, нужно уметь изучать их структуру.

Золотой стандарт определения точной структуры веществ с описанием расположения атомов в пространстве – метод рентгеноструктурного анализа (РСА), за его изобретение отец и сын Брэгги получили Нобелевскую премию по физике 1915 года. Формально метод универсален – с его помощью можно изучать и кристаллы соли, и соединения радиоактивного урана, и небольшие органические молекулы, и белки. Но его специфика такова, что для белков он не очень точен, в них очень много атомов, львиная доля которых – совсем маленькие и легкие: водород, азот, углерод, кислород. Поэтому рентгеновское излучение взаимодействует с ними довольно слабо, "отражения" получаются нечеткими, и вся картинка "плывет". А не зная структуру, невозможно понять свойства и уж тем более – создать новые белки с заданными свойствами.

Не будем умалять важности РСА: именно с его помощью были расшифрованы структуры важнейших белков, вроде инсулина, а также той самой рибосомы, которая их синтезирует. Но расшифровка каждого белка была труднейшей многолетней работой, штучным произведением искусства (добрый десяток Нобелевских премий дали именно за установление структуры важных белков, вроде инсулина). Такая "штучность" страшно мешала и беспокоила ученых, поэтому умение расшифровать и предсказать структуру сложных белков было одной из основных задач биохимии, физики белка и смежных областей в последние 50 лет.

И вот в 2018 году она была решена: Демис Хассабис и Джон Джампер разработали модель искусственного интеллекта (ИИ) для предсказания сложных структур белков. А Дэвид Бейкер научился создавать совершенно новые их виды.

Как это работает

У изучения структуры белка длинная история. Еще в 1961 году было доказано, что трехмерная форма белка, о которой мы говорили выше, определяется только аминокислотной последовательностью, а не процессом синтеза на рибосоме (и здесь мы снова отсылаем читателя к статье о Нобелевке по медицине и физиологии). В 1969 году впервые удалось химически синтезировать полностью функциональный белок – в пробирке, без участия рибосомы. Из этого чисто логически вытекает вывод: если известна составляющая белок аминокислотная последовательность (это как раз относительно несложная задача), то можно предсказать и трехмерную структуру белка.

От принципа до реализации прошло полстолетия.

Сначала в авангарде были физики, которые взялись изучать белки как физические объекты и попытались создать алгоритм определения структуры, используя минимальное количество параметров. Их оказалось порядка 50 тысяч, но рабочий алгоритм так и не был создан: параметры оказались не вполне точны, а вариантов возможных структур белковой цепи с заданными аминокислотами – триллионы. Задача оптимизации – понять, какая из этих триллионов структур будет иметь наименьшую энергию, значит, будет более устойчивой, значит, будет существовать на деле, – физикам не поддалась.

Однако в 2010-х годах за дело взялись нейросети, о которых Настоящее Время подробно писало вчера, рассказывая о Нобелевской премии по физике. Белки кажутся идеальной для них задачей – сила нейросети как раз в том, что она готова "съесть" практически любое количество данных и "играть" с гигантским числом параметров. В итоге в 2018 году компания DeepMind представила программу AlphaFold по предсказанию трехмерной структуры белка. И в 2020 году путем тренировок AlphaFold2 добилась успеха в предсказаниях структуры белков с точностью от 88 до 90%, почти как в экспериментах РСА – только без каких-либо экспериментов и быстро. AlphaFold – это 21 миллион подгоночных параметров и еще миллиарды бит информации в банках белковых данных, где она может искать похожие фрагменты в уже расшифрованных белках. Очень много по сравнению с пятьюдесятью тысячами, но нейросети все равно – и в этом ее прелесть.

Как же понять, успешна ли модель? Это тоже удалось сделать весьма "ненаучным", нефизическим методом. Создатели модели смогли с ее помощью корректно предсказать структуру практически всех 200 миллионов белков, которые идентифицировали исследователи на момент ее создания. С момента их прорыва AlphaFold2 использовали более двух миллионов человек из 190 стран.

Теперь любой желающий может установить программу на компьютер и начать предсказывать трехмерные структуры белка – или найти структуру любого известного белка в базе данных AlphaFold.

Зачем это нужно?

Зная трехмерную структуру белка, мы можем узнать и о его функции. Например, расшифровка структуры так называемого шиповидного (спайк) белка коронавируса, которым он цепляется за клетки хозяина, сделала возможной борьбу с вирусом, помогла искать вакцины и лекарства. И это верно для любых вакцин и лекарств: понимать мишень, на которую они должны быть направлены, – это половина успеха.

Здесь стоит отдельно поговорить о третьем лауреате – Дэвиде Бейкере. Нейросети – это работа Хассабиса и Джампера, а Бейкер – специалист по созданию новых белков, не существующих в природе, но с нужными нам свойствами. В 2003 году ему удалось создать первый такой белок, и с тех пор его исследовательская группа возглавляет это направление, разрабатывая белковые фармацевтические препараты, вакцины, наноматериалы и даже крошечные детекторы. Уже сейчас белки с заданными свойствами вышли за пределы биологии и медицины даже в рыночных продуктах: их добавляют в порошки, чтоб они лучше стирали, их едят вместо сахара, ими заменяют катализаторы, включающие вредные для среды металлы, например. Исследователи теперь могут лучше понять устойчивость к антибиотикам и создать модели ферментов, которые могут разлагать пластик. Но работа Бейкера и его последователей тоже совершила кардинальный рывок благодаря AlphaFold2 – чем больше ты знаешь существующих белков, понимаешь их структуру и функцию, тем больше у тебя шансов создать полезный новый.

Нобелевка Google – больше не шутка

В профессиональных кругах революционная роль AlphaFold – общее место, белковая наука благодаря ей переживает совершенный взрыв. Но Нобелевка казалась невозможной по техническим, бюрократическим причинам – не давать же ее гуглу! 2024 год подвинул традиционную академическую науку с трона главного производителя передового научного знания: Google получил сразу три Нобелевки. Джеффри Хинтон, уволившийся из компании в 2023-м, стал лауреатом по физике, а Хассабис и Джампер из того же Google получили премии по химии, не являясь дипломированными химиками или даже биохимиками, как Бейкер. И тем не менее это премия по химии. Установление структуры вещества – это химическая задача, и над ней традиционно работали химики (автор этой статьи – выпускница химического факультета МГУ, защитившая кандидатскую диссертацию по РСА комплексных соединений).

В итоге после объявления лауреатов соцсети многих ученых полны негодованием о том, какое отношение имеет машинное обучение к физике или химии и почему премии вообще получают люди "других профессий". Их оппоненты считают, что такие критики просто сами теряют связь с современной наукой – и это заставляет их нервничать.