ИИ «на массе»: машинлернерам нужны белки
🐿 Как всякий фанат ждет выхода очередной серии любимого сериала, так и каждый структуральщик хочет скорее увидеть новый AlphaFold. И вот в мае команда из Google DeepMind во главе с Джоном Джампером представила
AlphaFold3. Модель предсказывает пространственную укладку белков еще точнее, чем AF2. Но главная фишка — это способность прогнозировать структуру белковых комплексов и
взаимодействия между белками и малыми лигандами или ДНК/РНК. AF3 принимает на вход последовательности нескольких молекул и выдает совместные 3D-картинки.
Нейросеть превосходит как классические программы докинга (Vina), так и новаторские тулы прогнозирования структур мультибелковых комплексов (AlphaFold-Multimer). Обгоняет AF3 и аналогичную модель RoseTTAFold All-Atom — ее в марте выпустила конкурирующая лаборатория небезызвестного Дэвида Бэйкера. Чтобы добиться таких результатов, пришлось существенно доработать архитектуру нейросети AF2 🤖 Например, прибегнуть к диффузионным моделям. Однако в отличие от прошлого раза компания
не открыла исходный код и веса модели, а только предоставила доступ к веб-сервису и поделилась «псевдокодом», поскольку не хочет, чтобы фармкомпании коммерциализировали инновацию. Сторонники open-source в бешенстве, энтузиасты пытаются воссоздать алгоритм и сделать его полностью доступным, были даже взломы сервера AF3 😱 На этом фоне DeepMind обещала поделиться кодом с академическими исследователями в течение 6 месяцев.
🧬 Если AlphaFold и другие структурные модели, требующие для обучения экспериментальные данные, — уже давно на слуху, то сейчас набирает популярность другой подход — искать скрытый смысл в аминокислотных последовательностях, подобно тому
как ChatGPT постигает закономерности человеческих текстов. Речь про
белковые языковые модели (pLM). Они уже показали очень любопытные результаты, в том числе для предсказания фолдинга и
de novo дизайна белков. Так, недавно ученые из стартапа Profluent под руководством Али Мадани получили с помощью pLM первые искусственные
CRISPR-ножницы ✂️ и даже «порезали» ими гены человека!
Известно, что для генно-инженерных целей наиболее удобен белок SpCas9, хотя в природе много и других систем, которые ученые продолжают интенсивно искать в сообществах микроорганизмов 🧫 Но машинлернерам из Беркли естественного разнообразия оказалось мало. Специалисты, проанализировав сотни известных микробных геномов и метагеномов, обнаружили более миллиона оперонов и создали целый Атлас CRISPR-Cas. Далее они дообучили белковую языковую модель
ProGen, которая умеет предсказывать следующие аминокислоты в цепочке, на собранных данных и попросили сгенерировать миллионы новых Cas-нуклеаз. Потом 200 наиболее перспективных последовательностей они синтезировали в лаборатории и трансфицировали плазмидами с ними (+гидовой РНК) человеческие клетки линии HEK293T. Многие ИИ-редакторы эффективно отредактировали гены, а один, названный OpenCRISPR-1, показал даже меньшую офф-таргет активность, чем природный белок. Разработчики надеются, что ИИ CRISPR-системы будут точными и универсальными и однажды дойдут до клиники.
#выходные_у_бластим