Машинное обучение — это направление искусственного интеллекта, которое опирается на алгоритмы для решения проблем или создания новых молекул — например, белков. В прошлом году компания DeepMind использовала свой ИИ для предсказания формы почти всех белков, чтобы лучше понять их функции и надеяться на разработку более эффективных методов лечения или даже вакцин. С этой целью исследователи разработали систему искусственного интеллекта, способную создавать белки, на основе двух различных подходов.
Биохимические функции белков обычно обеспечиваются небольшим количеством остатков, которые составляют функциональный сайт (например, активный сайт фермента или сайт связывания с молекулой). Поэтому конструирование белков включает в себя определение аминокислот, обеспечивающих желаемую активность, и геометрических конформаций функциональных участков. В прошлом при проектировании белков удавалось находить последовательности, складывающиеся в желаемую конформацию, но получение функциональных белков остается сложной задачей.
Искусственный интеллект может расширить диапазон возможностей, используя множество обученных нейронных сетей, обученных на множестве белковых данных — публичной базе данных, содержащей сотни тысяч белковых структур. "В этой работе мы показываем, что машинное обучение может быть использовано для проектирования белков с широким спектром функций", — сказал в своем заявлении Дэвид Бейкер, ведущий автор
Исследователи описывают два подхода машинного обучения для создания белков с новыми функциями без необходимости уточнять складку или вторичную структуру молекулы. Первый, называемый "галлюцинацией", оптимизирует аминокислотные последовательности белков таким образом, чтобы их конечные структуры содержали желаемый функциональный участок. Важно понимать, что аминокислоты подобны буквам в тексте и являются кодом для функциональных белков.
Исследовательская группа сравнивает этот первый подход с написанием книги: "Вы начинаете со случайного набора слов — полной тарабарщины. Затем вы устанавливаете требование, например, чтобы первый абзац был о темной и бурной ночи. Затем компьютер меняет слова одно за другим и спрашивает себя: "Имеет ли это больше смысла для моей истории?"" Если это так, то изменения продолжаются до тех пор, пока история не будет завершена. В этом случае начиная со случайной строки аминокислот, программное обеспечение изменяет последовательность, пока не будет создана окончательная версия, кодирующая желаемую функцию.
Второй подход, называемый "раскрашивание", работает в обратном направлении. Он начинает с функционального участка белка, затем добавляет дополнительные последовательности для создания жизнеспособного белкового каркаса. Нейронные сети заполняют "недостающие фрагменты" структуры белка всего за несколько секунд.
Лабораторные испытания показали, что многие белки, созданные с помощью этих подходов, функционируют, как и ожидалось, например, связываясь с противораковым рецептором PD-1. Кроме того, эти методы могут быть полезны при разработке вакцин, которая часто осложняется молекулярной формой, которую необходимо получить. Например, исследователи смогли создать новые белки, включающие фрагмент патогена, необходимый для вакцины против респираторно-синцитиального вируса. Программное обеспечение могло свободно создавать любую структуру вокруг этого фрагмента, что привело к созданию нескольких потенциальных вакцин с различными молекулярными формами.