В основе разработки – архитектура gSelformer-MV, способная одновременно обрабатывать несколько текстовых представлений одной и той же молекулы. Такой подход позволяет учитывать не только отдельные атомы, но и крупные фрагменты, например, функциональные группы, что значительно повышает точность предсказания физико-химических свойств соединений.

В отличие от традиционных методов, где молекула рассматривается либо как граф атомов, либо как строка символов, новая модель объединяет эти подходы. Благодаря формату Group SELFIES, структура молекулы разбивается на подграфы, каждый из которых анализируется нейросетью параллельно. Это обеспечивает более глубокое понимание взаимосвязей между строением и свойствами вещества.

Эксперименты показали, что предложенный алгоритм превосходит существующие решения по точности и объяснимости результатов. По мнению авторов, внедрение метода ускорит разработку новых лекарственных препаратов и материалов, где требуется быстрый и точный анализ тысяч потенциальных молекулярных структур.