ПОСТРОЕНИЕ МАСШТАБНОЙ МОДЕЛИ ПРОСТРАНСТВЕННОЙ СТРУКТУРЫ БЕЛКА ПО ЕГО НУКЛЕОТИДНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ

18-11-2023

Резюме: предлагается метод предсказания вторичной и третичной структур белков эукариот по нуклеотидной последовательности соответствующих генов. Точность достигает долей пикометра.

В настоящее время остается нерешенным вопрос, каким образом длинной полипептидной цепи удается принять ту единственную трехмерную форму, которая необходима для выполнения биохимической функции. Мы предполагаем, что вторичная структура натурального белка эукариот определяется в процессе его биосинтеза на рибосоме третьим нуклеотидом кодона и предлагаем таблицу "квазикомпозиционного кода" (ТКК) соответствия определенного кодона с той структурой, в которую входит данная аминокислота.

ВВЕДЕНИЕ

Настоящая работа является составной частью комплексного исследования в смежных областях науки. Гипотеза о связи генетического кода и структуры белка появилась в другой области, которая выходит за рамки настоящей статьи, однако проверка этой гипотезы и аппробация таблицы квазикомпозиционного кода основана на биохимических методах. Это сузило список цитированной литературы до трех: справочник по корреляционному анализу, банк нуклеотидных последовательностей и банк структур.

Суть работы заключается в следующем. Существует две общепризнанных таблицы генетического кода. Одна из них связывает триплетный код ДНК с первичной структурой белка, синтезируемого рибосомой клетки. Вторая таблица – код митохондрий. Мы предлагаем третью таблицу для клеток эукариот, в которой есть дополнительная графа, указывающая на композицию данного аминокислотного остатка по отношению к предыдущему.

Цель настоящей работы – проверка таблицы квазикомпозиционного кода методом корреляционного анализа. Для этого сравним вторичные структуры, полученные по нуклеотидной последовательности белка с использованием нашей таблицы и вторичные структуры этого белка по данным координатного банка.

На этом пути нас подстерегают следующие проблемы:

Механизм рибосомы эукариотической клетки, согласно нашей гипотезе, лишь "правильно" устанавливает аминокислоты в растущую молекулу белка, что заменяет длительный процесс самосборки вторичной и третичной структур. Мутация в третьей позиции кодона лишь замедлит процесс биосинтеза, но физикохимические взаимодействия переведут белок в "правильную" устойчивую конформацию. В таком белке-мутанте композиционный код нарушен, а процесс сборки белка замедлен.

Микроструктура гомологичных участков может кардинально различаться (разными микропутями можно вычертить макроструктуру). Эта проблема исключает проверку ТКК по кодам гомологов, в частности с разным содержанием C+G-оснований. Ограничивая выборку классической альфа-спиралью (альфа-керотины, тропонин-С, миоглобин, инсулин), классической бета-структурой (фиброины), известными структурами, для которых код известен не по гомологам, мы с одной стороны рискуем потерять достоверность, а с другой стороны увеличиваем чистоту эксперимента.

Требование чистоты эксперимента ограничило выборку от многих сотен до 15 белков. Общее количество альфа-спиральных участков в этих белках составило несколько сотен, а количество сопоставляемых аминокислотных остатков превысило 2800.

Используя биномиальный критерий нам удалось получить достоверные результаты в рамках жестких финансовых ограничений настоящего исследования, не позволивших обработать весь объем банков данных.

Нам приходится опираться только на очень надежные данные по классическим альфа-спиральным участкам и классическим бета-слоям. По этим соображениям мы провели дополнительное исследование семейства фиброинов, белков с классической бета-cтруктурой, и альфа-керотинов с классической альфа-структурой

Вариант 1 соответствует вхождению остатка в 4/10 альфа-спираль;

Вариант 4 соответствует вхождению остатка в 3/10 альфа-спираль;

Вариант 2 соответствует вхождению остатка в классический бета-слой;

Вариант 3 соответствует положению второго остатка бета-поворота.

На примере альфа-керотина с классической альфа-структурой рассмотрим работу компьютерной программы, в основу которой положена таблица квазикомпозиционного генетического кода.

Каждый триплет нуклеотидной поледовательности белка преобразуется, согласно таблице в вариант композиции 1...4.

Результат работы программы перекодировки генетического кода в композиционный в типовом случае одного из 30 альфа-керотинов:

111311411141143143111334141341111114131131111111111141111421141313114111311431311411314111

411141111314114431414131141113111111411411121131111311432113411111334141114111431111141111

Программа показывает большое количество кодов 1 и 4, соответствующих 4/10 и 3/10 альфа-спиралям соответственно. Бета-кодов (2 и 3) в керотине содержится 28/120 = 0.23, т.е. менее 24%. Все 30 разновидностей керотинов, коды которых нам были доступны, программа причислила к альфа-структурным белкам.

Теперь рассмотрим результат перекодировки кодов одного из 3 типовых фиброинов с классической бета-структурой [4].

13131341122341313323211333311332331313333223323332342313333233313433311223233331114132143

11311132133411123133333333333342233114212213211313231131333213223323313333431233323333334

В бета-структурном белке, процент бета кодов должен превышать процент альфа кодов. В данном (типовом) случае бета-кодов (2 и 3) содержится 63/118=0.53, т.е. действительно более 50%. Все доступные коды фиброинов программа причислила к бета-структурным белкам.

Не является ли различие кодов случайным совпадением? Мы ведь проверили всего 30 альфа-структурных и 3 бета-структурных белка.

Для проведения корелляционного анализа сформулируем нулевую гипотезу: в алфа-спиральных участках (по данным из банка структур) вероятность обнаружить бета-код (2 или 3 по ТКК) равна среднему значению по всей структуре белка.

На примере белка "Cholesterol oxidase" покажем, как исходная нуклеотидная последовательность этого белка из банка EMBL была преобразована в композиционный код, а затем производилось сопоставление с данными из брукхэвенского банка структур.

18 GGC Gly GLY 1

19 AGT Ser SER 3

20 GGA Gly GLY 2

21 TAC Tyr TYR 1 HELIX

22 GGC Gly GLY 1 HELIX

23 GGT Gly GLY 3 HELIX

24 GCC Ala ALA 1 HELIX

25 GTC Val VAL 1 HELIX

26 GCC Ala ALA 1 HELIX

27 GCG Ala ALA 4 HELIX

28 CTG Leu LEU 4 HELIX

29 CGG Arg ARG 4 HELIX

30 CTG Leu LEU 4 HELIX

31 ACG Thr THR 4 HELIX

32 CAG Gln GLN 1 HELIX

33 GCC Ala ALA 1

34 GGT Gly GLY 3

35 ATC Ile VAL 1

Номер

столбца

Значение

1 номер аминокислотного остатка

2 триплет нуклеотидов, кодирующий данный остаток

3 название аминокислотного остатка (по коду)

4 название аминокислотного остатка (из банка структур)

5 вариант композиции (по ТКК)

6 вариант композиции (из банка структур)

Количество аминокислотных остатков: 502

Альфа-спиралей (% по рентгену) 24.10

Все альфа-спиралные участки (по рентгену) содержат 96.69% Альфа-кодов (по ТКК)и 3.31% бета-кодов соответственно. Отношение процентного состава бета-кодов по всей длине белка к процентному составу в альфа-спиральных участках (по рентгену)составляет 2.289.

Эта цифра означает, что в альфа-спиралях (по рентгену) бета-кодов(по ТКК) примерно вдвое меньше, чем в среднем по белку. Детальный анализ показывает, что альфа-спиральные участки (по рентгену) бывают сдвинуты на один-два-три остатка вперед или назад, относительно тех же участков по ТКК. Этот сдвиг является погрешностью рентгеноструктурного метода, а его величина, т.е. погрешность рентгена зависит от свежести рентгеноструктурных данных. Чем более поздние исследования, тем меньше погрешность. Если концы альфа-спиральных участков, которые не определяются рентгеном, не учитывать, то корреляция возрастает.

Используем критерий знаков (биномиальный).

При этом методе сначала подсчитывают число случаев, когда эффект имеет знак "+" (в нашем случае число бета-кодов в среднем по белку превышает число бета-кодов в альфа-спиралях(по рентгену),т.е. их отношение больше 100 %), а затем сравнивают его с числом, которое можно было бы ожидать на основе чистой случайности ( в нашем случае вероятност случайного события равна 1/2). Далее определяют разницу между этими двумя числами, чтобы выяснить, насколько она достоверна.

При подсчетах результаты, свидетельствующие о положительной разнице, берут со знаком плюс, а об отрицательной – со знаком минус; случаи отсутствия разницы не учитывают.

Расчет ведется по следующей формуле:

Z = ((X-0.5)-N/2)/корень из (N/2), где

X – сумма положительных отклонений

N/2 – число отклонений при чистой случайности (один шанс из двух)

0.5 – поправочный коэффициент, который добавляют к X, если XN/2.

В нашей выборке из 15 имеем 14 положительных и одно отрицательное отклонение (оно относится к прокариотическому белку, который не обязан подчиняться нашей таблице).

Z = ((14-0.5)-15/2)/корень(15/2) = (13.5-5)/корень(7.5) = 3.10

Из таблицы значений Z можно узнать, что для уровня значимости 0.01 Z составляет 2.33. Поскольку полученная нами величина оказалась выше табличной, нулевую гипотезу следует отвергнуть. Значит, существует корелляция между данными, полученными путем преобразования нуклеотидной последовательности белков (по ТКК) и данными рентгеноструктурного анализа этих белков. Если не учитывать данные по белкам прокариот, то корреляция возрастет.

Существует другой способ аппробации ТКК, не зависимый от надежности и различной интерпретации данных рентгеноструктурного анализа. Он заключается в способности программы, использующей ТКК отличать одни типы белков от других, т.е. обнаруживать их индивидуальность.

Может ли программа продемонстрировать индивидуальность белков по их нуклеотидной последовательности или нет, наглядно показывает следующий эксперимент.

Нужно иметь очень веские аргументы, чтобы не заметить эффективной работы программы "Пикотехнология". Возражения должны быть подкреплены если не статистическими, то хотя бы одиночными данными, в противном случае они будут выглядеть просто голословными и неубедительными.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Достоверность полученных результатов можно увеличить, путем целенаправленного получения кодов белков, из организмов чистых линий. В этом случае эксперимент будет максимально чистым. При этом рентгеноструктурные данные тоже должны быть сделаны именно для белка этой чистой линии.

Трудоемкость этой задачи очевидна. Решить ее без финансирования этой темы затруднительно, поэтому авторы считают целесообразным ознакомить с этой проблемой других исследователей.

Для нас представляют большой интерес даже одиночные примеры, которые поставили бы под сомнение открытую нами закономерность, т.к. истина всегда дороже красивых иллюзий.

Рассмотрим наиболее интересные вопросы, связанные с ТКК.

1. В гомологичных белках для консервативных остатков, вовлеченных во вторичные структуры, используются все четыре буквы в третьих положениях триплетов. Не исключает ли этот факт возможности композиционного кодирования?

Если микроструктура гомологов идентична, то это указывает на вероятностный характер ТКК, т.е. не все аминокислоты, согласно ТКК рибосома ставит "правильно". Однако такие "отклонения" кода от "нормы" приводят лишь к снижению эффективности биосинтеза и не так критичны, как нарушение функции белка.

2. Не исключает ли существование организмов с разным содержанием G+C-оснований возможность композиционного кодирования?

Исключает, но только в том случае, если содержание G+C либо увеличивается до 100%, либо уменьшается до 0.

3. Известно, что по аминокислотной последовательности полипептида(а не по нуклеотидной) можно предсказать его вторичную структуру. Каким образом это удавалось до сих пор без привлечения квазикомпозиционного кода?

Квазикомпозиционный код лишь дублирует физикохимические взаимодействия. Его можно, не принимать во внимание, однако, по ТКК структуру белка можно определить мгновенно, хотя 100%-ная достоверность не гарантируется.

4. Различные организмы характеризуются различным G+C составом ДНК, при высоком содержании G+C некоторые кодоны практически не используются. Однако белки, выполняющие одну и ту же функцию у разных организмов, обладают высокой гомологией и формируют сходные вторичные и третичные структуры. Применима ли ТКК для анализа последовательностей ДНК в этом случае?

Имея под рукой только ТКК этот вопрос можно решить только формально. Гомологичные белки с одинаковой микроструктурой (такие гомологи существуют) имеют одинаковый композиционный код. В качестве примера можно привести гомологичные участки нейротоксинов скорпиона (их вторичные структуры представлены под номерами 9 и 10). Более того, с помощью сопоставления таких гомологов нам удалось исправить четыре кода ТКК из 64 полученных другим методом.

Неформально решить вопрос о сохранении функций гомологичными учасками, в которых заменены одни остатки на другие, поможет детальное рассмотрение методики, которая помогла составить ТКК.

Необходимо отметить, что нашу методику не удается аппробировать на простых молекулах, т.к. существующие экспериментальные методы, применяемые для исследования простых молекул не позволяют различить какая модель лучше: общепринятая или наша. Модели неразличимы на уровне физических и химических экспериментов. Простота и наглядность наших классических моделей не убеждает рецензентов, которые считают, что необходимо повременить до тех пор, пока прямые эксперименты подтвердят или опровергнут наши модели. Это может случиться, когда в микроскоп можно будет увидеть форму отдельного электрона. Однако мы считаем, что аппробацию наших моделей можно провести другим способом, получив следствия, например в области биологии, которые проверяются экспериментально. ТКК как раз и есть такое следствие.

История составления ТКК необычна. Причиной настоящего исследования явилось наше исследование в смежной области, которую можно назвать "формообразование в микромире". Первопричиной исследования является создание нами кольцевой модели электрона, позволившее применить для "неклассических" объектов законы классической физики, в частности создать масштабные геометрические модели электронных оболочек атомов и молекул. Эта работа отмечена в 1989 г. серебряной медалью ВДНХ СССР.

В наших классических моделях микрообъектов, электроны представлены кольцевыми магнитами. Эта модель аналогична рассмотренной в [1]. Для упрощения дальнейших рассуждений отметим, что рассмотрение внутренней структуры электрона, зависимости радиуса электрона-кольца от напряженности поля ядра и другие физические нюансы кольцевой модели электрона выходят за рамки нашего обсуждения. Они обсуждаются в монографии "Формы, механизмы, энергия наномира", которая готовится к публикации.

Метод исследования, который помог составить ТКК, заключался в проведении модельных экспериментов с кольцевыми магнитами, изображающими электроны. Число кольцевых магнитов соответствовало числу валентных электронов молекулы.

В экспериментах использовались дополнительные поверхности, имитирующие компенсацию электростатического воздействия на электроны со стороны ядер атомов и других электронов молекулы. Некоторые модели были изготовлены методом симметричного размещения заданного количества колец, с учетом всевозможных свойств реальных электронов. Использовались методы перебора вариантов, аналогии, оптимизации, систематизации и др.

Первый экспериментальный результат был получен в модельном эксперименте с кольцевыми магнитами, который проводился с целью проверки гипотезы: "Кольца-электроны образуют электронную оболочку-многогранник". Действительно, 8 кольцевых магнитов поддерживают форму восьмигранника из колец, уложенных на сферу электростатического равновесия электронов (рис. 1). Более темным цветом помечены обращенные наружу южные полюса электронов. Эта модель электронной оболочки соответствует ферми-поверхности, обнаруженной экспериментально [2].

Замещение четырех колец-электронов недостроенными восьмигранниками (без одного кольца) превращает форму фосьмигранного атома в знакомую нам форму тетраэдрической молекулы (рис. 2). Такую форму имеют электронные поверхности молекул тетрахлорида углерода и фосфорной кислоты.

Наглядная демонстрация форм молекул в модельном эксперименте увлекла нас, и мы построили более 1 500 кольцевых моделей различных химических соединений (постоянная экспозиция в павильоне "Центральный" ВВЦ (ст. м. ВДНХ).

Особый класс химических соединений – сопряженные системы. Модельный эксперимент показал, что взаимовлияние углеродоподобных атомов является причиной перестройки электронной структуры молекулы из многогранной в многослойную, что приводит к формированию "плоской" сопряженной системы, например, молекулы бензола (рис. 3).

Композиция многогранных и многослойных атомов и молекул позволила нам составить кольцегранную структуру нуклеотидов ДНК (рис. 4). Структура нашей модели ДНК в общих чертах не противоречит общепринятой модели [3].

Как проверить, совпадают ли формы моделей из колец с формами реальных молекул? Это не так просто, как может показаться на первый взгляд. Дело в том, что не только электроны, но и многие атомы на электронных фотографиях молекул неразличимы. Общий контур молекулы хорошо различим лишь для крупных белков, насчитывающих тысячи и более атомов [4].

Мы решили построить кольцевые модели нескольких известных белковых молекул. Одна из них troponin-C, насчитывающая около 8 000 поверхностных электронов, представлена на рис. 5. Она построена не по результатам рентгеноструктурного анализа, а ПО ГЕНЕТИЧЕСКОМУ КОДУ этой молекулы. Рассмотрим, как это было сделано.

В настоящее время считается, что белковые молекулы рождаются в развернутом виде, а затем сами сворачиваются под действием межатомных сил [4]. Однако в пробирке этого может и не произойти. Почему?

Мы построили модель группы CCON (рис. 6) (а) – электронная поверхность, (в) – упрощенное изображение.

Гипотеза: треугольник DEF каждой группы CCON совмещается рибосомой с треугольником АBC предыдущей группы CCON в соответствии с ТКГК.

Проверку гипотезы мы начали с того, что изготовили модель полимера, в котором точки D треугольников DEF совмещены с точками A треугольников ABC (вариант 1). В полученной структуре на один виток спирали пришлось 3,65 моделей аминокислотных остатков. Это значение соответствует структуре альфа-спирали.

Совместив точки D треугольников DEF с точками C треугольников ABC (вариант 2) мы получили более вытянутую спираль. Коэффициент удлиннения составил 1.3, что, согласно экспериментальным данным отличает бета-структуру от альфа-структуры.

Третий вариант соединения моделей остатков дал левую спираль, которой мы не нашли экспериментального соответствия, однако чередования вариантов 1-3-1 привело к повороту бета-структуры на 180 градусов, причем группы CO расположились напротив групп NH.

Треугольник DEF в случае образования 3/10 и 4/10 альфа-спиралей несколько повернут относительно ABC за счет образования дополнительной водородной связи.

Таким образом, вариант 1 расщепляется на три.

Следующий шаг – проверка, одинаковы ли коды одного и того же аминокислотного остатка, если он, согласно рентгеноструктурным данным входит в состав альфа-спирали?

Анализ кодов миоглобина и тропонина-С подтвердил это предположение. Участки альфа-спиралей содержали преимущественно одни и те же коды. В частности Gly в альфа спиралях кодируется трипретами GGC и GGG.

Следующий шаг – попытка построения кольцевых моделей белков с известной структурой, в частности, миоглобина, инсулина, тропонина, окситоцина. Перебор помог выбрать варианты соединения моделей групп CCON, дающие формы этих белков.

При этом оказалось, что, например, аминокислота глицин Giy кодируется кодом GGC, если входит в состав 4/10-альфа-спирали, кодом GGA, если входит в состав бета-слоя, кодом GGG, если входит в состав 3/10-альфа-спирали, где водородная связь установлена не с четвертым, а с третьим аминокислотным остатком и, наконец кодом GGT, если является вторым аминокислотным остатком бета-поворота.

А. Кушелев составил ТКК, в которой каждому из 64 кодов соответствует вариант композиции. Впервые эта таблица была опубликована в газете "Экономика сегодня и завтра" №1(4) 1993г. С этого момента началась проверка ТКК различными группами специалистов из МГУ и ин-та молекулярной биологии. Официальных ответов мы не получили.

Авторам представляется интересным обсудить вопрос о возможных применениях открытой закономерности, представленной в виде ТКК.

Таблица квазикомпозиционного кода помогает получить сведения о структурах большого класса белков без проведения дорогостоящего рентгеноструктурного анализа. Это позволяет организовать надстройку банка EMBL, которая, занимая 12 килобайт(!) оперативной памяти компьютера сможет интерпретировать код белка (с учетом перечисленных выше ограничений) как структуру, причем в масштабе реального времени доступа к банку нуклеотидных последовательностей. Версия 2.0 программы продемонстрирована в настоящей статье. В упакованном виде она занимает 5 килобайт. Версию 2.0 (определение вторичной структуры) можно получить бесплатно.

Мгновенность получения структурных данных ставит ТКК вне конкуренции с рентгеном и другими методами. 100% достоверность, согласно нашей гипотезе может быть получена в случае учета ТКК и физико-химических взаимодействий между отдельными аминокислотными остатками, отдельными атомами и отдельными элктронами, классическая модель которых создана в лаборатории "Наномир".

Автор: Ю.А. Кушелев, Д.Н. Кожевников, В.В. Яким, С.С. Марковский, В.В. Беляев

По материалам сайта "sciteclibrary.ru"

Другие статьи по теме: