Наша группа
была организована в 1998 году
(сектор, затем лаборатория)
Студенты ФББ:
Сотрудники:
д.ф.-м.н. П.В. Голубцов (МГУ), М. Баранова,
к.ф.-м.н. А.Г. Витрещак, А. Рогов,
д.ф.-м.н. В.Г. Кановей, И. Глотова
д.ф.-м.н. В.А. Любецкий, Студенты/аспиранты
к.ф.-м.н. К.Ю. Горбунов, мех-мата:
к.ф.-м.н. А.В. Селиверстов, Д. Колобков, к.ф.-м.н. Е.В. Любецкая, А. Шатравин, к.б.н. Л.Ю. Русин, И. Иванов, к.б.н. Е.А. Лысенко (ИФР), М. Секирко, О.А. Зверков, Е. Хмуркин К.В. Лопатовская Бывшие аспиранты:
Тесно сотрудничали/чаем с:
Л. Данилова, В.В. Вьюгиным, Л. Леонтьев, М.С. Гельфандом, А.А. Мироновым, М. Ширшин, С.А. Пироговым, В.В. Алешиным (МГУ), А. Армизонов Е.А. Асариным, Е.А. Жижиной, Л.И. Рубановым С 2000 года нами опубликовано:
2 монографии и 1 вузовский учебник (то и другое по математике) и 23 статьи в математических журналах (Успехи мат. наук
, Труды института им. Стеклова, Мат. Заметки и т.д.) А также – опубликовано 36 статей в биологических журналах (Молекулярная биология, Биофизика, Биохимия, FEMC, ВМС, JBCB, inSB,...) сайт http://lab6.iitp.ru (без ИП и трудов конференций) Подготовлено 2 докторские и 3 кандидатские диссертации (все – физ.-мат. науки, «теоретические основы информатики», «биоинформатика»).
Ежегодно делаем доклады примерно на 4-х международных конференциях (поровну математических и биологических).
За это время сотрудники приняли участие в выполнении: 25 грантов, 2 целевых грантов, научных программ и 2 совместных тем по линии РАН-СНРС.
Сейчас я – руководитель грантов РФФИ, МНТЦ и темы по РАН-СНРС.
Лауреат премии «За лучшую публикацию в журнале Молекулярная биология» за 2005 год.
Тесно сотрудничаем с кафедрой «математической логики и теории алгоритмов»
мех-мата МГУ, в частности, я читаю там курс «Модели и алгоритмы в биоинформатике».
Другие сотрудники лаборатории также преподают в МГУ и в Государственной классической академии.
1) Проблемы эффективности (это – дескриптивная теория множеств, нестандартный анализ, теория алгоритмов, пучки на алгебрах; динамические игры), (Любецкий, Кановей, Горбунов, Селиверстов, Голубцов,...) 2) Модели (и алгоритмы) основных молекулярных процессов в клетке: геномы бактерий, геномы, пластидные (хлоропластные) и ядерные, растений, водорослей и простейших,.....
Биологический Биологические результат данные Модели и алгоритмы (компьютерный счет) ДНК=геном – последовательность в 4х-буквенном алфавите {A,C,T,G} с характерной длиной 3 миллиона – 6 миллиардов (и меньше) позиций. Каждая буква называется «нуклеотид».
лидерная лидерная область область сигнал 2 сигнал 3 ген ген 1 ген инструкция для инструкция для инструкция для или для создания другой молекулы:
белка или РНК Ген считывается! по сигналу из лидерной области Существует несколько типов сигналов (= регуляций):
М.С. рассказывал об одном типе сигнала я расскажу о двух других типах сигналов Сигнал типа «репрессия/активация»
связанный с «ПЕРВИЧНОЙ структурой» ДНК.
На следующем слайде показан сигнал другого типа связанный с «ВТОРИЧНОЙ структурой» ДНК (=мРНК) Показана лидерная область перед геном, а в окне образуются «спирали»;
и множество спиралей как раз называется ВТОРИЧНОЙ структурой в окне «Спираль» с «плечами», склеиваются G с C и A с T:
Реальные еще очень простые вторичные структуры:
Два сигнала (состояния). Результат определяется тем, какая из двух альтернативных вторичных структур образуется: «Т» – тогда «терминация» или «А» – тогда «антитерминация»
Переходы, возможные для этой регуляции и соответственно в нашей модели:
(1) Правый конец y окна сдвигается на один нуклеотид вправо или остается на месте или подается сигнал «Т». Альтернатива: когда правый конец y доходит до начала гена, то подается сигнал «А».
При этом вторичная структура в окне формирует выбор между Т или А;
(2) Левый конец x окна сдвигается на три нуклеотида вправо или остается на месте, что зависит от частоты c предшествующего считывания регулируемого гена;
(3) Вторичная структура преобразуется в окне, т.e.
текущая вторичная структура трансформируется в новую структуру '.
p(c) – частота наступления состояния «Т»
(«несчитывания гена» = состояния терминации), при каждом фиксированном значении частоты считывания («концентрации») c.
Результат нашей модели для случая регуляции Vibrio cholerae (gamma subdivision):
probability p(c) Примеры результатов счета в этой модели Мы считали функцию p=p(c) для практически всех лидерных областей аминокислотных оперонов и аминоацил-тРНК синтетаз. Имеется высокое согласие с экспериментом, с одной стороны, и предсказание многих новых случаев такой регуляции, с другой стороны. Здесь показаны thrA опероны у гамма-протеобактерий.
Два основных направления нашей работы в Биоинформатике:
1) Модели регуляции генов:
1a) тип регуляции/сигнала – «с вторичной структурой» – уже рассказано;
1b) тип регуляции/сигнала – «промотор» – вторая очередь;
2) Модели эволюции этих регуляций/сигналов, т.е. эволюции регуляций 1а – будет сейчас; 1b – вторая очередь.
нашей работы в Биоинформатике:
1а) тип сигнала – «вторичная структура»:
[Lyubetsky, Pirogov, Rubanov, Seliverstov, 2007, Journal of Bioinformatics and Computational Biology, vol 5, no 1, p.
155-180], 1b) тип сигнала – «промотор»:
[Селиверстов, Лысенко, Любецкий, 2009, Физиология растений РАН, том 56, № 5; Seliverstov, Rubanov, Lyubetsky ВМС Evol Biol, представлена] 2) Модели эволюции этих регуляций, т.е.
эволюции сигналов 1а и 1b:
[Любецкий, Жижина, Рубанов, 2008, Гиббсовский подход в задаче эволюции регуляторного сигнала экспрессии гена, ППИ, №4; Горбунов, Любецкий МолБио, представлена] Дано дерево G, у которого длины ребер соответствуют времени переходу от предка к потомку:
Иногда ищется и само дерево G : тогда даны только современные последовательности.
Эти заданные последовательности – виды, гены, белки, сигналы.
Мы рассмотрим именно случай сигнала с вторичной структурой (т.е. сигнала типа 1а).
Классическая аттенюаторная регуляция биосинтеза треонина у гамма-протеобактерий VC = Vibrio cholerae, VV = Vibrio vulnificus, VP = Vibrio parahaemolyticus, AB = Actinobacillus actinomycetemcomitans, HI = Haemophylus influenzae, PQ = Mannheimia haemolytica, VK = Pasterella multocida, YP = Yersinia pestis, EO = Erwinia carotovora, TY = Salmonella typhi, XCA = Xanthomonas campestris, EC = Escherichia coli, KP = Klebsiella pneumoniae, SON = Shewanella oneidensis Наша модель эволюции сигнала:
Такая функция минимизируется с помощью алгоритма аннилинга. На каждом его шаге текущая конфигурация заменяется на новую из определенного списка возможностей с вероятностью или остается прежней с вероятностью Нами доказана сходимость к глобальному min при условии Показано одно ребро от некоторой конфигурации.
На этом ребре за время tj происходят: замены букв со скоростями R, вставки букв и делеции букв.
j-е ребро Показано одно ребро от конфигурации. На этом ребре произошел переход от вторичной структуры hj в j к вторичной структуре h'j в 'j.
Решение (фрагмент): эволюция предкового сигнала Поиск и эволюция сигнала другого типа (1b):
-35бокс: TTGaca...17-18н...-10бокс: TAtaaT стр. ген Мы искали промоторы (РЕР) в пластомах всех растений и водорослей перед всеми белоккодирующими генами.
Итак, промотор – некоторая комбинация слов (= боксов) с условиями на них:
Промотор состоит, по крайней мере, из двух боксов длины 6 каждое с расстоянием между ними около 17-18 букв. Известны: некоторое нечеткое предпочтение определенных букв в определенных позициях, дополнительные боксы, кривизна, распределение потенциала (у бактерий).
Такая комбинация слов и расстояний называется многобоксовым сигналом.
Это описание недостаточно четкое, поэтому нужно множественное выравнивание.
«Считывание» гена состоит из двух этапов:
транскрипции и трансляции. Первый этап начинается со связывания комплекса молекул (РНКполимеразы + сигма-субъединицы) с ДНК.
Связывание происходит со специальным местом на ДНК, которой называется промотором. Это место – целая структура, которая может состоять из двух боксов: «-35 бокса» и «-10 бокса» и еще из «TGрасширения -10 бокса».
TTGACATGGCT=ATATAAGTCATGTTATACT Arabidop TTGACACGGG=CATATAAGGCATGTTATACT...ASpinacia TTCACGATA==TATATAAGTCATACTATACT Cycas TTGACATACA=GATATGTCTCATATTATACT Cryptomer
TTGACATTGAT=ACATGGATCATATTATACT Pinus
TTGACTTTAAT=AAACCATTTCTGTTATACT Welwitsch TTGACACGGAT=AGGTTTTT=GTGATATGCT Adiantum TTGACATCAAT=AGATAAGTTGTGTTATACT Angiopter TTGACATATAT=GGAAAGATCATGTTATACT Psilotum TTGACACAAA=AAGAAAGATTGTGTAATATT Huperzia TTGACATAC=TAATGGGATATGTGTAATAAT Aneura TTGACATAA=TCATATGTTATGTGTAATACT Marchantia TTGACATAA=TAATACATTTTGTGTAATACT PhyscomitrTTGACATTT=TTATACTTTACATACTATAAT Chara
TTGACATTAGTTATACGT=TTGTGCAATACT Chaetospha TTGACAGCT=TAAGGTTAAT=ATGTAATAAT Staurastr TTGACAACAG=CATTAACTATCTGTAATAAT Zygnema TTGACAAATA=AACATCATTT=TGGCATAAT Mesostig TTGATTAATATAA=ATTAATTA=GTTATAAT Bigelowiel Для гена psbA (photosystem II protein D1) в пластомах эукариот найден древний промотор с восходящий по крайней мере к предку Streptophyta Столь же древние промоторы нами найдены и перед другими генами, например:psbB, psbE, rbcL, psaA у почти всех Streptophytina, а для гена rps20 – у всех красных и криптофитовых С другой стороны, определена эволюция (не древних) промоторов для генов, например: psbN – у всех цветковых растений и у голосеменного Cycas; а для гена ndhF у всех цветковых растений.
Таким образом, промоторы, как и гены, иногда очень консервативны, а иногда испытывают быструю эволюцию – пример биологического результат.
Campanul A lamiids A eurosids1 Myrtales B,C eurosids2 Geraniales B Для поиска промоторов (и вообще многобоксовых сигналов) использовались которые как и все наши основные алгоритмы доступны: http://lab6.iitp.ru Один из них описан ниже – поиск многобоксовых другой – множественное выравнивание по филогенетическому дереву.
Далее излагается первый из этих алгоритмов для случая однобоксового сигнала:
Даны n последовательностей. Задача: найти систему сигналов (=мотив) s = {s1,...,sk}, состоящую из сигналов (=участков) s1,...,sk, где k n. Все участки имеют одинаковую длину. Определяем качество системы как сумму попарных близостей сигналов, составляющих систему.
Ищем систему с максимальным значением качества, т.е. ищем максимум целевого пространстве всех возможных систем:
Идея нашего алгоритма. Делим все последовательности на две примерно равные части и лучшую систему в одной части объединяем с лучшей системой в другой части. Пусть 1() – лучшая система в одной части как функция от (и фиксирована последовательность *), а 2() – аналогичная система в другой части как функция от.
Индуктивный шаг:
от 1(•) и 2(•) переходим к (•) по правилу: лучшая система 1()+2(), полученная перебором всех и в Пример. Даны n=14 последовательностей, каждая с длиной m=201; ищем систему сигналов с длиной 15.
Работа алгоритма:
Результат работы алгоритма:
Качество потенциального сигнала растет в процессе счета:
Quality Последовательное изменение качества сигнала в ходе алгоритма:
Quality Параллельная реализация вычислительно трудоемких алгоритмов:
поиск мультибоксового регуляторного сигнала в группе геномов Волновая вычислительная схема на двумерной -сети перестановок мощностью порядка n2 (в полном пространстве n! перестановок):
1) отсутствует жёсткая привязка к числу процессоров кластера 2) линейный рост производительности от числа доступных процессоров в широком диапазоне (проверено на МВС-1000М МСЦ, до 512 CPU) Wavelike computation scheme Using 2D queue of permutations (P,Q) instead of straight one Q0,0(11) Q1,0(12) Q2,0(14) Q3,0(13) Q4,0(8) Q5,0(10) Q6,0(9) Q7,0(15) Q8,0(66) Q9,0(75)...
Q0,1(18) Q1,1(19) Q2,1(22) Q3,1(21) Q4,1(17) Q5,1(16) Q6,1(20) Q7,1(23) Q8,1(76)...
Q0,2(26) Q1,2(27) Q2,2(31) Q3,2(28) Q4,2(25) Q5,2(24) Q6,2(30) Q7,2(29)...
Q0,3(34) Q1,3(38) Q2,3(39) Q3,3(35) Q4,3(33) Q5,3(32) Q6,3(36) Q7,3(37) Q0,4(42) Q1,4(44) Q2,4(47) Q3,4(43) Q4,4(41) Q5,4(40) Q6,4(45) Q7,4(46) Q0,5(50) Q1,5(52) Q2,5(54) Q3,5(51) Q4,5(49) Q5,5(48) Q6,5(53) Q7,5(55) Q0,6(58) Q1,6(60) Q2,6(63) Q4,6(57) Q5,6(56) Q6,6(61) Q7,6(62) 292. Q0,7(67) ===== Q2,7(70) Q4,7(65) Q5,7(64) Q6,7(71) Q7,7(69) Параллельная реализация вычислительно трудоемких алгоритмов:
реконструкция эволюции регуляторного сигнала в группе геномов 1(1) 1(n1) Усовершенствованная параллельная схема аннилинга MC (= Metropolis-Coupled Markov Chain Monte-Carlo):
1) лучшее покрытие множества минимальных конфигураций 2) меньшая зависимость от выбранной начальной точки 3) более быстрая сходимость к одному из предполагаемых абсолютных минимумов функционала «энергии»
Тема – связь (РЕР) промоторов и предпочитаемых ими сигма-субъединиц.
Например, нами показано, что промотор С предпочтительно связывает Sig4-субъединицу РНКполимеразы. Аналогично для фаговых промоторов и полимераз.
Наши биологические результаты 1. Проведена реконструкция эволюционных событий молекулярного уровня:
построены деревья белков и согласующие их деревья видов, найдены события потенциальных горизонтальных переносов, потерь и дупликаций генов, случаи массовой дупликации генов в предковом геноме, статистические характеристики эволюционных событий по вершинам дерева видов и по таксономическим группам, сравнивались сценарии горизонтальных переносов против дупликаций и потерь генов. [In the book: Bioinformatics of Genome Regulation and Structure II. Springer Science & Business Media, Inc. 2005] 2. Предложены новые типы регуляции экспрессии генов:
2.1 Регуляция на уровне трансляции, опосредованная Т-боксом, например, гена ileS, кодирующего изолейцил-тРНК синтетазу, у Актинобактерий. [BMC Microbiology, 2005, 5:54; Молекулярная биология, 2005, 39(6)] 2.2 Регуляция на уровне трансляции посредством взаимодействия рибосомы, транслирующей лидерный пептид, и вторичной структуры РНК для гена leuA, кодирующего 2-изопропилмалатсинтазу, у Актинобактерий («LEU-элемент»). [BMC Microbiology, 2005, 5:54; Молекулярная биология, 2005, 39(6)] 2.3 Сложные типы классической аттенюаторной регуляции (когда антитерминатор не альтернативен терминатору), например, у лактобацилл перед геном ilvD:
это – цепь спиралей или псевдоузел. [готовится к печати] 2.4 Аттенюаторная регуляция генов cysK синтеза цистеина у Актинобактерий, вовлекающая ро-белок для терминации транскрипции: рибосома, транслирующая лидерный пептид, перекрывает сайт связывания робелка. [BMC Microbiology, 2005, 5:54] 2.5 Регуляция гена leuA у альфа-протеобактерий, вовлекающая ген лидерного пептида и консервативный псевдоузел («LEU1-регуляция»). [готовится к печати] 2.6 Регуляция, опосредованная аномально длинной спиралью РНК, генов, кодирующих транспортёры двухвалентных катионов (mntH) и ферменты, зависимые от металлов (никель-зависимая глиоксалаза и др.), у бруцелл.
Выясняется роль этой регуляции в выживании бруцеллы при незавершённом фагоцитозе (бруцеллез). [Биофизика, в печати] 2.7 Статистические данные о расположении длинных спиралей в геномах Актинобактерий относительно кодирующих областей: длинные спирали концентрируются в некодирующих областях вблизи 3'-концов высоко экспрессируемых генов (включая тРНК) или между сходящимися навстречу друг другу генами. Выясняется роль таких шпилек в снятии конформационного напряжения ДНК и при терминации транскрипции путем образования крестшпилек на ДНК. [МолБиол, 2007, 41(4)] 3. Найдены новые случаи известных типов регуляции у бактерий:
3.1 Предсказана белок-ДНКовая регуляция на уровне транскрипции и также промоторы генов синтеза пролина у протеобактерий родов Pseudomonas и Shewanella.
[Молекулярная биология, 2007, 41(3)] 3.2 Предсказано много случаев белок-ДНКовой репрессии/активации. В частности, охарактеризован GlpR-регулон (регуляция метаболизма глицерол-3фосфата). [Молекулярная биология, 2003, 37(5) – совместно с М.С. и его сотрудниками].
3.3 Проведен широкомасштабный поиск регуляции на уровне транскрипции посредством Т-боксов.
[Молекулярная биология, 2005, 39(6)] 3.4 Предсказана классическая аттенюаторная регуляция:
(a) у протеобактерий (включая дельта-протеобактерии) и у видов из таксономических групп бацилл/клостридий и бактероидов [FEMS 2004], (b) у Актинобактерий [BMC Microbiology, 2005, 5:54] 3.5 Предсказана регуляция на уровне трансляции посредством тиаминового рибопереключателя для гена ykoE, кодирующего субъединицу ABC транспортёра:
происходит перекрывание сайта связывания рибосомы иногда прямо черенком рибопереключателя, а иногда дополнительной спиралью РНК – происходит быстрая смена этих механизмов регуляции у очень близких видов (показана эволюция этого механизма). [Информационные процессы, 2006, 6 (1)] 4. Белок-РНКовая регуляция в пластидах:
4.1 Корреляция сплайсинга с белок-РНКовой регуляцией трансляции в хлоропластах растений и водорослей.
[Journal of Bioinformatics and Computational Biology, 2006, 4, 4, 783; Биофизика, 2006, 51, тематический выпуск 1] 4.2 Связь вторичной структуры РНК с редактированием инициирующего кодона в хлоропластах у мхов и папоротников. [Биофизика, 2006, 51, тематический выпуск 1] 4.3 Найдена высоко консервативная регуляция экспрессии генов psaA, psbA и psbB (вне связи со сплайсингом) [Journal of Bioinformatics and Computational Biology, 2006, 4(4)].
4.4 Найдена ортологичная консервативная регуляция гена ycf24 на уровне трансляции в пластидах красных водорослей и паразитов из таксона Apicomplexa (Eimeria tenella, Plasmodium spp., Toxoplasma gondii). Более того, у T. gondii эта регуляция охватывает и много других генов, включая те, которые кодируют РНК-полимеразу:
этот ген кодирует белок SufB, необходимый для формирования железосероцентров.
Выясняется роль пластид в жизни токсоплазм на молекулярном уровне. [Мол. биология, в печати] 5. Промоторы бактериального типа в пластидах и соответствующие им сигма-факторы 5.1 Изучена быстрая эволюция промоторов перед геном ndhF, чья транскрипция у Резушки Таля (Arabidopsis thaliana) существенно зависит от сигма-субъединицы Sig4.
[Физиология растений, в печати].
5.2 Предсказано, что кодируемая в ядре сигма-субъединица Sig4 РНК-полимеразы бактериального типа существовала уже у предка высших двудольных растений и у него же имелся Sig4-зависимый промотор:
соответствующие кДНК sig4 найдены по базе EST у винограда Vitis vinifera и двух видов апельсина Citrus clementina и C.
sinensis (у апельсинов это псевдоген). Также известен псевдоген sig4 у тополя Populus trichocarpa. А Sig4-зависимые промоторы предсказаны в хлоропластах у всех видов из таксона Eurosids II (включая крестоцветные, апельсин и хлопок), а также у нескольких далёких представителей двудольных: эвкалипта, винограда и платана.
5.3 Исследованы Sig3-зависимые промоторы перед геном psbN у семенных растений и показано общее! для всех однодольных растений значительное отличие области этого промотора от прочих цветковых растений.
5.4 Найдены высоко консервативные хлоропластные промоторы бактериального типа перед генами rbcL, psaA, psbA, psbB, psbE у большинства видов из Streptophyta.
Более того, промотор перед геном psbA, кодирующим белок D1 второй фотосистемы, одинаков у Streptophyta, включая рано отделившиеся роды Mesostigma и Chlorocybus, и у вторичного симбионта Bigelowiella natans из таксона Cercozoa.
5.5 Найдены промоторы перед геном rps20 и близлежащие сайты связывания транскрипционного фактора (– ортолога NtcA) в хлоропластах красных и криптофитовых водорослей. При этом сайт для NtcA найден тогда и только тогда, когда дивиргентно располагается ген glnB. У цианобактерий оба белка NtcA и GlnB вовлечены в регуляцию генов метаболизма азота и их взаимная регуляция показана (в частности, NtcA активирует транскрипцию glnB).
На этом основании предсказана регуляция в хлоропластах по механизму конкуренции РНКполимераз, транскрибирующих гены на противоположных цепях ДНК, причем также происходит активация транскрипции glnB.
6. Найдена общая белок-ДНКовая регуляция экспрессии ядерных генов, кодирующих фосфорилирующую белки по тирозину, у диатомовой водоросли Thalassiosira pseudonana и у паразитов родов Theileria и Babesia Эти виды являются вторичными симбионтами и имеют пластиды с общим происхождением от красных водорослей. Однако их ядерные геномы сильно отличаются. Поэтому можно предполагать связь этой регуляции с пластидами. Интересно, что киназы обычно участвуют в регуляторных каскадах, передающих сигнал от некоторой мембраны, в частности, от пластиды.
Пластиды у диатомовых водорослей и паразитов Apicomplexa похожи, а ядерные геномы значительно различаются. С другой стороны, у криптофитовых водорослей рубредоксин кодируется в нуклеоморфе, т.е.
непосредственно связан с пластидами. Поэтому можно предположить, что эти очень близкие регуляторные механизмы связаны с появлением пластид.