Семинар № 5
Биоинформатика
• Что такое биоинформатика?
• Программы и базы данных
• Аннотация генов
• Задача выравнивания
последовательностей
• Филогенетические деревья
• Задачи биоинформатики
Что такое биоинформатика?
Под биоинформатикой обычно понимают использование
компьютеров для решения биологических задач
(синоним – вычислительная молекулярная биология).
Направления:
• математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика).
• разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика).
• исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем Что такое биоинформатика?
На конец 2011 года число проаннотированных бактериальных геномов – 1826. Нужна автоматизация!!!
Программы и базы данных Поиск публикаций:
• SCHOLAR – scholar.google.com • PubMed – www.ncbi.nlm.nih.gov/pubmed/ • MOLBIOL – molbiol.ru • Чтение и хранение статей – программа MENDELEY Базы данных и инструменты их анализа:
• NCBI – www.ncbi.nlm.nih.gov - все последовательности (США) • EMBL-RBI – www.ebi.ac.uk – все последовательности (Евросоюз) • ExPASy Proteomics Server – au.expasy.org • UniProt – www.uniprot.org • KEGG – Kyoto Encyclopedia of Genes and Genomes (Япония) • Protein Data Bank – www.pdb.org Взаимосвязи метаболитов Анализ генетических последовательностей Основные задачи:
•Выравнивание и определение сходства двух последовательностей •Построение множественных выравниваний •Распознавание генов •Предсказание сайтов связывания регуляторных белков •Предсказание вторичной структуры РНК Как определить ген по белку?
Для E.coli, чей геном отсеквенирован в 1997 году, до сих пор неизвестны функции 25% найденных генов!
Зачем это надо Триклозан – антибактериальный препарат, входящий в мыло «Safeguard», считавшийся универсальным. Его мишенью является белок, закодированный в гене fabI. Этот белок катализирует одну из реакций синтеза жирных кислот – необходимого компонента любой клетки. При этом у животных нет аналога этого белка, поэтому такой препарат безопасен для человека. Компьютерный анализ бактериальных геномов показал, что стрептококки не имеют белка fabI, а его функцию выполняет совсем другой белок fabR. Поэтому триклозан не действует на стрептококки.
Аннотация геномов Аннотация генома – предсказание и нахождение участков, кодирующих РНК и / или белки, регуляторных участков, и т.д.
Первый геном – фаг X174 (1977 год) Методы аннотации:
•Поиск в геноме участков РНК из транскриптома и участков белков из протеома •Сравнение с известными геномами (выравнивание) •Алгоритм GenMark – использование скрытых марковских моделей (HMM) •Поиск регуляторных участков типа промоторов.
Генетический код: синонимы
TTT F TCT S TAT Y TGT C
TTC F TCC S TAC Y TGC C
TTA L TCA S TAA stop TGA stop TTG L TCG S TAG stop TGG WCTT L CCT P CAT H CGT R
CTC L CCC P CAC H CGC R
CTA L CCA P CAA Q CGA R
CTG L CCG P CAG Q CGG R
ATT I ACT T AAT N AGT S
ATC I ACC T AAC N AGC S
ATA I ACA T AAA K AGA R
ATG M/ start ACG T AAG K AGG R GАTGTT V GCT A D GGT G
GАCGTC V GCC A D GGC G
GАAGTA V GCA A E GGA G
GАGGTG V GCG A E GGG G
Открытые рамки считывания Ген должен располагаться внутри области от стопкодона до следующего стоп-кодона (в той же фазе) Сигналы на границах геновdnaN ACATTATCCGTTAGGAGGATAAAAATG
gyrA GTGATACTTCAGGGAGGTTTTTTAATG
serS TCAATAAAAAAAGGAGTGTTTCGCATG
bofA CAAGCGAAGGAGATGAGAAGATTCATG
csfB GCTAACTGTACGGAGGTGGAGAAGATG
xpaC ATAGACACAGGAGTCGATTATCTCATG
metS ACATTCTGATTAGGAGGTTTCAAGATG
gcaD AAAAGGGATATTGGAGGCCAATAAATG
spoVC TATGTGACTAAGGGAGGATTCGCCATG
ftsH GCTTACTGTGGGAGGAGGTAAGGAATG
pabB AAAGAAAATAGAGGAATGATACAAATG
rplJ CAAGAATCTACAGGAGGTGTAACCATG
tufA AAAGCTCTTAAGGAGGATTTTAGAATG
rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG
rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG
rplM AGATCATTTAGGAGGGGAAATTCAATG
… после выравниванияdnaN ACATTATCCGTTAGGAGGATAAAAATG
gyrA GTGATACTTCAGGGAGGTTTTTTAATG
serS TCAATAAAAAAAGGAGTGTTTCGCATG
bofA CAAGCGAAGGAGATGAGAAGATTCATG
csfB GCTAACTGTACGGAGGTGGAGAAGATG
xpaC ATAGACACAGGAGTCGATTATCTCATG
metS ACATTCTGATTAGGAGGTTTCAAGATG
gcaD AAAAGGGATATTGGAGGCCAATAAATG
spoVC TATGTGACTAAGGGAGGATTCGCCATG
ftsH GCTTACTGTGGGAGGAGGTAAGGAATG
pabB AAAGAAAATAGAGGAATGATACAAATG
rplJ CAAGAATCTACAGGAGGTGTAACCATG
tufA AAAGCTCTTAAGGAGGATTTTAGAATG
rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG
rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG
rplM AGATCATTTAGGAGGGGAAATTCAATG
cons. tacataaaggaggtttaaaaat num. ДНК межгенный Вычислительная эволюционная биология Задачи:•Изучение эволюции организмов путем анализа изменений в ДНК, а не признаков в строении и физиологии;
•Сравнение геномов для изучения механизмов эволюционных событий (дупликация генов, перенос генов, и т.д.);
•Построение математических моделей популяций для предсказания поведения системы во времени;
•Построение системы отслеживания и анализа публикаций о генетических особенностях большого числа видов.
New ATP-dependent transporters + NikN Анализ экспрессии генов и белков Измерение активности генов в различные периоды развития организма – многие гены работают только в какой-то определенный период или при определенных условиях.
Взаимодействия белок-белок и белок-ДНК Сравнительная геномика изучает связь структуры генома и его функций.
Метод – поиск схожести и различий в белках, РНК и регуляторных участках у разных организмов.
Определение оптимальной вторичной и третичной структуры для белков, РНК, ДНК и их комплексов.
Пример: Rosetta@Home — вычисление третичной структуры белков из их аминокислотных последовательностей.
Задачи:
• определение (предсказание) участков белковой молекулы, важных для той или иной функции данного белка (затем экспериментальная проверка);
• сравнительный анализ структур родственных белков, классификация белков на основе их пространственной структуры;
• анализ структур комплексов двух или нескольких молекул белка, комплексов молекул белка с другими молекулами;
предсказание воздействия молекул химических веществ (в частности, потенциальных лекарств) на молекулы белков;
• предсказание структуры белка по структуре белка с похожей последовательностью Структурная биология в фармацевтике Если малая молекула может существенно изменить структуру белка бактерии или вируса, при этом не взаимодействуя с белками человека – то такой белок является потенциальной мишенью, а малая молекула – лекарством.
Основные биоинформационные программы •ACT (Artemis Comparison Tool) — геномный анализ •Arlequin — анализ популяционно-генетических данных •BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей •BioNumerics — коммерческий универсальный пакет программ •BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей •ClustalW — множественное выравнивание нуклеотидных и аминокислотных последовательностей http://ru.wikipedia.org/wiki/Биоинформатика Перспективы