На правах рукописи
Чернобровкин Алексей Леонидович
АНАЛИЗ МАСС-СПЕКТРОВ ПЕПТИДНЫХ ФРАГМЕНТОВ
ДЛЯ ИДЕНТИФИКАЦИИ ГЕНЕТИЧЕСКИ
ДЕТЕРМИНИРОВАННОГО ПОЛИМОРФИЗМА БЕЛКОВ
03.01.09 математическая биология, биоинформатика
АВТОРЕФЕРАТ
диссертации на соискание учёной степени кандидата биологических наук
Москва 2012
Работа выполнена в Федеральном государственном бюждетном учреждении Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича Российской академии медицинских наук.
доктор биологических наук,
Научный руководитель:
член-корреспондент РАМН, Лисица А. В.
Официальные оппоненты: Николаев Е. Н.
доктор физико-математических наук, профессор, ФГБУН ИНЭПХФ РАН, заведующий лабораторией Равин Н. В.
доктор биологических наук, ФГБУН Центр Биоинженерия РАН, заместитель директора по научной работе ФГУ Научно-исследовательский
Ведущая организация:
институт физико-химической медицины ФМБА России
Защита состоится 12 апреля 2012 года в 11 ч. 00 мин. на заседании Диссертационного совета Д 001.010.01 при Федеральном государственном бюждетном учреждении Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича Российской академии медицинских наук по адресу: 119121, г. Москва, ул. Погодинская, д. 10, стр. 8.
С диссертацией можно ознакомиться в библиотеке ФГБУ ИБМХ РАМН.
Автореферат разослан 2012.
Учёный секретарь Диссертационного совета кандидат химических наук Карпова Е.А.
1.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
1.1. Актуальность проблемы В генах человека известно 65 тысяч замен единичных нуклеотидных остатков (Single Nucleotide Polymorphism, SNP), являющихся несинонимичными, то есть потенциально приводящих к точечным заменам в аминокислотной последовательности белка [Yip и др., 2008]. По данным ресурса UniProt менее 1% точечных замен аминокислотных остатков установлено экспериментальным путем, например, методом Сэнжера или белковой хроматографией. Развитие биологической масс-спектрометрии как средства высокопроизводительного анализа протеомов открывает перспективы для подтверждения наличия в белках одноаминокислотных полиморфизмов (ОАП).
В рамках центральной догмы молекулярной биологии наличие несинонимичного SNP в гене предопределяет, что в белковом продукте гена будет присутствовать соответствующая замена аминокислотного остатка.
Однако, генотипирование не позволяет установить, влияет ли точечное изменение в последовательности ДНК на уровень экспрессии белкового продукта. В литературе имеются единичные сведения о соотношении уровня экспрессии продуктов аллельных генов, тогда как определение этого соотношения расширяет представления о природе слабовредных генетических мутаций, лежащих в основе соматических мультигенных заболеваний [Roth и др., 2008].
Исследование индивидуальных особенностей протеома, в частности полиморфизма аминокислотных остатков, является задачей протеотипирования. Термин предложен по аналогии с генотипированием молекул ДНК для обозначения экспериментов по изучению микрогетерогенности белков, обусловленной альтернативным сплайсингом, пост-трансляционными модификациями, а также полиморфизмом аминокислотных остатков. В свое время, задача генотипирования была решена за счет биологической реакции полимеризации молекул ДНК. В отношении белков аналогичный подход в настоящее время не известен, поэтому информацию об ОАП целесообразно получать с помощью физического похода, основанного на высокоточном измерении масс-зарядных характеристик белков и их фрагментов.
Основным методом, применяемым для исследования протеома, является масс-спектрометрический анализ белковых молекул. Идентификация белков проводится алгоритмически, путем сопоставления масс и зарядов продуктов ферментативного гидролиза белков с теоретическими значениями, вычисленными на основе расшифрованного генома [Govorun и др., 2002]. При масс-спектрометрическом анализе белок считается идентифицированным, если установлено 1–2 специфичных пептидных фрагмента первичной структуры. По пептидным фрагментам последовательности удается различить белковые продукты разных генов, но отнюдь не установить микрогетерогенные варианты одного и того же белка.
Специфичные для аллельных форм пептидные фрагменты (протеотипические пептиды [Craig и др., 2005]) с высокой вероятностью приходятся на неустановленную в ходе масс-спектрометрического эксперимента часть последовательности белка. Если же протеотипический пептид находится в идентифицируемой части последовательности, то наличие аллельного варианта трансляции гена вносит неоднозначность в интерпретацию массспектрометрических данных.
Принципиальная проблема в области протеотипирования заключается в недостаточном покрытии пептидными фрагментами последовательностей белков, идентифицируемых масс-спектрометрическими методами.
Масштаб обозначенной проблемы таков: сегодня стандартные экспериментальные и биоинформационные подходы обеспечивают 10–30% покрытия, а для идентификации ОАП необходимо достичь 100%. Решение возможно за счет обработки обширных репозиториев масс-спектрометрических данных, то есть коллекций, полученных разными исследовательскими группами при варьировании условий проведения экспериментов. Настоящая работа направлена на разработку вычислительного подхода к решению проблемы определения ОАП в белках.
Целью работы являлась разработка способа анализа массспектрометрических данных для идентификации единичных аминокислотных полиморфизмов, возникающих в результате трансляции несинонимичных нуклеотидных замен в соответствующих генах, и применение разработанного способа для выявления аминокислотных замен в белках человека.
Для достижения поставленной цели решались следующие задачи:
1. Провести обработку масс-спектров пептидных фрагментов для повышения степени покрытия аминокислотных последовательностей белков идентифицированными пептидами.
2. На модельном наборе масс-спектрометрических данных, обеспечивающих высокую степень покрытия последовательностей, разработать метод выявления одноаминокислотных замен в белках человека.
3. Обобщить метод выявления одноаминокислотных замен в форме универсального алгоритма обработки тандемных масс-спектров; оценить чувствительность и специфичность созданного алгоритма.
4. Применить созданный алгоритм для обработки репозитория массспектрометрических данных, определить одноаминокислотные полиморфизмы и охарактеризовать белки человека, содержащие выявленные полиморфизмы.
1.2. Научная новизна и практическая значимость Для выявления в белках аминокислотных полиморфизмов разработан оригинальный итеративный метод, основанный на последовательном применении существующих алгоритмов идентификации белков и пептидов.
Особенностью разработанного метода является то, что в процессе идентификации ОАП в базу данных аминокислотных последовательностей белков итеративно вносятся изменения, учитывающие сведения о наличии несинонимичных нуклеотидных замен в соответствующих идентифицированным белкам генах (патент РФ №2408011).
C помощью анализа масс-спектрометрических данных на протеомном уровне обнаружена экспрессия аллельных вариантов белков надсемейства цитохромов P450 человека. Впервые проведена масштабная инвентаризация одноаминокислотных полиморфизмов белков человека. В результате установлено 270 одноаминокислотных полиморфизмов в 156 белках человека.
Среди выявленных одноаминокислотных полиморфизмов более 20% связаны с различными заболеваниями человека, включая сердечнососудистые, онкологические и другие заболевания. Обнаруженные протеотипические пептиды, характерные для связанных с заболеваниями микрогетерогенными вариантами белков человека, могут быть использованы для выявления диагностических биомаркеров методом мониторинга множественных реакций (MRM).
1.3. Апробация работы Основные положения диссертационной работы докладывались и обсуждались на международной конференции Central and Eastern European Proteomics Conference (Йена, Германия, 2008), на научной конференции Химическая биология. Фундаментальные проблемы бионанотехнологии (Новосибирск, 2009), а так же на 8-м Ежегодном всемирном конгрессе Международной организации Протеом человека (HUPO 8-th Annual World Congress, Торонто, Канада, 2009).
1.4. Публикации Материалы диссертационной работы изложены в 7 публикациях: в статьях, в 1 патенте, в 3 публикациях в материалах сборников научных конференций.
1.5. Объем и структура диссертации Диссертация изложена на 189 страницах машинописного текста; содержит 27 рисунков и 11 таблиц. Состоит из глав Введение, Обзор литературы, Материалы и методы, Результаты и обсуждение, Заключение, Выводы и Список литературы ; включает 2 приложения.
2. МАТЕРИАЛЫ И МЕТОДЫ
2.1. Данные масс-спектрометрического анализа микросомальных фракций печени человека Исследование масс-спектрометрических методов для решения задачи идентификации ОАП проводили с использованием массива массспектрометрических данных, полученных при протеомном анализе микросомальных фракций печени человека [Lisitsa и др., 2009]. Массспектрометрические данные представляли собой 800 файлов в формате peaklist.xml (4 образца, по 40 срезов каждый, 5 повторов на срез). Файлы содержали откалиброванные по пикам аутолиза трипсина масс-спектры, полученные на времяпролетном масс-спектрометре Autoex II (Bruker Daltonics, Germany). Также использовали 160 файлов в формате mgf ( образца по 40 срезов), содержащих тандемные масс-спектры, полученные на масс-спектрометре типа ионная ловушка LC/MSD Trap (Agilent, USA).2.2. Контрольный набор Aurum Dataset Для анализа чувствительности и специфичности алгоритма идентификации одноаминокислотных полиморфизмов использовали массспектрометрические данные Aurum Dataset, полученные в работе [Falkner и др., 2007]. Данные включают в себя результаты массспектрометрических экспериментов, выполненных на ABI 4700 MALDI TOF/TOF (Applied Biosystems, USA) для 246 индивидуально очищенных рекомбинантных белков человека. Данные были загружены из протеомного репозитория Tranche в форматах.t2d и MGF. В работе использовали сводный масс-спектр aurum.mgf, содержащий в общей сложности 9987 массспектров пептидных фрагментов.
2.3. Масс-спектрометрические данные протеомного репозитория PRIDE Файлы протеомного репозитория PRIDE в формате mzData загружали c ftp-сайта PRIDE по адресу ftp://ftp.ebi.ac.uk/pub/databases/pride/.
Всего было загружено 9317 файлов общим объемом 270 ГБ. Для анализа был отобран 1891 файл, в которых содержались результаты масс-спектрометрических исследований образцов биоматериала человека (TaxID=9606).
2.4. Базы данных аминокислотных последовательностей белков белков микросомальной фракции печени человека. База данных в формате FASTA была загружена с ftp-сайта NCBI по адресу ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz. На момент загрузки (март 2010 года) в базе данных содержалось более 10 млн. аминокислотных последовательностей белков, из которых 518 609 записей соответствовали белкам человека.
Базу данных SwissProt использовали для идентификации белков человека по масс-спектрам протеомного репозитория PRIDE, а так же для валидации алгоритма идентификации ОАП. Аминокислотные последовательности белков в формате fasta были загружены с ftp-сайта UniProt по адресу ftp://fpt.uniprot.org/pub/databases/uniprot. Загруженная в марте 2010 года база данных SwissProt содержала 516 081 аминокислотных последовательностей, из которых 20 280 последовательностей относились к белкам человека.
2.5. Сведения о генетически-детерминированных полиморфизмах белков человека Сведения о возможных полиморфизмах белков человека загружали из базы данных UniProt в виде текстового файла humsavar.txt (http://www.uniprot.org/docs/humsavar.txt). В файле содержались результаты предсказания аминокислотных полиморфизмов, полученные путем