Анализ структуры белков методами биоинформатики

Предсказание структуры белка, моделирование структуры белка [1] , protein structure prediction – это направление молекулярного моделирования [2] ( in silico [3] , с применением вычислительной техники) пространственной (вторичной, третичной или четвертичной) структуры белка, по его аминокислотной последовательности (первичной структуре).

Предсказание структуры белков существенно отличается от проблемы дизайна белка [4] .

Предсказания структуры белков используются в генетической инженерии белков, благодаря которой уже сегодня получены новые третичные структуры [5] . Более сложной вычислительной задачей является предсказание межмолекулярных взаимодействий, таких как предсказание белок-белковых взаимодействий и молекулярная стыковка.

Предсказание структуры белков сегодня является одной из важнейших целей современной биоинформатики [6] и теоретической химии и применяется в биотехнологии (при создании новых ферментов [7] ) и в медицине (в фармацевтике). Результативность развития методов предсказания оценивается в рамах всемирного эксперимента CASP [8] , промежуточные итого которого подводятся один раз в два года, начиная с 1994 года.

В 1960-х годах американский биохимик Кристиан Анфинсен [9] предложил термодинамическую гипотезу, согласно которой атомы молекул белка, в естественных условиях, заключаются в термодинамически стабильную конформацию [10] , что соответствует минимуму свободной энергии системы. Иными словами, белок принимает определенную пространственную форму в результате ограничений, диктуемых композицией и физико-химическими свойствами аминокислот [11] , его формирующих.

В свою очередь, белковые молекулы со схожей пространственной структурой обычно играют схожую биологическую роль в процессах клеточного уровня. Таким образом, структура белка может рассматриваться в качестве промежуточного звена между химическим составом (первичной структурой) и функцией белка.

Структура белка.

Большинство аминокислотных последовательностей белков сегодня получают методом трансляции генов из нуклеотидных последовательностей ДНК [12] , которые определяются широкомасштабными исследовательскими проектами – такими, например, как проект «Геном человека» [13] .

Вместе с тем, методы экспериментального определения структуры белка технологически сложны, дороги и значительно (более чем на два порядка) отстают в производительности от методов определения химического состава. По состоянию на март 2010 года, в публичных базах данных были депонированы почти 10000000 последовательностей белков, и это количество продолжает увеличиваться стремительными темпами, при том, что усилиями крупных мировых центров структуральной генетики, централизованную базу данных структур белков PDB [14] удалось наполнить только 60000 структурами. Предполагается, что заполнить пробел между количеством последовательностей и структур белков можно исключительно методом теоретического предсказания структуры белков.

Решение данной проблемы означает открытие широких возможностей для внедрения и совершенствования самых различных биотехнологий (сегодня компьютерное предсказание структуры белка используется в биологии и медицине, в частности при разработке лекарств).

Знание структуры белка может подсказать потенциальных партнеров для белковой взаимодействия и, тем самым, подтолкнуть исследователей к разработке или совершенствованию новых антител [15] , объяснить фенотип [16] проведенных мутаций, косвенно, помочь в определении места для проведения мутаций с целью изменения определенных фенотипов.

Предсказания структуры белков является сложной задачей по многим причинам:

Во-первых, количество возможных пространственных конфигураций белков достаточно велико,
Во-вторых, физические основы структурообразования белков и их стабильности еще не до конца изучены.

Для достижения успеха в построении модели для предсказания структуры белка, изначально должна быть разработана стратегия эффективного перестроения пространства возможных структур и выбора наиболее вероятных кандидатов на нативную структуру [17] .

Сегодня существуют два основных, концептуально различных метода сужения пространства поиска структурных конформаций белков:

информационные методы, основанные на знаниях, полученных из экспериментально определенных структур (Knowledge-based methods),
методы, основанные на основных принципах молекулярной динамики (modeling from the first principles / Ab initio [18] modeling).

Методы предсказания первого типа используют предположение, что искомая структура белка может быть похожей на одну или нескольких известных структур белков, или, по крайней мере, быть составлена из элементарных конструкционных блоков таких белков.

Методы предсказания второго типа не используют информацию об известных структурах, базируясь преимущественно на упрощенных энергетических потенциалах, используя для моделирования приближенные стратегии поиска минимума энергетического ландшафта.

Если среди известных структур белка удается найти такие, для которых можно предположить, что они могут быть, в определенной степени, схожи с объектом моделирования (предсказания), значит их можно использовать в качестве шаблона (образца) для построения модели. Данный метод гомологического моделирования называется «предсказание структуры белка по образцу (по шаблону») (Template-based modeling).

Шаблоны (образцы) предсказания могут быть найдены с помощью методов непосредственного сравнения аминокислотных последовательностей (Comparative modeling methods), BLAST [19] , FASTA [20] или более комплексных методов для распознавания структурно схожих белков при слабом или практически невыявленном сходстве последовательностей (fold recognition / threading methods).

Последняя группа методов основана на том принципе, что структура является эволюционно консервативной, в отличие от последовательности, и, иногда, возможно найти родственные белки с непохожими последовательностями, а потом попытаться «проследить» последовательность искомого белка через структуру шаблона. Теоретически, подобные белки можно выявить, сконструировав и сравнив профили последовательности искомого белка и известных структур.

Предсказание структуры белка по образцу (шаблону) имеет огромный практический потенциал, так как если известна структура хотя бы одного белка семьи, значит можно попробовать построить модели для практически каждого белка в данной семье. С наполнением базы данных структур, данное моделирование становится возможным для всё большего количества белков.

Если найти шаблон для предсказания структуры белка одним из вышеупомянутых методов не удается, в этой ситуации применяются бесшаблонные методы (Template-free / de novo methods). К бесшаблонным методам предсказания относятся фрагментные методы и чисто физические методы.

Бесшаблонное предсказание структуры белков методом молекулярной динамики с энергетической функцией (в частности, молекулярной динамики и метода Монте-Карло, с использованием преимущества распределенных и параллельных вычислений), учитывающей детали взаимодействия на атомном уровне, сегодня практически нереализуемо из-за высоких требований к вычислительным ресурсам. Именно по этой причине, большинство ab initio методов использует упрощенную атомную структуру белков.

Фолдинг небольших альфа-спиральных белковых доменов, например, белка виллина [21] был успешно предсказан in silico. Благодаря применению гибридных методов предсказания, сочетающих стандартную молекулярную динамику с квантовой механикой, было исследованы электронные состояния зрительного пигмента родопсина.

Бесшаблонные методы предсказания структуры белка являются менее надежными, нежели шаблонные, однако они позволяют сконструировать модели, имеющие общую форму (англ. – Fold), близкую к нативной структуре искомого белка.

Примечания и пояснения к статье «Предсказание (моделирование) структуры белка».

[1]Белок, протеин, protein – высокомолекулярное органическое вещество, состоящее из альфа-аминокислот, объединенных пептидными связями (образующимися, когда аминогруппа одной аминокислоты и карбоксильная группа другой аминокислоты реагируют с выделением молекулы воды). Существуют две класса белков: простой белок, при гидролизе распадающийся исключительно на аминокислоты, и сложный белок (холопротеин, протеид), содержащий простетическую группу (подкласс кофакторов), при гидролизе сложного белка, кроме аминокислот, освобождается небелковая часть или продукты ее распада. Белки-ферменты ускоряют (катализируют) протекание биохимических реакций, оказывая существенное влияние на процессы обмена веществ. Отдельные белки выполняют механические или структурные функции, образуя цитоскелет, сохраняющий форму клеток. Помимо прочего, белки играют ключевую роль в сигнальных системах клеток, при иммунном ответе и в клеточном цикле. Белки являются основой для создания мышечной ткани, клеток, тканей и органов у человека.
[2]Молекулярное моделирование, ММ, Molecular modelling – собирательное название методов исследования свойств и структуры молекул с использованием вычислительной техники и последующей визуализацией результатов, что, в итоге, обеспечивает их трехмерное представления при заданных в расчете условиях.
in silico«>[3]in silico – термин, обозначающий компьютерную симуляцию (моделирование) эксперимента, обычно биологического. Корни термина in silico ведут к терминам in vitro (в пробирке) и in vivo (в живом организме). in silicio буквально означает «в кремнии», символизируя, тем самым, кремний, как полупроводниковый материал, играющий важную роль в создании кремниевых микросхем, использующихся в производстве компьютерной техники.
[4]Дизайн белка, protein design – рациональная конструкция новых белковых молекул, свернутых в целевой структуре белка, с целью проектирования его новых функций и / или поведения. Благодаря дизайну, белки могут быть разработаны как заново (новый белок), так и путем изменения уже существующих, на базе известной структуры белка и его последовательности (реконструкция).
[5]Третичная структура, трехмерная структура – пространственное строение (включая конформацию) всей молекулы белка, иной макромолекулы, состоящей из единственной цепи.
[6]Биоинформатика – совокупность подходов и методов, использующихся, в частности, в биофизике, биохимии, экологии, включающих в себя математические методы компьютерного анализа в сравнительной геномике, разработку программ и алгоритмов для предсказания пространственной структуры биополимеров, исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем. В биоинформатике используются методы прикладной математики, информатики и статистики.
[7]Ферменты, энзимы, enzymes – как правило, белковые молекулы или рибозимы (молекулы РНК) либо их комплексы, катализирующие (ускоряющие) химические реакции в живых системах. Ферменты, как и все белки, синтезируются в виде линейной цепочки аминокислот, сворачивающихся определенным образом. Каждая последовательность аминокислот сворачивается особым образом, в результате чего, получающаяся белковая глобула (молекула) обладает уникальными свойствами. Ферменты присутствуют во всех живых клетках и способствуют превращению одних веществ в другие. Ферментативная активность может регулироваться ингибиторами и активаторами (ингибиторы – понижают, активаторы – повышают). По типу катализируемых реакций ферменты подразделяются на шесть классов: оксидоредуктазы, трансферазы, гидролазы, лиазы, изомеразы и лигазы. Для осуществления катализа, отдельным ферментам необходимы компоненты небелковой природы – кофакторы. Кофакторы могут быть как неорганическими (железо-серные кластеры, ионы металлов, в том числе), так и органическими (гем, флавин, в том числе) молекулами. Органические кофакторы, прочно связанные с ферментом, называются простетическими группами. Кофакторы органической природы, способные отделяться от фермента, называют коферментами.
[8]Критическая оценка предсказания белковых структур, Critical Assessment of protein Structure Prediction, CASP – масштабный эксперимент по предсказанию белковых структур, считающийся всемирным соревнованием в науке структурного моделирования. Основной целью CASP является координация усилий в улучшении методов определения трехмерной структуры белков из их аминокислотных последовательностей. В рамках CASP происходит объективное тестирование методов предсказания белковых структур с последующей независимой оценкой структурного моделирования. В эксперименте, на постоянной основе, участвует свыше 100 исследовательских групп.
[9]Кристиан Бемер Анфинсен, Christian Boehmer Anfinsen (1916 – 1995 гг.) – американский биохимик, лауреат Нобелевский премии по химии 1972 года (совместно со Стэнфордом Муром и Уильямом Стайном), «за работу по установлению связи между аминокислотной последовательностью рибонуклеазы А и её биологически активной конформацией».
[10]Конформация – пространственное расположение атомов в молекуле определенной конфигурации, обусловленное поворотом вокруг одной или нескольких одинарных сигма-связей.
[11]Аминокислота – органическое соединения, являющееся строительным материалом для белковых структур, мышечных волокон. Организм использует аминокислоты для собственного роста, укрепления и восстановления, для выработки различных гормонов, ферментов и антител.
[12]Дезоксирибонуклеиновая кислота, ДНК, deoxyribonucleic acid, DNA – одна из трех основных макромолекул (две другие РНК и белки), обеспечивающая хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов. ДНК хранит информацию о структуре различных видов РНК и белков. С химической точки зрения, ДНК представляет собой длинную полимерную молекулу, состоящую из повторяющихся блоков – нуклеотидов. Каждый нуклеотид состоит из азотистого основания (цитозин, тимин, гуанин и аденин), сахара (дезоксирибозы) и фосфатной группы. Связи между нуклеотидами в цепи образуются за счет дезоксирибозы и фосфатной группы. В подавляющем большинстве случаев (за исключением отдельных вирусов, содержащих одноцепочечную ДНК) макромолекула ДНК состоит из двух цепей, ориентированных азотистыми основаниями друг к другу. Цепи переплетены между собой в виде спирали, откуда и пошло название структуры молекулы ДНК – «двойная спираль».
[13]Проект «Геном человека», Проект Человеческий Геном, The Human Genome Project, HGP – международный научно-исследовательский проект, главной целью которого являлось определение последовательности нуклеотидов, составляющих ДНК, и идентификация 20—25 тысяч генов в человеческом геноме. Проект начался в 1990 году под эгидой Национальных институтов здравоохранения США, в 2000 году был выпущен рабочий черновик структуры генома, полный геном – в 2003 году. Основной объём секвенирования был выполнен в университетах и исследовательских центрах США, Великобритании и Канады.
[14]Protein Data Bank, PDB – банк данных 3-D структур белков и нуклеиновых кислот, полученных методами рентгеновской кристаллографии или ЯМР-спектроскопии. PDB является одним из важнейших ресурсов для ученых, работающих в области структурной биологии.
[15]Антитела, иммуноглобулины, ИГ, antibody, Ab, immunoglobulins, Ig, – класс сложных белков гликопротеинов, присутствующих в виде растворимых молекул в тканевой жидкости и в сыворотке крови, в виде мембраносвязанных рецепторов на поверхности B-лимфоцитов. Антитела способны крайне избирательно связываться с конкретными видами молекул (которые, в связи с чем называются антигенами). У человека выделяют пять классов антител (иммуноглобулинов), различающихся между собой по строению и аминокислотному составу тяжелых цепей и по выполняемым эффекторным функциям – IgG, IgA, IgM, IgD и IgE. Антитела являются важнейшим фактором специфического иммунитета, используются иммунной системой для идентификации и нейтрализации чужеродных объектов – вирусов и бактерий, в том числе.
[16]Фенотип (от греческих `6,^5,^3,_7,`9, – «обнаруживаю, являю» и `4,a3,`0,_9,`2, – «пример, образец, шаблон») – совокупность характеристик, присущих индивиду на определенной стадии развития (в результате онтогенеза). Фенотип формируется на базе генотипа, опосредованного рядом внешнесредовых факторов.
[17]Нативная структура – «естественная» структура, необходимая для функционирования в живой клетке. Нативная структура белка сохраняется благодаря нативному состоянию.
[18]Ab initio – обоснование какого-либо явления из естественных законов природы без привлечения дополнительных эмпирических предположений или специальных моделей.
[19]Basic Local Alignment Search Tool, BLAST – пакет компьютерных программ, предназначенных для поиска гомологов нуклеиновых кислот или белков, для которых известна последовательность (первичная структура) либо фрагмент. BLAST была разработана в рамках исследований, проводимых Национальными институтами здравоохранения США.
[20]FASTA – формат записи (текстовый) для нуклеотидных или полипептидных последовательностей, в котором аминокислоты или нуклеотиды обозначаются при помощи однобуквенных кодов. FASTA, содержащий названия последовательностей и сопутствующие комментарии, является наиболее популярным форматом представления генетических данных.
[21]Виллин – тканеспецифичный белок массой 92,5 кДа, связывающий актиновые филаменты щеточных каемок. Виллин содержит повторяющиеся гельзолин-подобные домены, увенчанные небольшой (8,5 кДа) «головкой» на C-конце, состоящей из быстро и независимо формирующихся трехспиральных последовательностей, стабилизированных гидрофобными взаимодействиями. Функции виллина до конца не изучены, однако предполагается, что он принимает участие в нуклеации, образовании, соединении в пучки и разрезании актиновых филаментов.

При написании статьи о структуре белка, а также о методах предсказания (моделирования) структуры белка, в качестве источников использовались материалы информационных и справочных интернет-порталов, сайтов новостей NCBI.NLM.NIH.gov, ProteinStructures.com, Stanford.edu, ScienceDaily.com, Genome.gov, FASTA.Bioch.Virginia.edu, FEN.NSU.ru, SGU.ru, VIGG.ru, Википедия, а также следующие печатные издания:

Жми и поделитесь статьей с друзьями:

источник

Существование огромного количества разнообразных белков привело к необходимости создания информационных массивов – баз (или банков) данных, в которые заносились бы все известные о них сведения. В настоящее время существует множество общих и специализированных баз данных, которые доступны в Интернете каждому желающему. В общих базах содержатся сведения о всех известных белках живых организмов, т.е. о глобальном протеоме всего живого. Примером такой базы является SwissProt-TrEMBL (Швейцария–Германия), в которой на сегодняшний день содержатся структуры почти 200 000 белков, установленные аналитическими методами, и еще почти 2 млн структур, которые определены в результате трансляции с нуклеотидных последовательностей [10]. На рис. 8 и 9 показано количество существующих белков, которые известны для каждого заданного числа аминокислотных остатков. Оси абсцисс на этих графиках ограничены 2000 остатков, но, как уже сказано выше, хотя и не часто, но встречаются и существенно более крупные молекулы. Из данных, представленных на рисунках, следует, что наибольшее число белков содержит по несколько сотен аминокислотных остатков. К ним относятся ферменты и другие достаточно мобильные молекулы. Среди более крупных белков много таких, которые выполняют опорную или защитную функции, скрепляя биологические структуры и придавая им прочность.

В глобальном протеоме особое место занимают небольшие очень подвижные молекулы, содержащие не более 50 аминокислотных остатков и обладающие специфическим спектром функциональной активности. Они называются олигопептидами, или просто пептидами. Для них, т.е. для глобального пептидома, создан особый банк данных, который называется EROP-Moscow. Это название представляет собой аббревиатуру от термина Endogenous Regulatory OligoPeptides (эндогенные регуляторные олигопептиды), и указывает на то, что банк создан и базируется в столице нашей страны [11]. На сегодняшний день расшифрована структура почти 6000 олигопептидов, выделенных из представителей всех царств живого. Так же как и крупные белки, количество олигопептидов с заданным числом аминокислотных остатков можно изобразить графически (рис. 10). Судя по графику, чаще всего встречаются олигопептиды, содержащие примерно 8–10 аминокислотных остатков. Среди них в основном содержатся молекулы, которые участвуют в регуляции нервной системы, и поэтому называются нейропептидами. Очевидно, что самые быстрые процессы в живом организме осуществляются с участием нервной системы, поэтому пептидные регуляторы должны быть мобильными и следовательно небольшими. Однако, следует отметить, что, ввиду огромного структурного и функционального разнообразия как белков, так и пептидов, для них до сих пор не создано строгой классификации.

Таким образом, в данном случае задачами биоинформатики являются накопление информации о физико-химических и биологических свойствах белков, анализ этой информации, каталогизация и подготовка информационной базы и вычислительных средств для выявления механизмов их функционирования.

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: Да какие ж вы математики, если запаролиться нормально не можете. 8395 — | 7312 — или читать все.

195.133.146.119 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам | Обратная связь.

Отключите adBlock!
и обновите страницу (F5)
очень нужно

источник

Введение
Литература
Глава 1 Предсказание структуры белков ab initio
1.1.	Введение
1.2.	Энергетические функции
1.2.1.	Рациональные энергетические функции
1.2.2.	Сочетание эмпирических энергетических функций и сборки из фрагментов
1.3.	Методы конформационного поиска
1.3.1.	Моделирование методом Монте-Карло
1.3.2.	Молекулярная динамика
1.3.3.	Генетические алгоритмы
1.3.4.	Математическая оптимизация
1.4.	Отбор моделей
1.4.1.	Рациональная энергетическая функция
1.4.2.	Эмпирическая энергетическая функция
1.4.3.	Функция совместимости структуры и последовательности
1.4.4.	Кластеризация макетов структур
1.5.	Замечания и обсуждение
Литература
Глава 2 Распознавание фолда
2.1.	Введение
2.1.1.	Важность «слепых» испытаний: соревнование CASP
2.1.2.	Предсказание структуры ab initio и моделирование по гомологии
2.1.3.	Пределы пространства типов укладки
2.1.4.	К вопросу о терминологии: «протягивание» и «распознавание фолда»
2.2.	«Протягивание»
2.2.1.	Эмпирические потенциалы
2.2.2.	Поиск выравнивания
2.2.3.	Эвристические правила выравнивания
2.3.	Определение отдаленной гомологии без протягивания
2.3.1.	Использование предсказанных структурных свойств
2.3.2.	Профили последовательностей и скрытые марковские модели
2.3.3.	Классификация типов укладки и метод опорных векторов
2.3.4.	Согласованные подходы
2.3.5.	Проход по сети гомологов
2.4.	Точность выравнивания, качество моделей и статистическая значимость
2.4.1.	Алгоритмы создания выравниваний и оценка
2.4.2.	Оценка статистической значимости
2.5.	Веб-инструменты для распознавания элементов укладки
2.6.	Перспективы
Литература
Глава 3 Сравнительное моделирование структуры белков
3.1.	Введение
3.1.1.	Структура определяет функцию
3.1.2.	Последовательности, структуры и структурная геномика
3.1.3.	Методы предсказания структуры белков
3.2.	Этапы сравнительного моделирования структуры белков
3.2.1.	Поиск структур, потенциально родственных с мишенью
3.2.2.	Отбор шаблонов
3.2.3.	Выравнивание последовательности со структурой
3.2.4.	Построение модели
3.2.5.	Оценка моделей
3.3.	Эффективность методов сравнительного моделирования
3.3.1.	Точность методов
3.3.2.	Ошибки в сравнительных моделях
3.4.	Применение сравнительного моделирования
3.4.1.	Моделирование одиночных белков
3.4.2.	Сравнительное моделирование и проект исследования структуры белков
3.5.	Заключение
Литература
Глава 4 Предсказание структуры мембранных белков
4.1.	Введение
4.2.	Структурные классы
4.2.1.	Пучки альфа-спиралей
4.2.2.	Бета-бочонки
4.3.	Особенности кристаллизации мембранных белков
4.4.	Базы данных
4.5.	Множественные выравнивания последовательностей
4.6.	Предсказание топологии трансмембранных белков
4.6.1.	Альфа-спиральные белки
4.6.2.	Белки, имеющие структуру β-бочонка
4.6.3.	Полногеномный анализ
4.6.4.	Наборы данных, гомологичность, точность и перекрестная проверка
4.7.	Предсказание пространственной структуры
4.8.	Перспективы развития методов предсказания структуры мембранных белков
Литература
Глава 5 Методы биоинформатики для изучения структуры и функций неупорядоченных белков
5.1.	Идея неупорядоченности белков
5.2.	Свойства последовательностей БПН
5.2.1.	Необычный аминокислотный состав БПН
5.2.2.	Паттерны последовательностей БПН
5.2.3.	Низкая сложность последовательностей и неупорядоченность
5.3.	Предсказание неупорядоченности
5.3.1.	Предсказание областей с низкой сложностью
5.3.2.	Графики «заряд-гидрофобность»
5.3.3.	Методы предсказания на основе предрасположенности
5.3.4.	Методы предсказания на основе отсутствия выраженной вторичной структуры
5.3.5.	Алгоритмы машинного обучения
5.3.6.	Предсказание на основе потенциалов контакта
5.3.7.	Для предсказания неупорядоченности достаточно сокращенного алфавита
5.3.8.	Сравнение методов предсказания неупорядоченности
5.4.	Функциональная классификация БПН
5.4.1.	Функциональная классификация БПН на основе генной онтологии
5.4.2.	Классификация БПН на основе механизма действия
5.4.3.	Структурные элементы БПН, связанные с функционированием
5.5.	Предсказание функций БПН
5.5.1.	Корреляция модели неупорядоченности и функции
5.5.2.	Предсказание коротких мотивов распознавания в БПН
5.5.3.	Прогнозирование СМОР
5.5.4.	Сочетание информации о последовательности и неупорядоченности: участки фосфорилирования и мотивы связывания CaM
5.5.5.	Поддержание неупорядоченности
5.6.	Ограничения методов предсказания функций БПН
5.6.1.	Быстрая эволюция БПН
5.6.2.	Независимость последовательности и функции и неопределенность
5.6.3.	Консервативность и неупорядоченность
5.7.	Заключение
Литература
Глава 6 Функциональное разнообразие в элементах упаковки и надсемействах
6.1.	Определение функций
6.2.	От способа укладки к функции
6.2.1.	Определение способа укладки
6.2.2.	Связь между способами укладки и предсказание функций
6.3.	Разнообразие функций гомологичных белков
6.3.1.	Определения
6.3.2.	Эволюция белковых надсемейств
6.3.3.	Дивергенция функций в ходе эволюции белков
6.4.	Заключение
Литература
Глава 7 Предсказание функции белка по свойствам его поверхности
7.1.	Способы представления поверхности
7.1.1.	Поверхность ван-дер-Ваальса
7.1.2.	Молекулярная поверхность (поверхность без растворителя)
7.1.3.	Поверхность, доступная растворителю
7.2.	Свойства поверхности
7.2.1.	Гидрофобность
7.2.2.	Электростатические свойства
7.2.3.	Консервативность поверхности
7.3.	Предсказание функций по свойствам поверхности
7.3.1.	Гидрофобная поверхность
7.3.2.	Электростатическая поверхность
7.3.3.	Консервативность поверхности
7.3.4.	Сочетание свойств поверхности для предсказания функций
7.4.	Взаимодействие лиганда с белком
7.4.1.	Свойства взаимодействий лиганда с белком
7.4.2.	Предсказание расположения активного центра
7.4.3.	Предсказание чувствительности к лекарствам
7.4.4.	Аннотация сайтов связывания лигандов
7.5.	Белок-белковый интерфейс
7.5.1.	Свойства белок-белкового интерфейса
7.5.2.	Активные точки белковых интерфейсов
7.5.3.	Предсказание расположения интерфейса
7.6.	Заключение
Литература
Глава 8 Пространственные мотивы
8.1.	Предыстория и значение
8.1.1.	Что такое функция?
8.1.2.	Структурные мотивы: определение и область действия
8.2.	Обзор методов
8.2.1.	Поиск мотивов
8.2.2.	Определение и подбор мотивов
8.2.3.	Интерпретация результатов
8.3.	Специфичные методы
8.3.1.	Мотивы, заданные пользователем
8.3.2.	Обнаружение мотива
8.4.	Аналогичные методы
8.4.1.	Гибридные описания «точка-поверхность»
8.4.2.	Одноточечные описания
8.5.	Использование молекулярного докинга при аннотировании функции
8.6.	Обсуждение
8.7.	Заключение
Литература
Глава 9 Динамика белков: от структуры к функционированию
9.1.	Молекулярно-динамические расчеты
9.1.1.	Принципы и приближения
9.1.2.	Приложения
9.1.3.	Ограничения и улучшенные алгоритмы сэмплирования
9.2.	Анализ главных компонент
9.3.	Алгоритмы сэмплирования коллективных координат
9.3.1.	Коллективная динамика
9.3.2.	TEE-REX
9.4.	Методы предсказания функциональных мод
9.4.1.	Анализ нормальных мод
9.4.2.	Модели эластичных сетей
9.4.3.	CONCOORD
9.5.	Итоги и перспективы
Литература
Глава 10 Интегральные серверы для предсказания функции по структуре
10.1.	Введение
10.1.1.	Задача предсказания функции по структуре
10.1.2.	Методы предсказания структура-функция
10.2.	ProKnow
10.2.1.	Подбор типа укладки
10.2.2.	Структурные мотивы
10.2.3.	Гомология последовательностей
10.2.4.	Мотивы в последовательности
10.2.5.	Взаимодействия белков
10.2.6.	Объединение предсказаний
10.2.7.	Успешность предсказания
10.3.	ProFunc
10.3.1.	Основанные на структуре методы, используемые ProFunc
10.3.2.	Оценка структурных методов
10.4.	Заключение
Литература
Глава 11 Примеры: предсказание функции структур, полученных в проектах по структурной геномике
11.1.	Введение
11.2.	Примеры масштабного предсказания функции белков
11.3.	Несколько особых примеров
11.4.	Коллективное аннотирование
11.5.	Заключение
Литература
Глава 12 Предсказание функции белков на основе их теоретических моделей
12.1.	Введение
12.2.	Модели белков как общедоступный ресурс
12.2.1.	Качество моделей
12.2.2.	Базы данных моделей
12.3.	Точность и добавленная ценность основанных на моделях предсказаний
12.3.1.	Реализация
12.4.	Практическое применение
12.4.1.	Пластичность остатков каталитического центра
12.4.2.	Картирование мутаций
12.4.3.	Комплексы белков
12.4.4.	Предсказания функции на основе моделей ab initio
12.4.5.	Предсказание специфичности к лигандам
12.4.6.	Моделирование структуры изоформ, полученных альтернативным сплайсингом
12.4.7.	От общей функции к молекулярным деталям
12.5.	Что дальше?
Литература
Указатель основных сокращений и наименований
Приложение Цветная версия иллюстраций

Молекулы белков лежат в основе почти всех биологических процессов. Ученым всегда были любопытны как белки, участвующие в метаболических путях, так и молекулярные основы их функционирования. Однако в эру системной биологии еще больше внимание уделяется полному пониманию работы всей совокупности белков организма, его протеома. Все более важно, что мы не только понимаем все стороны данной функции, или функций, какого-либо белка, но и то, что наше знание распространяется на все компоненты изучаемой системы или организма и так далеко, насколько это возможно. Без всесторонней информации попытки синтеза и расчета не выйдут за рамки приближения реальности.

Для полномасштабного анализа функий белков был создан ряд пост-геномных технологий, но зачастую этот анализ ограничивается ценными, но не полными результатами вроде «белок А участвует в делении клетки» или «белки B и C взаимодействуют». Выяснение деталей молекулярного функционирования оказывается гораздо более дорогим, и проводится в лабораториях, воодушевленных специалистами по биоинформатике на заполнение пробелов в наших знаниях. Сравнение аминокислотных последовательностей белков разных видов является основой для компьютерного аннотирования функций белков, хотя запутанные механизмы, которыми эволюция связывает структуры и функцию, часто ограничивают точность и применимость предсказаний. Более того, маловероятно, что истинно новая функция будет предсказана исключительно на основе анализа последовательностей, хотя «сиротская» (orphan) активность — известный биохимический процесс, для которого еще не определены ответственные за него белки, — несомненно существует. Например, некоторые проблемы такого рода могут возникнуть потому, что хотя структура белка и определяется его последовательностью, функция белка определяется в первую очередь его структурой, поэтому несколько незначительных отличий между последовательностями белков могут оказаться значимыми при рассмотрении пространственной структуры белка в целом.

Аксиома, что структура определяет функцию, и поэтому может быть использована для предсказания этой функции, является краеугольным камнем таких областей, как предсказание структуры и структурное аннотирование функций, которые охватываются в этой книге. И хотя структурная геномика обрушила на исследователей вал результатов, все еще остаются неизвестные функции, которые стимулируют разработку структурных методов предсказания функции, и эти методы могут быть применены к модельным структурам хотя бы в некоторой степени. Таким образом, первые главы этой книги охватывают построение структур белков исходя из их последовательностей или хотя бы получение какой-то информации об этих структурах. Затем в книге обсуждаются различные пути, по которым знание структуры приводит к предсказанию функции, и, наконец, в последних двух главах речь идет о реальном применении результатов структурной геномики или моделей белков.

Глава 1 посвящена стремительному развитию методов моделирования ab initio. Этот подход все лучше подходит для точного предсказания укладки белковой цепи или в некоторых случаях даже деталей на уровне расположения атомов, например, для маленьких белков, для которых не удается выявить сходства с уже известными структурами. Глядя на недавние результаты, удивительно вспоминать сейчас, что не далее, как в 1997 году, А.Леск, оценивая результаты CASP2 (конкурса по предсказанию структуры белков) заявлял: «Я считаю результаты. разочаровывающими, или даже отрезвляющими, и многие коллеги разделяют это мнение. За исключением одной мишени, все предсказания увенчались не более чем частичным успехом.» (Lesk, 1997). Главы 2 и 3 посвящены обсуждению структур и моделированию новых структур на основе уже известных. Сравнительное моделирование, рассматриваемое в Главе 3, — это сложившаяся и важная методика, позволяющая во многих случаях последовательно создавать надежные модели. Также важно, что про полученные модели сразу известно, в какой части они более надежны, в какой — менее. Глава 2 касается распознавания укладки белка по его последовательности, которое часто является информативным само по себе (Глава 6), в то время как просто сравнение последовательностей оказывается недостаточным. Однако не менее важно, что распознавание фолда расширяет границы применимости сравнительного моделирования, и это приводит к возрастанию числа моделей, которые могут быть построены по одной экспериментальной структуре. Для мембранных белков, о которых пойдет речь в Главе 4, подходы структурной биоинформатики ограничены по фундаментальным соображениям — число известных пространственных структур все еще мало. По этой причине в Главе 4 детально рассматриваются и вопросы предсказания топологии различных классов белков, что, по сути, является предсказанием структуры низкого разрешения. В Главе 5 речь идет о завораживающем классе белков, которые, будучи изолированными, демонстрируют отсутствие внутренней упорядоченности, но приобретают её при взаимодействии с другими молекулами. Такие белки, изучение которых расцвело в последнее десятилетие, имеют свои собственные идиосинкратические правила соответствия между структурой и функцией. В Главе 5 эти вопросы также обсуждаются.

Вторая часть этой книги, озаглавленная «От структур к функциям» и начинающаяся с Главы 6, открывает обсуждение вопроса, как изменяются и эволюционируют функции белков в контексте типов их укладки, или фолдов, или типов укладки в надсемействах. Некоторые типы, будучи реально обнаруженными или только предполагаемыми, являются надежными признаками конкретных функций, что важно при предсказании функции на основе структуры; другие типы укладки — суперфолды — обеспечивают реализацию разнообразных функций. Взаимодействия белков с лигандами происходит непременно на поверхности белка, поэтому не удивительно, что многие аспекты геометрии этой поверхности и её свойства могут быть успешно использованы для предсказания функции. Такие методы рассматриваются в Главе 7. В Главе 8 обсуждаются паттерны локальной структуры, которые могут иметь тесное отношение к связыванию лигандов или катализу. Такие паттерны возникают из-за консервативности или конвергентной эволюции эффективных каталитических центров, а также ограничений на связывание, наложенных физико-химическими свойствами конкретного низкомолекулярного соединения. Кроме того, в Главе 8 рассматриваются последние успехи в применении докинга низкомолекулярных соединений для предсказания специфичности ферментов. Зачастую незамеченной остается связь между функционированием белка и его динамикой. Структуры белков не статичны, и их движения, большие или малые, часто являются ключевыми для функционирования. Молекулярная динамика и сходные с ней методы конформационного сэмплирования и анализа рассматриваются в Главе 9, в которой также представлены примеры того, как рассмотрение динамики проясняет наше понимание функционирования белков. Вместе со все нарастающим числом и спектром методов предсказания функции белка по его структуре, целесообразным становится одновременное применение нескольких методов в рамках интегральных веб-серверов. Такой подход удобен для пользователя, а также позволяет делать консенсусные предсказания. В Главе 10 описаны возможности и функционирование веб-серверов ProFunc и ProKnow, реализующих этот подход. В Главе 11 обсуждается опубликованная работа, в которой основанные на структуре методы были применены к предсказанию функции белков, полученных в рамках проектов по структурной геномике. Это позволило получить ценную картину того, какой из методов обычно оказывается наиболее информативным. Глава завершается обсуждением последних тенденций в направлении коллективного аннотирования как способа преодоления узких мест в аннотировании таких белков. Глава 12 охватывает приложения структурных методов к структурам моделей, полученным как с помощью сравнительного моделирования, так и с помощью методов ab initio. Наряду с большим количеством примеров обсуждается опубликованная работа, в которой оценивается точность моделей с функционально-значимой точки зрения, а также применимость различных методов моделирования.

Цель этой книги состоит в предоставлении современного взгляда на состояние дел в предсказании структуры белков и основанном на структуре предсказании функции белков. Каждая глава содержит ссылки на доступные веб-серверы и другие ресурсы, которые читатель может пожелать использовать в своей работе. В конце каждой главы авторы намечают направления дальнейшего развития и ожидаемые затруднения в соответствующих областях. Когда написание книги уже подходило к концу, появилось сообщение о значительном успехе в давнишней проблеме — улучшении сравнительных моделей (Jagielska et al. 2008). Тем не менее, создается впечатление, что структуры белков непрерывно готовят нам новые трудности. Стоило нам почувствовать, что научное сообщество приблизилось к объяснению явлений, природа которых до сих пор была не ясна, таких как обмен доменов, круговая перестановка, образование фибрилл, белки с присущей неупорядоченностью и многими другими, как мы сталкиваемся с метаморфными белками (Murzin 2008), исследование которых может значительно поспособствовать нашему пониманию пространства типов укладки белков. Смогут ли методы биоинформатики хотя был предсказать, какие белки могут видоизменяться между двумя типами укладки? Трудно сказать, но совершенно ясно, что биоинформатика структуры и функции белков на протяжении многих лет будет оставаться волнующей областью исследований.

источник

Почти год назад, летом 2017 года, на базе МФТИ состоялась традиционная летняя школа от Института биоинформатики. Основной темой школы в этом году стал интеллектуальный анализ данных. Почему? Количество получаемых данных в биологии и медицине растет с невероятной скоростью. В то же время обнаружить ранее неизвестные вещи в таком объеме информации вручную физически невозможно (да и классическими алгоритмами уже тоже сложновато), поэтому приходится использовать статистику и дополнять естественный интеллект искусственным.

Именно этим активно и занимались участники летней школы. В этом посте собрано 22 видеозаписи лекций со слайдами и описанием для всех интересующихся темой анализа данных в биоинформатике. Лекции, которые можно смотреть без дополнительной подготовки, отмечены звёздочкой «*» (таких половина).

1*. Введение в биоинформатику (Александр Предеус, Институт биоинформатики)

В лекции рассмотрены основные области, в которых работают биоинформатики в науке и индустрии, особенности биоинформатики и причины ее популярности сегодня.

2*. Введение в машинное обучение (Григорий Сапунов, Intento)

Постоянный рост количества данных способствует развитию все более и более сложных процессов обработки, поиска и извлечения информации. Один из способов решения подобных задач заключается в использовании искусственного интеллекта. Эта лекция посвящена краткому введению в основы машинного обучения. Григорий рассказал общую терминологию в этой области, а также описал виды задач, решаемых машинным обучением. Помимо этого, лекция знакомит с основными этапами машинного обучения, видами моделей и метриками качества полученных данных.

3*. Введение в Deep Learning (Григорий Сапунов, Intento)

Глубокое обучение (или deep learning) в настоящее время набирает популярность из-за возможности не прописывать конкретные алгоритмы для решения задачи, а использовать обучение представлениям. Развитию этих методов также способствует увеличение вычислительной мощности процессоров. Лекция посвящена основам нейросетей: их видам (полносвязные нейросети, автоэнкодеры, свёрточные, рекуррентные) и решаемым ими задачам. Отдельно Григорий обрисовал современное состояние и тренды.

4*. Введение в онкогеномику и анализ омиксных данных в онкологии (Михаил Пятницкий, НИИ биомедицинской химии им. В.Н.Ореховича)

Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей — все эти биологические методы в приложении к “Big Data” дали ученым большой объем ценной информации о том, что отличает человека от других животных. Эта лекция посвящена «омикам» и их практическому использованию. Отдельно Михаил затронул использование этих данных в онкологии.

5. Мультиомика в биологии: интеграция технологий (Константин Оконечников, German Cancer Research Center)

Бурное развитие экспериментальных технологий в молекулярной биологии, таких как например, секвенирование, позволили совместить в себе изучение большого спектра функциональных процессов происходящих в клетках, органах или даже целом организме. В лекции рассмотрено как правильно совмещать массивные экспериментальные данные, полученные из геномики, транксриптомики и эпигеномики для установления связей между компонентами происходящих биологических процессов. Наглядные примеры применения мультиомики выбраны из высоко востребованной области исследований раковых заболеваний с фокусом на педиатрическую онкологию.

6. Количественная генетика: история и перспективы (Юрий Аульченко, лаборатория теоретической и прикладной функциональной геномики ФЕН НГУ, группа методов генетического анализа, ИЦиГ СО РАН)

Количественная генетика — точная наука, которая основывается на небольшом числе ключевых наблюдений и базовых моделей, позволяющих дать количественное описание природных (микро)эволюционных явлений и предсказать результаты генетических экспериментов. Она использует мощный математический аппарат. Многие современные методы статистики были изначально разработаны для решения проблем количественной генетики. Прорывное развитие молекулярно-биологических технологий за последнее десятилетие позволило характеризовать сотни тысяч живых организмов по миллионам геномных и других «омиксных» параметров. Общее количество проведенных экспериментов и уже накопленных данных колоссально. Актуальная задача современной количественной генетики — разработка моделей, которые позволят описать наследования многоуровневых фенотипических высокой размерности. В своей лекции Юрий дал краткий обзор истории количественной генетики и проблем, которые стоят перед этой наукой.

7*. Технологии секвенирования (Кирилл Григорьев, Caribbean Genome Center, University of Puerto Rico)

Развитие и эволюция процессов секвенирования неразрывно связаны с эволюцией технологических возможностей. Лекция показывает историю и процесс развития технологий секвенирования от Сэнгера до наших дней. Отдельно Кирилл рассказал про преимущества и недостатки каждого из существующих в настоящее время методов, а также о характере получаемых данных и их применении в различных областях.

8. Транскриптомика: практические методы и применяемые алгоритмы (Александр Предеус, Институт биоинформатики)

Транскриптомика уверенно заняла место в списке самых популярных задач, встающих перед NGS-биоинформатиками. Дифференциальный анализ экспрессии генов, кластеризация экспрессионных данных, и интерпретация полученных данных в терминах метаболических и сигнальных каскадов позволяют получить богатейшую информацию о практически любой системе. В лекции рассмотрены лучшие пайплайны, основные проблемные места в дизайне экспериментов и обработке, а также практические случаи удачного применения транскриптомных подходов.

9. Анализ данных NGS в медицинской генетике: определение, аннотация и интерпретация генетических вариантов (Юрий Барбитов, СПбГУ, Александр Предеус, Институт биоинформатики)

Использование секвенирования нового поколения давно ушло за пределы классической науки и успешно применяется во многих других областях, в том числе в здравоохранении. Лекция посвящена ключевым аспектам анализа данных секвенирования нового поколения в медицинской генетике. Юрий показал весь путь от получения сырых ридов до постановки диагноза, с упоминанием трудностей, возникающих при определении, аннотации и интерпретации генетических вариантов. Отдельно он затронул распространенные ошибки, допускаемые на каждом из этапов обработки данных. В заключение дан краткий обзор перспективных направлений исследований, способных улучшить точность постановки диагноза с использованием методов высокопроизводительного секвенирования

10. Практическое применение ChIP-Seq и родственных методов (Александр Предеус, Институт биоинформатики)

Методы ChIP-Seq, а также «геномного футпринтинга» (ATAC-Seq, FAIRE-Seq, DNase-Seq) широко применяются для нахождения механизмов регуляции биологических процессов, в частности, для транскрипционной регуляции. Потенциальное пространство изучаемых факторов очень многомерно, однако селективный подход позволяет получить богатую информацию о регуляции в системе на основании всего нескольких экспериментов. На примере конфликтующих современных теорий, Александр показал основные сложности интерпретации регуляторной информации, и способы консолидации полученных результатов.

11*. Что можно делать с данными iScan (Татьяна Татаринова, University of La Verne )

Компания Illumina выпускает большое количество приборов под различные нужды. Чипирование позволяет быстро обнаруживать однонуклеотидные полиморфизмы (SNP) для большого количества образцов. Лекция посвящена обзору данных чипов iScan и их применению в клинической диагностике.

12. Глубокое обучение в вычислительной биологии (Дмитрий Фишман, University of Tartu)

Глубокое обучение активно используется не только для улучшения машинного перевода или распознавания речи, но и позволяет решить многие проблемы в области вычислительной биологии. Лекция посвящена применению методов глубокого обучения на конкретных биологических примерах. Дмитрий рассказал о том, что нового происходит в биологии и медицине с использованием глубокого обучения, и можно ли говорить о том, что машины революционизируют медицину и биологию.

13*. Применение методов машинного обучения для поиска потенциальных патогенных мутаций в геноме человека (Анна Ершова, МФТИ, НИИ физико-химической биологии МГУ им. М.В. Ломоносова, ФНИЦ эпидемиологии и микробиологии им. Н.Ф. Гамалеи)

Поиск патогенных мутаций стал актуальным в связи с секвенированием генома человека. Однако, вручную такую задачу решить просто невозможно. Лекция посвящена тому, как машинное обучение может помочь справиться с этой задачей.

14*. Иммуноинформатика (Вадим Назаров, НИУ ВШЭ, ИБХ РАН)

Машинное обучение уже довольно давно активно применяется в самых разных сферах жизни, но в иммунологии для него нашли место совсем недавно. В этой лекции Вадим рассказал о нескольких примерах применения машинного и глубинного обучения в иммунологии, включая задачу предсказания связывания МНС-пептид комплексов и анализа репертуаров Т-клеточных рецепторов.

15*. Изучение адаптации к хозяину и развития резистентности в вирусах ВИЧ и гепатита С с помощью методов структурной биоинформатики (Ольга Калинина, Институт информатики общества Макса Планка)

Вирус иммунодефицита человека (ВИЧ) и вирус гепатита С вызывают тяжелые заболевания, которые с трудом поддаются терапии. Как и многие другие ретро- и РНК-вирусы, эти вирусы быстро эволюционируют и, таким образом, могут приспосабливаться как к воздействию специфических антивирусных препаратов, так и к адаптивному иммунному ответу со стороны организма хозяина. В этой лекции Ольга показала, как с помощью комбинирования анализа последовательностей вирусных белков с анализом их пространственной структуры можно делать предсказания о развитии механизмов резистентности и взаимодействии вирусов с иммунной системой хозяина.

16. Предсказание эффекта мутаций (Василий Раменский, МФТИ)

Современные методы секвенирования дают огромный объем информации о полиморфизме генома, то есть отличиях индивидуальных геномов друг от друга. Эти отличия (варианты) возникают в результате мутаций при репликации ДНК и частично фиксируются в популяции. Распространенность, локализация и функциональный эффект геномных вариантов сильно различаются – от полной летальности до отсутствия какого-либо влияния на индивидуальный фенотип. В лекции рассмотрены современные подходы к предсказанию функционального эффекта вариантов, используемые в персонализированной медицине, медицинской и популяционной генетике.

17. Многомасштабное моделирование и дизайн биологических молекул (Николай Дохолян, University of North Carolina at Chapel Hill)

Жизнь биологических молекул охватывает масштабы времени и длины, соответствующие шкалам времени и длины от атомного до клеточного. Следовательно, новые подходы к молекулярному моделированию должны быть по своей сути многомасштабными. В своей лекции Николай описал несколько методологий, разработанных в его лаборатории: алгоритм быстрого дискретного молекулярного динамического моделирования, белковый дизайн и инструменты структурной доработки. Используя эти методологии, можно описать несколько приложений, которые проливают свет на молекулярную этиологию кистозного фиброза и находят новые фармацевтические стратегии для борьбы с этим заболеванием, моделируют структуру трехмерной РНК и разрабатывают новые подходы к контролю белков в живых клетках и организмах.

18. Гомологичный фолдинг белков (Павел Яковлев, BIOCAD)

В современной структурной биологии есть ряд вычислительных методов, позволяющих с высокой достоверностью характеризовать биологические молекулы, их схожесть и различия, способы взаимодействия и функции. Для построения подобных вычислений входным параметром всегда выступает пространственная структура белка, однако ее получение может быть затруднен, несмотря на полувековой прогресс в области кристаллографии. Лекция посвящена решению этой проблемы с помощью гомологичного моделирования структур белков — построения трехмерных структур из схожих фрагментов. Для примера рассмотрены вариабельные домены антител — белков, обладающих уникальным структурным разнообразием вариабельных петель.

19. Как перестать медитировать и начать моделировать (Артур Залевский, МГУ им. М. В. Ломоносова)

Большое количество данных, получаемых методом NGS, позволяет не только получать из этого биологические выводы, но и использовать их для моделирования. Построенные модели позволяют лучше понять биологические данные и получить еще больше биологического смысла из эксперимента. Лекция посвящена моделированию и начальным этапам этого процесса.

20*. Стоя на плечах гигантов, или зачем нужны консорциумы (Герман Демидов, Centre for Genomic Regulation, The Barcelona Institute of Science and Technology, Universitat Pompeu Fabra)

За последние десятилетия развитие биологии было связано с накоплением массивов данных, огромных настолько, что отдельные исследовательские группы уже не справлялись с их биоинформатическим анализом. С целью решить эту проблему начали создаваться консорциумы из десятков лабораторий, такие как Human Genome Project, 1000GP, ENCODE и другие. Благодаря таким коллаборациям, в открытом доступе есть данные разнообразных типов, полученные с помощью различных технологий. Как результат, сравнение новых экспериментальных данных с уже существующими стало стандартной частью любого исследования. Консорциумы производят не только данные, но и биоинформатические пайплайны для их обработки, и стандартные форматы, и процедуры оценки качества. На этой лекции обсуждается, как работают консорциумы, как пользоваться результатами их работы и что делать, если вы вдруг обнаружили себя членом такого консорциума и вам нужно обрабатывать терабайты данных, а потом обмениваться результатами со всеми остальными участниками.

21*. Обзор биоинформатических компаний в России и мире (Андрей Афанасьев, yRisk)

В современном мире наука и бизнес все более и более переплетаются. Не обошел этот тренд и область биоинформатики. Андрей рассказал об ожиданиях и реальности рынка, об историях успеха и историях провалов, о людях и местах, связанных с биоинформатикой.

22. Продвинутый анализ вариаций (SNV, InDel, SV) с помощью геномного браузера NGB (Геннадий Захаров, EPAM, Институт Физиологии им. И.П. Павлова, РАН)

Лекция охватывает процесс визуального анализа простых (SNV, InDel) и структурных вариаций в геномном браузере. Все примеры демонстрируются с использованием браузера NGB, отвечающего большинству требований и рекомендаций анализа структурных вариаций, в том числе различные виды визуализаций и получение аннотаций из внешних баз данных. В лекции на реальных примерах показаны сценарии валидации и анализа последствий простых и структурных вариаций.

Для тех, кто ~~ничего не понял~~ хочет развиваться в области биоинформатики — до 27 мая ещё открыт прием заявок на летнюю школу в этом 2018-м году. Сама школа пройдет 23–28 июля под Санкт-Петербургом. Есть шанс вскочить в последний вагон и гордо всем показывать пост с обзором лекций следующего года, говоря, что видели это лично.

В 2017 году школа проводилась при поддержке наших постоянных партнеров – компаний JetBrains, BIOCAD и EPAM Systems, за что им огромное спасибо.

источник