Теоретический обзор
Геном организма включает в себя суммарную ДНК гаплоидного набора хромосом и каждого из внехромосомных генетических элементов, содержащихся в отдельной клетке зародышевой линии многоклеточного организма. Физический размер генома оценивается длиной ДНК, выраженной количеством входящих в её состав пар нуклеотидов (п.н.), а расстояния между генетическими маркёрами выражается в морганидах. 1 сМ примерно соответствует 1 млн п.н. (см. Общая генетика, глава 7). Размер генома у разных биологических видов существенно различается. У кишечной палочки — 4×106 п.н., у дрозофилы — 1,4×108 п.н., у человека — 3,2×109 п.н. У прокариот (вирусы и бактерии) установлена линейная зависимость размера генома от количества генов. Однако у эукариот размер генома не определяется количеством хромосом или генов (см. https://gerardofurtado.com/gs/genes.html и рис. 12.1). Средний размер гена составляет около 27 тыс. п.н. Самый длинный ген, кодирующий один из белков мышц, — миодистрофин, содержит 2,4 млн п.н.
По разным данным, у человека транскрибируется до 80% геномной ДНК, из которой около 2% РНК транслируется в белки, а 98% являются некодирующими РНК. Биологическая роль большинства из них на сегодняшний день остаётся неизвестной. В доказательство возможности некодирующей функции РНК существенный вклад внесли отечественные учёные А.С. Спирин и А.Н. Белозерский в 1950-х гг. Всё это огромное разнообразие различных РНК учёные пытаются систематизировать и исследовать.
Рис. 12.1. Размеры геномов и количество белок-кодирующих генов у представителей различных царств живых организмов [из: Hou Y., Lin S., 2009]
В 2017 г. в Университете Джонса Хопкинса была создана база данных генов человека (CHESS — Comprehensive Human Expressed SequenceS), включающая в себя все продукты транскрипции генома человека, установленные по результатам секвенирования РНК, что позволило обнаружить новые гены. Гены же являются объектом изучения генетики и, в частности, медицинской генетики, в задачи которой входит изучение наследования разных аллелей генов и связи их с фенотипом.
Известно, что ежедневно в отдельной клетке человека возникает около 100 новых мутаций. Большинство из них нейтрально и имеет возможность накапливаться в геноме. В пределах одной группы мутации распределяются равномерно. Если группы разделились, то накопление мутаций идёт независимо. Чем дольше разделены группы, тем больше различий в геноме.
Секвенирование
Для установления точной нуклеотидной последовательности определённого фрагмента ДНК на практике наиболее широкое распространение получил метод секвенирования. Секвенирование (от лат. sequentia — «последовательность») — комплекс методов, направленных на расшифровку аминокислотной или нуклеотидной последовательности биополимеров (белков и нуклеиновых кислот). Секвенирование ДНК — прочтение нуклеотидной последовательности первичной структуры дезоксирибонуклеиновой кислоты.
Наиболее широкое применение для определения нуклеотидной последовательности ДНК получил метод секвенирования по Сенгеру, или метод «обрыва цепи», разработанный Фредериком Сенгером в 1977 г., за что в 1980 г. он был удостоен Нобелевской премии по химии (это была его вторая Нобелевская премия, первую он получил в 1958 г. за расшифровку строения инсулина). Модифицированный метод Сенгера полностью автоматизирован и проводится с помощью флуоресцентных секвенаторов (см. ниже Виртуальная лаборатория).
В настоящее время процесс секвенирования ДНК значительно усовершенствовали. На смену технологии Сенгера, которая и по сей день активно используется во всём мире, пришла так называемая технология секвенирования следующего поколения (Next Generation Sequencing, NGS), или массового параллельного секвенирования. В противоположность классическому сенгеровскому секвенированию первого поколения, которое требует многих недель (в зависимости от размеров и структуры гена) и значительных затрат, производительность секвенирования NGS является беспрецедентной и измеряется миллиардами пар оснований. В результате за один рабочий цикл могут генерироваться до нескольких десятков гигабаз нуклеотидных последовательностей, что обеспечивает 20−30-кратное покрытие всего генома. Это позволило расшифровать геномы многих организмов, включая и геном человека.
Проект «Геном человека»
В 1990 г. в области биологии стартовал крупнейший проект «Геном человека», инициатором и руководителем которого был знаменитый Джеймс Уотсон. Целью проекта было определение последовательности нуклеотидов ДНК человека и идентификация генов. В связи с большим размером (3,2×109 п.н.) генома человека его разбивали на огромное количество небольших участков длиной около 100 тыс. п.н., а затем уже эти участки секвенировали шаг за шагом примерно по 500 п.н. В проекте участвовали научные коллективы из США, Китая, Франции, Германии, Японии, Великобритании, в том числе и из России.
Первая, «черновая» версия генома человека была опубликована в 2001 г. в журнале «Nature». Она впервые дала представление почти о 90% нуклеотидной последовательности генома. Оказалось, что геном человека содержит не так уж много генов, намного меньше, чем было предсказано экспертами, — менее 30 тыс. Первоначально специалисты Celera Genomics насчитали в геноме человека 39 тыс. генов, а специалисты Международного консорциума – 32 тыс. В то же время число точно идентифицированных генов, для которых известны функции их продуктов, по разным оценкам, не превышает 20–25 тыс. «Чистовая» последовательность генома человека напечатана в 2004 г. В состав первых лиц, у которых был секвенирован полный геном, был включён Дж. Уотсон. Установление функций расшифрованных последовательностей ведётся и по сей день.