Секвенаторное
May. 2nd, 2009 02:46 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Итак, про анализ ДНК.
Сначала два предуведомления.
1. Процесс анализа по сути своей оказался чудовищно сложный. Хотя я прочитал два десятка статей - я вовсе не претендую на то, что разобрался в нем хоть сколько-нибудь детально - скорее, просто уловил общие принципы. Так что в тексте ниже есть, с одной стороны, сознательные упрощения, с другой - мои собственные недопонятки. Часть из них я осознаю и пометил, часть наверняка прошляпил, если у кого из читателей есть что дополнить и поправить - добро пожаловать в комменты. В любом случае этот текст - не справочник и не учебник, а только материал, от которого вы можете оттолкнуться в дальнейших поисках инфы. Что еще важно: на самом деле и самих методов, и вариантов их реализаций очень много. Я постараюсь это оговаривать по тексту, но не слишком усердно, иначе получится совсем уж многокилометровая диссертация.
2. Несмотря на всю сложность, технология процесса уже доведена до уровня, доступного рядовому лаборанту. Прежде всего я нашел ответ на вопрос, беспокоивший меня при просмотре сериалов типа CSI: то, что они на любой чих делают тест ДНК - это киношные сказки или имеет связь с реальностью? У нас-то такая экспертиза пока еще экзотика. Оказалось - чистая правда! Примерно с начала 90-х годов американская криминалистика (а также криминалистика других развитых стран) начала отказываться от традиционных серологических методов анализа, поскольку ДНК-типирование стало доступно повсеместно, и при этом дает гораздо более точные и полезные результаты. Т.е. знакомые по старым детективам исследования на группу крови и т.п. ушли в прошлое. Более того, в США действует масштабная программа по перепроверке результатов прошлых экспертиз методами ДНК-тестов. На форуме судебных медиков нашел такую статистику: ошибки традиционных серологических методов находятся на втором месте среди причин, приведших к ошибочному осуждению после ошибок свиделей (фразу "врет, как свидетель" - все знают, так что это не сюрприз). 51%!!! А у ДНК-методов - 1%. Естественно, ДНК-типирование - развлечение все еще не дешевое, но тем не менее уже и не запредельно дорогое. Себестоимость некоторых экспертиз простыми безаппаратными методами (см. ниже) уже упала до сотен рублей (на том же судмедфоруме приведен подсчет, согласно которому предварительное типирование сотни подозреваемых обошлось бы всего в 3000 рублей - задача стояла сузить круг для проведения уже окончательной детальной экспертизы).
Вот что "голливудщина" - так это скорость выполнения тестов. В кино их делают - раз-два-готово, в реале это при самом лучшем раскладе - несколько дней. Но это я считаю допустимой уступкой зрелищности. Рентгеновские снимки с анализами в ER тоже приносят с нечеловеческой быстротой.
Чтобы было понятно, о чем речь дальше пойдет, сначала вспомним школьную биологию (или не школьную? Не знаю, я в тех классах не учился).
Дезоксирибонуклеиновая кислота (ДНК) - это сложная полимерная молекула, являющаяся основным носителем генетической информации у земных организмов. Все знают, что она свернута в спираль, менее известно, что эта спираль сама по себе еще многократно хаотично1 перекручена (чтобы себе наглядно это представить - возьмите резиновое кольцо, и начинайте его свивать. После того, как жгутик станет совсем плотным - он начнет скручиваться вторично в неимоверные узлы и петли). В каждой хромосоме человека - по одной молекуле ДНК в белковой оболочке, т.е. это молекула, которую можно раглядеть почти невооруженным глазом (с помощью обычного микроскопа). Длина ее в развернутом виде составляет у человека почти 5 см! Суммарная длина всех 46 молекул ДНК в одной клетке человека равна около 2 метров. Полная же длина всех молекул ДНК в теле взрослого человека, в тысячу раз превышает расстояние от Солнца до Земли. И все эти двухметровые куски - практические одинаковые, с точностью до атома (за исключением разве что мелких случайных повреждений).
Однако спиральная структура ДНК нас интересовать будет мало. Хоть в свернутом, хоть в развернутом виде - отдельные атомы в микроскоп не разглядишь, так что все манипуляции с ДНК производятся производить не с помощью каких-то наноскальпелей, а традиционными негодными химическими методами2.
Основная проблема ДНК-типирования - крайняя близость наших "генных записей" друг к другу. Действительно, у человеков ужасно много общего: руки-ноги-почки и прочий ливер - все одинаковое. Индивидуальные различия с точки зрения состава белков (основного строительного материала организма) - крайне малы, отличается примерно 1/400 часть кода даже для далеких, неродственных людей. Да и от шимпанзе каких-нибудь нас отличает менее 1% генокода.
Гентическая информация информация закодирована в ДНК молекулярными "буквами": т.н. азотистыми основаниями - нуклеотидами. Таких нуклеотидов - четыре: аденин, гуанин, цитозин и тимин3, обозначаемые обычно буквами А, Г, Т, Ц (мнемоника - АГАТА-Ц). Эти нуклеотиды попарно комплиментарны, т.е. А имеет атомный "разъем", подходящий к Т, а Ц - к Г. Именно это обеспечивает ДНК ее уникальную способность - самокопирование.
Вся генетическая информация полностью закодирована в каждой нити ДНК независимо, вторая нить - повторяет ее комплиментарными нуклеотидами. "Слова" в языке ДНК - трехбуквенные - код триплетен. Каждое такое слово - кодон кодирует определенную аминокислоту, из которых, собственно, и строятся организмы всех живых существ на Земле, т.е. код у нас - универсальный. При этом одни и те же аминокислоты могут кодироваться разными кодонами-синонимами. Последовательность кодонов - это "предложение", описывающее конкретный белок, причем есть в языке "точки". Часть ДНК кодирует всякую вспомогательную инфу, а в части мы вообще пока не разобрались - то ли она "мусорная", то ли хранится там еще какая-то информация. На собственно процессе "печати" готовых организмов с ДНК останавливаться не будем - к теме отношения совсем уж не имеет, но там тоже все чудовищно сложно.
Нас сейчас будет интересовать только сама молекула-"чертеж" организма, а не ее использования. Итак, в развернутом виде спираль ДНК выглядит как-то так:
Двойные черточки - это прочные связи между отдельными нуклеотидами-буквами, которые обеспечивают неизменную последовательность "слов" в чертеже.
Вертикальные - это более слабые водородные связи между комплиментарными нуклеотидами. В живой клетке существуют специальные ферменты, которые умеют "надеваться" на молекулу ДНК и ездить вдоль нее подобно застежке на "молнии", разрывая эти связи, так что получается две отдельные нитки (однако каждая содержит, как вы помните, полную запись). Одновременно с этим другие ферменты насаживаются на свободные концы ниток, и начинают достраивать "болтающиеся" водородные связи комплиментарными нуклеотидами.
Получается как-то так (связи не показываю, точечкой показаны места разрыва-склейки):
В результате, когда "молния" доедет до конца спирали - получаем две идентичные копии исходной записи, которые можно "раздать" вновь образовавшимся при делении клетками.
Чрезвычайная прочность "горизонтальных" связей между нуклеотидами - это весьма приятное свойство как для нас самих (позволяет, в частности, загорать на солнышке, не превращаясь в мутантов из фоллаута), так и для криминалистов: ДНК, в отличие от отпечатков пальцев, костей и даже зубов сохраняется очень хорошо и долго даже после катастроф. А то, что она во всем организме одинакова - позволяет проводить исследования по крайне малому количеству материала: в принципе для некоторых методов достаточно одной клетки.
Однако как выделить те 0,01% индивидуальных фрагментов кода?
Начало у всех экспертиз примерно одинаковое и, хотя и требует аккуратности, само по себе понятное: необходимо выделить и очистить экспериментальную ДНК из образца. Для этого материал (кровь, слюну, сперму и т.п.) обрабатывают химикатами, растворяющими все постороннее (жиры, клеточные оболочки и т.п.), центрифугуют, чтобы отогнать большие и тяжелые молекулы ДНК (в CSI часто показывают, как герои закладывают микропробирку с образцом в приборчик вроде кофеварки - это как раз и есть центрифужка). Еще используют всякие сорбенты, "клейкие" для ДНК, всякие специальные фильтрующие колонки и прочая и прочая. Плюс тут в том, что улавливаемые молекулы большая, сложная, потому очень специфические, и для них относительно легко подобрать столь же специфическую "липучку". В общем, тут у нас чистая химия - разбавляем, смешиваем, фильтруем. Надо заметить, что многие методы ДНК-типирования весьма чувствительны, и это как достоинство, так и недостаток: достаточно, чтобы в тестируемый образец попала одна посторонняя молекула ДНК (скажем, опер чихнул на подозреваемого) - и возможна ошибка. Впрочем, научные методы статистической фильтрации помех отработаны давным-давно в совсем других отраслях, так что на этой стороне особо задерживаться не будем. Итак, получили условно-чистый "экстракт" ДНК. Что дальше?
Первый (в т.ч. исторически) метод основан на способности некоторых бактериальных ферментов, называемых ферментами рестрикции (рестриктазами) распознавать строго определенные последовательности ДНК и разрезать ее по областям распознавания. Английский ученый Алек Джеффрис впервые обнаружил, что длина некоторых образующихся фрагментов различается для разных людей, отсюда и название метода - полиморфизм длины фрагментов рестрикции (RFLP, Restriction Fragment Length Polymorphism).
Работает он так (дальше я для простоты не буду показывать комплиментарную часть спирали ДНК и заморачиваться на триплеты и т.п. Примеры - только чтобы пояснить общий принцип, естественно, все коды не "настоящие", а взятые с потолка).
Допустим, у нас есть молекула ДНК с места преступления с таким кодом:
...атцтАГАТАЦТЦТЦТЦТЦТАГАТАцтатагтц....
Вот этот вот выделенный капсом участок с ЦТЦТ... - это так называемый VNTR-локус (Variable Number of Tandem Repeats, вариабельное число тандемных повторов). Куски АГАТА - у всех людей одинаковые, а количество повторов ЦТЦТЦТ - у всех разное в результате мутаций и т.п. В специальных коммерческих лабораториях выращивают бактерий, нацеленных на "слово" АГАТА и выделяют из них соответствующий фермент (процесс тоже чудовищно сложный по своей сути, но вполне промышленный, на нем останавливаться не будем). Криминалист же просто берет, и накапывает из заводской баночки фермент в очищенный фрагмент ДНК. Фермент "находит" слово АГАТА, и рубит по нему молекулу - чисто химически. В результате из двухметрового рулона у нас выделяется участочек в несколько тысяч нуклеотидов. Тоже самое проделываем с образцом для сравнения (например, взятый у подозреваемого). Естественно, в реале и "ключевое слово" и повторяющиеся последовательности гораздо длиннее - десятки и сотни "букв".
Дальше - внимание, эта часть - общая почти для всех прочих методов. Мы берем специальную пластинку, на которую нанесен специальный влажный гель. Помещаем на начало этой пластинки по капле каждого образца. Прикладываем к сторонам пластинки высокое напряжение. ДНК, даже порубленная на кусочки - это кислота, во влажном геле она образует анион, т.е. молекула становится заряженной и начинает "ползти" под действием электрического поля к противоположному концу пластинки, где плюс. Но гель - вязкий, а даже маленький кусочек молекулы на несколько сотен кодонов - ужасно громозкая штука. Поэтому ползет он медленно, а скорость при этом обратно пропорциональна размеру. В результате все кусочки ДНК расползаются по группам в зависимости от размера, как велосипедисты в длинной гонке. Эти группы образуют отчетливые полоски на пластинке (чтобы их увидеть, раньше ДНК "подкрашивали" радиоактивным изотопом и снимали гелевую пластинку на пленку, теперь используют более удобные флуоресцентные красители, которые делают полоски видимыми в УФ).
Я описал анализ по одному локусу, но его, конечно, недостаточно для полноценной экспертизы: длина участков хоть и разная, но количество вариантов все же невелико, возможны совпадения. Поэтому берется несколько разных локусов (т.е. несколько ферментов, нацеленных на разные куски VNTR-локусы), по их сочетанию и делается сравнение. Локусов таких известно уже довольно много, их наборы стандартизированы, что позволяет сравнивать между собой результаты исследований, даже не пересылая образцов ДНК - просто путем сравнения с заранее подготовленным "заводским" набором молекул разной длины (т.н. "линейки").
См. картинку:

Данный метод часто применяют для установления отцовства и вообще родства, т.к. длина VNTR-локусов наследуется от отца и матери, и по трем рядом расположенным дорожкам будет хорошо видно совпадение, примерно так:
Большой недостаток метода - необходимость в относительно большом количестве материала для анализа. Надо много молекул, из которых нарубим локусы, чтобы они были видны на геле. Одной молекулы тут не хватит. Кроме того, количество повторов в локусе штука все-таки относительно неустойчивая, в старом или поврежденном материале отдельные повторы могут вымываться и метод даст ошибки или шумы. Зато - относительно дешево и доступно, в принципе - можно вообще безо всяких сложных машин: пипетки да пробирки. Были бы реактивы доступны.
Для работы с малым количеством материала была изобретена полимеразная цепная реакция. Штука сверхважная для всей генетики, применяется не только и не столько в криминалистике, сколько в медицине, в первую очередь для вылова ДНК вирусов и точной диагностики. Работает она на принципах, сходных с "живым" размножением ДНК, и вот тут у нас впервые появляются мало-мальски внушительно выглядящие аппаратусы с кнопками, которые и в кино не стыдно показать. Хотя, собственно, представляют собой они просто высокоточные термостаты.

Работает ПЦР-метод так:
1. Выделяем, как обычно, образец ДНК (тут уже достаточно единичных молекул, насколько я понял - если будет всего одна - вообще отлично, меньше шумов, хотя, конечно, тут возникает риск "бракованного образца"). Образец может быть дополнительно подготовлен, например, нарублен с помощью все тех же ферментов на более мелкие куски и т.п., но это уже несущественные технологические детали.
2. Добавляем в этот образец заранее подготовленные кусочки ДНК - два типа праймеров, которые комплиментарны началу и концу интересующего нас локуса. В отличие от предыдущего метода, для ПЦР обычно берут более короткие локусы - фрагменты другого типа - STR (Short Tandem Repeats, короткие тандемные повторы), в которых всего по десятку повторов, да и сами фрагменты совсем короткие - несколько пар нуклеотидов. Это связано с тем, что риск повреждения коротких фрагментов меньше, чем длинных, а чувствительность ПЦР-метода позволяет обойтись без гигантизма. Кроме того, в раствор добавляют "строительный материал": нуклеотиды А, Г, Т, Ц "россыпью" и "строительную машину"- фермент ДНК-полимеразу
3. Засовываем образец в амплификатор, который начинает циклически повторять следующие операции:
3.1. Денатурация. Образец нагревается почти до 100 градусов, и водородные связи между нитями ДНК рвутся - получаются две нитки, почти как при обычном размножении, только без ферментов, и нити не начинают сразу восполняться, т.к. "строительным машинам" мешает температура и отсуствие химически помеченного начала цепи, с которого они могли бы начать работу.
3.2. Отжиг (да, машина конкретно жжот!). Температура немного снижается, и плававшие до того вокруг пары праймеров, воспользовавшись оказией, "садятся" на комплиментарные им участки нитей:
ТЦТАТ - это как раз и есть один из праймеров (напоминаю, что коды условные, на самом деле праймеры устроены сложнее, да и просто длиннее), комплиментарный интересующему нас "маркеру" локуса STR (как и в прошлом примере, я условно взял в его качестве "слово" АГАТА).
3.3. Элонгация
Температура еще снижается, до наиболее комфортной для полимеразы - "строительной машины". Та радостно обнаруживает на цепочке ДНК готовую затравку-праймер, садится на нее, и начинает достраивать цепочку, "вылавливая" из раствора нужные нуклеотиды, а сама двигаясь вдоль цепи:
(маленькими буквами в верхней строке показаны "достроенные" нуклеотиды, галочкой - полимераза.
Дальше опять-таки может идти некоторое количество термохимическихпроцессов, связанных с нарубанием висщих "хвостов", достройкой одиночных цепочек и т.д., которые могут варьироваться в зависимости от конкретных задач исследования (всяких вариантов ПЦР просто жуткое количество).
Так или иначе у нас получилось уже две идентичные цепочки с интересующим нас фрагментом. Весь цикл занимает 10-15 минут. Повторяем его - и фрагмента уже четыре, еще повтор - 8 и т.д. Знаменитую легенду про шахматы и зерно помните? Нуивот. Всего делают несколько десятков циклов, в результате получая внушительную дозу растиражированных локусов. А дальше - все как в прошлом методе: окраска, гель, электрофорез, линейка - получаем сравнительную длину однотипных локусов в разных образцах.
В научно-исследовательских лабораториях конкретные нужные им праймеры выращивают в бактериальных культурах, в детали этого процесса я не вникал, поскольку криминалисты, как и в предыдущем методе, обходятся стандартизованными наборами фабрично синтезированных реактивов.
Обратите внимание - при экспертизе типируется не вся ДНК, а только ее характерные фрагменты. По аналогичному принципу построена и старая добрая дактилокарта - в базах данных хранятся не детальные рисунки пальцев, а кодовые обозначения выделенных на них типовых завитков, петелек и т.п. Стандартный выбор характерных признаков гарантирует сопоставимость результатов и единство баз. То же самое с ДНК.
В США применяется набор CODIS, состояший из праймеров для 14 локусов. Стандартные локусы позволяют легко заносить генетические данные в базу без необходимости хранить и пересылать сами образцы, а их количество гарантирует весьма высокую избирательность анализа (рассчитано, что вероятность хотя бы одного повторения идентификации по CODIS хотя и возможно, но требует населения на порядок больше нынешнего населения Земли). В европейских странах более распространен набор ENFSI, по которому исследуется 9 локусов. Есть и другие более или менее стандартизованное коммерческие наборы, как на большее, так и на меньшее количество локусов. Их применяют для анадиза в сложных или спорных случаях, когда анализ по стандартным локусам не дает уверенных результатов (например, у некоторых национальностей из-за специфической мутации некоторые виды праймеров просто не крепятся к нужным участкам ДНК).
К сожалению, в России единой методики и стандартов криминалистического генотипирования пока нет, в основном все сводится к сравнительному анализу. А, поскольку реактивы дорогие, многие лаборатории ограничиваются анализом всего по 4-5 локусам, чего совершенно недостаточно для обеспечения нужной избирательности. Суды же (да и адвокаты) с методикой слабо знакомы, и готовы принять на веру все, что принесут им загадочные высокоумные эксперты-генетики.
В любом случае и RFLP, и ПЦР методы - это игра "вслепую". Мы не изучаем ДНК-код, как таковой, а лишь меряем длину его некоторых участков, не зная, что там на самом деле внутри.
На практике в продвинутых лабораториях сейчас применяют уже не пластинки, куда надо пипеткой что-то капать и потом линейкой полоски мерять, а специальные капиллярные машины - секвенаторы, которые проводят необходимые измерения автоматически и сразу заносят их в комп для обработки. Суть, однако, та же: под напряжением или под давлением молекулы протискиваются сквозь вязкую среду в капилляре, длинные отстают от коротких, а машина просто замеряет промежутки времени между флуоресцентными вспышками в луче лазера на конце капилляра. В принципе - устройство не сказать чтобы сильно сложнее струйного принтера, а стоит сотни тысяч долларов. Работать - удобнее, можно автоматизировать загрузку и анализ сразу кучи образцов, но...
Но о методах для реальной работы с генетической информацией применяемых как в криминалистике, так и в научных проектах, включая знаменитое "полное чтение генома человека" - в другой раз, а то меня уже срубает.
----
1 Не хаотично, конечно, там свои закономерности, но это уже совсем заморочаная биохимия, в которой я копаться не стал. В общем, я дальше на подобные тонкости заморачиваться не буду, просто имейте ввиду, что все, что здесь написано, как данность, на самом деле еще в тысячу раз сложнее.
2 Это старый анекдот из "физики шутят": физики работают хорошими методами с плохими веществами, химики - плохими методами с хорошими веществами, а физхимики - плохими методами с плохими веществами.
3 Есть еще урацил, но он встречается только у какого-то там экзотического бактериофага, и нас интересовать не будет.
Сначала два предуведомления.
1. Процесс анализа по сути своей оказался чудовищно сложный. Хотя я прочитал два десятка статей - я вовсе не претендую на то, что разобрался в нем хоть сколько-нибудь детально - скорее, просто уловил общие принципы. Так что в тексте ниже есть, с одной стороны, сознательные упрощения, с другой - мои собственные недопонятки. Часть из них я осознаю и пометил, часть наверняка прошляпил, если у кого из читателей есть что дополнить и поправить - добро пожаловать в комменты. В любом случае этот текст - не справочник и не учебник, а только материал, от которого вы можете оттолкнуться в дальнейших поисках инфы. Что еще важно: на самом деле и самих методов, и вариантов их реализаций очень много. Я постараюсь это оговаривать по тексту, но не слишком усердно, иначе получится совсем уж многокилометровая диссертация.
2. Несмотря на всю сложность, технология процесса уже доведена до уровня, доступного рядовому лаборанту. Прежде всего я нашел ответ на вопрос, беспокоивший меня при просмотре сериалов типа CSI: то, что они на любой чих делают тест ДНК - это киношные сказки или имеет связь с реальностью? У нас-то такая экспертиза пока еще экзотика. Оказалось - чистая правда! Примерно с начала 90-х годов американская криминалистика (а также криминалистика других развитых стран) начала отказываться от традиционных серологических методов анализа, поскольку ДНК-типирование стало доступно повсеместно, и при этом дает гораздо более точные и полезные результаты. Т.е. знакомые по старым детективам исследования на группу крови и т.п. ушли в прошлое. Более того, в США действует масштабная программа по перепроверке результатов прошлых экспертиз методами ДНК-тестов. На форуме судебных медиков нашел такую статистику: ошибки традиционных серологических методов находятся на втором месте среди причин, приведших к ошибочному осуждению после ошибок свиделей (фразу "врет, как свидетель" - все знают, так что это не сюрприз). 51%!!! А у ДНК-методов - 1%. Естественно, ДНК-типирование - развлечение все еще не дешевое, но тем не менее уже и не запредельно дорогое. Себестоимость некоторых экспертиз простыми безаппаратными методами (см. ниже) уже упала до сотен рублей (на том же судмедфоруме приведен подсчет, согласно которому предварительное типирование сотни подозреваемых обошлось бы всего в 3000 рублей - задача стояла сузить круг для проведения уже окончательной детальной экспертизы).
Вот что "голливудщина" - так это скорость выполнения тестов. В кино их делают - раз-два-готово, в реале это при самом лучшем раскладе - несколько дней. Но это я считаю допустимой уступкой зрелищности. Рентгеновские снимки с анализами в ER тоже приносят с нечеловеческой быстротой.
Чтобы было понятно, о чем речь дальше пойдет, сначала вспомним школьную биологию (или не школьную? Не знаю, я в тех классах не учился).
Дезоксирибонуклеиновая кислота (ДНК) - это сложная полимерная молекула, являющаяся основным носителем генетической информации у земных организмов. Все знают, что она свернута в спираль, менее известно, что эта спираль сама по себе еще многократно хаотично1 перекручена (чтобы себе наглядно это представить - возьмите резиновое кольцо, и начинайте его свивать. После того, как жгутик станет совсем плотным - он начнет скручиваться вторично в неимоверные узлы и петли). В каждой хромосоме человека - по одной молекуле ДНК в белковой оболочке, т.е. это молекула, которую можно раглядеть почти невооруженным глазом (с помощью обычного микроскопа). Длина ее в развернутом виде составляет у человека почти 5 см! Суммарная длина всех 46 молекул ДНК в одной клетке человека равна около 2 метров. Полная же длина всех молекул ДНК в теле взрослого человека, в тысячу раз превышает расстояние от Солнца до Земли. И все эти двухметровые куски - практические одинаковые, с точностью до атома (за исключением разве что мелких случайных повреждений).
Однако спиральная структура ДНК нас интересовать будет мало. Хоть в свернутом, хоть в развернутом виде - отдельные атомы в микроскоп не разглядишь, так что все манипуляции с ДНК производятся производить не с помощью каких-то наноскальпелей, а традиционными негодными химическими методами2.
Основная проблема ДНК-типирования - крайняя близость наших "генных записей" друг к другу. Действительно, у человеков ужасно много общего: руки-ноги-почки и прочий ливер - все одинаковое. Индивидуальные различия с точки зрения состава белков (основного строительного материала организма) - крайне малы, отличается примерно 1/400 часть кода даже для далеких, неродственных людей. Да и от шимпанзе каких-нибудь нас отличает менее 1% генокода.
Гентическая информация информация закодирована в ДНК молекулярными "буквами": т.н. азотистыми основаниями - нуклеотидами. Таких нуклеотидов - четыре: аденин, гуанин, цитозин и тимин3, обозначаемые обычно буквами А, Г, Т, Ц (мнемоника - АГАТА-Ц). Эти нуклеотиды попарно комплиментарны, т.е. А имеет атомный "разъем", подходящий к Т, а Ц - к Г. Именно это обеспечивает ДНК ее уникальную способность - самокопирование.
Вся генетическая информация полностью закодирована в каждой нити ДНК независимо, вторая нить - повторяет ее комплиментарными нуклеотидами. "Слова" в языке ДНК - трехбуквенные - код триплетен. Каждое такое слово - кодон кодирует определенную аминокислоту, из которых, собственно, и строятся организмы всех живых существ на Земле, т.е. код у нас - универсальный. При этом одни и те же аминокислоты могут кодироваться разными кодонами-синонимами. Последовательность кодонов - это "предложение", описывающее конкретный белок, причем есть в языке "точки". Часть ДНК кодирует всякую вспомогательную инфу, а в части мы вообще пока не разобрались - то ли она "мусорная", то ли хранится там еще какая-то информация. На собственно процессе "печати" готовых организмов с ДНК останавливаться не будем - к теме отношения совсем уж не имеет, но там тоже все чудовищно сложно.
Нас сейчас будет интересовать только сама молекула-"чертеж" организма, а не ее использования. Итак, в развернутом виде спираль ДНК выглядит как-то так:
А=Т=Г=Ц=Г=Т=Г=Т=А=Г... | | | | | | | | | | Т=А=Ц=Г=Ц=А=Ц=Г=Т=Ц...
Двойные черточки - это прочные связи между отдельными нуклеотидами-буквами, которые обеспечивают неизменную последовательность "слов" в чертеже.
Вертикальные - это более слабые водородные связи между комплиментарными нуклеотидами. В живой клетке существуют специальные ферменты, которые умеют "надеваться" на молекулу ДНК и ездить вдоль нее подобно застежке на "молнии", разрывая эти связи, так что получается две отдельные нитки (однако каждая содержит, как вы помните, полную запись). Одновременно с этим другие ферменты насаживаются на свободные концы ниток, и начинают достраивать "болтающиеся" водородные связи комплиментарными нуклеотидами.
Получается как-то так (связи не показываю, точечкой показаны места разрыва-склейки):
.ГА ТАЦТ / АТГЦГТ. ТАЦГЦА. \ ЦГТЦ .АГ
В результате, когда "молния" доедет до конца спирали - получаем две идентичные копии исходной записи, которые можно "раздать" вновь образовавшимся при делении клетками.
Чрезвычайная прочность "горизонтальных" связей между нуклеотидами - это весьма приятное свойство как для нас самих (позволяет, в частности, загорать на солнышке, не превращаясь в мутантов из фоллаута), так и для криминалистов: ДНК, в отличие от отпечатков пальцев, костей и даже зубов сохраняется очень хорошо и долго даже после катастроф. А то, что она во всем организме одинакова - позволяет проводить исследования по крайне малому количеству материала: в принципе для некоторых методов достаточно одной клетки.
Однако как выделить те 0,01% индивидуальных фрагментов кода?
Начало у всех экспертиз примерно одинаковое и, хотя и требует аккуратности, само по себе понятное: необходимо выделить и очистить экспериментальную ДНК из образца. Для этого материал (кровь, слюну, сперму и т.п.) обрабатывают химикатами, растворяющими все постороннее (жиры, клеточные оболочки и т.п.), центрифугуют, чтобы отогнать большие и тяжелые молекулы ДНК (в CSI часто показывают, как герои закладывают микропробирку с образцом в приборчик вроде кофеварки - это как раз и есть центрифужка). Еще используют всякие сорбенты, "клейкие" для ДНК, всякие специальные фильтрующие колонки и прочая и прочая. Плюс тут в том, что улавливаемые молекулы большая, сложная, потому очень специфические, и для них относительно легко подобрать столь же специфическую "липучку". В общем, тут у нас чистая химия - разбавляем, смешиваем, фильтруем. Надо заметить, что многие методы ДНК-типирования весьма чувствительны, и это как достоинство, так и недостаток: достаточно, чтобы в тестируемый образец попала одна посторонняя молекула ДНК (скажем, опер чихнул на подозреваемого) - и возможна ошибка. Впрочем, научные методы статистической фильтрации помех отработаны давным-давно в совсем других отраслях, так что на этой стороне особо задерживаться не будем. Итак, получили условно-чистый "экстракт" ДНК. Что дальше?
Первый (в т.ч. исторически) метод основан на способности некоторых бактериальных ферментов, называемых ферментами рестрикции (рестриктазами) распознавать строго определенные последовательности ДНК и разрезать ее по областям распознавания. Английский ученый Алек Джеффрис впервые обнаружил, что длина некоторых образующихся фрагментов различается для разных людей, отсюда и название метода - полиморфизм длины фрагментов рестрикции (RFLP, Restriction Fragment Length Polymorphism).
Работает он так (дальше я для простоты не буду показывать комплиментарную часть спирали ДНК и заморачиваться на триплеты и т.п. Примеры - только чтобы пояснить общий принцип, естественно, все коды не "настоящие", а взятые с потолка).
Допустим, у нас есть молекула ДНК с места преступления с таким кодом:
...атцтАГАТАЦТЦТЦТЦТЦТАГАТАцтатагтц....
Вот этот вот выделенный капсом участок с ЦТЦТ... - это так называемый VNTR-локус (Variable Number of Tandem Repeats, вариабельное число тандемных повторов). Куски АГАТА - у всех людей одинаковые, а количество повторов ЦТЦТЦТ - у всех разное в результате мутаций и т.п. В специальных коммерческих лабораториях выращивают бактерий, нацеленных на "слово" АГАТА и выделяют из них соответствующий фермент (процесс тоже чудовищно сложный по своей сути, но вполне промышленный, на нем останавливаться не будем). Криминалист же просто берет, и накапывает из заводской баночки фермент в очищенный фрагмент ДНК. Фермент "находит" слово АГАТА, и рубит по нему молекулу - чисто химически. В результате из двухметрового рулона у нас выделяется участочек в несколько тысяч нуклеотидов. Тоже самое проделываем с образцом для сравнения (например, взятый у подозреваемого). Естественно, в реале и "ключевое слово" и повторяющиеся последовательности гораздо длиннее - десятки и сотни "букв".
Дальше - внимание, эта часть - общая почти для всех прочих методов. Мы берем специальную пластинку, на которую нанесен специальный влажный гель. Помещаем на начало этой пластинки по капле каждого образца. Прикладываем к сторонам пластинки высокое напряжение. ДНК, даже порубленная на кусочки - это кислота, во влажном геле она образует анион, т.е. молекула становится заряженной и начинает "ползти" под действием электрического поля к противоположному концу пластинки, где плюс. Но гель - вязкий, а даже маленький кусочек молекулы на несколько сотен кодонов - ужасно громозкая штука. Поэтому ползет он медленно, а скорость при этом обратно пропорциональна размеру. В результате все кусочки ДНК расползаются по группам в зависимости от размера, как велосипедисты в длинной гонке. Эти группы образуют отчетливые полоски на пластинке (чтобы их увидеть, раньше ДНК "подкрашивали" радиоактивным изотопом и снимали гелевую пластинку на пленку, теперь используют более удобные флуоресцентные красители, которые делают полоски видимыми в УФ).
Я описал анализ по одному локусу, но его, конечно, недостаточно для полноценной экспертизы: длина участков хоть и разная, но количество вариантов все же невелико, возможны совпадения. Поэтому берется несколько разных локусов (т.е. несколько ферментов, нацеленных на разные куски VNTR-локусы), по их сочетанию и делается сравнение. Локусов таких известно уже довольно много, их наборы стандартизированы, что позволяет сравнивать между собой результаты исследований, даже не пересылая образцов ДНК - просто путем сравнения с заранее подготовленным "заводским" набором молекул разной длины (т.н. "линейки").
См. картинку:

Данный метод часто применяют для установления отцовства и вообще родства, т.к. длина VNTR-локусов наследуется от отца и матери, и по трем рядом расположенным дорожкам будет хорошо видно совпадение, примерно так:
Мама Ребенок Папа --- ---- от мамы ---- --- ---- ---- от папы ---- от соседа :)
Большой недостаток метода - необходимость в относительно большом количестве материала для анализа. Надо много молекул, из которых нарубим локусы, чтобы они были видны на геле. Одной молекулы тут не хватит. Кроме того, количество повторов в локусе штука все-таки относительно неустойчивая, в старом или поврежденном материале отдельные повторы могут вымываться и метод даст ошибки или шумы. Зато - относительно дешево и доступно, в принципе - можно вообще безо всяких сложных машин: пипетки да пробирки. Были бы реактивы доступны.
Для работы с малым количеством материала была изобретена полимеразная цепная реакция. Штука сверхважная для всей генетики, применяется не только и не столько в криминалистике, сколько в медицине, в первую очередь для вылова ДНК вирусов и точной диагностики. Работает она на принципах, сходных с "живым" размножением ДНК, и вот тут у нас впервые появляются мало-мальски внушительно выглядящие аппаратусы с кнопками, которые и в кино не стыдно показать. Хотя, собственно, представляют собой они просто высокоточные термостаты.

Работает ПЦР-метод так:
1. Выделяем, как обычно, образец ДНК (тут уже достаточно единичных молекул, насколько я понял - если будет всего одна - вообще отлично, меньше шумов, хотя, конечно, тут возникает риск "бракованного образца"). Образец может быть дополнительно подготовлен, например, нарублен с помощью все тех же ферментов на более мелкие куски и т.п., но это уже несущественные технологические детали.
2. Добавляем в этот образец заранее подготовленные кусочки ДНК - два типа праймеров, которые комплиментарны началу и концу интересующего нас локуса. В отличие от предыдущего метода, для ПЦР обычно берут более короткие локусы - фрагменты другого типа - STR (Short Tandem Repeats, короткие тандемные повторы), в которых всего по десятку повторов, да и сами фрагменты совсем короткие - несколько пар нуклеотидов. Это связано с тем, что риск повреждения коротких фрагментов меньше, чем длинных, а чувствительность ПЦР-метода позволяет обойтись без гигантизма. Кроме того, в раствор добавляют "строительный материал": нуклеотиды А, Г, Т, Ц "россыпью" и "строительную машину"- фермент ДНК-полимеразу
3. Засовываем образец в амплификатор, который начинает циклически повторять следующие операции:
3.1. Денатурация. Образец нагревается почти до 100 градусов, и водородные связи между нитями ДНК рвутся - получаются две нитки, почти как при обычном размножении, только без ферментов, и нити не начинают сразу восполняться, т.к. "строительным машинам" мешает температура и отсуствие химически помеченного начала цепи, с которого они могли бы начать работу.
3.2. Отжиг (да, машина конкретно жжот!). Температура немного снижается, и плававшие до того вокруг пары праймеров, воспользовавшись оказией, "садятся" на комплиментарные им участки нитей:
ТЦТАТ ...атцтАГАТАЦТЦТЦТЦТЦТАГАТАцтатагтц....
ТЦТАТ - это как раз и есть один из праймеров (напоминаю, что коды условные, на самом деле праймеры устроены сложнее, да и просто длиннее), комплиментарный интересующему нас "маркеру" локуса STR (как и в прошлом примере, я условно взял в его качестве "слово" АГАТА).
3.3. Элонгация
Температура еще снижается, до наиболее комфортной для полимеразы - "строительной машины". Та радостно обнаруживает на цепочке ДНК готовую затравку-праймер, садится на нее, и начинает достраивать цепочку, "вылавливая" из раствора нужные нуклеотиды, а сама двигаясь вдоль цепи:
ТЦТАТгага>>>> ...атцтАГАТАЦТЦТЦТЦТЦТАГАТАцтатагтц....
(маленькими буквами в верхней строке показаны "достроенные" нуклеотиды, галочкой - полимераза.
Дальше опять-таки может идти некоторое количество термохимическихпроцессов, связанных с нарубанием висщих "хвостов", достройкой одиночных цепочек и т.д., которые могут варьироваться в зависимости от конкретных задач исследования (всяких вариантов ПЦР просто жуткое количество).
Так или иначе у нас получилось уже две идентичные цепочки с интересующим нас фрагментом. Весь цикл занимает 10-15 минут. Повторяем его - и фрагмента уже четыре, еще повтор - 8 и т.д. Знаменитую легенду про шахматы и зерно помните? Нуивот. Всего делают несколько десятков циклов, в результате получая внушительную дозу растиражированных локусов. А дальше - все как в прошлом методе: окраска, гель, электрофорез, линейка - получаем сравнительную длину однотипных локусов в разных образцах.
В научно-исследовательских лабораториях конкретные нужные им праймеры выращивают в бактериальных культурах, в детали этого процесса я не вникал, поскольку криминалисты, как и в предыдущем методе, обходятся стандартизованными наборами фабрично синтезированных реактивов.
Обратите внимание - при экспертизе типируется не вся ДНК, а только ее характерные фрагменты. По аналогичному принципу построена и старая добрая дактилокарта - в базах данных хранятся не детальные рисунки пальцев, а кодовые обозначения выделенных на них типовых завитков, петелек и т.п. Стандартный выбор характерных признаков гарантирует сопоставимость результатов и единство баз. То же самое с ДНК.
В США применяется набор CODIS, состояший из праймеров для 14 локусов. Стандартные локусы позволяют легко заносить генетические данные в базу без необходимости хранить и пересылать сами образцы, а их количество гарантирует весьма высокую избирательность анализа (рассчитано, что вероятность хотя бы одного повторения идентификации по CODIS хотя и возможно, но требует населения на порядок больше нынешнего населения Земли). В европейских странах более распространен набор ENFSI, по которому исследуется 9 локусов. Есть и другие более или менее стандартизованное коммерческие наборы, как на большее, так и на меньшее количество локусов. Их применяют для анадиза в сложных или спорных случаях, когда анализ по стандартным локусам не дает уверенных результатов (например, у некоторых национальностей из-за специфической мутации некоторые виды праймеров просто не крепятся к нужным участкам ДНК).
К сожалению, в России единой методики и стандартов криминалистического генотипирования пока нет, в основном все сводится к сравнительному анализу. А, поскольку реактивы дорогие, многие лаборатории ограничиваются анализом всего по 4-5 локусам, чего совершенно недостаточно для обеспечения нужной избирательности. Суды же (да и адвокаты) с методикой слабо знакомы, и готовы принять на веру все, что принесут им загадочные высокоумные эксперты-генетики.
В любом случае и RFLP, и ПЦР методы - это игра "вслепую". Мы не изучаем ДНК-код, как таковой, а лишь меряем длину его некоторых участков, не зная, что там на самом деле внутри.
На практике в продвинутых лабораториях сейчас применяют уже не пластинки, куда надо пипеткой что-то капать и потом линейкой полоски мерять, а специальные капиллярные машины - секвенаторы, которые проводят необходимые измерения автоматически и сразу заносят их в комп для обработки. Суть, однако, та же: под напряжением или под давлением молекулы протискиваются сквозь вязкую среду в капилляре, длинные отстают от коротких, а машина просто замеряет промежутки времени между флуоресцентными вспышками в луче лазера на конце капилляра. В принципе - устройство не сказать чтобы сильно сложнее струйного принтера, а стоит сотни тысяч долларов. Работать - удобнее, можно автоматизировать загрузку и анализ сразу кучи образцов, но...
Но о методах для реальной работы с генетической информацией применяемых как в криминалистике, так и в научных проектах, включая знаменитое "полное чтение генома человека" - в другой раз, а то меня уже срубает.
----
1 Не хаотично, конечно, там свои закономерности, но это уже совсем заморочаная биохимия, в которой я копаться не стал. В общем, я дальше на подобные тонкости заморачиваться не буду, просто имейте ввиду, что все, что здесь написано, как данность, на самом деле еще в тысячу раз сложнее.
2 Это старый анекдот из "физики шутят": физики работают хорошими методами с плохими веществами, химики - плохими методами с хорошими веществами, а физхимики - плохими методами с плохими веществами.
3 Есть еще урацил, но он встречается только у какого-то там экзотического бактериофага, и нас интересовать не будет.