Визуализация генов: методы и проблемы
Поскольку наши способности генерирования последовательностей данных продолжают расти, анализ данных, генерирование данных является лимитирующей стадией в области геномики.
Здесь мы предлагаем руководство по визуализации данных, геномные средства, которые облегчают анализирование задач и позволяют исследовать, изучать, толковать и управлять своими данными, а в некоторых случаях выполнять вычисления мгновенно. Мы будем обсуждать графические методы, предназначенные для анализа de
novo
последовательностей и считывания выравнивания, геномного просмотра в будущем. Изучение геномов в значительной степени позволило говорить о геномике, как о цифровой науки, и сделало возможным с появлением технологии секвенирования, выявлять геномные последовательности для нуклеотидного анализа. Появление обширных данных о геномной последовательности ресурсов открыло новый интерфейс компьютерной науки, которая используется в таких областях как биоинформатика и предоставляет возможности решения биологических задач с помощью вычислений. Последние инновации в области технологии секвенирования обеспечивают беспрецедентную способность для генерации данных. Сейчас более чем когда-либо нам необходимы интуитивные и оперативные данные исследований для анализа.
Хотя множество геномных анализов для данных задач могут быть выполнены с помощью автоматических процессов, но некоторые действия еще по-прежнему требуют человеческих суждений и часто с ограниченной скоростью. Визуализация может усилить наши способности рассуждать о сложности данных, тем самым повышая эффективность ручного анализа.
В некоторых случаях, соответствующее изображение дает очевидное решение.
Учитывая важность человеческих интерпретаций в особенности на ранних этапах гипотезы поколений биологических исследований, визуальные средства могут также стать ценным дополнением к автоматизированным вычислительным методам и позволяют получать нам научное понимание о крупных геномных наборах данных. Визуальные и автоматизированные подходы являются особенно мощным средством, когда используются в сочетании, например, пользователь может легко контролировать и проводить расчеты по этим данным, многократно их, уточняя и анализируя.
Одна из проблем при разработки визуальных средств состоит в принятии решения графического представления по существу, т.е. как данные кодируются по цветам, форме или преобразованы на различных уровнях. Выбор представления может либо помогать, либо мешать возможностям для пользователей к интерпретации данных и в идеале должен быть разработан так, чтобы облегчить анализ задачи. Например, перестройку генома можно более легко представить как дуги на кругу, чем на линии. Геномные данные, взятые, с различных источников при использовании различных методов сопровождаются экспериментальными погрешностями. Важно, что визуально представлены и зафиксированы эти технические неопределенности и любые несоответствия.
Существует также значительное биологическое различие между индивидуумами, которые необходимо отличать от технических изменений описанных выше. К дополнению к задачам выбора соответствующего визуального представления, некоторые виды первичных данных не представлены из-за чрезмерных требований хранения в сети и позволяют в режиме реального времени взаимодействовать с большими наборами данных, которые являются нетривиальными.
Этот обзор приводит примеры трех основных пользовательских задач:1)анализ последовательности данных, как в контексте сборки заново и рессеквенирование экспериментов; 2)просмотр аннотаций и сопоставление экспериментальных данных со ссылкой геномов, и наконец, 3)сравнения последовательностей из разных организмов или отдельных индивидуумов.
Методы визуализации в этих областях находятся на разных стадиях развития, и мы будем обсуждать их преимущества и недостатки. Одним из важных моментов является то, что область геномики быстро развивается. Хотя мы пытались обеспечить руководство по методам в этой области, но вполне вероятно, что новые инструменты и форматы данных появятся, в самом ближайшем будущем и мы обсудим некоторые из соответствующих проблем. Мы призываем читателей, принять во внимание ресурсы онлайн, такие как SEQanswer , где описаны наиболее современные средства развития.
Визуализация секвенирования данных
Интерпретация первичных данных из машинного секвенирования начинается с автоматизированной обработки данных. База вызова и качество расчетов следует в случае последовательной сборки геномов или считывания регулировки по ссылке в случае рессеквенирования. Последние инновации в технологии секвенирования сопровождались ростом новой сборки и согласованию программ, чтобы справится с более короткими длинами считывания и большим числом операций считывания (для обзоров см.раб.1,2), но стандартов не было достигнуто. Для некоторых задач анализ визуальной проверки ценен в толковании и проверке автоматизированных мероприятий, им можно управлять с помощью как биологического, так и алгоритмического пути.
Например, выявление автоматизированного однонуклеотидного полиморфизма на основе данных секвенирования остается незавершенным, и визуальный осмотр используется до сих пор для оценки отдельных случаев и для биологических результатов и технических наблюдений, которые могут быть использованы для улучшения прогнозирования алгоритма. В этом разделе говорится о сообщениях, которые освещают графические средства для анализа последовательности.
Визуализация выравнивания
Анализ узлов и считывания выравнивания часто предусматривает анализ последовательности собственно считывания, а все средства, перечисленные в таблице 1, обеспечивают осмотр унифицированных считываний основ. Считывание последовательности, как правило, предоставлено в виде строки, происходит горизонтально слева направо и укладывается вертикально. В случае ассемблирования, пользователь может сканировать считыванием из стека соответствующего столбца.
Основное свойство часто идентифицируется с градацией серого и основывается на противоречии с согласованием, придающим особое значение цветам. Некоторые инструменты минимизировали визуальные помехи, в стеке считывания выделяя только противоречия и скрывая все последовательные пары оснований (например, программа интегративной геномики, Национальный центр биотехнологической информации, просмотр программы архива ассамблеи, выравнивание текста в программе просмотра SAM tools). Большинство средств, построенных до появления следующего поколения последовательности, продолжают оказывать поддержку визуализации основных первичных данных для Сэнгер считывания отдельных следов просмотра. Например, в популярной программе Consed «след» окна может быть запущен из «соответствующего окна» и движение курсора синхронизируется. Этот режим позволяет пользователю проверять позиции конфликтующих баз и выявляет источник неопределенности в рамках первичных следов напрямую.
В значительной степени NGS данные изменились настолько, что пользователь сможет оценить неопределенность основных консенсусов. Например, Consed позволяет пользователю проверять недоработанную Рош 454 последовательности данных, а в случае Illumina и AppliedBiosystems обеспечивает надежность информации, в случае если нет недоработанных следов считывания, а есть только данные в виде изображения (Подробная информация об этих технологиях секвенирования рассматривается в другом месте). Consed и аналогичные программы не отображают первичные изображения данных, в частности потому, что их большие размеры делают их слишком дорогими для того, чтобы хранить их в сети, а также медленно отображаются на экране
Однако высокая скорость считывания, граничащая с генерированием NGS часто, облегчает, возможность пристально изучать какое-либо считывание. Пользователь может обнаруживать или вычислять одно подозрительное основание на протяжении одного считывания , сравнивать с соответствующим основанием в других считываниях выравнивания размещенных в других местах.
Устройство вывода автоматического секвенирования собирает незавершенные программы и повторяет место считывания, считывая на расстоянии.
Следующий шаг «завершения» включает в себя исключение пробелов, исправление неправильно собранных и возможность исправления ошибок согласованных основных компонентов. Специализированная обработка программного обеспечения упрощает этот процесс за счет автоматизации и позволяет пользователю выполнять вышеперечисленные задачи. В некоторых случаях автоматической обработки достаточно, например, в исполнении Autofinish, так как эта программа, рассматривает выход собраний программ и предлагает введение лабораторных данных (например, специфических праймеров для ПЦР).
Тем не менее, в других ситуациях ручной проверки и редактирования необходимо к дополнению по автоматизации пробелов Consed и коммерчески доступных Sequencher (ген кодирующая корпорация) и Lasergene (DNASTAR) широко использовать обрабатывающие программы, которые предоставляют богатые функциональные возможности редактирования и отслеживания истории и позволяют пользователю отдельно, вручную присоединяться к соседнему, что отличает их от статистического выравнивания программ просмотра, которые нельзя редактировать (таблица 1).
В большинстве последовательностей протоколов диапазон размеров фрагментов генома неизвестно. Последовательность считывания, получена из разных концов одного и того же источника геномного фрагмента («математической пары»), поэтому предполагаем интервал («вставить размер») и полагаем ориентацию (1 верхняя нить считывания и одна нижняя нить считывания). Одна из пар, которая нарушают эти пространственные ограничения, может быть использована для выявления несобранных, а одна из последовательных пар может быть использована для их присоединения.
Consed собрание программ просмотра «изображает одну из пары как цветные линии, охватывающие соседние, изображая последние горизонтально ориентированными блоками. Этот дисплей визуально разделяет «последовательные» пары (те, которые предполагаемого размера и ориентации) путем построения их выше или ниже наборов генов считывания, которые связаны друг с другом перекрыванием их последовательностей, что позволяет выявить неправильную сборку (рисунок1а). Одно из преимуществ этого метода, является то, что он позволяет вести интерактивную фильтрацию отображаемых данных (наборов генов считывания, аналогичных последовательностей и т.д.). Несмотря на это у фильтрации есть одно ограничение, это то, что изображение может быстро портится, так как число пар увеличивается.
Например, в Consed иногда желательно отключать изображения всех согласованных пар внутреннего набора генов считывания, так как их количество перегружает изображение.
В дополнении к одной из пар последовательности сходство может быть использовано для выявления всевозможных генов считывания и для проверки выхода «окно сравнения наборов генов считывания». Аналогичные функции существуют и в других обрабатывающих программах обеспечения, например Gap4 присоединенный редактор наборов генов считывания. Эти предоставленные последовательности дополняющие обзор показывают, как Gap4 использует точечные графики, изображающие каждую из осей, которые указывают на позиции вдоль длины наборов генов считывания, и разделяет точки в местах совместимости выше границ подобной последовательности.
Пользователь может интерактивно исследовать последовательность взаимосвязи между различными наборами генов считывания и просматривать результаты поисковых операций, таких как «найти, повтор». Собрание изображений Consed может отображать выход утилита сравнения называемого «пара крестов», используя для этого связывание областей с подобной последовательностью между пользователем наборов генов считывания
Различные цвета означают такие функции как направление повторяющиеся из интернированных повторов. Одним из преимуществ просмотра сходства последовательностей в сборке изображения является возможность интегрирования считывания участков, которые могут выявлять неожиданно высокие регионы действия и часто указывают на аналогичные последовательности, которые были ошибочно разрушены и собраны в одну. Пользователь может выбрать для изучения последовательности сходства на основном уровне, и снова нажимая, изучает, то, что лежит в основе сообщения. Существуют также автономные инструменты функций, относящиеся например к Miropeats, широко используемые для ранних геномных проектов секвенирования.
UNIXC – оболочки, которые генерируют статистические картинки с использованием дуговых изображений для обозначения различных повторов.
Следующее поколение средств изображения последовательностей
Индивидуальное секвенирование геномов стало возможным и положило начало геномному проекту 1,000.Эти данные дают беспрецедентную возможность для характеристики видов человеческих генотипов, а также дают новое поколение вычислительных методов с появлением результата вычисления.
В некоторых случаях визуальная инспекция может способствовать оценки и интерпретации считывания согласованных методов и генетической изменчивости обнаружения вывода данных.
Ассемблирование изображает средства обладающими необходимыми функциями, но построенными по данным Сэнгер и первоначально существенно лучше считывающим обьем технологий NGS. Некоторые из этих средств в настоящее время модернизированы, для решения более сложных наборов данных существует Consed и обновленная Gap5, также разработана новая волна инструментов с учетом целей.
Например, Eagle View, Map View, IGV (таблица 1). В отличие от программного обеспечения эти средства, в первую очередь данные программ просмотра не предоставляют функции редактирования. Из-за их акцента на просмотре многие программы обеспечивают более гибкие возможности, а масштабирование позволяет пользователю свободно уменьшать изображение. Имеющаяся в продаже КГО геномика Workbench является особенно удобной для пользователя и включает в себя собственно считывание согласованных программ, которые могут быть запущены через GUL.
В контексте рессеквенции одна из пар дает ценную информацию о структурных изменениях, таких как вставка, удаление и инверсии. Как уже говорилось, в предыдущем разделе одна из пар может, указывать на неправильную сборку и пользователи могут выполнять обнаружение изменений по проекту ассемблирования и осведомлять об этих проблемах.
LookSeq и Gap5 используют вертикальную ось вращения и указывают размер вставки. Это разделяет одну из пар несовместимости на отдельные участки и визуально отделяет большие размеры вставок, которые предполагают включение результатов. При анализе структурных изменений, важно рассматривать аннотацию генов, например, приводят ли изменения к синонимам или нонсенсам в аминокислотах.
По этой причине некоторые из визуализирующих средств и некоторые законченные программы обеспечения помогают пояснением процессов на дисплее.
Consed служит примером на дисплее согласованной трансляции аминокислот во всех шести считываниях фреймах и позволяет пользователю аннотировать генотипы, повторы и определять гены.
Проблемы NGS и большой объем данных, создают вычислительные и представительные проблемы. Новые форматы файлов на пример выравнивание последовательности (карты SAM) форматы, принятые в 1,000 Геномном проекте, а также компактные форматы выравнивания. CALFобеспечивает компактное хранение данных считывания выравниваний.
Предындексанция, например файлов ВАМ (спутник бинарное представление SAM) – все шире используется для достижения быстрого поиска, случайно согласованных данных и уменьшает требования к памяти интерактивных выравниваний. Например, большинство считываний выравнивания изображений представляет считывание всех доступных файлов с использованием сортировки или колоризации в качестве руководства пользователя.
Тем не менее, это представление разрушается, когда происходит сотни и тысячи считываний карт в одном месте.
Пользователи нуждаются в суммарных методах, которые считывают базы и особенность выравнивания, для того, чтобы получить общий обзор, а также интерактивный доступ к основным востребуемым данным.
Кроме того, современное собрание NGS программ на основе графиков де Брейна производит связывание наборов генов считывания информации, которое может стать комплексом. Ассемблирование графических изображений в том и числе интерактивных изображений появляется для тог, чтобы обеспечить более высокий уровень визуализации собранной структуры.
Часть возможностей ассемблирования обрабатывающих программ обеспечения позволяет мгновенную интеграцию и анализ операций с визуализацией поиска. Последовательность поиска в результате динамической визуализации выравнивания представляет единственный подобный пример. Кроме того, эффективность работы пользователя может быть значительно улучшена путем предоставления рекомендаций, где искать. Например, пользователь может перейти к следующей области «низкого качества согласованности», используя навигационное меню Consed вместо того, чтобы вручную определять расположение. Достижения такого рода интеграции между визуальным и компьютерным анализом будет иметь важное значение в растущей потребности анализа данных.
Просмотр генов
Конечным продуктом секвенирования генома, сборки и обработки циклов являются высокосмежные последовательности, в котором большинство наборов генов имеют длины, что на порядок больше, чем при считывании. Как может исследователь управлять этой последовательностью и обнаруживать интересующие в ней области.
Последовательность содержит справочную систему координат и природную платформу, на которой собираются научные аннотации и геном отображается набором данных из различных источников.
Геномы браузеров были изначально разработаны для отображения данных на ранних собраниях проектов, таких как Элеганс геном и позднее на других модельных организмах (например, в Университете Калифорнийском Санта Круз, UCSC геномный браузер, Ассамблеи геномного браузера и NCBI карт изображений). Эти браузеры имеют много функций и их основные различия были рассмотрены в другом месте. Сегодня браузеры стали стандартными инструментами для изучения геномов, облегчают анализ геномной информации и обеспечивают общую платформу для исследований, обеспечивают хранение и публикацию научных открытий (таблица 2).
Геномный браузер в двух словах
В общем, геномные браузеры отображают данные и биологические аннотации из многих источников, в их геномном контексте, в рамках графического интерфейса. Эти инструменты поддерживают различные типы данных, включая экспрессию генов, вариации генотипов, межвидовые сравнения и многое другое.
Аннотации функционально важных областей, таких как расположение генов, в регионах с транскрипционной активностью и регуляторных элементов, либо вытекают из экспериментальных результатов (например, интерпретация последовательностей) JavaScript или моделирование (например, прогнозирование генной модели). И данные и аннотации организованы из « треков», которые могут быть предварительно загружены в геном браузера или загружены по требованию.
Исследователи часто хотят изучать особенности регионов, которые их интересуют, а все нынешние браузеры геномов позволяют пользователю выбирать конкретные места для показа генома.
Большинство инструментов обеспечивают возможность для поиска последовательностей и для конкретной геномной аннотации, (такой как генные имена), которые находятся в основе базы данных.
Многие геномные браузеры также позволяют осуществлять сложные запросы данных и выбирать инструменты для доступа к аннотациям списка для конкретной области или целого генома. Например, Galaxy, услуга, специально предназначенная для взаимодействия с геномом браузера и облегчения обработки данных и анализа. Долей достоинства геномных браузеров, является то, что они являются настраиваемыми. Например, пользователь может принять решения о резолюции, на которой информация отображается (например, окна из нескольких сотен пар оснований по сравнению с десятками тысяч) и масштабирования и паномирование по своему желанию. Данные методы можно свободно расположить в определенном порядке и организовывать, чтобы облегчить их сопоставление.
В большинстве случаев, пользователи также могут выбирать между странами и настраивать несколько режимов отображения, чтобы изучить тот же исход данных. Например, неизменность важных данных, таких как отображения, в виде карты или гистограммы, которые могут быть загружены как модель (образец). Популярность браузера УСК генома вытекает из его гибкости в отображении представленных пользователями данных и его быстром времени отклика. Тем не менее, отображение требует действий и сравнительной оценки пользователя. Например, должен интерпретировать колоколизацию гистона Н3 ацетилирования (Н3ас) с Usf1 связыванием транскрипционных факторов, как и биологически значимых, так и экспериментальных артефактов.
Новое поколение геномных браузеров
Новые и более высокие пропускные способности геномных технологий, в том числе NGS, позволили исследователям создавать беспрецедентный объем данных.
Международный консорциум – например, энциклопедия ДНК элементов (кодирование), программа 37, программа 38, Атлас раковых генов, 1000 Генная и постгенная путевая проектная карта, каждая будет создавать тысячи наборов геномных данных.
Даже сравнительно небольшая группа исследователей, теперь имеют возможность получить большие объемы данных генома в течение короткого периода времени. Появляется новое поколение геномных браузеров и соответствующих баз данных способное эффективно управлять и распространять этот объем данных. Традиционные веб браузеры используют централизованную модель генома, согласно которой данные и связь находятся на стороне сервера. Информационные потоки идут от провайдера в геном серверного браузера, что обеспечивает необходимое изображение и передает его конечному пользователю.
Когда размер данных возрастает до критической точки, существенными трудностями стают затраты сервера и подключение к интернету и это в конечном счете нарушает беспрепятственный геномный просмотр.
Децентрализация данных, связи или сочетание их может облегчить такую нагрузку на сервер. Например, JBrowse использует асинхронный JavaScript и XML (AJAX) для распределения работы между сервером и клиентом, и несет значительно меньшие потери сервера, а также заменяет традиционные статистические нагрузки изображений с беспрепятственным анимированием геномной навигации и выборов методов. Annoj40 (аннотация с JavaScript)
Другие подходы использования UCSC геномного браузера ухудшают усовершенствования привычных функциональных подходов по отношению к развивающимся Big Bed и Big Wig с их возможностями располагать очень большой объем данных (сотни мегабайтов до гигабайтов информации).
Такие большие объемы данных форматируются и хранятся локально на компьютере клиента. Вместо того, чтобы хранить весь набор данных в базе браузера, браузер получает лишь приблизительную часть данных необходимую для расположения хромосом в гене. Помимо повышения эффективности локально хранимых данных также имеется явное преимущество, связанное с мерой необходимости для защиты личных данных, таких как отдельные человеческие сферы деятельности.
Токийский университет генома браузера UTGB, специально предназначен для просмотра локально хранимых данных индивидуальным образом.
Есть также несколько автономных инструментов в частности два Java – основные пакеты, Affymetrix Комплексный геномный браузер (IGB, сообщает ig-bee) и Интерактивное геномное изображение (IGV), разработанное в институте Брода.
К дополнению к экспериментальным данным, связанных с геномной последовательностью, другие типы данных, такие как клиническая информация, связанная с образцами, зачастую имеет решающее значение в интерпретации данных геномов. Некоторые недавно разработанные геномные браузеры, предназначенные для обеспечения платформы для интеграции больших объемов данных геномов, в особенности раковой геномной информации. Они включены в YCSC, Раковый геномный браузер,IGV и молекулярный анализ рака, разработанный в Портале амер. Национального Института рака. Основным нововведением этих новых инструментов является одновременное отображение данных генов и клинической информации.
Эти браузеры отображают расположение целого генома, изображая экспериментальное измерение для отдельных образцов и наборов образцов в виде горячих карт.
Клинические признаки показуют целую геномную информацию в отдельной тепловой карте.
Следовательно, появляется возможность взаимодействовать с браузером, располагать в определенном порядке, фильтровать агрегаты и отображения данных в соответствии с клиническими признаками, аннотировать биологическим путем или редактировать пользователем коллекцию генов.
Статистический анализ может быть применен к определенным наборам данных и графикам в браузере.
УСК геномный браузер рака использует изображения тепловых карт, на которых х-оси координат и геномные оси у необходимы для стека больших геномов, где каждая строка предоставляет данные образца. Этот дисплей позволяет легко определять закономерности всей выборки. Например, пользователь может точно определить , где область хромосомы по местоположению PTEN, удаляя их периодически, по имеющимся в наличии образцам опухолей головного мозга. Ниже тепловые карты генома можно просмотреть суммарно и те данные, где очевидно есть характерные изменения количества видимых копий.
Клинические тепловые карты позволяют исследователям визуально изучить взаимосвязь между геномным измерением и отдельными клиническими признаками, имеющимися в распоряжении пользователей на основе их уровня доступа к данным. Перестройка вертикальной (клинической пробы) необходима как в клинических так и в геномных тепловых картах, и может быть выполнена одновременной сортировкой на основе численно закодированных клинических функций или совокупности признаков.
Например, когда глиобластомные данные отсортированы на опухоли сравнения, то существует очевидная разница между генами, содержащими эти два типа образца и «нормальными образцами», отображающими какое-либо крупное нарушение, которое характеризуется большим количеством копий опухолей.
Ограничение визуализации последовательности данных в основе координат взаимодействие между двумя местоположениями генома. Кроме того, глобластные тенденции в геномах лучше оценивать в контексте возможностей, которых нет на геномной карте.
Одним из последних примеров является УСКА Геномный браузер рака, в котором геномные данные отображаются в контексте биологического направления.
Организовуются размещение данных в наборе генов в соответствии с индивидуальными направлениями в отличии от местоположения хромосом, пользователи могут получать более надежную и биологически значимую информацию о геномных данных через гены, которые могут действовать согласованно.
Андерс и его коллеги обеспечили другой подход, в котором геномные данные организованы по кривой Гильберта, что обеспечивает глобальный обзор. В будущем, существует огромный потенциал в освоении новых способов лучшего ориентирования геномных пейзажей.
Проблемы
Некоторые ключевые проблемы в области генного анализа данных, появились в последние годы, в том числе и вопросы: объемы данных, тип данных и представления данных. Несколько новых геномных браузеров, которые были, упомянуты выше, решают некоторые из этих вопросов, однако согласованности пока недостигнуто. Кроме того, важно то, что новые геномные браузеры построены с помощью успешных инструментов, включая легкий доступ кросс платформенных данных и отображения настройки и возможности выполнять мгновенные вычисления и визуализацию.
Геномные Браузеры начинают взаимодействовать с конфиденциальной информацией, так как общество осознает проблемы защиты данных. Личная информация, закодированная в геномном ДНК, клинические параметры, а также другая информация личного характера требует тщательной защиты.
Геномным обозревателем могут воспользоваться многие системы безопасности, разработанные для электронной информации с целью обеспечения доступа только для авторизованных исследователей.
Кроме того, эти средства способны максимизировать служебные программы, обеспечивая конфиденциальность данных, представляя в их анонимной форме, например, в виде совокупности или суммарности, не допуская при этом извлечения личной информации от таких агрегатов.
Сравнения геномов
Последнее наличие большого числа полностью секвенированных геномов их ассамблея стимулировала активные исследования в области сравнительной геномики. Это включает разработку алгоритмов и средств для парного и множественного выравнивания очень длинных геномных промежутков и полных геномов. Среди целей этой работы были выявлены такие функциональные элементы, 1)такие как экзоны или усиливающие агенты 2)исследование крупномасштабных перестроек и эволюции индивидуальных геномов и их ссылок в ходе ассемблирования и завершения. Визуализация согласованных данных является критически важной для каждой из этих целей, но является сложной задачей из-за графических трудностей выявления взаимосвязи интересующих хромосом в разных геномах на многократно повторяющихся шкалах. В этом разделе мы рассмотрим различные методы, которые будут разработаны для того, чтобы помочь исследователям в направлении последовательностей между двумя и более геномами.
Расчет геномного выравнивания и синтении
Существуют различные методы для парных и множественных генных выравниваний, например, BLASTZ50, MULTIZ51,Shuffle – LAGAN52 «Меркатор» и MAID53, Mauve и несколько симметричных выравниваний. Все эти методы обьеденены общим принципом нахождением наиболее близких геномных интервалов (якорей), расширение этих регионов, цепочек группировок, которые граничат между собой и анализ реконструкций.
После выравнивания следующий шаг заключается в том, чтобы найти сохраненные сигналы, которые могут указывать на потенциально функциональные области. Методы расчета коротких сигналов сохранены в области простого окна похожего на PipMaker и Vista, филогенетически скрывающие модели Маркова Phastcons57,58 и другие статистические модели Gamby59. Расчет сохраняющихся синтений, означает сохранение хромосом, которые расположены в нескольких генах, основанные на анализе ДНК либо на выравнивании или двунаправленном сравнении ортологичных генов с интервалом в 2 гена. Эволюционное значение синтении вытекает из предположения, что точный порядок генов в хромосоме идет от общего предка.
Визуализация выравнивания необходима для разработки способов решения различных аналитических задач. Графическое представление о синтении на уровне всего генома имеет решающее значение для изучения эволюции генома. Кроме того, важным является возможность «развернуть» для глобального представления о синтении и для изучения конкретных областей сохраненных генов в контексте аннотации. В добавок, собрание геномов и аннотация их модели может быть представлена путем сравнения положения неизвестного гена и его гомологической последовательности из одного организма в другой, который имеет готовые или хорошо аннотированные последовательности генома.
Ниже мы опишем методы визуализации, которые используются для отображения синтении на микро и макро уровнях (таб.3).
Визуализация геномного выравнивания
Широкие спектры стратегии были изучены для графического синтении на уровне целого генома. Двумерные точечные графики, которые традиционно используются при анализе локального выравнивания, увидели современное возрождение в качестве мощного способа визуализации более доступного геномного выравнивания(DaGChainer, Vista-DotMUMmer62,GenomeMatcher и другие).
Геномы этих двух организмов представлены по осям х и у графика, с указанием линий сетки хромосомных границ. Точки на графике указывают на некоторую степень выравнивания, образуя 45 градусные линии на отдельном месте.
Геном реконструкции и дублирования сразу опознает их как, соответственно вне диагонали и идентифицирует линии как горизонтально так и вертикально сложенные. Dag- первое общедоступное средство для создания графиков, рассчитывает синтении на основе мета-выравнивании генов в родственных BLAST сочетаниях между двумя организмами.
Vista – диаграммы предложили точечный графический режим для просмотра синтении на основе геномного ДНК выравнивания (доп.рис.1). Эти средства имеют интерактивные карты типа Google интерфейса, позволяющие пользователям масштабировать и паномировать в пределах областей, а также на ссылку из соответствующего сегмента для просмотра в Vista или в геномном JGI браузере.
Точечные графики являются полезными не только при анализе синтении между готовыми геномами, но и геномной обработки. Например, OSLAY средство, которое автоматизирует все более распространенные методы использования точечных графиков и приводит коллекцию наборов генов из незавершенного ассемблирования с эталонной сборкой, и тем самым карту целого генома.
Глобальное сохранение может быть визуализировано и представлено ссылкой генома с использованием таблеточной формы идеограмм хромосом и ленточных для обозначения областей приведенных в соответствии, с каким либо геном. Группы имеют цветовую маркировку для обозначения хромосом в соответствии с геном, с которым они сравниваются.
Идеограмма представленных геномов выравнивания является самым предпочтительным выбором для индивидуального генерирования данных в публикациях новой последовательности геномов.
Три варианта являются доступными для автоматической генерации вариантов этой визуализации для определенных пользователей геномной информации:Cinteny,Apollo, « Градиент изображения» Сибилла использует инновационные визуализации, в которых гены отображаются по цвету по геномным ссылкам, эти цвета используются для обозначения гомологичных мест в наборе унифицированных геномов.
VISTA синтении изображения (доп.рис.2) используют основную идеограмму, которая описывает выравнивание родственных генома в качестве направляющего средства отбора хромосом в организме, в ссылках рассмотрено более детально. По сравнению с точечными графиками представление синтении с помощью диаграммы способствует утере информации о местонахождении унифицированных областей для сравнения геномов. Тем не менее, использование цветов в этих диаграммах способствует возможности с легкостью представлять себе, геном и сравнивать его с другими.
Кроме того, цветные сегменты в информационно-справочном геноме могут быть связаны с какими-то конкретными положениями хромосом и линии рисуются более мелкие по сравнению с хромосомными символами в организмах. Этот подход используется в «Apollo», а также в PhiGs веб сайте, который позволяет пользователям создавать синтении карт из 45 последовательностей грибов и многоклеточных.
Альтернативный эстетический подход к геномным изображениям представил Circos. Средства, представляющие из себя Circos, две или более геномные дуги на одном круге. Линии, которые пересекают центр круга, связывают и выравнивают соответствующие области.
В этом циркуляре систематизированы и уменьшены визуальные путаницы, которые вытекают из эквивалентных линейных представлений, в которых паутины соединяют отдаленные области во множестве геномов.
Этот инструмент также поддерживает анимацию выравнивания связей между отдельными геномами, а хромосомы могут быть просмотрены в последовательности и в дальнейшем путаницы сокращаются.
Циркуляционное геномное изображение также доступно в MEDEA и в Miz Bce.
Точечные графики, идеограммы и циркулярные изображения представляют собой оперативное исскуство (стратегию) для визуального изображения и обеспечивают сохранность геномных шкал. Инструменты для реализации этих изображений могут быть использованы для выявления областей синтении, дублирования и перемещения между геномами. После выявления таких областей исследователям необходимы средства, чтобы просмотреть их на более высоком уровне разрешения для визуальной ассоциации с аннотациями данных.
Визуализация геномной защиты
Наиболее простым способом визуально связываться с аннотацией сохраненных данных будет представление выравнивания геномов и сравнение их как «треков» в УСК браузере и браузере VISTA (рис.3).
В обоих случаях попарное или множественное выравнивание представлено в виде двухмерного графика, в котором по оси х указывается положение вдоль представленного генома, а по оси у представлено и сохранено множественное выравнивания этого генома.
Вдобавок, UCSC браузер имеет следы «цепочки выравнивания» показаны как различные оттенки серого.
В случае следов VISTA, такие функции как сохранение экзонов,UTRS и некодирующие области обозначены цветом, находившимся под кривыми.
VISTA треки могут быть экспортированы для просмотра в рамках соответствующих организмов ссылаясь на другие геномные браузеры, такие как JGI геномный браузер и УСК геномный браузер.
Выравнивание треков предоставляет ценные средства для быстрой идентификации и сохранения при просмотре отдельных геномов. Тем не менее, это сохранение изображения не позволяет исследователям использовать функции в двух направлениях: просматривать и сравнивать выравнивания одновременно.
По этой причине многие инструменты были разработаны с возможной визуализацией локальных синтений (таб.3). Как правило, эти инструменты используют общую стратегию, изображающую множественную цепочку и сравнения местоположения одного или более генома рисуя при этом линии между ними, чтобы указать синтении (изображающие связанные следы).
Функции треков с указанной аннотацией геномной модели и определил последовательности тега, которые могут быть наложены выше или ниже соответствующих регионов, аналогично тому, который используется геномным браузером.
Это представление позволяет визуально просматривать выравнивание, сохраняя при этом в контексте геномной аннотации, которая описывает содержание исследованных областей, ссылки подключений в сохраненных областях могут быть сделаны на основе геномных выравниваний ортологичных генов, кластерных белков или даже модельной структуры GMOD Общие Модельные организмы Данного проекта. В том числе популярные геномные браузеры GBrowseявляются, пожалуй, наиболее широко используемой основой для программного обеспечения для поддержки геномного анализа и хранения.
Три синтении веб обозревателей были разработаны в рамках GMOD: SynBrowse и GBrowseSyn, а расширение семейства инструментов из GBrowse позволяет пользователям переключатся между тремя режимами отображения с сохранением связи между регионами.
В режиме «синтении блоков», области связаны в соответствии с заданными пользователем определениями синтении (определенное количество коллинеарных генов на протяжении определенного минимального расстояния).
В режиме «кодирования генов» и «кодирование экзонов», белковое выравнивание отображается в виде линейной группировки генов и экзонов, и соответственно через ссылку сравниваются сегменты. Характерной особенностью выравнивания является индикация по цвету каждой линии.
Различные представления, которые используют для визуализации синтении на шкалах, в качестве цепей выравнивания генома с сохранением итронно-экзонной структуры в области геномной последовательности.
Основной проблемой в будущем развитии этих средств заключается в том, чтобы предоставить средства для исследователя обеспечения возможности перемещения через эти уровни безпрепятствий.
К счастью, все большее усложнение веб- технологий обеспечивает еще большую интерактивность и возможность подключения визуальных элементов к информационным ресурсам в интернете.
VSV, использует эти технологии, предоставляя новый интерфейс для объединения шкал в дисплее синтении. VSV изображает в три кросс навигационные панели предоставляющей разные шкалы выравнивания.
Combo и Genome партнер предоставляют решение в визуализации синтении путем подключения интерактивных точек графика с просмотрами «связанных треков» сохраненных локально.
MizBee, вышедший совсем недавно предоставляет интерактивные просмотры, бок о бок, данных по всему спектру шкал, оказывая поддержку изучению всех типов связей.
Большинство средств описанных выше следуют модели выравнивания одного или более геномов, сравнение одного генома против базового.
Этой модели характерно визуальное ограничение, которое состоит в том, что связи между организмами, которые сравниваются, не могут быть изучены.
Одним из путей решения этого ограничения, принятые в обоих средствах сравнения Artemis и CMAP, дают представление пользователю о стеке генома, так, что произвольный набор сравнения родственных геномов можно представить (хотя данный геном еще можно сравнить с более чем двумя другими).
Еще одним недостатком «геномной ссылки» моделью для отображения синтении, является то, что ось х на протяжении всего выравнивания , как правило, определяется положением вдоль ссылки генома, что делает возможным затемнения интересных особенностей сравнения последовательностей. Два инструмента Phylo-Vistaи SynPlot,осуществляют визуализацию, сохраненную в положениях которые изображены по отношению к длине общего выравнивания.
Еще одной проблемой в визуализации синтении является графическое представление вставки и удаления, которые являются критическими для отслеживания эволюции генома в хромосомах, родственных генов и структурных шкал генов.
Хотя многие алгоритмы выравнивания способны выявлять удаления, большинство изображений синтении не предлагают средства для их визуальной индикации, отображая только сохраненные соответствия между областями.Насколько нам известно, только GBrowsesyn изображение позволяет визуализировать удаление.
Когда «сетки линии», включены в GBrowsesyn, удаление представлено сеткой линий соединяющих вставки областей на одном геноме единой точкой удаления на других.
Многие успешные средства визуализации особенно тщательно учитывали требования для специализированных анализов своих пользователей и маловероятно, что универсальный инструмент для анализа генов останется подходящим или желанным.
Существует, однако, крайняя необходимость улучшить интеграцию между средствами и облегчает переход от одного анализа к другому. Стремительный прогресс в области технологии секвенирования продолжают деформацию существующего программного обеспечения и создают проблему прогнозирования будущих потребностей.
Парадигма более зрелых инструментов, как с точки зрения вычислительных методов, так и визуальных представлений это борьба за соответствие информационным требованиям.
Более поздние средства решают некоторые из основных вопросов, но они часто проигрывают в многофункциональности ради удовлетворения неотложных потребностей, которые состоят в скорости и легкости распространения.
Вполне вероятно, что широко распространенная интеграция между средствами, будет когда-нибудь реализована, и тогда мы приобретем большую стабильность в технологии генерации данных и форматов стандартных файлов.
Мы выявили несколько широко используемых средств для руководства исследователями желающими совершать геномный анализ сегодня.
Однако, учитывая скорость, с которой, это относительно молодая область развивается, очень вероятно, что новые программные средства появятся, а пересмотренный формат файлов будет уже предложен в ближайшем будущем. Как следствие этого динамического характера, инновационный потенциал в этой области велик.
Во-первых, для удовлетворения будущих потребностей анализа, необходима их визуализация. Необходима для успешной интеграции различных форм данных, таких как клиническая информация в совокупности с данными генома.
Во-вторых, эти средства требуют визуального представления на шкалах равномерного сравнения тысячи и даже миллионов элементов.
Например, основанный на треках экран использует текущий геномный браузер, не смогут обеспечить вывод на экран 1000генного проекта.
В-третьих, достижения в этой области требуют беспрепятственного направления по соответствующим уровням резолюции, пользуясь методом агрегирования выявлять глобальные тенденции интерактивных интерфейсов для обеспечения доступа пользователям с более низкими уровнями требований.
И в - четвертых, улучшение интеграции между автоматизированным расчетом и визуализацией необходимо достигнуть, чтобы пользователи могли интерактивно уточнять и повторять анализы.
Такого рода интеграция также позволит более широкому сообществу биологов выполнить геномный анализ, а не ограничиваться только расчетами программистов.