banner

Блог

May 31, 2023

Мульти

Природная биотехнология, том 40, страницы 1458–1466 (2022 г.) Процитировать эту статью

59 тысяч доступов

55 цитат

187 Альтметрика

Подробности о метриках

Несмотря на появление экспериментальных методов одновременного измерения нескольких модальностей омиков в одиночных клетках, большинство наборов данных для отдельных клеток включают только одну модальность. Основным препятствием в интеграции данных омики из разных модальностей является то, что разные уровни омики обычно имеют разные пространства признаков. Здесь мы предлагаем вычислительную структуру под названием GLUE (унифицированное встраивание, связанное с графами), которая устраняет разрыв путем явного моделирования регуляторных взаимодействий между уровнями омики. Систематический сравнительный анализ показал, что GLUE является более точным, надежным и масштабируемым, чем современные инструменты для гетерогенных одноклеточных мультиомных данных. Мы применяли GLUE для решения различных сложных задач, включая интеграцию тройных омик, интегративный регуляторный вывод и построение атласа клеток человека с несколькими омиками на миллионах клеток, где GLUE мог исправить предыдущие аннотации. GLUE имеет модульную конструкцию, которую можно гибко расширять и совершенствовать для решения новых задач анализа. Полный пакет доступен онлайн по адресу https://github.com/gao-lab/GLUE.

Недавние технологические достижения в секвенировании одиночных клеток позволили исследовать регуляторные карты через несколько слоев омики, такие как доступность хроматина (одноклеточное ATAC-секвенирование (scATAC-seq)1,2), метилирование ДНК (snmC-seq3, научные исследования). MET4) и транскриптом (scRNA-seq5,6), что дает уникальную возможность раскрыть основные регуляторные основы функциональности различных типов клеток7. Хотя в последнее время появились методы одновременного анализа8,9,10,11, различные омики обычно измеряются независимо и дают непарные данные, что требует эффективной и действенной интеграции нескольких омиков in silico12,13.

В вычислительном отношении одним из основных препятствий, с которыми сталкиваются при интеграции непарных данных мультиомики (также известных как диагональная интеграция), являются отдельные пространства признаков разных модальностей (например, доступные области хроматина в scATAC-seq по сравнению с генами в scRNA-seq)14. Быстрое решение — преобразовать мультимодальные данные в одно общее пространство признаков на основе предварительных знаний и применить методы интеграции данных с одним омиком15,16,17,18. Такое явное «преобразование функций» является простым, но, как сообщается, приводит к потере информации19. Алгоритмы, основанные на факторизации связанных матриц, обходят явное преобразование, но вряд ли обрабатывают более двух слоев омики20,21. Альтернативный вариант — сопоставить ячейки из разных слоев омики посредством нелинейного выравнивания коллекторов, что полностью устраняет требование предварительных знаний и теоретически может уменьшить потери интермодальной информации22,23,24,25; однако этот метод в основном применялся к относительно небольшим наборам данных с ограниченным количеством типов ячеек.

Постоянно растущий объем данных является еще одной серьезной проблемой26. Недавно разработанные технологии позволяют регулярно генерировать наборы данных в масштабе миллионов ячеек27,28,29, тогда как современные методы интеграции применяются только к наборам данных гораздо меньших объемов15,17,20,21,22,23. Чтобы не отставать от роста пропускной способности данных, методы вычислительной интеграции должны разрабатываться с учетом масштабируемости.

Настоящим мы представляем GLUE (унифицированное внедрение с привязкой к графу), модульную структуру для интеграции непарных одноклеточных данных мультиомики и одновременного определения регуляторных взаимодействий. Путем явного моделирования регуляторных взаимодействий между уровнями омики, GLUE устраняет пробелы между различными пространствами, специфичными для омики, биологически интуитивным способом. Систематические тесты и тематические исследования показывают, что GLUE является точным, надежным и масштабируемым решением для гетерогенных одноклеточных мультиомных данных. Более того, GLUE спроектирован как обобщаемая структура, которая позволяет легко расширять и быстро адаптироваться к конкретным сценариям на модульной основе. GLUE общедоступен по адресу https://github.com/gao-lab/GLUE.

0.5, and then normalize by cluster size, which effectively balances the contribution of matching clusters regardless of their sizes. In the second stage, we fine-tune the GLUE model with the estimated balancing weights, during which the additive noise \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N}}}}\left( {{\boldsymbol{\epsilon}} ;\mathbf{0},\tau \cdot {\mathbf{\Sigma}}} \right)\) gradually anneals to 0 (with τ starting at 1 and decreasing linearly per epoch until 0). The number of annealing epochs was set automatically based on the data size and learning rate to match a learning progress equivalent to 4,000 iterations at a learning rate of 0.002./p>0 for scRNA-seq/scATAC-seq; FDR < 0.05 and log fold change of <0 for snmC-seq. The significance of marker overlap was determined by the three-way Fisher’s exact test40./p>
ДЕЛИТЬСЯ