Анализ взвешенных сетей коэкспрессии генов

Анализ взвешенных сетей коэкспрессии генов (англ. weighted gene coexpression network analysis, WGCNA), также известный как анализ взвешенной сети корреляций (англ. weighted correlation network analysis) — метод глубинного анализа данных, основанный на попарных корреляциях между переменными^[2]. Метод может быть использован для анализа широкого спектра многомерных наборов данных, но наиболее широкое распространение он получил в геномике^[3]. Метод позволяет определять модули (кластеры коэкспрессирующихся генов), межмодульные хабы и узлы сети относительно принадлежности к модулю, изучать отношения между модулями коэкспрессии и сравнивать топологии различных сетей. WGCNA может быть использован как метод снижения размерности данных (связанный с непрямым факторным анализом), как метод кластеризации, как метод отбора признаков (например, для скрининга генов)^[3].

История

Метод WGCNA был разработан Стивом Хорватом^[англ.], профессором Калифорнийского университета в Лос-Анджелесе и членами его лаборатории (в частности, Питером Лангфелдером, Бином Чжаноми и Джуном Донгом) и опубликован в 2005 году. Большая часть метода появилась в ходе прикладных исследований. В частности, взвешенные корреляционные сети были разработаны в рамках совместных дискуссий с исследователями рака Полом Мишелем, Стэнли Ф. Нельсоном, и нейробиологами Дэниэлем Гешвиндом и Майклом Олдхэмом^[2]. В 2008 году была опубликована программная реализация алгоритма^[1].

Алгоритм работы

Построение первичной сети

Исходные данные представляют собой матрицу экспрессии генов в нескольких образцах $X_{n\times m}=[x_{il}]$ , где $n$ — число генов, $m$ — число образцов. Для построения сети коэкспрессии для каждой пары генов $(i,j)$ вычисляется параметр сходства, $s_{ij}$ , который должен лежать в $[0;1]$ . $s_{ij}$ по умолчанию равен абсолютному значению коэффициента корреляции Пирсона:

$s_{ij}=|cor(x_{i},x_{j})|$ ,

где профили коэкспрессии генов $x_{i}$ и $x_{j}$ состоят из экспрессии генов i и j среди множества образцов. Для достижения большей устойчивости к выбросам можно использовать «урезанный» коэффициент корреляции, а для того, чтобы сохранить знак коэффициента можно использовать простое преобразование корреляции: $s_{ij}={\frac {1+cor(x_{i},x_{j})}{2}}$ , так как использование абсолютного значения корреляции может привести к потере биологически значимой информации, поскольку при этом нельзя различить репрессию и активацию генов. Получается матрица сходства $S_{n\times n}=[s_{ij}]$ ^[2].

Фильтрация рёбер по весу с применением мягкого безмасштабного критерия

Для вычисления матрицы смежности $A_{n\times n}=[a_{ij}]$ сети по матрице сходства необходима функция смежности, которая отображает интервал $[0;1]$ в интервал $[0;1]$ . Традиционной функцией смежности является сигнум-функция с жёстким порогом:

$a_{ij}=signum(s_{ij},\tau )\equiv {\begin{cases}1,&s_{ij}\geq \tau \\0,&s_{ij}<\tau \end{cases}}$

Такая жёсткая фильтрация рёбер применяется при построении невзвешенных сетей, а результат согласован с интуитивным пониманием концепции сети (связность узла совпадает с числом связанных с ним соседей). Однако такой подход часто приводит к потере информации: например, если установить $\tau =0.8$ , то между узлами с параметром сходства 0.79 не будет никакой связи. Таким образом такие сети очень чувствительны к выбору гиперпараметра^[2].

Взвешенные сети лишены этого недостатка. В алгоритме WGCNA в качестве функции смежности используется степенная функция:

$a_{ij}=power(s_{ij},\beta )\equiv |s_{ij}|^{\beta }$

Значение $\beta$ определяется с помощью топологического критерия безмасштабности сети для целочисленных значений $\beta$ . Для разных целочисленных значений $\beta$ строится линейная модель зависимости логарифма доли вершин сети со степенью $k$ $\log(p(k))$ от логарифма степени $log(k)$ . Выбирается наименьшее значение $\beta$ , при котором коэффициент детерминации $R^{2}$ соответствующей линейной модели превосходит 0.8^[2].

«Мягкая» матрица смежности позволяет лишь проранжировать узлы сети согласно силе их связи с рассматриваемым узлом. Если необходимо определить ограниченный список соседей, вводится порог по силе связи. Такой способ «мягкой» фильтрации рёбер сети и называется взвешиванием сети^[2].

Сглаживание взвешенной сети

Для определения модулей сети и удаления шума производится операция сглаживания сети. Сначала вычисляется матрица топологического сходства (topological overlap measure) $\Omega _{n\times n}=[\omega _{ij}]$ :

$\omega _{ij}={\frac {l_{ij}+a_{ij}}{\min\{k_{i},k_{j}\}+1-a_{ij}}}$ ,

где $a_{ij}$ — элемент матрицы смежности, $l_{ij}=\sum _{u}a_{iu}a_{uj}$ , $k_{i}=\sum _{u}a_{iu}$ .

$\omega _{ij}$ равна $1$ , если узел $i$ с меньшим числом соседей связан с узлом $j$ с бо́льшим числом соседей и все соседи узла $i$ являются соседями узла $j$ . $\omega _{ij}$ равна $0$ , если узлы $i$ и $j$ не связаны и не имеют общих соседей. Так как $0\leq a_{ij}\leq 1$ , то и $0\leq \omega _{ij}\leq 1$ . Топологическое сходство двух узлов отражает их относительную внутрисвязанность^[2].

На основе матрицы топологического сходства строится матрица несходства $D_{n\times n}=[d_{ij}^{\omega }]$ :

$d_{ij}^{\omega }=1-\omega _{ij}$ .

Модули сети выделяются согласно матрице несходства^[2].

Иерархическая кластеризация и выделение модулей

Для выделения модулей сети используется иерархическая кластеризация матрицы несходства^[2]. Модули генов представляют собой ветви полученной дендрограммы. Для выделения модулей производится обрезка ветвей дендрограммы. Статический способ обрезки, который выделяет разветвления ниже определённого порога как отдельный кластер, производит модули, которые легко выделяются визуально, но не соответствуют строгому определению понятия «модуль»^[1].

В WGCNA используется метод динамического обрезания дендрограммы (англ. Dynamic Tree Cut)^[4], который представляет собой адаптивный итеративный процесс разбиения и комбинации модулей, и останавливается, когда число модулей остаётся стабильным. Исходным набором модулей являются большие модули, определяемые статическим способом. Далее происходит рекурсивное разбиение на подмодули на основе наличия паттерна флуктуаций длины ветвей внутри одного исходного модуля. Маленькие модули объединяются с соседними, чтобы избежать чрезмерного дробления^[2].

Более поздние версии алгоритма используют гибридный динамический (англ. Dynamic Hybrid) подход, который позволяет более успешно детектировать выбросы в каждом кластере^[2]. В качестве зачатков модулей используются ветви, удовлетворяющие следующим критериям:

Содержат не менее установленного порога дочерних листьев (объектов);
Объекты, расположенные слишком далеко от модуля исключаются из него, даже если они принадлежат одной дочерней ветви на дендрограмме;
Каждый модуль должен быть различимым от его окружения;
Ядро модуля должно быть сильно связано.

После определения таких зачаточных модулей все остальные объекты, не попавшие в модулей на первом шаге, по возможности включаются в состав образованных модулей методом ближайших медоидов^[англ.]. Объекты в составе одного итогового модуля могут не находиться рядом на дендрограмме, однако эта несогласованность является обманчивой и следует из ограничений отображения реальных данных в виде дендрограммы^[5].

Валидация модулей

Для валидации модулей используется бутстрэп-анализ на неполных выборках образцов^[2]. Дальнейшему анализу подвергаются только те модули, которые были обнаружены в большом числе бутстрэп-реплик^[6].

Интерпретация результатов

Обобщение профиля экспрессии генов модуля

Модуль коэкспрессии $q$ представляется собственным геном (англ. eigengene) $E^{(q)}$ , который является правым сингулярным вектором, соответствующим наибольшему правому сингулярному значению при сингулярном разложении матрицы экспрессии генов этого модуля $X_{n^{(q)}\times m}^{(q)}=[x_{ij}^{(q)}]$ ^[7].

Соотнесение модулей с внешними характеристиками

Для определения значимости влияния экспрессии одного гена $x_{i}$ на проявление черты $T=(T_{1},...,T_{m})$ можно использовать модуль коэффициента корреляции $T:GS_{i}=|cor(x_{i},T)|$ или p-value соответствующего корреляционного или регрессионного анализа $GS_{i}=-\log p_{i}$ . Для определения значимости влияния экспрессии генов модуля $q$ используются разные величины:

Среднее значение модулей коэффициентов корреляции между экспрессиями генов и проявления черты по данному модулю $T:GS^{(q)}={\frac {1}{n^{(q)}}}\sum _{i:x_{i}\in q}^{n^{(q)}}T:GS_{i}$ ;
Модуль коэффициента корреляции собственного гена и проявления черты $T:GS^{(q)}=|cor(E^{(q)},T)|$ и соответствующий p-value $GS^{(q)}=-\log p^{(q)}$ регрессионного анализа.

Чем больше величина значимости, тем более значимым является данный ген $x_{i}$ или модуль генов $q$ для проявления данной черты $T$ ^[2].

Взаимодействие модулей

Для оценки взаимодействия (коэкспрессии) модулей используются как попарные корреляции между собственными генами модулей, так и построение мета-сети на основе матрицы коэкспрессии собственных генов модулей и выделение мета-модулей в этой мета-сети, в том числе с использованием информации о проявлении черт для определения значимости модулей^[1].

Выделение важных генов

Одним из ключевых моментов в анализе построенной сети является выделение центральных узлов (хабов) — генов, которые высоко скоррелированы со многими другими генами сети. Две метрики связности узла: стандартная $k_{i}=\sum _{j=1}^{n}a_{ij}$ и топологическая $\omega _{i}=\sum _{j=1}^{n}\omega _{ij}$ — могут быть вычислены как по всей сети (полносетевая связность, англ. whole-network connectivity), так и только по генам того же модуля (внутримодальная связность, англ. intramodular connectivity). Стандартная и топологическая полносетевая и внутримодальная связности обозначаются как $kTotal$ , $\omega Total$ , $kIM$ и $\omega IM$ , соответственно.

Использование внутримодульной связности (нормированной на максимальное значение связности внутри модуля) является более предпочтительным по сравнению с полносетевой связностью при сравнении генов из различных модулей, так как сильно связный ген но из маленького по размеру, но важного модуля может иметь гораздо меньшее значение полносетевой связности по сравнению с геном, имеющим среднюю степень связности из большого по размеру, но не очень важного модуля.

В свою очередь, внутримодульная связность гена отражает то, насколько связан или коэкспрессирован рассматриваемый ген по отношению к генам этого модуля. Эта метрика может быть интерпретирована как мера принадлежности к модулю.

Также выделяют метрики $kOut=kTotal-kIM$ и $kDiff=kIn-kOut$ . Высокое среднее значение $kIM$ для генов модуля (даже превышающее среднее значение $kTotal$ ) может означать то, что этот модуль является ядром сети и важным с биологической точки зрения в изучаемых условиях. Высокое значение $kOut$ , напротив, означает, что общая связанность больше, чем связанность внутри модуля, то есть гены, входящие в состав этого модуля, стабильны и слабо меняют экспрессию в исследуемых условиях^[1].

Взвешенная мера принадлежности к модулю

Бинарная мера принадлежности к модулю может быть не самой подходящей мерой для ряда применений, поэтому в качестве меры принадлежности гена к модулю можно использовать непрерывную величину (англ. fuzzy measure of module membership). В качестве такой меры можно использовать $kIM$ или меру связности, основанная на собственных векторах модулей, $kME$ . Последняя определяется как корреляция гена $x_{i}$ и собственного гена модуля $q$ $E^{(q)}$ : $kME\equiv K_{cor,i}^{(q)}:=cor(x_{i},E^{(q)})$ . Высокое значение $kME$ (близкое к $1$ или $-1$ ) говорит о сильной связанности гена $x_{i}$ и модуля $q$ , значение, близкое к $0$ , говорит о том, что ген $x_{i}$ не принадлежит модулю $q$ . Метрики $kIM$ и $kME$ связаны между собой: внутримодальные хабы обладают тенденцией иметь высокое значение $kME$ для соответствующего модуля^[1].

Сравнение взвешенных и невзвешенных сетей корреляций

Взвешенная корреляционная сеть может рассматриваться как частный случай взвешенной сети, сети зависимостей или корреляционной сети^[2]. Анализ взвешенных корреляционных сетей имеет следующие достоинства по сравнению с невзвешенными сетями:

Построение сети (на основе мягкого порога коэффициента корреляции) сохраняет непрерывный характер исходной информации о корреляции. Например, взвешенные корреляционные сети, построенные на основе корреляций между числовыми переменными не требуют выбора жёсткого порога. Дихотомическое деление информации и (жёсткий) выбор порога может привести к потере информации^[2];
Взвешенные корреляционные сети облегчают геометрическую интерпретацию на основе угловой интерпретации корреляции^[7];
Полученная статистика сети может быть использована для улучшения результатов стандартных методов глубокого анализа данных, таких как кластерный анализ, так как меры несхожести зачастую могут быть преобразованы во взвешенные сети^[9]^[7];
WGCNA предоставляет обширные статистические данные о консервативности модулей, которые могут быть использованы для количественного представления возможности встретить их в другом состоянии. Также статистика консервативности модулей позволяет исследовать различия между модульной структурой сетей^[10];
Взвешенные и корреляционные сети часто можно аппроксимировать факторизуемыми сетями^[11]. Таких приближений бывает сложно добиться для разреженных, невзвешенных сетей. Таким образом, взвешенные (корреляционные) сети позволяют использовать экономную параметризацию (в терминах модулей и принадлежности к модулям)^[3]^[11].

Применение

WGCNA широко применяется для анализа данных об экспрессии генов, например, для поиска межмодульных хабов^[12]^[13].

Эта методика часто используется в качестве шага снижения размерности данных в применении к системной генетике, где модули представлены собственными генами^[14]^[15]. Собственные гены модулей могут быть использованы для расчёта корреляции с экспериментальными данными^[1].

WGCNA широко применяется в нейробиологии^[16]^[17] и для анализа геномных данных, включая микрочипы^[18], данные RNA-Seq отдельной клетки^[19]^[20] данные метилирования ДНК,^[21] миРНК, подсчёт пептидов^[22] и данные микробиоты (секвенирование генов 16S рРНК)^[23]. Другие области применения включают данные визуализации мозга, например данные функциональной МРТ^[24], анализ онкологических данных, например, выделение подклассов глиом и ассоциированных с ними биомаркеров^[25], а также данные о работе ресничек^[26].

WGCNA можно применять для метаанализа данных, полученных из разных источников^[27]^[28].

Программная реализация алгоритма

Пакет программного обеспечения R

Пакет WGCNA программного обеспечения R^[1] предоставляет функции для осуществления всех элементов анализа взвешенных сетей (построение модулей, выбор генов хабов, статистика консервативности модулей, дифференциальный анализ сети, статистика сети). Пакет WGCNA доступен в CRAN, стандартном репозитории пакетов дополнений для R, однако для работы WGCNA необходимы пакеты, доступные в репозитории Bioconductor^[29]. Пакету посвящён отдельный сайт, где опубликованы краткие руководства с демонстрацией возможностей пакета^[29], а также существует блог одного из авторов метода, в котором публикуются тематические статьи, руководства и новости пакета^[30].

Экспорт результатов для анализа в дочерних программах

Пакет содержит функции для визуализации полученных сетей в VisANT и Cytoscape^[31]. Также разработан пакет anRichment для расширенной функциональной аннотации генов в модулях, выделенных WGCNA^[32].

iterativeWGCNA

Существует расширение базового пакета R под названием iterativeWGCNA, реализованное на языке Python. Расширение позволяет усилить устойчивость детектируемых модулей и уменьшить потерю информации. Для этого гены, не попавшие в модули, а также гены со слабым значением связности к своим модулям снова подвергаются WGCNA-анализу и для них заново определяются модули^[33].

Анализ полногеномных данных

Анализ сетей коэкспрессии для наборов данных с большим числом образцов в полногеномном масштабе является вычислительно сложной задачей, требующей большого количества оперативной памяти и времени вычисления. Из-за того, что в процессе построения сети вычисляется коэффициент корреляции между узлами, то анализ сети с $n$ узлами требует $O(n^{2})$ оперативной памяти и $O(n^{3})$ времени вычислений^[1]. Существует две стратегии для решения этой проблемы^[34].

Анализ ограниченного набора генов

Можно сократить число анализируемых генов до 4000-5000, которые имеют наибольшее значение какого-либо параметра: значение дисперсии профиля экспрессии генов в массиве данных^[35]^[36], значение p-value теста уровня экспрессии генов между различными группами образцов^[37], доля образцов, в которых детектируется экспрессия генов^[37] и другие. Основными недостатками такого подхода являются потеря информации об оставшихся генах, систематическая ошибка выборки^[англ.] и неверное распределение генов по функциям^[38].

Эвристические методы определения модулей

Один подход состоит в том, что сначала выделяются модули на некой подвыборке генов, а затем оставшиеся гены добавляются к выделенным модулям на основании метрики $kME$ : для каждого гена вычисляется, с каким из модулей он сильнее всего коррелирует. Но если данный ген не коррелирует ни с каким модулем выше заданного порога, то он не включается ни в один модуль^[34].

Другой подход состоит в том, что на начальном этапе гены разбиваются на блоки заранее заданного размера с помощью метода k ближайших соседей, а дальнейшее выделение модулей производится уже внутри этих блоков. Полученные модули сливаются и соотносятся между собой согласно корреляции их собственных генов. Такой подход реализован в пакете WGCNA и для блоков размера $n_{b}$ требует $O(n_{b}^{2})$ оперативной памяти и $O(nn_{b}^{2})$ вычислений^[1].

Примечания

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ Peter Langfelder, Steve Horvath. WGCNA: an R package for weighted correlation network analysis // BMC bioinformatics. — 2008-12-29. — Т. 9. — С. 559. — ISSN 1471-2105. — doi:10.1186/1471-2105-9-559. Архивировано 28 апреля 2020 года.
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ ¹² ¹³ ¹⁴ ¹⁵ ¹⁶ Zhang B., Horvath S. A General Framework for Weighted Gene Co-Expression Network Analysis. (англ.) // Statistical Applications in Genetics and Molecular Biology. — 2005-08-12. — Vol. 4, iss. 1. — doi:10.2202/1544-6115.1128. Архивировано 28 сентября 2020 года.
↑ ¹ ² ³ Steve Horvath. Weighted Network Analysis: Applications in Genomics and Systems Biology. — New York: Springer-Verlag, 2011. — ISBN 978-1-4419-8818-8. Архивировано 18 сентября 2020 года.
↑ ¹ ² Langfelder P., Zhang B., Horvath S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R. (англ.) // Bioinformatics. — 2007-11-16. — Vol. 24, iss. 5. — P. 719—720. — doi:10.1093/bioinformatics/btm563. Архивировано 11 февраля 2016 года.
↑ Peter Langfelder. Why WGCNA modules don’t always agree with the dendrogram? (англ.). Insights from a billion correlations (31 декабря 2018). Дата обращения: 19 апреля 2020. Архивировано 27 сентября 2020 года.
↑ Peter Langfelder and Steve Horvath. Example module stability analysis (неопр.). Fast functions for correlation and hierarchical clustering R code examples (15 октября 2014).
↑ ¹ ² ³ Horvath S., Dong J. Geometric Interpretation of Gene Coexpression Network Analysis. (англ.) // PLoS Comput Biol. — 2008-08-15. — Vol. 4, iss. 8. — doi:10.1371/journal.pcbi.1000117. Архивировано 30 декабря 2014 года.
↑ Peter Langfelder and Steve Horvath. [https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/FemaleLiver-03-relateModsToExt.pdf Tutorial for the WGCNA package for R: I. Network analysis of liver expression data in female mice 3. Relating modules to external information and identifying important genes] (неопр.). Tutorials for the WGCNA package (25 ноября 2014). Дата обращения: 19 апреля 2020. Архивировано 17 января 2021 года.
↑ Peter Langfelder, Steve Horvath. Eigengene networks for studying the relationships between co-expression modules // BMC Systems Biology. — 2007-11-21. — Т. 1, вып. 1. — ISSN 1752-0509. — doi:10.1186/1752-0509-1-54.
↑ Peter Langfelder, Rui Luo, Michael C. Oldham, Steve Horvath. Is My Network Module Preserved and Reproducible? // PLoS Computational Biology. — 2011-01-20. — Т. 7, вып. 1. — С. e1001057. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1001057.
↑ ¹ ² John Michael Ranola, Peter Langfelder, Kenneth Lange, Steve Horvath. Cluster and propensity based approximation of a network // BMC Systems Biology. — 2013-03-14. — Т. 7, вып. 1. — С. 21. — ISSN 1752-0509. — doi:10.1186/1752-0509-7-21.
↑ Peter Langfelder, Paul S. Mischel, Steve Horvath. When Is Hub Gene Selection Better than Standard Meta-Analysis? (англ.) // PLOS ONE. — 2013-04-17. — Vol. 8, iss. 4. — P. e61505. — ISSN 1932-6203. — doi:10.1371/journal.pone.0061505. Архивировано 23 марта 2022 года.
↑ S. Horvath, B. Zhang, M. Carlson, K. V. Lu, S. Zhu. Analysis of oncogenic signaling networks in glioblastoma identifies ASPM as a molecular target // Proceedings of the National Academy of Sciences. — 2006-11-07. — Т. 103, вып. 46. — С. 17402–17407. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.0608396103.
↑ Yanqing Chen, Jun Zhu, Pek Yee Lum, Xia Yang, Shirly Pinto. Variations in DNA elucidate molecular networks that cause disease (англ.) // Nature. — 2008-03. — Vol. 452, iss. 7186. — P. 429–435. — ISSN 1476-4687. — doi:10.1038/nature06757. Архивировано 25 мая 2021 года.
↑ Christopher L. Plaisier, Steve Horvath, Adriana Huertas-Vazquez, Ivette Cruz-Bautista, Miguel F. Herrera. A Systems Genetics Approach Implicates USF1, FADS3, and Other Causal Candidate Genes for Familial Combined Hyperlipidemia (англ.) // PLOS Genetics. — 2009-11-09. — Vol. 5, iss. 9. — P. e1000642. — ISSN 1553-7404. — doi:10.1371/journal.pgen.1000642. Архивировано 23 апреля 2022 года.
↑ Irina Voineagu, Xinchen Wang, Patrick Johnston, Jennifer K. Lowe, Yuan Tian. Transcriptomic analysis of autistic brain reveals convergent molecular pathology (англ.) // Nature. — 2011-06. — Vol. 474, iss. 7351. — P. 380–384. — ISSN 1476-4687. — doi:10.1038/nature10110. Архивировано 6 сентября 2019 года.
↑ Michael J. Hawrylycz, Ed S. Lein, Angela L. Guillozet-Bongaarts, Elaine H. Shen, Lydia Ng. An anatomically comprehensive atlas of the adult human brain transcriptome (англ.) // Nature. — 2012-09. — Vol. 489, iss. 7416. — P. 391–399. — ISSN 1476-4687. — doi:10.1038/nature11405. Архивировано 11 декабря 2019 года.
↑ Haja N. Kadarmideen, Nathan S. Watson-Haigh, Nicholas M. Andronicos. Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers (англ.) // Molecular BioSystems. — 2011-01-01. — Vol. 7, iss. 1. — P. 235–246. — ISSN 1742-2051. — doi:10.1039/C0MB00190B. Архивировано 15 апреля 2019 года.
↑ Lisette J. A. Kogelman, Susanna Cirera, Daria V. Zhernakova, Merete Fredholm, Lude Franke. Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model // BMC Medical Genomics. — 2014-09-30. — Т. 7, вып. 1. — С. 57. — ISSN 1755-8794. — doi:10.1186/1755-8794-7-57.
↑ Zhigang Xue, Kevin Huang, Chaochao Cai, Lingbo Cai, Chun-yan Jiang. Genetic programs in human and mouse early embryos revealed by single-cell RNA sequencing (англ.) // Nature. — 2013-08. — Vol. 500, iss. 7464. — P. 593–597. — ISSN 1476-4687. — doi:10.1038/nature12364. Архивировано 2 декабря 2019 года.
↑ Steve Horvath, Yafeng Zhang, Peter Langfelder, René S. Kahn, Marco PM Boks. Aging effects on DNA methylation modules in human brain and blood tissue // Genome Biology. — 2012-10-03. — Т. 13, вып. 10. — С. R97. — ISSN 1474-760X. — doi:10.1186/gb-2012-13-10-r97.
↑ Dyna I. Shirasaki, Erin R. Greiner, Ismael Al-Ramahi, Michelle Gray, Pinmanee Boontheung. Network organization of the huntingtin proteomic interactome in mammalian brain // Neuron. — 2012-07-12. — Т. 75, вып. 1. — С. 41–57. — ISSN 1097-4199. — doi:10.1016/j.neuron.2012.05.024. Архивировано 18 декабря 2012 года.
↑ Maomeng Tong, Xiaoxiao Li, Laura Wegener Parfrey, Bennett Roth, Andrew Ippoliti. A Modular Organization of the Human Intestinal Mucosal Microbiota and Its Association with Inflammatory Bowel Disease // PLoS ONE. — 2013-11-19. — Т. 8, вып. 11. — ISSN 1932-6203. — doi:10.1371/journal.pone.0080702.
↑ Jeanette A Mumford, Steve Horvath, Michael C. Oldham, Peter Langfelder, Daniel H. Geschwind. Detecting network modules in fMRI time series: A weighted network analysis approach // NeuroImage. — 2010-10-01. — Т. 52, вып. 4. — С. 1465–1476. — ISSN 1053-8119. — doi:10.1016/j.neuroimage.2010.05.047.
↑ A. E. Ivliev, P. A. C. 't Hoen, M. G. Sergeeva. Coexpression Network Analysis Identifies Transcriptional Modules Related to Proastrocytic Differentiation and Sprouty Signaling in Glioma (англ.) // Cancer Research. — 2010-12-15. — Vol. 70, iss. 24. — P. 10060–10070. — ISSN 1538-7445 0008-5472, 1538-7445. — doi:10.1158/0008-5472.CAN-10-2465.
↑ Alexander E. Ivliev, Peter A. C. 't Hoen, Willeke M. C. van Roon-Mom, Dorien J. M. Peters, Marina G. Sergeeva. Exploring the Transcriptome of Ciliated Cells Using In Silico Dissection of Human Tissues (англ.) // PLOS ONE. — 2012-04-25. — Vol. 7, iss. 4. — P. e35618. — ISSN 1932-6203. — doi:10.1371/journal.pone.0035618. Архивировано 17 апреля 2022 года.
↑ Jeremy A. Miller, Steve Horvath, Daniel H. Geschwind. Divergence of human and mouse brain transcriptome highlights Alzheimer disease pathways (англ.) // Proceedings of the National Academy of Sciences. — 2010-07-13. — Vol. 107, iss. 28. — P. 12698–12703. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.0914257107.
↑ Meta-analyses of data from two (or more) microarray data sets. (неопр.) horvath.genetics.ucla.edu. Дата обращения: 19 апреля 2020. Архивировано 22 июля 2020 года.
↑ ¹ ² WGCNA: R package for performing Weighted Gene Co-expression Network Analysis (неопр.). horvath.genetics.ucla.edu. Дата обращения: 21 апреля 2020. Архивировано 23 октября 2020 года.
↑ Insights from a billion correlations (англ.). Insights from a billion correlations. Дата обращения: 21 апреля 2020. Архивировано 10 августа 2020 года.
↑ Peter Langfelder and Steve Horvath. [https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/FemaleLiver-06-ExportNetwork.pdf Tutorial for the WGCNA package for R: I. Network analysis of liver expression data in female mice 6. Exporting a gene network to external visualization software] (неопр.). Tutorials for the WGCNA package (25 ноября 2014).
↑ Peter Langfelder. Functional enrichment analysis via R package anRichment (англ.). Insights from a billion correlations (25 ноября 2018). Дата обращения: 21 апреля 2020. Архивировано 4 августа 2020 года.
↑ Emily Greenfest-Allen, Jean-Philippe Cartailler, Mark A. Magnuson, Christian J. Stoeckert. iterativeWGCNA: iterative refinement to improve module detection from WGCNA co-expression networks (англ.) // bioRxiv. — 2017-12-14. — P. 234062. — doi:10.1101/234062. Архивировано 9 апреля 2019 года.
↑ ¹ ² Ивлиев, Александр Евгеньевич. Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов (рус.) // Место защиты: Ин-т проблем передачи информации им. А.А. Харкевича РАН : диссертация ... кандидата биологических наук : 03.01.09. — 2011.
↑ Angela P. Presson, Eric M. Sobel, Jeanette C. Papp, Charlyn J. Suarez, Toni Whistler. Integrated Weighted Gene Co-expression Network Analysis with an Application to Chronic Fatigue Syndrome (англ.) // BMC Systems Biology. — 2008-11-06. — Vol. 2, iss. 1. — P. 95. — ISSN 1752-0509. — doi:10.1186/1752-0509-2-95.
↑ Anastasia Murat, Eugenia Migliavacca, Thierry Gorlia, Wanyu L. Lambiv, Tal Shay. Stem cell-related "self-renewal" signature and high epidermal growth factor receptor expression associated with resistance to concomitant chemoradiotherapy in glioblastoma (англ.) // Journal of Clinical Oncology. — 2008-06-20. — Т. 26, вып. 18. — С. 3015–24. — ISSN 0732-183X. — doi:10.1200/JCO.2007.15.7164. Архивировано 4 августа 2020 года.
↑ ¹ ² Xia Yang, Eric E. Schadt, Susanna Wang, Hui Wang, Arthur P. Arnold. Tissue-specific expression and regulation of sexually dimorphic genes in mice (англ.) // Genome Research. — 2006-08-01. — Vol. 16, iss. 8. — P. 995–1004. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.5217506. Архивировано 18 ноября 2019 года.
↑ Haiyan Hu, Xiaoman Li. Transcriptional regulation in eukaryotic ribosomal protein genes (англ.) // Genomics. — 2007-10-01. — Vol. 90, iss. 4. — P. 421–423. — ISSN 0888-7543. — doi:10.1016/j.ygeno.2007.07.003.

Ссылки

Steve Horvath. Weighted Network Analysis: Applications in Genomics and Systems Biology. — 1. — 2011. — 414 с. — ISBN 978-1-4419-8818-8.
Сайт, посвящённый пакету WGCNA
Обучающие материалы по работе с пакетом WGCNA
Блог Питера Лангфелдера
Сайт, посвящённый пакету VisANT
Сайт, посвящённый пакету anRichment
Репозиторий пакета iterativeWGCNA

[Langfelder2008-1] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ Peter Langfelder, Steve Horvath. WGCNA: an R package for weighted correlation network analysis // BMC bioinformatics. — 2008-12-29. — Т. 9. — С. 559. — ISSN 1471-2105. — doi:10.1186/1471-2105-9-559. Архивировано 28 апреля 2020 года.

[Zhang2005-2] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ ¹² ¹³ ¹⁴ ¹⁵ ¹⁶ Zhang B., Horvath S. A General Framework for Weighted Gene Co-Expression Network Analysis. (англ.) // Statistical Applications in Genetics and Molecular Biology. — 2005-08-12. — Vol. 4, iss. 1. — doi:10.2202/1544-6115.1128. Архивировано 28 сентября 2020 года.

[Horvath2011-3] ¹ ² ³ Steve Horvath. Weighted Network Analysis: Applications in Genomics and Systems Biology. — New York: Springer-Verlag, 2011. — ISBN 978-1-4419-8818-8. Архивировано 18 сентября 2020 года.

[Langfelder2007-4] ¹ ² Langfelder P., Zhang B., Horvath S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R. (англ.) // Bioinformatics. — 2007-11-16. — Vol. 24, iss. 5. — P. 719—720. — doi:10.1093/bioinformatics/btm563. Архивировано 11 февраля 2016 года.

[Langfelder2018-5] Peter Langfelder. Why WGCNA modules don’t always agree with the dendrogram? (англ.). Insights from a billion correlations (31 декабря 2018). Дата обращения: 19 апреля 2020. Архивировано 27 сентября 2020 года.

[6] Peter Langfelder and Steve Horvath. Example module stability analysis (неопр.). Fast functions for correlation and hierarchical clustering R code examples (15 октября 2014).

[Horvath2008-7] ¹ ² ³ Horvath S., Dong J. Geometric Interpretation of Gene Coexpression Network Analysis. (англ.) // PLoS Comput Biol. — 2008-08-15. — Vol. 4, iss. 8. — doi:10.1371/journal.pcbi.1000117. Архивировано 30 декабря 2014 года.

[8] Peter Langfelder and Steve Horvath. [https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/FemaleLiver-03-relateModsToExt.pdf Tutorial for the WGCNA package for R: I. Network analysis of liver expression data in female mice 3. Relating modules to external information and identifying important genes] (неопр.). Tutorials for the WGCNA package (25 ноября 2014). Дата обращения: 19 апреля 2020. Архивировано 17 января 2021 года.

[Langfelder2007Eigengene-9] Peter Langfelder, Steve Horvath. Eigengene networks for studying the relationships between co-expression modules // BMC Systems Biology. — 2007-11-21. — Т. 1, вып. 1. — ISSN 1752-0509. — doi:10.1186/1752-0509-1-54.

[Langfelder2011-10] Peter Langfelder, Rui Luo, Michael C. Oldham, Steve Horvath. Is My Network Module Preserved and Reproducible? // PLoS Computational Biology. — 2011-01-20. — Т. 7, вып. 1. — С. e1001057. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1001057.

[Ranola2013-11] ¹ ² John Michael Ranola, Peter Langfelder, Kenneth Lange, Steve Horvath. Cluster and propensity based approximation of a network // BMC Systems Biology. — 2013-03-14. — Т. 7, вып. 1. — С. 21. — ISSN 1752-0509. — doi:10.1186/1752-0509-7-21.

[Langfelder2013-12] Peter Langfelder, Paul S. Mischel, Steve Horvath. When Is Hub Gene Selection Better than Standard Meta-Analysis? (англ.) // PLOS ONE. — 2013-04-17. — Vol. 8, iss. 4. — P. e61505. — ISSN 1932-6203. — doi:10.1371/journal.pone.0061505. Архивировано 23 марта 2022 года.

[Horvath2006-13] S. Horvath, B. Zhang, M. Carlson, K. V. Lu, S. Zhu. Analysis of oncogenic signaling networks in glioblastoma identifies ASPM as a molecular target // Proceedings of the National Academy of Sciences. — 2006-11-07. — Т. 103, вып. 46. — С. 17402–17407. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.0608396103.

[Chen2008-14] Yanqing Chen, Jun Zhu, Pek Yee Lum, Xia Yang, Shirly Pinto. Variations in DNA elucidate molecular networks that cause disease (англ.) // Nature. — 2008-03. — Vol. 452, iss. 7186. — P. 429–435. — ISSN 1476-4687. — doi:10.1038/nature06757. Архивировано 25 мая 2021 года.

[Plaisier2009-15] Christopher L. Plaisier, Steve Horvath, Adriana Huertas-Vazquez, Ivette Cruz-Bautista, Miguel F. Herrera. A Systems Genetics Approach Implicates USF1, FADS3, and Other Causal Candidate Genes for Familial Combined Hyperlipidemia (англ.) // PLOS Genetics. — 2009-11-09. — Vol. 5, iss. 9. — P. e1000642. — ISSN 1553-7404. — doi:10.1371/journal.pgen.1000642. Архивировано 23 апреля 2022 года.

[Voineagu2011-16] Irina Voineagu, Xinchen Wang, Patrick Johnston, Jennifer K. Lowe, Yuan Tian. Transcriptomic analysis of autistic brain reveals convergent molecular pathology (англ.) // Nature. — 2011-06. — Vol. 474, iss. 7351. — P. 380–384. — ISSN 1476-4687. — doi:10.1038/nature10110. Архивировано 6 сентября 2019 года.

[Hawrylycz2012-17] Michael J. Hawrylycz, Ed S. Lein, Angela L. Guillozet-Bongaarts, Elaine H. Shen, Lydia Ng. An anatomically comprehensive atlas of the adult human brain transcriptome (англ.) // Nature. — 2012-09. — Vol. 489, iss. 7416. — P. 391–399. — ISSN 1476-4687. — doi:10.1038/nature11405. Архивировано 11 декабря 2019 года.

[18] Haja N. Kadarmideen, Nathan S. Watson-Haigh, Nicholas M. Andronicos. Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers (англ.) // Molecular BioSystems. — 2011-01-01. — Vol. 7, iss. 1. — P. 235–246. — ISSN 1742-2051. — doi:10.1039/C0MB00190B. Архивировано 15 апреля 2019 года.

[19] Lisette J. A. Kogelman, Susanna Cirera, Daria V. Zhernakova, Merete Fredholm, Lude Franke. Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model // BMC Medical Genomics. — 2014-09-30. — Т. 7, вып. 1. — С. 57. — ISSN 1755-8794. — doi:10.1186/1755-8794-7-57.

[Xue2013-20] Zhigang Xue, Kevin Huang, Chaochao Cai, Lingbo Cai, Chun-yan Jiang. Genetic programs in human and mouse early embryos revealed by single-cell RNA sequencing (англ.) // Nature. — 2013-08. — Vol. 500, iss. 7464. — P. 593–597. — ISSN 1476-4687. — doi:10.1038/nature12364. Архивировано 2 декабря 2019 года.

[Horvath2012aging-21] Steve Horvath, Yafeng Zhang, Peter Langfelder, René S. Kahn, Marco PM Boks. Aging effects on DNA methylation modules in human brain and blood tissue // Genome Biology. — 2012-10-03. — Т. 13, вып. 10. — С. R97. — ISSN 1474-760X. — doi:10.1186/gb-2012-13-10-r97.

[Shirasaki2012-22] Dyna I. Shirasaki, Erin R. Greiner, Ismael Al-Ramahi, Michelle Gray, Pinmanee Boontheung. Network organization of the huntingtin proteomic interactome in mammalian brain // Neuron. — 2012-07-12. — Т. 75, вып. 1. — С. 41–57. — ISSN 1097-4199. — doi:10.1016/j.neuron.2012.05.024. Архивировано 18 декабря 2012 года.

[Tong2013-23] Maomeng Tong, Xiaoxiao Li, Laura Wegener Parfrey, Bennett Roth, Andrew Ippoliti. A Modular Organization of the Human Intestinal Mucosal Microbiota and Its Association with Inflammatory Bowel Disease // PLoS ONE. — 2013-11-19. — Т. 8, вып. 11. — ISSN 1932-6203. — doi:10.1371/journal.pone.0080702.

[Mumford2010-24] Jeanette A Mumford, Steve Horvath, Michael C. Oldham, Peter Langfelder, Daniel H. Geschwind. Detecting network modules in fMRI time series: A weighted network analysis approach // NeuroImage. — 2010-10-01. — Т. 52, вып. 4. — С. 1465–1476. — ISSN 1053-8119. — doi:10.1016/j.neuroimage.2010.05.047.

[Ivliev2010-25] A. E. Ivliev, P. A. C. 't Hoen, M. G. Sergeeva. Coexpression Network Analysis Identifies Transcriptional Modules Related to Proastrocytic Differentiation and Sprouty Signaling in Glioma (англ.) // Cancer Research. — 2010-12-15. — Vol. 70, iss. 24. — P. 10060–10070. — ISSN 1538-7445 0008-5472, 1538-7445. — doi:10.1158/0008-5472.CAN-10-2465.

[Ivliev2012-26] Alexander E. Ivliev, Peter A. C. 't Hoen, Willeke M. C. van Roon-Mom, Dorien J. M. Peters, Marina G. Sergeeva. Exploring the Transcriptome of Ciliated Cells Using In Silico Dissection of Human Tissues (англ.) // PLOS ONE. — 2012-04-25. — Vol. 7, iss. 4. — P. e35618. — ISSN 1932-6203. — doi:10.1371/journal.pone.0035618. Архивировано 17 апреля 2022 года.

[Miller2010-27] Jeremy A. Miller, Steve Horvath, Daniel H. Geschwind. Divergence of human and mouse brain transcriptome highlights Alzheimer disease pathways (англ.) // Proceedings of the National Academy of Sciences. — 2010-07-13. — Vol. 107, iss. 28. — P. 12698–12703. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.0914257107.

[28] Meta-analyses of data from two (or more) microarray data sets. (неопр.) horvath.genetics.ucla.edu. Дата обращения: 19 апреля 2020. Архивировано 22 июля 2020 года.

[:0-29] ¹ ² WGCNA: R package for performing Weighted Gene Co-expression Network Analysis (неопр.). horvath.genetics.ucla.edu. Дата обращения: 21 апреля 2020. Архивировано 23 октября 2020 года.

[30] Insights from a billion correlations (англ.). Insights from a billion correlations. Дата обращения: 21 апреля 2020. Архивировано 10 августа 2020 года.

[31] Peter Langfelder and Steve Horvath. [https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/FemaleLiver-06-ExportNetwork.pdf Tutorial for the WGCNA package for R: I. Network analysis of liver expression data in female mice 6. Exporting a gene network to external visualization software] (неопр.). Tutorials for the WGCNA package (25 ноября 2014).

[32] Peter Langfelder. Functional enrichment analysis via R package anRichment (англ.). Insights from a billion correlations (25 ноября 2018). Дата обращения: 21 апреля 2020. Архивировано 4 августа 2020 года.

[33] Emily Greenfest-Allen, Jean-Philippe Cartailler, Mark A. Magnuson, Christian J. Stoeckert. iterativeWGCNA: iterative refinement to improve module detection from WGCNA co-expression networks (англ.) // bioRxiv. — 2017-12-14. — P. 234062. — doi:10.1101/234062. Архивировано 9 апреля 2019 года.

[:1-34] ¹ ² Ивлиев, Александр Евгеньевич. Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов (рус.) // Место защиты: Ин-т проблем передачи информации им. А.А. Харкевича РАН : диссертация ... кандидата биологических наук : 03.01.09. — 2011.

[35] Angela P. Presson, Eric M. Sobel, Jeanette C. Papp, Charlyn J. Suarez, Toni Whistler. Integrated Weighted Gene Co-expression Network Analysis with an Application to Chronic Fatigue Syndrome (англ.) // BMC Systems Biology. — 2008-11-06. — Vol. 2, iss. 1. — P. 95. — ISSN 1752-0509. — doi:10.1186/1752-0509-2-95.

[36] Anastasia Murat, Eugenia Migliavacca, Thierry Gorlia, Wanyu L. Lambiv, Tal Shay. Stem cell-related "self-renewal" signature and high epidermal growth factor receptor expression associated with resistance to concomitant chemoradiotherapy in glioblastoma (англ.) // Journal of Clinical Oncology. — 2008-06-20. — Т. 26, вып. 18. — С. 3015–24. — ISSN 0732-183X. — doi:10.1200/JCO.2007.15.7164. Архивировано 4 августа 2020 года.

[автоссылка1-37] ¹ ² Xia Yang, Eric E. Schadt, Susanna Wang, Hui Wang, Arthur P. Arnold. Tissue-specific expression and regulation of sexually dimorphic genes in mice (англ.) // Genome Research. — 2006-08-01. — Vol. 16, iss. 8. — P. 995–1004. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.5217506. Архивировано 18 ноября 2019 года.

[38] Haiyan Hu, Xiaoman Li. Transcriptional regulation in eukaryotic ribosomal protein genes (англ.) // Genomics. — 2007-10-01. — Vol. 90, iss. 4. — P. 421–423. — ISSN 0888-7543. — doi:10.1016/j.ygeno.2007.07.003.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

Анализ взвешенных сетей коэкспрессии генов

Содержание

История

Алгоритм работы

Построение первичной сети

Фильтрация рёбер по весу с применением мягкого безмасштабного критерия

Сглаживание взвешенной сети

Иерархическая кластеризация и выделение модулей

Валидация модулей

Интерпретация результатов

Обобщение профиля экспрессии генов модуля

Соотнесение модулей с внешними характеристиками

Взаимодействие модулей

Выделение важных генов

Взвешенная мера принадлежности к модулю

Сравнение взвешенных и невзвешенных сетей корреляций

Применение

Программная реализация алгоритма

Пакет программного обеспечения R

Экспорт результатов для анализа в дочерних программах

iterativeWGCNA

Анализ полногеномных данных

Анализ ограниченного набора генов

Эвристические методы определения модулей

Примечания

Ссылки

Навигация

Анализ взвешенных сетей коэкспрессии генов

История

Алгоритм работы

Построение первичной сети

Фильтрация рёбер по весу с применением мягкого безмасштабного критерия

Сглаживание взвешенной сети

Иерархическая кластеризация и выделение модулей

Валидация модулей

Интерпретация результатов

Обобщение профиля экспрессии генов модуля

Соотнесение модулей с внешними характеристиками

Взаимодействие модулей

Выделение важных генов

Взвешенная мера принадлежности к модулю

Сравнение взвешенных и невзвешенных сетей корреляций

Применение

Программная реализация алгоритма

Пакет программного обеспечения R

Экспорт результатов для анализа в дочерних программах

iterativeWGCNA

Анализ полногеномных данных

Анализ ограниченного набора генов

Эвристические методы определения модулей

Примечания

Ссылки

Навигация

Поиск