Анализ взвешенных сетей коэкспрессии генов
Анализ взвешенной сети корреляций, также известный как анализ взвешенной сети коэкспрессии генов (WGCNA), это широко используемый, особенно при изучении биологических сетей, метод глубинного анализа данных, основанный на попарных корреляциях между переменными. В то время, как метод может быть использован на большинстве многомерных наборов данных, наиболее широкое распространение он получил в геномике. Метод позволяет определять модули (кластеры), межмодульные хабы и узлы сети относительно принадлежности к модулю, изучать отношения между модулями коэкспрессии и сравнивать топологии различных сетей (дифференциальный анализ сетей). WGCNA может быть использован как метод уменьшения размерности данных(связанный с непрямым факторным анализом), как метод кластеризации, как метод отбора особенностей(например, скрининг генов), etc.[1]
История
Метод WGCNA был разработан Стивом Хорватом, профессором Калифорнийского университета в Лос-Анджелесе и членами (в том числе бывшими) его лаборатории (в частности, Питером Лангфелдером, Бином Чжаноми и Джуном Донгом). Большая часть метода появилась в ходе прикладных исследований. В частности, взвешенные корреляционнные сети были разработаны в рамках совместных дискуссий с исследователями рака Полом Мишелем, Стэнли Ф. Нельсоном, и нейробиологами Дэниэлем Гешвиндом и Майклом Олдхэмом ( в соответствии с разделом благодарностей в [2] ).
Метод
Во-первых, чтобы определить сеть, необходимо определить меру схожести коэкспрессии генов. Обозначим меру схожести коэкспрессии пары генов i и j как . Множество исследований коэкспрессии в качестве беззнаковой(не принимающей отрицательные значения) меры схожести коэкспрессии используют абсолютное значение корреляции,
где профили коэкспрессии генов и состоят из экспрессии генов i и j среди множества образцов. Однако, использование абсолютного значения корреляции может привести к потере биологически значимой информации, поскольку при этом нельзя различить репрессию и активацию генов.
Эта проблема решается использованием знаковых сетей, в которых схожесть генов отражает, положительное или отрицательное значение принимает корреляция между их профилями экспрессии. Для того, чтобы определить знаковую меру коэкспрессии между профилями экспрессии и , можно использовать простое преобразование корреляции:
Также как и беззнаковая мера , знаковая схожесть принимает значения от 0 до 1. Следует заметить, что при этом беззнаковая схожесть между двумя генами, экспрессируемыми прямо противоположным образом (), равна 1, в то время, как в случае знаковая схожесть в таком случае равна 0. Аналогично, в то время как беззнаковая мера коэкспрессии двух генов с нулевой корреляцией также равна 0, знаковая мера принимает значение 0,5.
Затем, чтобы количественно выразить, насколько сильно гены связаны друг с другом, используется матрица смежности(сеть) . определяется с помощью установки порогового значения матрицы схожести коэкспрессии . 'Жесткая' установка порога (дихотомия) меры схожести приводит к получению невзвешенной сети коэкспрессии генов. При таком подходе, смежность принимается равной 1, если и 0 во всех других случаях. Поскольку жесткая установка порога устанавливает связи между генами бинарно, она чувствительна к выбору порогового значения, что приводит к потере информации о коэкспрессии[2] Непрерывная природа коэкспрессионных данных сохраняется при использовании мягкой установки порога, которая приводит к получению взвешенной сети. В WGCNA для выражения силы связи двух генов применяется следующая степенная функция:
,
где степень является параметром мягкой установки порога. Значения по умолчанию и используются для беззнаковых и знаковых сетей соответственно. В качестве альтернативы, может быть выбран с помощью критерия безмасштабной топологии, который сводится к выбору наименьшего значения , при котором достигается топология, близкая к безмасштабной. [3]
Так как , смежность взвешенной сети линейно зависит от схожести коэкспрессии в логарифмических координатах. При этом большие приводят к отображению высокизначений схожести в высокие значения смежности, в то время как низкие схожести будут стремиться к 0. Поскольку такая процедура мягкого установления порога в применении к матрице попарных корреляций приводит к взвешенной матрице смежности, последующий анализ принято называть анализом взвешенной сети коэкспрессии генов.
Главным шагом в центрическом анализе модулей является кластеризация генов в модули сети с помощью меры близости сети. Грубо говоря, пара генов имеет высокую близость, если они сильно взаимосвязаны. По принятому соглашению, наибольшая близость между двумя генами равняется 1, а минимальная 0. Обычно, в WGCNA используется в качестве меры близости мера топологического перекрывания.[3][4] которая также может быть определена для взвешенных сетей.[5] Мера топологического перекрывания сочетает смежность двух генов и силу общих связей с остальными генами. В целом, такая мера является очень надежной для оценки взаимосвязанности сети(близости).
Такая близость затем используется в качестве входных данных средней связи иерархической кластеризации. Модули определяются как ветви полученного кластерного дерева с помощью подхода динамического отрезания ветвей[6] Затем, сводку по генам внутри отдельного модуля, представляют в виде собственного гена модуля(эйген-гена), который может рассматриваться как лучшая аннотация стандартизованных данных по экспрессии модуля.[7] Собственный ген определяется как первая главная компонента стандартизованных профилей экспрессии. Чтобы найти модули, которые имеют отношение к определенным экспериментальным данным, рассчитывают корреляцию между собственными генами и интересующими экспериментальными особенностями, получая меру значимости собственного гена. Также можно построить сеть коэкспрессии между собственными генами модулей(сети собственных генов), сети , узлами которых являются модули. [8]
Чтобы определить гены межмодульных хабов, используется два типа мер связанности. Первая, , определяется на основании корреляции каждого гена с соответствующим собственным геном модуля. Вторая, называемая kIN, определяется как сумма смежностей относительно генов модулей. На практике, эти две меры равнозначны.[7]
Дабы проверить, сохраняется ли модуль в другом наборе данных могут быть использованы различные статистики сетей, например .[9]
Сравнение взвешенных и невзвешенных сетей корреляций
Взвешенная корреляционная сеть может рассматриваться как частный случай взвешенной сети , сети зависимостей или корреляционной сети. Анализ взвешенных корреляционных сетей имеет следующие достоинства:
- Построение сети ( на основе мягкого порога коэффициента корреляции ) сохраняет непрерывный характер исходной информации о корреляции. Например, взвешенные корреляционные сети, построенные на основе корреляций между числовыми переменными не требуют выбора жесткого порога. Дихотомическое деление информации и (жесткий) выбор порога может привести к потере информации.[2]
- Взвешенные корреляционные сети облегчают геометрическую интерпретацию на основе угловой интерпретации корреляции, глава 6 в. [4]
- Полученная статистика сети может быть использована для улучшения результатов стандартных методов глубокого анализа данных , таких как кластерный анализ , так как меры (не)-схожести зачастую могут быть преобразованы во взвешенные сети., [5] глава 6 в [4]
- WGCNA предоставляет обширные статистические данные о консервативности модулей, которые могут быть использованы для количественного представления возможностивстретить их в другом состоянии. Также статистика консервативности модулей позволяет исследовать различия между модульной структурой сетей. [6]
- Взвешенные и корреляционные сети часто можно аппроксимировать "факторизуемыми" сетями. [10] Таких приближений бывает сложно добиться для разреженных, невзвешенных сетей. Таким образом, взвешенные (корреляционные) сети позволяют использовать экономную параметризацию (в терминах модулей и принадлежности к модулям) (главы 2 и 6 в [11]) и [10]
Применение
WGCNA широко применяется для анализа данных о экспрессии генов(транскрипционных данных),например для поиска генов межмодульных хабов.[12][13]
Эта методика часто используется в качестве шага сокращения размерности данных в применении к системной генетике, где модули представлены собственными генами, например [14][15]. Собственные гены модулей могут быть использованы для рассчета корреляции с экспериментальными данными. Сети собственных генов это сети коэкспресси между собственными генами модулей, то есть сети, чьи узлы являются модулями.
WGCNA широко применяется в нейробиологии.[16][17] и для анализа геномных данных, включая микрочипы (Kadarmideen et al. 2011), данные RNA-Seq отдельной клетки (Kogelman et al. 2014) [18] данные метилирования ДНК,[19] миРНК данные, подсчет пептидов [20] и данные микробиоты (секвенирование генов 16S рРНК).[21] Другие области применения включают данные визуализации мозга, например данные функциональной МРТ. [22]
Пакет программного обеспечения R
Пакет WGCNA программного обеспечения R [23] обеспечивает функции для осуществления всех элементов анализа взвешенных сетей(построение модулей, выбор генов хабов, статистика консервативности модулей, дифференциальный анализ сети, статистика сети). Пакет WGCNA доступен в CRAN, стандартном репозитории пакетов дополнений для R.
Ссылки
- ↑ Ошибка в сносках?: Неверный тег
<ref>
; для сносокHorvath20112
не указан текст - ↑ 1 2 3 Zhang B, Horvath S (2005) A General Framework for Weighted Gene Co-Expression Network Analysis", Statistical Applications in Genetics and Molecular Biology: Vol. 4: No. 1, Article 17 PMID 16646834 [1]
- ↑ Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabasi AL: Hierarchical organization of modularity in metabolic networks. Science 2002, 297(5586):1551-1555.
- ↑ Yip A, Horvath S (2007) Gene network interconnectedness and the generalized topological overlap measure. BMC Bioinformatics 2007, 8:22 PMID 17250769 PMCID: PMC1797055 BMC Bioinformatics
- ↑ Ошибка в сносках?: Неверный тег
<ref>
; для сносокZhang20052
не указан текст - ↑ Langfelder P, Zhang B, Horvath S (2007) Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R. Bioinformatics. November/btm563 PMID 18024473 Bioinformatics
- ↑ 1 2 Horvath S, Dong J (2008) Geometric Interpretation of Gene Coexpression Network Analysis. PLoS Comput Biol 4(8): e1000117 PMID 18704157 PMCID: PMC2446438 Plos Comp Biol
- ↑ Langfelder P, Horvath S (2007) Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology 2007, 1:54 PMID 18031580 BMC Systems Biology
- ↑ Langfelder P, Luo R, Oldham MC, Horvath S (2011) Is my network module preserved and reproducible? PloS Comp Biol. 7(1): e1001057 PMID 21283776 PMCID:PMC3024255 PloS Comp Biol
- ↑ 1 2 Ranola JM, Langfelder P, Lange K, Horvath S Cluster and propensity based approximation of a network. BMC Syst Biol. 2013 Mar 14;7(1):21 PMID 23497424 BMC Systems Biology
- ↑ Horvath S (2011). Weighted Network Analysis: Applications in Genomics and Systems Biology. Springer Book. 1st Edition., 2011, XXII, 414 p Hardcover ISBN 978-1-4419-8818-8 website
- ↑ Langfelder P, Mischel PS, Horvath S (2013) When Is Hub Gene Selection Better than Standard Meta-Analysis? PLoS ONE 8(4): e61505. doi:10.1371/journal.pone.0061505 PMCID: PMC3629234 PloS One
- ↑ Horvath S, Zhang B, Carlson M, Lu KV, Zhu S, Felciano RM, Laurance MF, Zhao W, Shu, Q, Lee Y, Scheck AC, Liau LM, Wu H, Geschwind DH, Febbo PG, Kornblum HI, Cloughesy TF, Nelson SF, Mischel PS (2006) "Analysis of Oncogenic Signaling Networks in Glioblastoma Identifies ASPM as a Novel Molecular Target", PNAS November 14, 2006 vol. 103 no. 46 17402-17407
- ↑ Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE. Variations in DNA elucidate molecular networks that cause disease. Nature. 2008 Mar 27;452(7186):429-35.
- ↑ Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P (2009) A systems genetics approach implicates USF1, FADS3 and other causal candidate genes for familial combined hyperlipidemia. PloS Genetics;5(9):e1000642
- ↑ Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor R, Blencowe BJ, Geschwind DH (2011) Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. PMID 21614001
- ↑ Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, Daly BD, Dang C, Datta S, et al, Koch C, Grant SG, Jones AR (2012) An anatomically comprehensive atlas of the adult human brain transcriptome. Nature. 2012 Sep 20;489(7416):391-9. doi: 10.1038 nature11405. PMID 22996553 Nature
- ↑ Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G. (2013) Genetic programs in human and mouse early embryos revealed by single-cell RNA?sequencing. Nature. 2013 Jul 28. doi: 10.1038/nature12364 PMID 23892778 Nature
- ↑ Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA. Aging effects on DNA methylation modules in human brain and blood tissue. Genome Biol. 2012 Oct 3;13(10):R97. PMID 23034122 Genome Biology
- ↑ Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW. (2012) Network organization of the huntingtin proteomic interactome in Mammalian brain. Neuron. 2012 Jul 12;75(1):41-57. PMID 22794259 Neuron
- ↑ Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013) A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease. PLoS One. 2013 Nov 19;8(11):e80702. doi: 10.1371/journal.pone.0080702. PMID 24260458 PMC
- ↑ Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (2010) Detecting network modules in fMRI time series: A weighted network analysis approach. Neuroimage. 2010 Oct 1;52(4):1465-1476. Epub 2010 May 27.PMID 20553896. PMC
- ↑ Langfelder P, Horvath S (2008) WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 2008, 9:559 PMID 19114008 PMCID: PMC2631488 BMC Bioinformatics
Ошибка в сносках?: Тег <ref>
с именем «Dong2007», определённый в <references>
, не используется в предшествующем тексте.
<ref>
с именем «Oldham2012», определённый в <references>
, не используется в предшествующем тексте.В этой статье не проставлены тематические категории. |
На эту статью не ссылаются другие статьи Википедии. |