banner

Новости

Dec 25, 2023

Граничная и модульная оценка значимости в индивидуальном порядке.

Научные отчеты, том 13, Номер статьи: 7868 (2023) Цитировать эту статью

266 Доступов

1 Альтметрика

Подробности о метриках

Индивидуально-специфичные сети, определяемые как сети узлов и соединительных ребер, специфичные для человека, являются многообещающими инструментами точной медицины. Когда такие сети являются биологическими, становится возможной интерпретация функциональных модулей на индивидуальном уровне. Недоисследованной проблемой является оценка актуальности или «значительности» каждой индивидуально-специфичной сети. В этой статье предлагаются новые процедуры оценки значимости границ и модулей для взвешенных и невзвешенных индивидуальных сетей. В частности, мы предлагаем модульное расстояние Кука, используя метод, который включает в себя итеративное моделирование одного края по сравнению со всеми остальными внутри модуля. Также предлагаются две процедуры оценки изменений между использованием всех людей и использованием всех людей, но без учета одного человека (LOO) (LOO-ISN, MultiLOO-ISN), основанные на эмпирически полученных границах. Мы сравниваем наши предложения с предложениями конкурентов, включая адаптации методов OPTICS, kNN и Spoutlier, посредством обширного моделирования, основанного на реальных сценариях совместной экспрессии генов и сетей микробного взаимодействия. Результаты показывают преимущества выполнения модульной оценки значимости по сравнению с граничной оценкой значимости для отдельных сетей. Кроме того, модульное расстояние Кука является одним из лучших во всех рассматриваемых условиях моделирования. Наконец, идентификация отдаленных особей в отношении их индивидуальных сетей имеет значение для целей точной медицины, что подтверждается сетевым анализом профилей численности микробиома.

При анализе взаимосвязи между биологическими особенностями и сложными признаками часто невозможно охарактеризовать результат или фенотип с помощью одного гена или одного пути1, и требуются более сложные характеристики. Сложные заболевания не имеют уникальной причины, а являются результатом накопления различных и взаимодействующих вариаций2. Достижения в области биотехнологий, такие как разработки в области методов визуализации с высоким разрешением и методов высокопроизводительного секвенирования, сделали доступными многомерные взаимозависимые данные о растущих коллекциях людей. Такие данные необходимо анализировать надежно и стабильно. Сетевая медицина позволяет выйти за рамки одномерного анализа и оценить сложность биологических сетей2,3.

Сети хорошо подходят для визуализации и анализа множества биологических процессов в медицине. Сеть — это совокупность связанных объектов. Объекты называются узлами или вершинами. Обычно они визуализируются в виде точек. Соединения между узлами называются ребрами или связями. Графически они изображаются в виде линий между точками. К таким сетям может быть добавлена ​​дополнительная информация, такая как метки узлов или веса ребер. Модуль — это подсеть, состоящая из подмножества выбранных узлов и ребер. Модульность сети измеряет силу разделения сети на модули. Более подробная информация представлена ​​в Таблице S1. Теоретико-графовые конструкции, такие как модули, могут быть более надежными и эффективными, чем традиционные клинические переменные в прогностических или описательных моделях4. Их часто сравнивают между графиками, где каждый график может представлять различное состояние или состояние (больной или здоровый). Как мы увидим позже, сети также могут быть построены для каждого человека отдельно.

Популяционные биологические модели, которые определяют границы биологических сетей путем объединения образцов или фиксации уникальной сетевой связи, применимой ко всем людям в целевой группе, использовались для извлечения признаков для последующего обоснованного анализа5 или для определения и интерпретации эпистаза с использованием генома. - дизайн общеассоциативного исследования6. Также было показано, что с точки зрения персонализированной медицины они помогают сделать выводы для конкретного пациента (например, 7). Однако лекарство «один размер подходит всем» больше не является приемлемым8,9, а экстраполяция выводов популяционных сетей может оказаться недостаточно конкретной для конкретного человека. Более того, в то время как статистические взаимодействия происходят на популяционном уровне, биологические взаимодействия происходят на индивидуальном уровне10. Таким образом, учитывая, что биологически значимые интерактомы могут варьироваться от одного человека к другому, построение индивидуально-специфичных сетей с индивидуально-специфичными краями вызывает растущий интерес.

0.7\) (Fig. 1d). Furthermore, the best methods for each family are shown together to get a glimpse of their performance under different sample size values, Fig. 1e. Cook's distance and mOTS cosine stand out, achieving AUC values greater than 0.8 for all size values N. These methods dominate their corresponding counterparts by more than 0.2 for each setting. No method achieves an acceptable performance value, i.e., AUC\(> 0.7\), for single-edge settings (Fig. 1f), thus highlighting the need for modular assessments. Finally, we notice a slightly positive association between AUC and sample size N./p>2\)), the adapted Cook's distances methods, i.e., Cook's med and Cook's max, achieve the best values of performance. They are closely followed by the mOTS cosine method. By grouping the synthetic data per module's size \(k= \{2,3,5,7,9,11,17 \}\), a positive relationship between the module's size k and performance AUC emerges in (m)OTS cosine (Fig. 2a,b) and Cook's distances methods (Fig. 2d,e). Other methods (Fig. 2c) do not show an association with the module's size k. Crucially, no method achieves a satisfactory performance value in the single-edge analysis setting: when k = 2, every method achieves an AUC value smaller than 0.6. The limited informativeness of an edge alone emerges from those results. Other noteworthy insights originate from comparing Spoutlier's methods (Fig. 2a,b). mOTS euclidean is upper-bounded by 0.7, while mOTS cosine achieves an AUC value greater than 0.9 for large module sizes k. mOTS glob's AUC is positively associated with the module's size k and, coarsely, around 0.05 worse than mOTS cosine. mOTS glob's performance, although suboptimal, hints toward the value of combining both an arithmetical and a geometrical point of view. The scenario is a carbon copy of the single-shot setting: OTS cosine is positively associated with the module's size k, and results are more than 0.2 better than the OTS euclidean counterpart for high values of k./p>2\). (b) the ensemble methods of the Spoutlier family are compared, and mOTS cosine is the best for \(k>2\). (c) p-value yielding methods are compared, and MultiLOO-ISN achieves the best performance for \(k\ge 5\). (d) remaining methods are compared, with Cook's med consistently dominating all others when \(k>2\). at the bottom panel, selected methods are compared together. (e) the comparison includes all settings: cosine-based OTS and Cook's distance methods consistently dominate their counterparts when \(k>2\). No method achieves satisfactory performance under the \(k=2\) settings./p>0.51\) in settings where Mult = 1.1. Under this scenario, the discrepancy between cases and controls is feeble./p>2\). (c) p-value yielding methods are compared, and MultiLOO-ISN achieves the best performance starting for modular settings, i.e., \(k>5\). On (d), the remaining methods are compared, with kNN and Cook's max consistently dominating their’ counterparts. In the bottom panel, selected methods are compared together. On (e), the comparison includes all settings: KNN, mOTS euc, LOO-ISN, Cook's max and Cook's med consistently achieve good performance./p>17\)). Moreover, modules 1–3 consist of more edges, as computed according to27, than individuals 81, and thus all methods based on Cook's distance can not be used. Module 4, consisting of 5 nodes, is adequate to validate our approach, being the closest to the module's dimensions in the simulations./p>2\)) is considered. However, in such a case, we use a multivariate normal distribution for generating the simulation data in step 2), where the dimension of the normal distribution equals the module's size k. Multivariate normal simulations need to mimic the network's structure under the null hypothesis \(H_0\). Hence, we generate N samples, equal to the empirical sample size, with a normal where we set the variance/covariance matrix to the adjacency matrix A, with entries the weighted edge weights \(w_{ij}^{\alpha }\) and the mean vector (\(k \times 1\)) to 0. Hence, the correlation coefficients are estimated on the dataset of analysis, i.e., the edge weights \(w_{ij}^\alpha\) for every edge between two nodes \(v_i\) and \(v_j\) inside the module. We refer the reader to Fig. S5 for a visual representation./p>

ДЕЛИТЬСЯ