banner

Notizia

Dec 25, 2023

Valutazione del significato di Edge e modulare nell'individuo

Rapporti scientifici volume 13, numero articolo: 7868 (2023) Citare questo articolo

266 accessi

1 Altmetrico

Dettagli sulle metriche

Le reti specifiche per l’individuo, definite come reti di nodi e bordi di connessione specifici per un individuo, sono strumenti promettenti per la medicina di precisione. Quando tali reti sono biologiche, diventa possibile l'interpretazione dei moduli funzionali a livello individuale. Un problema poco studiato è la pertinenza o la valutazione del "significato" di ciascuna rete specifica per individuo. Questo articolo propone nuove procedure di valutazione della significatività dei bordi e dei moduli per reti specifiche per individuo ponderate e non ponderate. Nello specifico, proponiamo una distanza di Cook modulare utilizzando un metodo che prevede la modellazione iterativa di un bordo rispetto a tutti gli altri all'interno di un modulo. Vengono proposte anche due procedure che valutano i cambiamenti tra l'utilizzo di tutti gli individui e l'utilizzo di tutti gli individui ma lasciando fuori un individuo (LOO) (LOO-ISN, MultiLOO-ISN), basandosi su bordi derivati ​​empiricamente. Confrontiamo le nostre proposte con i concorrenti, compresi gli adattamenti dei metodi OPTICS, kNN e Spoutlier, mediante un ampio studio di simulazione, modellato su scenari di vita reale per la coespressione genica e le reti di interazione microbica. I risultati mostrano i vantaggi di eseguire valutazioni di significatività modulari rispetto a quelle edge-wise per reti specifiche per individuo. Inoltre, la distanza modulare di Cook è tra le migliori in tutte le impostazioni di simulazione considerate. Infine, l’identificazione degli individui periferici rispetto alle loro reti specifiche dell’individuo è significativa per scopi di medicina di precisione, come confermato dall’analisi di rete dei profili di abbondanza del microbioma.

Quando si analizza la relazione tra caratteristiche biologiche e tratti complessi, è spesso impossibile caratterizzare il risultato o il fenotipo con un singolo gene o un singolo percorso1 e sono necessarie caratterizzazioni più avanzate. Le malattie complesse non hanno una causa unica, ma derivano da un accumulo di varianti diverse e interagenti2. I progressi nella biotecnologia, come gli sviluppi nelle modalità di imaging ad alta risoluzione e nei metodi di sequenziamento ad alto rendimento, hanno reso disponibili dati interdipendenti ad alta dimensione su gruppi crescenti di individui. Tali dati devono essere analizzati in modo robusto e stabile. La medicina di rete consente di andare oltre le analisi univariate e di abbracciare la complessità delle reti biologiche2,3.

Le reti si prestano bene alla visualizzazione e all’analisi di molteplici processi biologici in medicina. Una rete è una raccolta di oggetti connessi. Gli oggetti sono indicati come nodi o vertici. Di solito vengono visualizzati come punti. Le connessioni tra i nodi sono chiamate bordi o collegamenti. Questi sono disegnati graficamente come linee tra i punti. A tali reti possono essere aggiunte informazioni aggiuntive, come etichette dei nodi o pesi dei bordi. Un modulo è una sottorete composta da un sottoinsieme di nodi e bordi selezionati. La modularità della rete misura la forza della divisione di una rete in moduli. Maggiori dettagli sono nella Tabella S1. I costrutti teorici dei grafici come i moduli possono essere più robusti ed efficaci rispetto alle tradizionali variabili cliniche nei modelli predittivi o descrittivi4. Vengono spesso confrontati tra grafici, dove ciascun grafico può rappresentare una condizione o stato diverso (ad esempio malato rispetto a sano). Come vedremo più avanti, le reti possono anche essere costruite separatamente per ciascun individuo.

I modelli biologici basati sulla popolazione, che deducono i margini nelle reti biologiche mettendo insieme i campioni o fissando un cablaggio di rete unico applicabile a tutti gli individui in un gruppo target, sono stati utilizzati per estrarre caratteristiche per analisi informate a valle5 o per guidare il rilevamento e l'interpretazione dell'epistasi utilizzando il genoma disegni di studi di associazione ad ampio spettro6. Dal punto di vista della medicina personalizzata, è stato anche dimostrato che aiutano a trarre conclusioni specifiche per il paziente (ad esempio, 7). Tuttavia, una medicina unica per tutti non è più accettabile8,9 e le conclusioni estrapolate da reti derivate dalla popolazione potrebbero non essere sufficientemente specifiche per un particolare individuo. Inoltre, mentre le interazioni statistiche si verificano a livello di popolazione, le interazioni biologiche si verificano a livello individuale10. Pertanto, considerando che gli interattomi biologicamente rilevanti possono variare da un individuo all'altro, la costruzione di reti specifiche dell'individuo con bordi specifici dell'individuo ha ricevuto un crescente interesse.

0.7\) (Fig. 1d). Furthermore, the best methods for each family are shown together to get a glimpse of their performance under different sample size values, Fig. 1e. Cook's distance and mOTS cosine stand out, achieving AUC values greater than 0.8 for all size values N. These methods dominate their corresponding counterparts by more than 0.2 for each setting. No method achieves an acceptable performance value, i.e., AUC\(> 0.7\), for single-edge settings (Fig. 1f), thus highlighting the need for modular assessments. Finally, we notice a slightly positive association between AUC and sample size N./p>2\)), the adapted Cook's distances methods, i.e., Cook's med and Cook's max, achieve the best values of performance. They are closely followed by the mOTS cosine method. By grouping the synthetic data per module's size \(k= \{2,3,5,7,9,11,17 \}\), a positive relationship between the module's size k and performance AUC emerges in (m)OTS cosine (Fig. 2a,b) and Cook's distances methods (Fig. 2d,e). Other methods (Fig. 2c) do not show an association with the module's size k. Crucially, no method achieves a satisfactory performance value in the single-edge analysis setting: when k = 2, every method achieves an AUC value smaller than 0.6. The limited informativeness of an edge alone emerges from those results. Other noteworthy insights originate from comparing Spoutlier's methods (Fig. 2a,b). mOTS euclidean is upper-bounded by 0.7, while mOTS cosine achieves an AUC value greater than 0.9 for large module sizes k. mOTS glob's AUC is positively associated with the module's size k and, coarsely, around 0.05 worse than mOTS cosine. mOTS glob's performance, although suboptimal, hints toward the value of combining both an arithmetical and a geometrical point of view. The scenario is a carbon copy of the single-shot setting: OTS cosine is positively associated with the module's size k, and results are more than 0.2 better than the OTS euclidean counterpart for high values of k./p>2\). (b) the ensemble methods of the Spoutlier family are compared, and mOTS cosine is the best for \(k>2\). (c) p-value yielding methods are compared, and MultiLOO-ISN achieves the best performance for \(k\ge 5\). (d) remaining methods are compared, with Cook's med consistently dominating all others when \(k>2\). at the bottom panel, selected methods are compared together. (e) the comparison includes all settings: cosine-based OTS and Cook's distance methods consistently dominate their counterparts when \(k>2\). No method achieves satisfactory performance under the \(k=2\) settings./p>0.51\) in settings where Mult = 1.1. Under this scenario, the discrepancy between cases and controls is feeble./p>2\). (c) p-value yielding methods are compared, and MultiLOO-ISN achieves the best performance starting for modular settings, i.e., \(k>5\). On (d), the remaining methods are compared, with kNN and Cook's max consistently dominating their’ counterparts. In the bottom panel, selected methods are compared together. On (e), the comparison includes all settings: KNN, mOTS euc, LOO-ISN, Cook's max and Cook's med consistently achieve good performance./p>17\)). Moreover, modules 1–3 consist of more edges, as computed according to27, than individuals 81, and thus all methods based on Cook's distance can not be used. Module 4, consisting of 5 nodes, is adequate to validate our approach, being the closest to the module's dimensions in the simulations./p>2\)) is considered. However, in such a case, we use a multivariate normal distribution for generating the simulation data in step 2), where the dimension of the normal distribution equals the module's size k. Multivariate normal simulations need to mimic the network's structure under the null hypothesis \(H_0\). Hence, we generate N samples, equal to the empirical sample size, with a normal where we set the variance/covariance matrix to the adjacency matrix A, with entries the weighted edge weights \(w_{ij}^{\alpha }\) and the mean vector (\(k \times 1\)) to 0. Hence, the correlation coefficients are estimated on the dataset of analysis, i.e., the edge weights \(w_{ij}^\alpha\) for every edge between two nodes \(v_i\) and \(v_j\) inside the module. We refer the reader to Fig. S5 for a visual representation./p>

CONDIVIDERE