
上海有機所交叉中心發(fā)表知識與數(shù)據(jù)雙層代謝網(wǎng)絡驅動的代謝組規(guī)模化精準注釋技術 MetDNA3
中國科學院上海有機化學研究所生物與化學交叉研究中心朱正江研究員課題組在Nature Communications雜志在線發(fā)表了題為“Knowledge and data-driven two-layer networking for accurate metabolite annotation in untargeted metabolomics”的研究論文(https://doi.org/10.1038/s41467-025-63536-6)。該研究開發(fā)了新一代代謝組規(guī)?;⑨尲夹g MetDNA3。該方法通過知識與數(shù)據(jù)雙層代謝網(wǎng)絡的交互驅動,在非靶向代謝組學的質譜數(shù)據(jù)中實現(xiàn)了代謝物化學結構的高覆蓋率與高準確度注釋,并顯著提升了大規(guī)模代謝物注釋的計算效率。

非靶向代謝組學旨在系統(tǒng)解析生命體內(nèi)的內(nèi)源性小分子代謝物,為細胞代謝研究、疾病機制探索及生物標志物發(fā)現(xiàn)提供關鍵技術支撐。然而,由于代謝物種類繁多且結構復雜,代謝物化學結構注釋始終是該領域的核心挑戰(zhàn)。目前,質譜碎裂譜圖庫匹配方法僅能注釋少量具有標準碎裂質譜圖的代謝物,難以有效覆蓋已知結構但缺乏標準碎裂譜圖的“已知未知”代謝物(known unknown)以及化學結構全新的“未知未知”代謝物(unknown unknown)。近年來,基于代謝網(wǎng)絡的代謝物注釋方法逐漸成為重要的發(fā)展方向。朱正江課題組前期結合質譜技術與人工智能算法,提出了“結構譜學關聯(lián)—代謝網(wǎng)絡迭代—生化信息演進”等創(chuàng)新策略,系統(tǒng)開發(fā)了基于代謝網(wǎng)絡的規(guī)模化精準定性技術MetDNA和MetDNA2(Nat. Commun.,2019,10: 1516;Nat. Commun.,2022,13: 6656),實現(xiàn)了已知與未知代謝物的大規(guī)模結構鑒定。然而,由于代謝組學質譜數(shù)據(jù)高度復雜,網(wǎng)絡解析仍然存在覆蓋度有限、未知代謝物鑒定難度大等挑戰(zhàn)。
為突破這些瓶頸,本研究在前期工作的基礎上開發(fā)了新一代代謝組規(guī)模化注釋技術MetDNA3。該方法首次發(fā)展了知識與數(shù)據(jù)雙層代謝網(wǎng)絡的交互驅動算法,分別通過數(shù)據(jù)和知識雙網(wǎng)絡數(shù)據(jù)預映射,及雙層網(wǎng)絡交互驅動的代謝物傳播式迭代注釋,顯著提升了非靶向代謝組學中代謝物注釋的效率、覆蓋度與準確度。具體而言,該研究首先利用圖神經(jīng)網(wǎng)絡預測構建了更全面的代謝反應網(wǎng)絡(知識網(wǎng)絡),顯著提升了其覆蓋度與連通性;隨后,將非靶向代謝組學質譜實驗數(shù)據(jù)依次通過母離子匹配、代謝反應關系映射及碎裂質譜相似性約束等步驟預映射到知識網(wǎng)絡,從而形成了知識與數(shù)據(jù)雙層代謝網(wǎng)絡的拓撲結構。最后,以種子代謝物為起點,在雙層網(wǎng)絡中實現(xiàn)遞歸傳播式的迭代注釋,從而高效擴展了代謝物注釋的范圍(圖1)。

圖1. 基于知識與數(shù)據(jù)雙層代謝網(wǎng)絡驅動的代謝組規(guī)?;珳首⑨尲夹gMetDNA3
在算法機制上,MetDNA3通過雙層網(wǎng)絡拓撲實現(xiàn)了遞歸式的代謝物注釋傳播,僅需檢索鄰居代謝物及其鄰居特征,并確認預先映射的跨網(wǎng)絡鏈接,即可完成注釋過程。這一機制有效避免了傳統(tǒng)方法中冗余的母離子匹配和碎裂質譜相似度計算,大幅提升了計算效率,尤其適用于基于大型復雜網(wǎng)絡的遞歸傳播式迭代注釋。與上一代算法MetDNA2相比,MetDNA3在傳播過程中顯著減少了鄰居代謝物檢索和MS2相似度計算次數(shù),將每個數(shù)據(jù)集的平均計算時間由1082分鐘縮短至77分鐘,效率提升約14倍(圖2)。

圖2. MetDNA3計算效率顯著提升
在多種生物樣本的代謝組學數(shù)據(jù)集測試中,MetDNA3共成功注釋1,652個種子代謝物,平均每個樣品可注釋約600至1,000個代謝物。在此基礎上,通過雙網(wǎng)絡驅動的傳播式迭代注釋,最終注釋了超過12,500個潛在的代謝物,其中包括9,410個已知代謝物和3,098個未知代謝物(圖3)。性能評估結果顯示,MetDNA3的注釋覆蓋率提升至68.1%,正確率提升至84.4%,均顯著優(yōu)于MetDNA2。這些結果充分展示了MetDNA3在覆蓋度與準確性方面的卓越表現(xiàn)(圖3)。此外,算法還發(fā)現(xiàn)并驗證了兩種未收錄于人類代謝組數(shù)據(jù)庫的新代謝物。研究同時表明,高特異性的知識網(wǎng)絡對于提高網(wǎng)絡注釋的準確性和傳播效果至關重要。

圖3. MetDNA3提高代謝物注釋的覆蓋率和正確率
綜上,本研究創(chuàng)新性發(fā)展了基于知識與數(shù)據(jù)雙層代謝網(wǎng)絡驅動的代謝組規(guī)模化精準注釋技術MetDNA3,結合圖神經(jīng)網(wǎng)絡代謝反應預測,及數(shù)據(jù)和知識雙網(wǎng)絡數(shù)據(jù)預映射,在無需冗余計算的情況下,即可在大規(guī)模復雜代謝組學質譜數(shù)據(jù)中實現(xiàn)高效而精準的代謝物遞歸傳播式迭代注釋。MetDNA3顯著提升了非靶向代謝組學中代謝物注釋的效率、覆蓋度和準確度,為代謝組學研究及相關生命科學與醫(yī)學應用提供了有力的技術支撐。
MetDNA3可在MetDNA網(wǎng)站(http://metdna.zhulab.cn/)免費使用。該工作所開發(fā)的基于知識與數(shù)據(jù)雙層代謝網(wǎng)絡驅動的代謝組規(guī)?;珳首⑨屗惴败浖呀?jīng)申請了國家發(fā)明專利和國家軟件著作權。相關技術和軟件的商業(yè)用途需要聯(lián)系朱正江研究員進行授權使用。
中國科學院上海有機化學研究所生物與化學交叉研究中心朱正江課題組博士研究生張浩松是論文的第一作者,中國科學院上海有機化學研究所生物與化學交叉研究中心為第一單位。該工作得到了國家自然科學基金委、科技部、中國科學院及上海市科委等的資助。
附件下載:

