北航新闻网8月5日电(通讯员 张晨曦)自2022年Open AI推出ChatGPT以来,生成式人工智能技术便迎来了其迅猛的发展浪潮。这些技术在处理文本、图像、视频等单一模态数据时,已经展现出了深远的影响力,成为了推动领域自动化、革新生产方式和辅助人类决策的重要手段。然而,在基础科学与人工智能的交叉领域,特别是在AI for Science、空间组学、脑科学等研究领域,依赖单一模态的数据分析往往难以充分揭示生物组织的复杂性。为了更深入地理解生物组织不同区域的功能和联系,在统一的空间坐标上整合来自不同技术的多模态数据一个能够整合多模态数据的生成式模型显得尤为关键。
基于团队在多模态数据融合(Nature Biotechnology 2022)的工作积累,2024年8月2日,北京航空航天大学人工智能学院邓岳教授团队和清华大学自动化系戴琼海院士团队合作在《Nature Communications》上发表了文章《Tissue characterization at an enhanced resolution across spatial omics platforms with deep generative model》。文章提出了一种多模态融合的统一生成式模型,通过对图像数据与空间组学进行联合生成式建模,实现了对包括脑在内的复杂生物组织的精确刻画,为空间组学的研究提供了新的工具和方法。
这项研究中提出的空间组学统一生成模型(spatial omics scope,soScope)整合了来自多种观测技术中的形态学、组学以及空间位置信息,对从高分辨生物组织中采集低分辨观测数据过程进行生成式建模。这一过程被建模为:低分辨率的空间组学观测值是由高分辨率空间组学的集合和随机扰动共同影响的结果;而高分辨率空间组学的表达量不仅与特定区域的隐状态紧密相关,还与高分辨率的形态学特征息息相关。基于这种关联,soScope模型能够将不同的空间组学观测结果,通过一个统一的生成过程来综合描述(图1a)。网络通过整合低分辨率组学信息的空间关系和高分辨率图像特征,推断并采样出高空间分辨率下的空间组学特异性概率分布,实现了对生物组织结构的精确刻画(图1)。
图1.通过对不同空间组学多模态数据的生成式建模,soScope适用于多种测序平台、多生物组织、多种空间组学联合分析
利用提出的方法,文章在多种技术产生的数据上进行了实验。研究团队首先选择了空间转录组数据领域内广为应用的平台——Visium和Xenium,构建了低分辨率的仿真数据集。在此基础上,他们运用soScope模型进行了数据恢复实验,旨在测试和验证模型的性能。实验结果显示,soScope不仅成功地恢复了人类肠道组织和小鼠大脑的精细结构(图2a),而且在恢复精度上达到了最高水平(图2b)。这一结果证明了soScope在处理空间转录组数据时的建模精确性,为空间组学研究提供了强有力的支持,证实了soScope作为一种新型工具的潜力和可靠性。
图2. soScope在空间转录组数据上获得了最高的重建精度,恢复了人类肠道与小鼠大脑的精细结构
在进一步的实验中,该研究利用了基于spatial CUT&Tag技术采集的小鼠胚胎的数据(图3a)。这项技术允许研究人员对小鼠胚胎中的DNA与蛋白质相互作用进行深入分析,以测试soScope对于不同空间组学数据的解析能力。soScope成功地消除了小鼠多个器官区域,包括前脑在内的测序噪声,显著提升了对小鼠胚胎多个器官结构的辨析度(图3b)。此外,它还显著增强了组织内部的连续性,揭示了在原始分辨率下不可见的精细结构,例如小鼠胚胎心脏的双层结构(图3c)。这些发现不仅证明了soScope在不同空间组学数据中提高空间分辨率和降低噪声方面的强大能力,也展示了其在捕获精细组织结构方面的卓越性能。
图3.soScope生成了对小鼠包括前脑在内的多个器官的精细空间组学结构并降低了测序噪音
此外,soScope的性能还在多个测序平台(spatia-CITE-seq、spatial ATAC-RNA-seq、slide DNA/RNA-seq等)以及多种生物组织(包括人类皮肤、小鼠肝脏等)上得到了验证。soScope不仅可用于空间多组学的联合分析中,还能够实现不同数据类型间的协同优化,为空间多组学数据的分析提供了工具。
文章通过采用多模态融合的统一生成式框架,成功地在多个空间组学平台和不同的生物组织样本上进行了深入分析和验证。这一框架不仅证明了其在处理和整合多种生物数据类型方面的强大能力,而且为研究者提供了一种新的工具,以更全面和精确的方式探究复杂生物结构的精细功能。
本工作得到了国家自然科学基金杰出青年科学基金,国家自然科学基金重点项目的支持。
论文原文链接:https://www.nature.com/articles/s41467-024-50837-5
(审核:金蓉)