7月 CNS文献精选
1 Nature Medicine
蛋白质组学特征提高常见病和罕见病的风险预测能力
2 Cancer Cell
高级别胶质瘤的多维度信号传递和肿瘤演化
3 Nature Methods
quantms:基于云的定量蛋白质组学分析流程用于公共蛋白质组学数据再分析
4 Nature Communications
多组学数据的定向整合与通路富集分析
5 Nature Communications
21号染色体基因的多样性过表达揭示唐氏综合征的分子和免疫亚型
6 Nature Communications
基于自监督深度学习的无标记定量质谱蛋白质组学数据缺失值填充
7 Nature Communications
不同胎龄新生儿胎便的蛋白质特征
8 Cell Discovery
泛黑色素瘤生物学及治疗的蛋白质基因组学见解
9 Cell reports
ADP核糖体分析显示,在野生型和BRCA突变型乳腺癌细胞系中,均存在DNA损伤诱导的丝氨酸ADP核糖体化
10 npj Parkinson's Disease
代谢分析揭示与帕金森病发病和流行相关的循环生物标志物
蛋白质组学特征提高常见病和罕见病的风险预测能力
Proteomic signatures improve risk prediction for common and rare diseases
许多疾病因缺乏客观的生物标志物导致诊断延误。剑桥大学临床医学院MRC流行病学小组、葛兰素史克英国研发中心研究团队在英国生物样本库药物蛋白质组项目(UKB-PPP)中收集了超过 4 万人的数据,并将约 3000 种血浆蛋白测量值与临床信息相结合,建立了用于预测 10 年内 218 种疾病发病风险的稀疏模型。结果表明,仅使用 5 到 20 个蛋白质的稀疏模型比仅使用基本临床信息或结合 37 项临床试验数据的模型更准确地预测了 67 种不同病理类型的疾病。此外,稀疏蛋白质模型在包括多发性骨髓瘤、非霍奇金淋巴瘤、运动神经元疾病、肺纤维化和扩张型心肌病在内的 52 种疾病中优于基本信息结合临床试验数据的组合模型。通过单细胞RNA测序分析新诊断患者的骨髓样本,发现这 5 种预测蛋白质中的 4 种只在浆细胞中表达,进一步证实了这些蛋白质的强大预测能力。外部验证研究表明,在测试的 6 种疾病中,稀疏蛋白模型具有良好的普适性。该研究显示,稀疏血浆蛋白特征(包括疾病特异性蛋白和几种疾病共有的蛋白预测因子)可对常见病和罕见病进行良好的预测。
高级别胶质瘤的多维度信号传递和肿瘤演化
Multi-scale signaling and tumor evolution in high-grade gliomas
为扩展对高级别胶质瘤(包括IDH野生型和突变型)在多种分子层面的认识,并揭示其发展和演化的多方面调控机制,圣路易斯华盛顿大学、太平洋西北国家实验室等机构领导的研究团队整合 14 种蛋白质组学、代谢组学、脂质组学和翻译后修饰平台的数据,以及基因组学和转录组学数据,分析 228 个肿瘤样本(包括 212 个GBM和 16 个IDH突变型星形细胞瘤),并比较了正常脑组织和转移性脑部病变。结果表明,不同来源的上游改变都汇聚于共同的下游事件,且在复发时会发生蛋白质相互作用和糖基化位点占用的变化。此外,重复发生的遗传变异和磷酸化事件与PTPN11信号通路有关,提示该信号通路在高级别胶质瘤中具有重要作用。该研究为神经肿瘤的临床治疗提供了新的思路和方向,并且在未来的研究中,可以通过深入探究肿瘤微环境的作用机制,进一步提高肿瘤治疗的效果。另外可以通过更多的实验模型系统来验证这些新发现的有效性,从而为临床治疗提供更加可靠的依据。
quantms:基于云的定量蛋白质组学分析流程用于公共蛋白质组学数据再分析
quantms: a cloud-based pipeline for quantitative proteomics enables the reanalysis of public proteomics data
随着公共蛋白质组学数据量的快速增长,大规模再分析面临计算挑战。欧洲分子生物学实验室Yasset Perez-Riverol团队开发了基于云的开源平台quantms(https://quantms.org/),旨在实现大规模并行蛋白质组学数据分析。该平台支持DDA、同位素标签法和DIA三种主流实验类型,具备高度灵活性和可扩展性。quantms不仅能够重新分析公共蛋白质组学数据,还提供了质量控制报告、差异表达分析等附加功能。通过实际案例验证,quantms在重新分析大型单细胞和组织样本数据集时,在低浓度蛋白质量化上展现出更高的准确性。该平台采用标准化的文件格式和可重复执行的工作流程,支持多计算机并行处理,处理速度显著提升。在同时处理超过 1000 个质谱运行文件时,quantms的执行速度较MaxQuant快 40 倍。此外,团队还创新性地提出了一种用于整合不同数据集结果的方法,并成功鉴定出 479 个新蛋白质。quantms的所有模块均作为BioConda软件包和BioContainers提供,遵循nextflow和nf-core8指南开发,支持恢复执行中断的任务和动态资源重分配。quantms为大规模定量质谱数据分析领域带来了一个灵活、高效且用户友好的解决方案。
多组学数据的定向整合与通路富集分析
Directional integration and pathway enrichment analysis for multi-omics data
高通量组学技术能够系统地描述细胞中的基因、转录本、蛋白质和表观遗传状态。虽然数据生成方法发展迅速,但相关整合方法仍然是一个很大的挑战。通路富集分析是利用已知的基因功能和生物学过程来解释组学数据的常用技术。多伦多大学的Jüri Reimand团队提出了一种新的方法——定向P值合并(DPM),用于整合多个组学数据集,包括基因、转录本和蛋白质等分子水平的信息。该方法通过用户定义的方向性约束来优先考虑一致方向上的基因或通路,并惩罚不一致方向上的基因或通路。使用了多种实验设计和分析方法,包括模拟数据集、真实数据集的比较分析以及多个癌症类型和生物样本的整合分析,证明了该方法的有效性和可靠性。
21号染色体基因的多样性过表达揭示唐氏综合征的分子和免疫亚型
Variegated overexpression of chromosome 21 genes reveals molecular and immune subtypes of Down syndrome
唐氏综合征(DS)是一种由 21 号染色体(HSA21)三倍引起的遗传性疾病,在发育表型和并发症状诊断方面表现出强烈的个体间差异性。这种不同的发育和临床表现背后的机制有待阐明。科罗拉多大学的Matthew D. Galbraith及Joaquin M. Espinosa团队通过对数百名DS患者全血转录组分析,发现了两个不同的人类HSA21基因簇,使用聚类算法将DS分为三个独特的分子亚型。通过多组学比较分析,发现这三个亚型在炎症、免疫、细胞生长和代谢等方面存在显著差异,并观察到不同亚型中免疫细胞的变化模式。使用RNA测序技术分析了 126 个HSA21基因在 356 名DS患者的表达情况,发现这些基因的平均表达水平高于正常对照组。然而,在不同的DS个体之间,这些基因的表达存在广泛的变异,这表明存在不同的HSA21基因表达模式。而后使用聚类分析将DS患者分为三个分子亚型(MS1、MS2和MS3),发现每个亚型都有独特的HSA21基因表达模式。相关性分析探索HSA21基因与全基因组表达谱之间的关系,发现HSA21基因簇 1 和簇 2 的表达模式与不同的全基因组表达谱相关联。主成分分析比较三个DS分子亚型与全基因组表达谱之间的关系,发现每个亚型都具有独特的全基因组表达谱。最后通过线性模型和蛋白质组学数据分析来比较三个DS分子亚型与血浆蛋白组之间的关系,发现在每个亚型中都发现了数百种独特的血浆蛋白变化。本文的研究结果揭示了DS患者中HSA21基因的多样性和复杂性,并提供了对DS分子亚型的深入理解。这些发现有助于更好地了解DS的发病机制,为个体化临床治疗奠定了基础。
基于自监督深度学习的无标记定量质谱蛋白质组学数据缺失值填充
Imputation of label-free quantitative mass spectrometry-based proteomics data using self-supervised deep learning
蛋白质组学是一种鉴定和定量蛋白质的技术,由于前体碎片选择存在半随机性,缺失值普遍存在,至少在数据分析的某些部分中需要替换。目前,蛋白质组学数据中缺失值的处理通常假设蛋白质丰度低于仪器检测限或蛋白质不存在。一般来说,研究界将随机缺失(MAR)和非随机缺失(MNAR)区分开来,前者会影响整个动态范围内的所有强度,而后者则是肽的强度越接近仪器的检测极限,缺失就越普遍。然而,并不是所有的缺失值都是由于这种机制造成的,错误的假设检测极限是造成缺失的原因,就会导致潜在的错误推定,进而导致有偏差的统计结果,限制了从数据中得出正确的结论。哥本哈根大学Simon Rasmussen等人开发了一种PIMMS(proteomics imputation modeling mass spectrometry)的方法,使用自监督学习技术来处理大规模的数据集,能够有效地预测疾病进展和生物标记物。他们比较了不同的自监督学习模型(如自编码器、变分自编码器等)在不同层次的数据(如蛋白质组学数据、肽段数据和前体离子数据)上的表现,并评估了这些模型在模拟缺失值的情况下对实际数据的预测能力。结果表明,自监督学习模型能够在不依赖先验知识的情况下有效地填补缺失值,并且在不同层次的数据上表现出较好的性能。此外,该研究还探讨了自监督学习模型的一些特性,例如它们能够保持样本内部的相关性和特征之间的相关性等。总体而言,该研究为自监督学习在生物信息学中的应用提供了一个新的思路,为进一步研究提供了启示。作者在酒精相关性肝病患者的研究中应用了该方法,发现它能够识别出更多的差异表达蛋白,并且这些蛋白质组可以用来预测疾病的进程。此外,作者还提供了相应的Python代码和工作流程,以便其他研究人员进行复制和扩展。
不同胎龄新生儿胎便的蛋白质特征
Host-derived protein profiles of human neonatal meconium across gestational ages
胎便是一种反映产前物质积累的非侵入性生物材料,可为新生儿健康状况提供宝贵信息。为探究新生儿胎便中蛋白质组成的变化与疾病的关系,东京大学医学院Eiichiro Watanabe、 Eiichiro Watanabe团队通过对不同孕周、性别和疾病的胎便进行深度蛋白组学分析,鉴定出 5370 种人源蛋白质,发现不同孕周和疾病的胎便蛋白质组成存在差异。通过性别差异分析,发现在女性和男性新生儿之间存在显著的差异。在女性中,一些特定的蛋白质含量较高,而在男性中则相反。这些结果表明,不同性别的新生儿可能具有不同的生理特征和疾病风险。此外,他们还开发了一种机器学习模型,可以使用胎便蛋白质预测新生儿的预后情况。这项研究为评估新生儿肠道健康提供了新的方法,同时也揭示了胎便蛋白质组成与临床参数之间的复杂关系,为进一步研究新生儿健康问题提供了新的思路和方向。
泛黑色素瘤生物学及治疗的蛋白质基因组学见解
Proteogenomic insights into the biology and treatment of pan-melanoma
黑色素瘤是最普遍的皮肤癌之一,转移率高,预后不良。了解其分子发病机制对于提高其诊断和治疗水平至关重要。复旦大学丁琛团队和复旦大学附属中山医院侯英勇团队通过对 207 例未经治疗的黑色素瘤患者的多组学数据进行综合分析,揭示了黑色素瘤的生物学特征和治疗方法。结果表明,PRKDC扩增是黑色素瘤预后的分子标志物之一,并且其顺式效应可能通过激活DNA修复和叶酸代谢途径促进肿瘤生长。基于蛋白质组学的分型将原发性黑色素瘤分为三种亚型,分别为ECM亚型、血管生成亚型(具有高转移率)和细胞增殖亚型,为特定黑色素瘤亚型的特异性靶向治疗提供了重要框架。免疫分类则发现了三种免疫亚型,进一步发现MAPK7-NFKB信号通路的上调可以促进T细胞招募并增加患者对免疫疗法的敏感性,而PRKDC则可能降低黑色素瘤患者对免疫疗法的敏感性。这些结果强调了多组学数据分析在临床实践中的价值,有望改善黑色素瘤的治疗。
ADP核糖体分析显示,在野生型和BRCA突变型乳腺癌细胞系中,均存在DNA损伤诱导的丝氨酸ADP核糖体化
ADP-ribosylome analysis reveals homogeneous DNA-damage-induced serine ADP-ribosylation across wild-type and BRCA-mutant breast cancer cell lines
ADP核糖化(ADPr)在DNA损伤反应等细胞过程中发挥重要作用,主要由PARP1与HPF1介导。BRCA1和BRCA2是DNA损伤修复的关键蛋白,它们的失活使细胞对PARP抑制剂敏感。PARP抑制剂已被用于治疗特定类型的癌症,但耐药性的出现是长期治疗的一大挑战。哥本哈根大学Michael Lund Nielsen团队探究了DNA损伤引起的ADPr反应在野生型和BRCA突变乳腺癌细胞系中的作用,并分析PARP抑制剂敏感性和抵抗性之间的关系。研究人员使用液相色谱-串联质谱(LC-MS/MS)对六种不同PARP抑制剂敏感性的乳腺癌细胞系进行了ADPr反应的分析。结果表明,在所有细胞系中,DNA损伤引起的ADPr反应主要发生在丝氨酸残基上,并且这些靶向位点具有高度的保守性。此外,研究人员还观察到PARPi敏感性BRCA突变体和PARPi耐药性BRCA突变体HCC1937细胞系之间存在差异,前者表现出更高的USF1_S189 ADPr水平,而后者则具有较低的PARG水平和更长的ADP核糖链。这些发现为理解ADPr信号通路在DNA损伤响应中的作用以及PARP抑制剂治疗中的挑战提供了新的见解。
代谢分析揭示与帕金森病发病和流行相关的循环生物标志物
Metabolic profiling reveals circulating biomarkers associated with incident and prevalent Parkinson’s disease
帕金森病(PD)是一种复杂的神经退行性疾病,目前缺乏有效的治愈性疗法。进一步研究PD的分子途径对于理解其病因和研发新的治疗方法至关重要。墨尔本大学Mingguang He及南方医科大学Zhuoting Zhu、Xiaohong Yang等人通过核磁共振技术分析了 109790 名参与者在基线时的代谢物组学数据和基因数据,探讨代谢谱在PD发生和发展中的作用。结果显示,68 个代谢物与新发PD有关,其中多不饱和脂肪酸(PUFA)和ω-6脂肪酸与新发和既往PD均相关;此外,还有 14 个代谢物与既往PD相关,包括氨基酸、脂肪酸、几种脂蛋白亚类和脂质比值等。将代谢组学数据与传统的风险因素模型进行比较,结果表明,加入代谢组学数据后,模型的预测能力得到了提高,但增加的贡献并不显著。因此,代谢谱可以为理解PD不同途径的发生提供额外的信息,并有助于揭示潜在的干预靶点。