|研究背景|
肺癌作为全球癌症相关死亡的首要原因,非侵入性生物标志物在其诊断和监测中极为关键。然而,传统的血浆蛋白质检测方法,如质谱法用于液体活检,存在深度有限、高丰度蛋白质掩盖低丰度蛋白质以及关注单一终点等局限性。本研究旨在采用基于NaY的低丰度蛋白质富集技术进行血浆蛋白质组学分析,探索其在肺癌多重事件预测中的应用潜力,涵盖诊断、淋巴结转移检测以及TNM分期等方面。
|研究方法|
研究者从广州医科大学附属第一医院、国家呼吸医学中心和天津临床多组学重点实验室前瞻性地收集了 287 例肺癌及肺部良性疾病患者的样本,严格设定纳入和排除标准,并通过组织病理学确诊肺癌及良性肺疾病,同时收集了患者的临床病理数据及血液样本。对血液样本进行基于低丰度蛋白质富集的蛋白质组学检测,采用特征选择(基于ROC曲线评估和LASSO回归),随机森林模型构建与验证以及SHAP算法进行模型解释,开展了多任务标志物研究。
研究流程示意图
|研究结果|
患者特征与蛋白质组学分析
三个队列患者在年龄、性别、基础疾病等方面存在差异,但通过UMAP降维分析未见显著的组间差异。经严格的质量控制和定量分析后,获取 4703 个血浆蛋白质的表达图谱,成功鉴定出大量差异表达蛋白质。这些差异蛋白质能够有效区分良性与恶性患者,以及不同分期的患者,并且在不同任务间表现出较高的重叠性。
组间差异蛋白质分析
基于随机森林模型构建和验证
不同任务的蛋白panel
肺癌诊断:筛选出 10 蛋白质组合(如 BAK1、CTSW 等),内部验证AUC达 0.91(0.84-0.97),外部验证AUC为 0.87(0.77-0.97),结合临床因素后AUC提升至 0.91(0.85-0.98);
淋巴结转移检测:9 蛋白质组合(如 XPO1、NPNT 等)AUC为 0.88(0.80-0.96),与临床因素结合后提高到 0.90(0.85-0.97);
TNM分期:10 蛋白质组合在不同分期的AUC各异,结合临床因素后各分期AUC均有所提升,如:I 期从 0.86(0.69-0.93)提高至 0.88(0.74-0.96),IV 期从 0.86(0.75-0.93)提高到 0.99(0.98-0.99)。通过SHAP方法,明确了各任务中关键的蛋白质及其风险或保护作用,例如在任务 #1 中,CTSW为保护因素,BAK1为风险因素,并且这些生物标志物大多与肿瘤进展紧密相关。
多任务标志物发现和验证
|讨论|
该研究采用基于低丰度蛋白质组学富集的血浆蛋白质组学新技术,成功开发了一个高度精确的肺癌多任务预测模型,与以往基于血浆蛋白质检测肺癌的研究相比,该研究在技术方法、标志物筛选和模型性能等方面所不同,凸显了血浆蛋白质组学在生物标志物研究中的巨大潜力。基于本研究成果,提出未来进一步优化和验证预测模型的方向,包括在更大规模、更多样化的人群中进行进一步验证,并探索与其他检测技术或生物标志物的联合应用。