之所以难以研发有效的整合算法,关键原因之一是所有的搜库算法都会产生一定的假阳性率(FDR),而由于长期以来受限于蛋白质组学技术的精度局限,某一细胞内总共有多少种蛋白质一直就没有标准答案,从而难以准确评价各种方法所带来的FDR,只能毛估,这样一来就存在着很大的不确定性。在没有标准答案的情况下,贸然合并多种算法的结果将导致假阳性率的迅速累积,使得最终结果变得很不可靠。
针对这一蛋白质组学界的“老大难”问题,暨南大学翻译组学实验室利用翻译组测序(RNC-seq)数据作为稳态细胞内蛋白质的“标准答案”,并另辟蹊径,提出了蛋白水平上的一种简单有效的多算法结果整合策略,不用做额外的实验,零成本轻松提高蛋白质组鉴定数量,同时有效降低假阳性率。
由于翻译组测序具有远高于蛋白质质谱的灵敏度和准确性,可以基本穷尽细胞中正在合成的蛋白质,因此被作为人类蛋白质组计划的核心支柱之一(Zhong et al., Journal of Proteome Research 2014),可以用作“标准答案”的基准来评价与整合各算法的蛋白质鉴定结果。分析显示,7种主流搜库算法各行其是,只有一半的蛋白质被所有算法鉴定到;与翻译组“标准答案”相比,其假阳性率都高达4-5%,远超过其自身预估的1%。因此,若取各算法的并集将导致假阳性率的进一步累积上升,若取各算法结果的交集将大幅度降低鉴定的蛋白质数量,皆不可取。
研究者注意到,那些仅被一个算法所鉴定到的蛋白质,其鉴定质量普遍较低,因此提出一种简便得出奇的整合策略:若有2个或更多个算法鉴定到了同一个蛋白质,则认为此蛋白质鉴定是可靠的。再次采用翻译组“标准答案”进行评价,发现此方法不但显着提高了蛋白质鉴定数量,也同时显着降低了假阳性率,提高了鉴定的可靠性。这一成绩大大优于传统的图谱或肽段水平的整合策略Scaffold和iProphet。
不仅如此,确认了可靠鉴定的蛋白质后,还可以发挥将各算法数学模型各自的优势,将所鉴定出的肽段直接全算在一起,取长补短,从而大幅度提高蛋白质的肽段覆盖率。此项能力不但优于所有的搜库算法,更是传统整合策略所望尘莫及的。
这项“7个算法中有2个算法鉴定到就算数”的蛋白质鉴定策略可以被应用于任何场合,发挥这种新策略的优势根本不需要任何额外的实验,只需要计算机多计算一会儿,几乎是零成本的。因此,这项成果将造福所有需要用到蛋白质组学的研究者,轻松实现“又要马儿跑,又要马儿不吃草”。
所以今后如果有人再问你“搜库算法哪家强?”你可以回答“取长补短见真章!”
该项成果2017年10月1日发表于人类蛋白质组计划的官方刊物Journal of Proteome Research, C-HPP Special Issue. 通讯作者是暨南大学翻译组学实验室的负责人张弓教授,翻译组学领域的建立者,其成果被选入国家统编教材。目前,张弓教授是中国生化与分子生物学学会蛋白质组学专业委员会(CNHUPO)理事,中国分子系统生物学专业委员会委员,国家优秀青年基金获得者,国家863青年科学家,国家万人计划“青年拔尖人才”,深圳市龙华区第一届政协常委。