
拷贝数变异是一种遗传结构变异,涉及DNA片段的获得或丢失。拷贝数变异(CNV)的大小为大于50bp,并且可以包括基因的一部分、整个基因或更长的基因组区域。CNVs与多种遗传疾病相关,包括自闭症谱系障碍、神经发育障碍和自身免疫性疾病。随着下一代测序技术的进步和分析NGS数据的生物信息学工具的日益可用性,临床实验室现在能够批量处理和检测CNV的外显子组、基因组和基因Panel,为了使患者得到准确的诊断和适当的护理,必须正确确定变异的致病性。2019年末ACMG发布了CNVs临床分类更新指南。每个CNV被分类为以下类别之一:良性、可能良性、意义不明、可能致病、致病。新指南考虑了广泛的CNV特性,并允许对变异进行全面分析和准确分类。然而,大规模实施指南是具有挑战性的,因为每个CNV需要临床医生相当多的时间来获得最终的致病性评分。虽然新准则旨在进行人工评估,但计算分析加快了这一过程,并更有效地确定CNVs的影响。现有的CNV注释工具使用的标准与新的ACMG指南不同,因此,需要一种新的计算方法。ClassifyCNV在Python3环境中实现,可以在Linux、UNIX和Mac OS X上运行,需要BEDTools v.2.27.1或更高版本,同时支持GRCh37和GRCh38参考基因组。ClassifyCNV接受BED文件作为输入,并要求用户提供每个CNV的基因组坐标和类型(删除或复制)。ClassifyCNV不评估CNV本身的准确性,因为它是在CNV分析步骤中进行的。然后,该工具使用ACMG评分标准中描述的copy-number loss和gain来评估CNVs的临床意义。


ClassifyCNV输出一个制表符分隔的文件,可由下游分析中的另一个流程使用或由临床医生评估。对于每个变异ClassifyCNV报告临床分类、总点数、如何确定最终致病性评分的分类、CNV所包含的已创建和预测的剂量敏感基因的列表,以及CNV内所有蛋白质编码基因的列表。由于ACMG评分标准的某些部分需要临床医生手动评估,必要时可使用所提供的信息继续评估。我们使用相同的CNV组来评估ClassifyCNV在临床数据上的表现。ClinVar变异是从2019年之前发表的研究中获得的,因此在现行ACMG指南发布之前进行了分类。ClinVar和ClassifyCNV分类的比较见表1。
致病/可能致病变异和意义不确定的变异在原始ClinVar分类和ClassifyCNV结果之间具有高度的一致性(分别为57%和97.8%)。大多数良性变异被归类为意义不确定的变异16,687(87.7%)。为了评估ClassifyCNV分析与人工评估结果的一致性,我们获得了ACMG/ClinGen委员会使用新指南先前分类的114个变体的完整列表,在ACMG/ClinGen数据集中,人工分类结果由两名独立评估变异的评估者提供。我们将结果重新分组为4类:致病/可能致病、不确定意义、良性/可能良性和冲突(两位评价者意见不一致)。
对于81%的CNVs,ClassifyCNV结果与ACMG/ClinGen类别匹配(对于76%的CNVs,匹配是精确的,对于5%的ClassifyCNV,确定CNV可能是良性的或可能是致病的,而手动评估结果分别是良性的或致病的)。最后,我们将ClassifyCNV的性能与AnnotSV的性能进行了比较,AnnotSV是一个全面的注释工具,实现了ACMG标准的早期版本。为了比较这两种工具,我们使用了ACMG/ClinGen手动调整的114个变异,我们删除了ACMG/ClinGen分类冲突的变异,因为计算这些变异的敏感性、特异性和准确性是不可能的。我们使用默认设置的AnnotSV版本2.4和启用-标志的ClassifyCNV分析了剩余的84个CNV,以将CNV坐标视为精确的。两种工具的比较如表3所示。

与ClassifyCNV相比,AnnotSV在判定致病/可能致病的标准不那么保守。在84个变异中,AnnotSV判定72个是致病的/可能致病的,而ClassifyCNV的结果为15个,ACMG/ClinGen手动评估的结果为23个。AnnotSV对致病/可能致病变异(100% vs 60.9%)和良性/可能良性变异(37.5% vs 25%)显示出更高的灵敏度,但AnnotSV的特异性和准确性均较低。ClassifyCNV是第一个自动执行更新的ACMG指南对CNV进行分类的工具,它可以对变异进行快速和可靠的评估,并且适合于高通量分析。该工具可以很容易地整合到现有分析流程中,并可以加快CNV的评估,有助于减少诊断时间。根据新的ACMG指南的建议,在类别之间移动变异时,ClassifyCNV错误地倾向于谨慎。因此,如果没有令人信服的数据,CNV很可能仍然是一个不确定意义的变异。尽管临床医生可能需要对这些变异进行后续评估,但ClassifyCNV通过完成基因含量、剂量敏感性和群体频率的评估并输出感兴趣的基因列表,显著地加快了这一过程。