摘自 RECIST 1.1:
"The designation of overall progression solely on the basis of change in non-target disease in the face of SD or PR of target disease will therefore be extremely rare."(在靶病灶达到PR或SD的情况下,仅凭非靶病灶的变化来判定整体疾病进展,将是极为罕见的。)
极为罕见么?但凡真正做过肿瘤评估的人都知道,这件事压根不罕见,而且,每次出现,几乎都会引发争议。
一个让我们重新审视这件事的案例
几年前,我们参与了一项晚期乳腺癌的关键性III期注册试验。申办方在项目推进中反复提到同一个困惑:"相当数量的PFS删失案例,差异源自非靶病灶的判定。"
我们逐一复盘了所有不一致的病例,趋势很明显:
研究者的判定阈值更低。只要影像上能看到明显变化——肺结节增多、腋窝或纵隔淋巴结增大、肝转移灶散在增加——他们倾向于直接判PD。
BICR阅片者则更谨慎。多次在批注中提到,观察到肿瘤负荷有所增加,认为"尚未达到明确进展的标准",更倾向于等下一个访视再做判断。
这种系统性的判定差异,足以影响PFS事件数、删失率,乃至最终的结果。
问题出在哪里?
在技术交流中,申办方有时会直接向BICR供应商提问:对于非靶病灶的疾病进展,你们有没有一套标准?
这说明大家都知道问题的痛点在哪里:非靶病灶的评估,天然缺乏标准。
靶病灶有测量值,可以算百分比,可以卡 20% 的阈值。非靶病灶不一样——RECIST一个“明确进展(unequivocal progression)”留下了大篇的主观判读空间。
有人把“明确进展”读成“显著进展”——变化要够大,才算达标。另一些人则明确反对:significant和unequivocal在英文里是两个不同的词,RECIST用的是unequivocal,意思是“毫无疑义”,而不是“幅度够大”。按这种理解,只要变化清晰可辨、无法归因于技术误差,就已经满足标准,不需要等到“够显著”。
更深的问题在于:RECIST自己也意识到“明确”这个词不够用,于是补充了一段解释——"To achieve 'unequivocal progression' there must be an overall level of substantial worsening in non-target disease that is of a magnitude that, even in the presence of SD or PR in target disease, the treating physician would feel it important to change therapy."
换句话说,非靶病灶的进展,要达到"即使靶病灶在缓解,主治医生也觉得必须换药"的程度,才算明确。
但这等于用一个主观判断来解释另一个主观判断。什么情况下"需要换药"?这又是一个没有标准的主观判断。
在这个模糊地带里,阅片者只能依赖各自认为更合理的评估框架。
一种视角,“功过相抵”,可以理解为整体瘤负荷视角。靶病灶大幅缩小,非靶病灶有所增大——持这种观点的人会把全身肿瘤负荷作为整体来看:此消彼长之下,受试者仍然处于治疗获益的状态,没有换药的必要,不应判为PD。这和靶病灶评估的逻辑一脉相承——靶病灶本来就是把所有病灶直径加总计算,一个缩小、一个增大,最终可能仍然是PR。
另一种视角,则接近"一票否决"逻辑。某处病灶在明显增大,本身就是一个信号:那部分肿瘤对治疗不敏感,甚至可能正在耐药。哪怕靶病灶缓解明显,这种增大也不该被"抵消"。持这种观点的人会问:在临床上,如果某处病灶持续增大,提示肿瘤已对当前方案不敏感,难道我们要向患者解释——"虽然有个别病灶在增大,但整体还是缓解的,等它再大一点,我们再考虑换药"?这和新病灶的判定逻辑类似——只要出现新病灶,无论其他病灶表现如何,一律视作PD。支持这个视角的人认为,非靶病灶的明显增大,应当被赋予同等性质的警示意义。
两种观点都有内在逻辑,也都有批评者。反对"一票否决"的人说这和整体评估的逻辑体系不匹配;反对"整体视角"的人则认为,忽视局部耐药信号,可能掩盖真实的临床风险。
目前我们并不知道哪一种判定策略,和患者的真实生存预后更相符。这其实是一种无奈——在这个定义本身就模糊的前提下,我们没有足够的证据去说哪个框架更"正确"。如果条件允许,或许可以利用已有的OS数据做一个回溯性验证:究竟哪一种判定策略,最终与生存曲线的走势更为吻合?当然,这是后话了。
阅片者之间的分歧,有时候不是"谁执行得更规范"的问题——而是在一个答案尚不明确的问题上,每个人都在用自己认为更合理的框架作判断。
Charter能解决这个问题吗?
部分能,但不够。
在大多数默认情况下,BICR的Charter模板会直接引用RECIST 1.1原文——这是一种风险规避策略:照搬原文,就不存在"偏离标准"的风险。等到执行的时候,“相信阅片人的经验”,之后放任不管。
如果一个统一的标准目前并不存在。我们能做的,是在模糊的框架下尽可能提供清晰的指导。
比如,在Charter制定阶段就明确本项试验采用的评估逻辑:非靶病灶的增大,是要导致靶病灶与非靶病灶合计的整体瘤负荷出现明确增加才触发PD?还是只要某一枚或某一组非靶病灶出现增大,即视为进展?对于特定转移部位——比如脑转移灶,是否约定"直径倍增"作为判定阈值?这些在临床实践中约定俗成的做法,都值得在Charter里明确写出来。
有指导框架,总比把那句和现实脱节的"极为罕见"原文照搬过去强。既然没有明确的谁对谁错,那就先定下一个方向。
这个框架,可能是在Charter制定阶段就已经讨论落实的;也可能是阅片进行到一定程度,发现事先没有清晰约定的地方,认为有必要在这一点上进行细化——这同样是值得鼓励的做法,比让问题继续悬着强得多。
我们非常鼓励一项试验中的各方——研究者、申办方医学团队、BICR的医学团队——共同参与Charter的制定。每一方带着不同的视角和经验,在制定阶段对齐,远比上线后再处理大批不一致病例有效得多。
培训材料是另一个常被低估的工具。尤其在III期注册试验中,通常已经积累了来自I/II期的早期影像数据。在双方研究医生的支持下,项目团队可以预先筛选真实病例,构建一套"判定参考图谱"——哪些情况应该判PD,哪些不应该,用真实案例划定边界。这套图谱不是在替阅片者做决定,而是在统一大家对"明确"这两个字的理解。
你的试验,各方是在一起讨论过这个框架,还是“各评各的”?
应对措施
遇到非靶病灶判定不一致,有一种最省事的处理方式:"这属于阅片者的主观判断,我们需要尊重读片独立性。"这句话说起来无懈可击,但它什么问题都没有解决。
独立性保护的是阅片者不受外部干预,不是让不一致永远悬在那里无人处理。如果把"尊重独立性"当作回避质量管理的挡箭牌,结果只有一个:每位阅片者继续按自己的理解判,你判你的,我判我的,PFS事件数的差距像雪球一样越滚越大。
在那个乳腺癌试验中,面对反复出现的淋巴结和肝转移评估差异,我们把案例整理成两类:双方项目团队建议判为非靶病灶PD的,和建议不判的。然后把这批案例作为补充培训材料发回给阅片者。
这不是在干预阅片者的判断:既往的评估盖棺定论,指导的是后续案例的评估——让每个人下次遇到类似病例时,心里有一把共同校准过的尺子。
回头看那个试验,幸好是在项目推进中申办方就提出了这个问题。发现得早,还有机会介入、纠正、补充培训。如果等到最终分析的时候再来"算总账",数据已经定了,那时候我们能做的,基本上只剩下解释。
如果你现在正在监查一项试验,你会等项目进展到什么程度,才开始介入?
真正的风险,是不知道问题已经存在
非靶病灶疾病进展,不是肿瘤评估里无关紧要的边角料——极为罕见?“大人,时代变了”。
差异本身是难以避免的。但如果没有双方共同努力,这些差异会在整个试验周期里安静地累积。
我们的经验是:共同约定的框架、源于前期试验的指导案例、贯穿试验全程的反馈机制——这些才是限定“非靶病灶主观评价”的基本配置。
如果今天让你审查一下正在推进的试验,你觉得各位评估者,对"明确进展"这四个字的理解,是一致的吗?

