很多团队在遇到这类问题时,最先关心的往往是几个具体问题:
l 什么原因会导致评估差异?
l 评估差异的比例有多少?
l 递交注册的数据,究竟能接受多大比例的不一致?
这些问题都很合理,也确实值得被反复讨论。
我们曾接到一位申办方的咨询讨论,他们对一家传统IRC供应商交付的Ⅲ期结直肠癌研究阅片结果存在疑问,在复盘的过程中,我们逐渐意识到:如果讨论止步于这些疑问,真正的问题反而会被绕开。
申办方的困惑:为什么PD总是“对不上”?
事情的起点,其实并不复杂。
在这项III期结直肠癌研究中,申办方注意到一个反复出现的现象:研究者已经判定疾病进展(PD),但IRC的评估却并未给出PD结论。这种情况在多个受试者中反复出现。对申办方而言,这不仅仅是一个“差异比例”的问题,而是直接关系到PFS事件的数量以及后续监管核查时的问题解释。于是,这个问题被正式抛给了IRC供应商。
传统IRC的回应:从“质控报告”看,评估没有问题
面对申办方的质疑,传统IRC供应商给出的解释路径,其实非常典型。他们拿出了质控报告:
l 阅片人自身一致性在正常范围
l 阅片人组间一致性没有异常
l 仲裁接受率表现良好
l 从质控报告来看,流程合规、阅片质量稳定
基于这些数据,结论也随之而来:“从评估质量和一致性角度看,阅片本身不存在问题。”如果只站在流程管理和合规的角度,这样的回应并不算敷衍。但这些数字,始终回答不了一个最关键的问题:为什么评估结论反复偏离?直到我们做了一件很“笨”、却很关键的事——放下报表,直接回到病例本身。
当我们真正打开影像,问题才第一次变得清楚
逐例、逐访视地复盘影像后,一些此前完全被数字掩盖的模式开始浮现:
l 方案和评估章程中,并未明确结直肠空腔脏器内原发灶是否可作为靶病灶,全凭每个评估者自行把握
l 在多发肝转移或多发腹膜后淋巴结受累的场景下,IRC阅片人系统性地对非靶病灶PD判定倾向于“再等一等”
如果只从“是否符合既有规则”来看,IRC的评估本身,很难说是“错的”。阅片人并没有明显违反规则,判读路径在逻辑上也是自洽的。与此同时,研究者频繁提前判定PD,也并非毫无依据。这时,问题开始显露出不同的面貌。
那些“我们都很熟”的评估差异来源
如果只从结果层面回看,评估差异往往集中在一些看似“经典”的地方:
l 原发灶是否适合作为靶病灶
l 不同评估者对“明确进展”的理解差异
l 新病灶的鉴别
这些内容,几乎每一个接触过IRC的人都不陌生。也正因为如此,很多讨论到这里就停下了。仿佛只要把这些“差异来源”列出来,问题就已经被解释完了。而如果这篇文章只是简单“把差异来源列出来”,我们就只是在泛泛而谈,并没有触及问题的核心本身。
一个后来怎么想都觉得“很奇怪”的问题
当我们通过病例分析把问题拆清楚之后,接下来的处理路径反而非常顺理成章:把评估差异一条一条列出来,看它们是不是集中在某几类判断上。再回头检查,是不是判断逻辑本身就不够清楚。这套思路并不复杂,甚至可以说是非常基础。几乎所有做过研究、做过分析的人,都知道该这么干。这时候,我们有没有问过自己一个问题:既然大家都知道,问题只能通过看具体评估案例才能被真正识别,为什么在最初的讨论中,所有人却都围着那些根本解释不了问题的“质控报告”统计数字打转?
为什么我们总是先抱着“质控报告”,而不是看案例?
真相是:这不是能力问题,而是一种集体回避。回头看,会发现这几乎是一种行业惯性。在现实中,大家更习惯依赖的是抽象的总结报告、各类分析数据报表和可量化指标。它们有数字、有图表、好汇报、好管理,是一个交代,一个给申办方、给监管方的交代,然而,这是给我们自己的一个交代吗?相比之下,基于案例的分析,看起来不那么“正式规范”,不好做成一页PPT来汇报,也更依赖医学专业能力。于是,这条真正有效的分析路径,被习惯性地推迟到了“问题已经很明显之后”。
另一个更省事的解释:把问题归结为“阅片人不行”
在这个过程中,还有一个几乎条件反射式的反应:把责任归结到阅片人身上。阅片经验不够?培训不到位?我要更资深的阅片人来进行阅片!但回过头看案例本身:如果这是个体能力问题,反而不应该稳定、重复地出现同类偏差。现实是,传统IRC供应商并不是选错了人,而是在缺乏专业判断能力的情况下,不得不依赖阅片人的专业判断,把风险整体外包给阅片人。
影像研究医生真正补上了什么缺口?
回过头看这份III期结直肠癌研究,真正带来变化的,并不是新增了多少质控指标,也不是“换一批更厉害的阅片人”。而是这个显而易见的分析问题的过程,是影像研究医生开始开始承担那些长期被空置的医学责任,从案例中发现了那些长期被忽略的、 “默认交给阅片人专业判断”的环节:
l 把判断责任前置,而不是外包:哪类病灶存在选取和测量争议的特点
l 用真实案例校准理解:早期病例中,是否已经出现判断尺度不一的信号
l 锚定判断框架:有没有客观的评估错误存在,有没有偏离预期评估尺度的行为出现
这一步,本质上是在做一件非常朴素、却长期没人承担的事情:让影像阅片质量本身,由IRC自己人负责。
写在最后
如果回头看整个过程,会发现一个并不舒服的现实:所有人都知道,问题最终只能通过看案例来解决。但在问题真正暴露之前,大家却都更愿意依赖那些解释不了问题的数字。评估差异并不可怕,可怕的是我们明明知道该怎么分析,却始终回避那条最直接、也最有效的路径。而这,才是很多试验评估风险反复失控的真正原因。
研究者与IRC之间的评估差异,并不是被“制造”出来的,而是在我们明明知道该如何分析、却选择不去分析的过程中,被一步步“放任”出来的。

