MERIT CRO 迈睿 | 全球专业影像服务提供商_中心影像阅片

很多团队在遇到这类问题时，最先关心的往往是几个具体问题：

l 什么原因会导致评估差异？

l 评估差异的比例有多少？

l 递交注册的数据，究竟能接受多大比例的不一致？

这些问题都很合理，也确实值得被反复讨论。

我们曾接到一位申办方的咨询讨论，他们对一家传统IRC供应商交付的Ⅲ期结直肠癌研究阅片结果存在疑问，在复盘的过程中，我们逐渐意识到：如果讨论止步于这些疑问，真正的问题反而会被绕开。

申办方的困惑：为什么PD总是“对不上”？

事情的起点，其实并不复杂。

在这项III期结直肠癌研究中，申办方注意到一个反复出现的现象：研究者已经判定疾病进展（PD），但IRC的评估却并未给出PD结论。这种情况在多个受试者中反复出现。对申办方而言，这不仅仅是一个“差异比例”的问题，而是直接关系到PFS事件的数量以及后续监管核查时的问题解释。于是，这个问题被正式抛给了IRC供应商。

传统IRC的回应：从“质控报告”看，评估没有问题

面对申办方的质疑，传统IRC供应商给出的解释路径，其实非常典型。他们拿出了质控报告：

l 阅片人自身一致性在正常范围

l 阅片人组间一致性没有异常

l 仲裁接受率表现良好

l 从质控报告来看，流程合规、阅片质量稳定

基于这些数据，结论也随之而来：“从评估质量和一致性角度看，阅片本身不存在问题。”如果只站在流程管理和合规的角度，这样的回应并不算敷衍。但这些数字，始终回答不了一个最关键的问题：为什么评估结论反复偏离？直到我们做了一件很“笨”、却很关键的事——放下报表，直接回到病例本身。

当我们真正打开影像，问题才第一次变得清楚

逐例、逐访视地复盘影像后，一些此前完全被数字掩盖的模式开始浮现：

l 方案和评估章程中，并未明确结直肠空腔脏器内原发灶是否可作为靶病灶，全凭每个评估者自行把握

l 在多发肝转移或多发腹膜后淋巴结受累的场景下，IRC阅片人系统性地对非靶病灶PD判定倾向于“再等一等”

如果只从“是否符合既有规则”来看，IRC的评估本身，很难说是“错的”。阅片人并没有明显违反规则，判读路径在逻辑上也是自洽的。与此同时，研究者频繁提前判定PD，也并非毫无依据。这时，问题开始显露出不同的面貌。

那些“我们都很熟”的评估差异来源

如果只从结果层面回看，评估差异往往集中在一些看似“经典”的地方：

l 原发灶是否适合作为靶病灶

l 不同评估者对“明确进展”的理解差异

l 新病灶的鉴别

这些内容，几乎每一个接触过IRC的人都不陌生。也正因为如此，很多讨论到这里就停下了。仿佛只要把这些“差异来源”列出来，问题就已经被解释完了。而如果这篇文章只是简单“把差异来源列出来”，我们就只是在泛泛而谈，并没有触及问题的核心本身。

一个后来怎么想都觉得“很奇怪”的问题

当我们通过病例分析把问题拆清楚之后，接下来的处理路径反而非常顺理成章：把评估差异一条一条列出来，看它们是不是集中在某几类判断上。再回头检查，是不是判断逻辑本身就不够清楚。这套思路并不复杂，甚至可以说是非常基础。几乎所有做过研究、做过分析的人，都知道该这么干。这时候，我们有没有问过自己一个问题：既然大家都知道，问题只能通过看具体评估案例才能被真正识别，为什么在最初的讨论中，所有人却都围着那些根本解释不了问题的“质控报告”统计数字打转？

为什么我们总是先抱着“质控报告”，而不是看案例？

真相是：这不是能力问题，而是一种集体回避。回头看，会发现这几乎是一种行业惯性。在现实中，大家更习惯依赖的是抽象的总结报告、各类分析数据报表和可量化指标。它们有数字、有图表、好汇报、好管理，是一个交代，一个给申办方、给监管方的交代，然而，这是给我们自己的一个交代吗？相比之下，基于案例的分析，看起来不那么“正式规范”，不好做成一页PPT来汇报，也更依赖医学专业能力。于是，这条真正有效的分析路径，被习惯性地推迟到了“问题已经很明显之后”。

另一个更省事的解释：把问题归结为“阅片人不行”

在这个过程中，还有一个几乎条件反射式的反应：把责任归结到阅片人身上。阅片经验不够？培训不到位？我要更资深的阅片人来进行阅片！但回过头看案例本身：如果这是个体能力问题，反而不应该稳定、重复地出现同类偏差。现实是，传统IRC供应商并不是选错了人，而是在缺乏专业判断能力的情况下，不得不依赖阅片人的专业判断，把风险整体外包给阅片人。

影像研究医生真正补上了什么缺口？

回过头看这份III期结直肠癌研究，真正带来变化的，并不是新增了多少质控指标，也不是“换一批更厉害的阅片人”。而是这个显而易见的分析问题的过程，是影像研究医生开始开始承担那些长期被空置的医学责任，从案例中发现了那些长期被忽略的、 “默认交给阅片人专业判断”的环节：

l 把判断责任前置，而不是外包：哪类病灶存在选取和测量争议的特点

l 用真实案例校准理解：早期病例中，是否已经出现判断尺度不一的信号

l 锚定判断框架：有没有客观的评估错误存在，有没有偏离预期评估尺度的行为出现

这一步，本质上是在做一件非常朴素、却长期没人承担的事情：让影像阅片质量本身，由IRC自己人负责。

写在最后

如果回头看整个过程，会发现一个并不舒服的现实：所有人都知道，问题最终只能通过看案例来解决。但在问题真正暴露之前，大家却都更愿意依赖那些解释不了问题的数字。评估差异并不可怕，可怕的是我们明明知道该怎么分析，却始终回避那条最直接、也最有效的路径。而这，才是很多试验评估风险反复失控的真正原因。

研究者与IRC之间的评估差异，并不是被“制造”出来的，而是在我们明明知道该如何分析、却选择不去分析的过程中，被一步步“放任”出来的。

请介绍您的项目

订阅MERIT

关注公众号

© 2022 MERIT CRO, Inc. All Rights Reserved. DESIGN BY : WEETOP 浙ICP备19052162号-2 浙公网安备 33042402000447号

© 2022 MERIT CRO, Inc. All Rights Reserved. DESIGN BY : WEETOP

浙ICP备19052162号-2 浙公网安备 33042402000447号