收藏实体瘤疗效评价标准RECIST(11版)
发布时间: 2024-08-19作者: 行业新闻
指南修订的原则是,明确指南的标准应当适用于所有的临床试验,而这些试验是以解剖学上对肿瘤有效或进展的评估为终点的。
评价肿瘤负荷的改变是癌症治疗的临床评价的一个重要特征。肿瘤缩小(客观反应)和疾病进展的时间都是癌症临床试验中的重要端点。为了筛查新的抗肿瘤药物,肿瘤缩小作为II期试验端点被多年研究的证据所支持。这些研究提示对于多种实体肿瘤来说,促使部分病人肿瘤缩小的药物以后都可能会(尽管不完美)被证实可提高病人的总体生存期或在随机Ⅲ期试验中有进入事件评价的其他机会。目前在Ⅱ期筛查试验中评价治疗效果的指标中,客观反应比任何其他生物标记更可靠。而且,在Ⅱ和Ⅲ期药物试验中,进展期疾病中的临床试验正越来越利用疾病进展的时间(无进展生存)作为得出有治疗效果结论的端点,而这些也是建立在肿瘤大小的基础上。
然而这些肿瘤端点、客观反应和疾病进展时间,只有建立在以肿瘤负荷解剖学基础上的广泛接受和容易使用的标准准则上才有价值。1981年世界卫生组织(WHO)首次出版了肿瘤反应标准,大多数都用在肿瘤反应是主要终点的试验中。WHO标准经过测量病变二维大小并进行合计介绍了肿瘤负荷总体评价的概念,通过评价治疗期间基线的改变而判断治疗的反应。然而,在该标准出版后的十几年中,使用该标准的协作组和制药公司通常对其做修改以适应新的技术或在原始文献中提出了不清楚的地方,这就导致了试验结果解释的混乱。事实上,各种反应标准的应用导致同一种治疗方法的治疗效果大相径庭。对这样一些问题的反应是国际工作组于19世纪中期形成,并对反应标准做了标准化和简化。新的标准,也称为RECIST(实体肿瘤的反应评价标准)于2000年出版。最初的TECIST关键特征包括病变最小大小的确定、对随访病变数目的建议(最多10个;每个器官最大5个)、一维而不是二维的使用、肿瘤负荷的总体评价。这些标准后来被学术团体、协作组和制药工业广泛采用,而该标准的最初端点就是客观反应或疾病进展。另外,当局接受RECIST作为这些评价的合适的标准。
自从2000年出版RECIST后,许多研究者在前瞻性研究中证实将以二维测量为基础的标准(甚至是三维测量)替换为一维测量的有效性。但也有例外(如间皮瘤),一维测量标准似乎在实体肿瘤Ⅱ期试验中更好。
然而大量问题慢慢的出现需要回答和阐明。如在不影响病人总体预定反应(或试验结束)情况下是否要超过10人才能评估?在随机Ⅲ期试验中,特别当病人没有可测量的病变,而疾病进展,无反应作为主要的端点时,如何应用RECIST?是否或怎样利用新的影像学技术如FDG-PET和MRI?如何评价淋巴结?要不要确认治疗反应?RECIST在靶向非细胞毒性药物试验中的最大适合使用的范围。RECIST标准的修改包括所有这样一些问题的更新。
RECIST工作组,是由来自于学术研究机构、政府和制药企业的早期药物开发的有经验的临床医生、影像学专家和统计学家组成,他们为RECIST更新定期举行会议,确定对种种变化要不要做出调整和复习新出现的证据。修订过程中一个最重要的方面是建立一个回顾性的数据库,该数据库的资料来自于工业和学术协作组试验中获得的实体肿瘤有关数据。这个数据库在Jan Bogaerts和Patrick Therasse领导下,在EORTC资料中心完成的。该数据库有6500病人,病变器官18000个,被用来调查很多问题(如需要病变的数量、治疗反应确认的需要性,淋巴结测量规则)对治疗反应和无疾病进展生存期的影响。这项工作的结果是由RECIST工作组做出评价后在修改的指南中发生了较大变动,并且在这个专期中做出了具体报道。Larry Schwartz and Robert Ford(该指南的共同作者)也提供了来自于推理的关键的数据库,这些数据库形成了这项修改。
这个修改指南的出版被认为是及时的,因为它将各种变化进行了简化、完美化,使临床试验的肿瘤负荷的评价标准化。关键的变动鉴于附录Ⅰ。由于基本的评价方法仍然是解剖,而不是功能上的,因此我们将这个版本命名为RECIST1.1而不是2.0.
这就提出了一个问题即是不是能够将肿瘤负荷的解剖的一维评价转变为体积评价或功能评价(如动态对比增强MRI或CT或FDG-PET评价肿瘤代谢)。正如大家看到的,工作组特别是那些从事影像学研究者,相信目前还没有完全的标准化和这些推荐的替代评价方法还不能大范围的应用。正如指南后面描述的,唯一的例外是FDG-PET作为确定疾病进展的辅助工具。根据此专期的介绍,我们始终相信这些有希望的新的方法(如RECIST描述中的增加或替代解剖评价)需要适当的和严格的临床评价。Sargent等的文章表明那些将需要确定这些形式的“端点”的资料类型,怎么样确定这些标准/形式的地点和时间以提高其可靠性,以至于在Ⅱ期筛查试验中通过与RECIST标准比较,确定那些为有活性的新的药物,而哪些不是。RECIST工作组期望明年出现这样的资料,允许在下一版的RECIST标准中做出适当的变动。
该指南描述了一个实体瘤测量和成人、小儿癌症的临床试验中肿瘤大小变化客观评估的规定的标准做法。预计这些标准将有效用于所有以客观响应为主要的研究终点的试验,以及承担稳定疾病评估、肿瘤进展或进展时间分析的试验,因为所有治疗效果的衡量都是基于研究中解剖学肿瘤负荷及其变化的评估。本文中对于达到相应标准-表明试剂或治疗方案有非消极作用的终点-的患者的比例没有一点假设:这些定义依赖于试验中癌症的类型以及正在研究中的特殊试剂。协议必须包括适当的统计学章节,介绍如何以实验样本大小和决策标准为基础来界定疗效参数。除了为肿瘤反应评估提供定义和标准外,这一指南也为以肿瘤反应为终点的试验推荐了标准的研究结果报告。
尽管这些指南可用于恶性脑肿瘤的研究,在这一领域关于响应的评估已有单独的标准出版[13]。由于淋巴瘤反应评估的国际准则也已单独出版[14],这一指南不用于恶性淋巴瘤的研究。
最后,许多肿瘤学家在他们日常的临床实践中依靠多次成像研究来跟踪病人的恶性疾病,并在客观和症状双重标准的基础上决定进一步的治疗方案。只有在治疗的肿瘤学专家判断合理时,这些RECIST指南才会在决策中起到重要作用。
肿瘤性病变:至少有一个不小于(仪器检测)低限的尺寸(测量仪器上最长的直径将被记录下来)必须精准测量:
• 10毫米用CT扫描(CT扫描层厚度不大于5毫米;见成像指南附录II)。
•临床检验10毫米用卡尺测量(不能用卡尺准确测量的病变,应记录为不可测量的)。
恶性淋巴结:当用CT扫描(CT扫描层厚度建议不大于5毫米)来评估时,淋巴结短轴一定要达到15mm才可将其认为是病理扩大和可测量的。术前和后续工作中,只测量并跟踪短轴长度(见特别问题15中施瓦茨等)。还可从“目标与非目标病灶术前文件”下的注解获取淋巴结测量方面的资料。
其他所有病变,包括小病灶(最长直径小于10毫米或病理淋巴结短轴为10毫米到小于15毫米的)以及真正的不可测病变。视为真正不可测的病变包括:理学检查确定的脑膜疾病、腹水、胸膜或心包积液、炎症乳腺疾病、淋巴管参与的皮肤或肺部、腹部肿块/腹部器官巨大症,这些都是用重现成像技术没办法测量的。
•在测量骨病变方面,骨骼扫描、PET扫瞄或平片被视为不充分的成像技术。但是,这些技术能用来确认骨病变的存在或消失。
•如果软组织部分符合上述可测量性定义的话,带有可识别软组织的溶解骨病变或溶解-急性混合病变能够最终靠CT或MRI等交叉成像技术做评估时,它们可被视为可测性病变。
•符合X线定义的简单囊肿标准的病变不应视为恶性病变(既非可测量的,也非不可测量的),因为根据其定义,它们是简单的囊肿。
•被认为囊性转移的“囊性病变”可视为可测量病变,只要是符合上述可测量的定义。但是,如果同一患者体内存在非囊性病变,这些就会被选定为目标病灶。
•位于先前照射区或受到其他局部治疗的部位的肿瘤病灶,通常不被视为可测量的,除非已证明病变仍在继续。研究议定书应详细说明在何种条件下这种病变将被视为可测量的。
临床评估用测径器(卡尺)测量,所有测量用米制为单位记录。所有基线评估必须尽可能在接近治疗开始前进行,不能早于四周。
在评价同一个病灶时,基线和随诊应使用同样的技术和方法。除只能用临床检查评估不适用影像检测外,病灶一定要采用影像检测评价,不要单纯采用临床检查。
临床检查病灶:只有在10mm以下的表浅病灶(如皮下小结)考虑使用测径器来进行临床检测。皮肤表浅病灶建议使用彩色照片记录,照片附上测量病灶大小的比例尺。如前所述,当病灶既可用临床检测也可用影像学检查时,由于影像学更客观并可用来医治后研究终点的回顾,应该进行影像学检查。
胸部X片:胸片和胸部CT测量病灶,因为CT在发现新病灶等方面比较X片更敏感,优先选用CT扫描,特别在重要的治疗终点时。当然,肺实质中边界清楚的病灶也可使用胸片检测。详见附录二。
CT,MRI:CT是目前用来评估病灶疗效最有效和重复性最好的检测的新方法。指南定义可测量病灶用CT扫描基于层厚不超过5mm。如附录二所示,当CT层厚超过5mm,可测量病灶最小应是层厚的两倍。MRI在某也情况下也可使用(如全身扫描)。更多关于使用CT和MRI检测实体瘤评估疗效的意见见附录II。
超声检查:超声检查不适用于评估病灶大小,不应用于测量方法。超声检查在两次相邻的观察间不能完全再现,而且结果依赖于检查者,从一次检测到下一次,不能确保相同的技术和测量结果(详见附录二)。如果在研究过程中通过超声发现新的病灶,建议用CT或MRI验证。如果顾虑CT的射线照射,可用MRI代替来检测待检病灶。
内镜、腹腔镜:不建议用这些技术评估实体瘤。不过,他们在用活检证实完全的病理学缓解或确定完全缓解或手术切除后的再发时是有益的。
肿瘤标志:肿瘤标记物不能单独用于评估实体瘤疗效。然而,肿瘤标记物开始高于正常上限时,如果用来判断病人完全缓解,标记物必须标准化。因为肿瘤标志具有疾病特异性,测量技术
明应该标注于对于某一特殊疾病基线检测的记录。关于CA-125变化(在卵巢癌复发)和PSA变化(在前列腺癌复发)的特别指南已经出版,见[16]、[17]、[18]。此外,妇科肿瘤国际组(Intergroup)制订了CA125用于实体瘤评估的标准,首先试验性用于卵巢癌[19]。
细胞学、组织学:必要时这些技术可用于个别病例来区分部分缓解和完全缓解,(比如在鉴定残存病灶的肿瘤类型时,实例如生殖细胞肿瘤已知残存良性瘤病灶是可以保留的需要区分良、恶性病灶)。当已知治疗中渗出液有几率发生严重不良后果(如某些紫杉醇类化疗药或血管生成抑制剂),即使可测量肿瘤符合有效或稳定的标准,在治疗过程中出现的以及恶化的任何渗出液都需要仔细考虑用细胞学证实其肿瘤性质,以区分可评价肿瘤的疗效是有效、稳定(无效)还是进展。
为评价客观缓解或未来可能的进展,有必要对所有肿瘤病灶肿瘤的总负荷进行基线评估,为后面的测量结果作参照。在以客观缓解作为主要治疗终点的临床方案中,只有在基线时具有可测量病灶的患者才能入选。可测量病灶定义为存在至少一处可测量的病灶。而对那些以疾病进展(疾病进展时间或固定日期进展程度)为主要治疗终点的试验,方案入选标准中必须明确是仅限于有可测量病灶的患者,还是没有可测量病灶也可以入选。
基线评估时有超过一个以上可测量病灶时,应记录并测量所有病灶,总数不超过5个(每个器官不超过2个),作为靶病灶代表所有累及器官(也就是说只有一个或两个累计器官的患者最多选择两个或四个靶病灶作为基线测量病灶)。
靶病灶必须基于尺寸做出合理的选择(最长直径),能代表所有累及器官,且测量一定要有良好的重复性。有时候当最大的病灶不能重复测量时可重新选择一个可重复测量的最大病灶。
淋巴结因其为正常组织且即使没有肿瘤转移仍可为影像察觉而需要非常关注。定义为可测量结节甚至是靶病灶的病理性淋巴结一定要符合以下标准:CT测量短直径≥15 mm。基线只需要检测短直径。放射学家通常借助结节的短直径来判断该结节是否已有肿瘤转移。结节尺寸一般用影像检测的两维数据来表示(CT用轴平面,MRI则从轴面、矢状面或冠状面中选择一个平面)。取最小值即为短直径。例如,一个20 mm× 30 mm的腹部结节短直径为20 mm,可视为恶性的、可测量的结节。在这个例子中,20 mm即是结节的测量值。直径≥10 mm 但15 mm的结节不应该视为靶病灶。而10 mm的结节则不属于病理结节范畴,不必予以记录和进一步观察。
所有靶病灶的直径经过计算所求之和(包括非结节病灶的最长直径和结节病灶的短直径)将作为基线直径总和上报。如含有淋巴结直径,如上面提到的,只将短直径计算在内。基线直径总和将作为疾病基线水平的参考数值。
其余所有的病灶包括病理淋巴结可视为非靶病灶,无需做测量,但应在基线评估时进行记录。如记录为“存在”,“缺失”或极少数情况下“明确进展”。广泛存在的靶病灶可与靶器官记录在一起(如大量扩增骨盆淋巴结或大规模肝转移)。
所有目标病灶消失,任何病理性淋巴结(无论是不是为目标病灶)的短轴值必须10 mm
以所研究(目标病灶半径)的总和最小值为参照(包括最小值等于临界值的情况),所有目标病灶半径的总和至少增加20%,另外,半径总和增加的绝对值还必须大于5mm(注:出现新的病灶也可认为是恶化)
以所研究(目标病灶半径)的总和最小值为参照,既达不到缓减标准、也达不到恶化标准者。
若目标病灶为淋巴结时需经常测量并记录其实际的短轴值(作为基准检测时必须测量同一条长径),尽管所研究的淋巴结消退至10mm以下。这在某种程度上预示着当目标病灶为淋巴结时,目标病灶半径的和不会是0,即使达到了治愈的标准,因为短轴值10mm span=的淋巴结被定义为正常淋巴结。病例报告表或其它资料收集方法可能在设计时需单独记录结节性目标病灶以判断是否治愈,因每个结节都一定要达到短轴值10mm span=。而在判断缓减、稳定和恶化时,结节的实际短轴值将包括在目标病灶(半径)的总和中。
研究中以临界值记录的所有病灶(结节性的和非结节性的)都必须在随后的评估中记录它们的实际测量值,尽管很小很小(如2mm)。但是,有时候病灶或淋巴结以临界值记录时因为在CT扫描时信号太弱,放射科医生可能不太乐意给出一个精确的测量值,而是报告为“太小而不能测量”。
出现这样的一种情况时在病例报告表中记下一个测量值是很重要的。如果放射科医生认为病灶可能会消失,测量值可记为0mm。如果病灶确实存在而信号又太弱,可记录为默认值5mm(这条规则不太适合淋巴结,因为正常淋巴结的大小有一个明确的值且经常被脂肪组织包裹,如腹膜后腔的淋巴结;但是,若淋巴结确实存在但信号又太弱而不好测量时,同样可记录为默认值5mm)。
默认值5mm来源于CT扫描断层的厚度(若此厚度有改变,默认值5mm还是不宜改变)。这种(太小而不能测量)病灶的测量值可能缺乏重复性,给出一个默认值可防止测量错误时评估为假治愈或假恶化。再次强调的是,如果放射科医生能给出一个实际测量值,哪怕是小于5mm,也应该记录下来。
按照附录II的注释,当非结节性病灶“碎裂”时,所有碎片的最长半径必须加在一起用来计算病灶(半径)的总和。同样,当病灶融合时,它们之间的长径可被保留,这样有助于获得合并前各病灶的最大半径值。如果病灶完全融合而不再彼此分离,这样的一种情况下半径最长者的测量值就是融合病灶的半径值。
4.3.3.非目标病灶的评估本节为非目标病灶组定义用来确定肿瘤疗效的标准。当某些非目标病灶事实上可测量时,在实验程序的特殊时间点可不需测量而只需定性。
所有非目标病灶消失且肿瘤标记物的水平正常化。所有淋巴结在大小上必需是非病理性的(即短轴值小于10mm)
存在非目标病灶的明确恶化,请见下面的评论。(注:出现一个或多个新病灶也被认为是恶化)
此时,要根据非目标疾病来判断是不是达到“明确恶化”的标准,还需非目标疾病实质性恶化的总水平(即使目标疾病被判断为稳定或缓减)。这样,总的肿瘤负荷增加到需中断治疗(请见附录II中的实例和下面的进一步讨论)。一个或多个非目标病灶在体积上稍微增加一般不足以达到“明确恶化”,当目标疾病评定为稳定或缓减时单独根据非目标疾病的变化就判定为总体恶化的情况是极其罕见的。
这样的情况出现于某些III期临床试验中所研究的疾病不适合测量,前面也已经提到了这一概念,但是在这一情况下没有可测量疾病的评估值可分解以解释不可测量疾病的负荷增加。因为当非目标疾病的恶化很难定量(根据定义:假设所有的病灶确确实实都是不可测量的)时,要判定病人为明确恶化需考虑不可测量疾病的变化导致疾病总负荷的增加量是否在强度方面与可测量疾病判定为恶化所需的增加量具有可比性,比如(不可测量病灶)体积增加73%导致肿瘤负荷的增加量相当于可测量病灶半径增加20%所导致的肿瘤负荷增加量。同样的例子还包括胸腔积液从“少量”到“大量”,淋巴管病从局限到播散,或者在实验记录中被描述为“需调整治疗方案”。某些例子的解释请见附录II的图-5和图-6。若“明确恶化”很明显时,病人可评定为总体恶化。不要期望不可测量疾病有适用的客观评估标准,因为正是这一疾病的本质使其不可能,所以增加量必须是实质性的。
新的恶性病灶的出现意味着病情的恶化,所以讨论一下新病灶的检测是很重要的。因没有专门的标准来鉴定X光片上的新病灶,所以新病灶的指征必须非常明确,比如不能怀疑为扫描技术的差异、显像模式的变化或倾向于是非肿瘤的(如某些“新的”骨损害灶可能仅仅是先前就存在的病灶在愈合或突现)。这一点在当病人的临界性病灶表现为缓减或治愈时尤其重要。例如:肝脏病灶的坏死可能被CT扫描报告为“新的囊性病灶”,实际上不是。
在基准扫描中未检出病灶的解剖学位置若在随访研究中检出了病灶可以认为是新的病灶并意味着病情恶化。这样的例子可见于有临界性内脏疾病的病人需在研究中做脑部CT或MRI以发现转移灶的情况。此病人的脑部转移灶可认为是恶化的证据,不管他/她以前有没有在基准测试中做脑部成像。
如果新病灶很难鉴定,例如太小,但它确实代表了新的疾病,则需要在后面的治疗和随访评估中分类。如果跟最初的扫描数据比较,重复扫描证实是一个明确的新病灶,那么应判定为恶化。
当FDG-PET评估疗效需额外的研究时,判断恶化将FDG-PET扫描结合互补CT扫描有时候是特别有道理的(特别是“新”疾病可能性比较大时)。基于FDG-PET成像来判定为新病灶可根据下面的算法:
a.基准测试中FDG-PET阴性,随访研究中FDG-PET阳性——因为有新病灶可判定为恶化。
若随访研究中FDG-PET阳性的病灶不可以被CT证实,那么需要在随访研究的下一次CT扫描来决定是不是是真正的恶化(如此,FDG-PET扫描发现异常的时间就是判定为恶化的时间)
若随访研究中FDG-PET阳性的病灶是CT发现的已经存在的病灶且根据解剖学成像没有恶化,那么就不是恶化。
最佳总疗效是指考虑了各种各样的因素后确认的从研究治疗开始到治疗结束的最佳疗效的记录。有时候一种疗效可能直到治疗结束才得以证实,因此实验设计时应该明确:治疗后的评估是否作为决定最佳总疗效的因素。实验设计必须规定被引入的新的治疗在进行及时有效的治疗之前将怎样对最佳疗效指标起作用。患者的最佳疗效评价将依赖于靶和非靶病灶的发现,也将考虑新的病灶的出现。而且,由于研究本身和实验设计的需要,可能也需要确定的度量值(参照4.6节)。特别是,在非随机实验中,疗效是最重要的终点,PR或CR的确定被认为是“最佳总疗效”。这将在下面进一步描述。
假定在每个实验特定时间点,一种效应评价开始。下页的表1提供了在基线水平有可测量病灶的患者每个时间点总疗效计算情况的综述
CR =完全缓解,PR=部分缓解,SD=稳定病灶,PD=进展,NE=不能评价
如果在所有某一特定时间点,没有影像资料和其他测量指标,那么该患者在该时间点是不可评估的。如果在一次评估中只做了一套病灶的测量,那么通常情况下该时间点也被认为是不可测量的,除非有令人信服的证据证明个人消失的病灶不会改变所指定时间点效应。这将最大有可能在进展病灶情况下发生。例如,如果一个患者的基线毫米,有三个可测量病灶,随后只有两个病灶可供评估,但病灶达到了80毫米,我们大家都认为病人处于进展状态,而不考虑其是否有一个病灶消失。
在最佳疗效中确认完全或部分缓解的具体时间并不是特别需要的情况:在各个阶段中的最佳总疗效定义为所有时间点是最好的疗效(例如,病人第一次评估为稳定病灶,第二次评估为部分缓解,最后评估为进展,则最佳总疗效评价为部分缓解)。
如果病灶稳定不到规定的最短时间,则不能满足统计处时,其他的最佳时间点反应,病人的最佳疗效取决于随后的评估。例如;病人第一次评估为稳定病灶,第二次为进展,而稳定病灶时间达不到最低要求,则其最佳疗效为进展。同一病人第一次评估稳定病灶后若无法随访,则被认为不可评估。
在最佳疗效中确认需要完全或部分缓解的具体时间的情况:当满足在随后的时间点(一般4周后)所指明的各个规定要求时,可认为完全或部分缓解。在这种情况下,最佳疗效的解释见表3。
Table 3.如果在第一时间点为完全缓解,然后在随后的时间点出现疾病,即使疾病相对基准标准出现部分缓解,在这一段时间点评估为进展(因为疾病在完全缓解后再发)。
最佳疗效取决于稳定病灶的最低期限是不是满足。然而,有时评估为“完全缓解”,在随后的扫描提示小的病灶可能依然存在实际上病人在第一时间点为部分缓解而非完成缓解。这种情况下,原来的“完全缓解”应该改为“部分缓解”,最佳疗效也应该是部分缓解。
当淋巴结病变已被列入目标病灶,以及淋巴结减少到正常的大小(<10毫米),它们在扫描记录仍可有一个测量数据。既使淋巴结已正常这些测量结果仍应该记录,为了不夸大效果应该是以淋巴结变化的大小为依据。正如早先说明的一样,这在某种程度上预示着完全缓解的患者可能在病例报告表中(CRF)没有一个完整的“零点”。在需要确定疗效的实验中,重复的“不可评估”时间点评估可能使最佳疗效的确定复杂化。该实验的分析计划必须说明丢失的数据/评估信息将怎样被用来决定是有效还是进展。例如,在大多数实验中考虑患者不同时间点疗效,将PR-NE-PR作为一个有效的疗效评价是合理的。整体健康情况恶化没有该时间点疾病进展客观证据而需要中断治疗的患者应报告为“症状性恶化”即使中断治疗后,也应积极证实其客观进展。症状性恶化不是客观疗效的描述,只是一个停止治疗的原因。这样的患者的客观疗效情况应由表1、2、3中显示的靶病灶和非靶病灶的评估来决定。限定“早期进展,早期死亡和不可估计”的条件具研究特殊性,应该在实验计划早期明确作出规定(取决于治疗维持的时间,治疗周期)在某些情况下,鉴别残留病灶和正常组织可能很困难。当需要依靠这些结果来评价完全缓解时,建议在下完全缓解的结论前先检查残留病灶(通过细针穿刺活检)。常规影像学认为异常的残留病灶,FDG-PET诊断为纤维化或疤痕,其可能通过这种和活检类似的方式来提高评估效应到CR。在这种情况下用FDG-PET应该在实验设计中提前描述,同时也应该受疾病特异性相关医学文献报道的适应症的支持。然而,一定要了解由于FDG-PET和活检分辨能力和敏感性的限制可能会引起CR的假阳性。由于进展的模糊发现(例如非常小而不确定的新病灶;已有病灶中的囊性和坏死改变等),治疗可持续到下一个评估日程。如果在下一个评估时间表中,确认为进展,进展的日期应该是比进展被怀疑的更早的日期。
治疗期间肿瘤再评价的次数应依据研究计划及肿瘤的类型和治疗时程而定。但在二期临床试验中,疗效尚为未知数,因此每一个治疗周期约6-8周的随访是合理的。特定情况可调整评价周期的长短。计划应当具体规定哪些器官一开始即有必要进行评价(通常是那些有转移倾向的肿瘤)以及多长时间进行重复评估。通常在每次评估时对于所有标的和非标的病变均有必要进行评价。在一些情况下非标的器官可减少评估次数。例如,骨扫描仅在需要确认标的病变完全缓解或怀疑有骨转移时才需要重复进行。
治疗结束后,肿瘤要不要再评估取决于研究目标是否要看缓解率或者肿瘤进展/死亡事件发生。若研究目标是事件发生的期间(如进展期、无病生存期、无进展生存期),那么需要根据研究计划进行例行的再评估。尤其是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期。尤其是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期。
在以疗效为主要终值的非随机化实验中,确认为缓减或痊愈需要鉴别疗效不是测量错误所致,另外,还要求能对某些原来就要求确认的试验历史数据做到合理的解释(关于此专题请见Bogaerts等的a文章)。然而,在所有其它情况中,比如II期或III期的随机化试验、以稳定或恶化为起始终值的试验中,由于不需给试验结果的解释赋值,故疗效的确认可不必要求。不过取消对疗效确认的要求可能会使预防偏倚的中心思想显得更为重要,尤其在非盲试验中。
例如稳定的测量一定要符合稳定的起码评估标准——一旦实验介入时刚好是按照实验程序中规定的最短间隔期(一般不短于6-8周)
总的疗效期是指从首次符合痊愈或缓减的评估标准日期(首次记录)到复发或恶化客观上确认的第一天(参照试验中记录的恶化最小测量值)
稳定期是指从治疗开始的日期(在随机化试验中就是随机日期)起到符合恶化评估标准的第一天,参照试验中(病灶半径)和的最小值(若最小值就是临界值,参照缓减的计算)
稳定期的临床相关性不同试验和不同疾病中变化很大。在特殊的试验中,部分病人达到的若是稳定期的最小值并且还是一个重要的终值,试验程序应该特别指明2种判定稳定的测量方法的最小时间间隔。
注:有效期、稳定期及与恶化无关的存活期会受到基准评估后随访频率的影响。指定标准的随访频率超出了本指南的范围。确定随访频率时要考虑许多参数,如疾病类型、分期、治疗周期和标准操作等。但是,如果试验间作比较时必须考虑到终值测量精度的这些限制。
本指南主要把重点放在运用客观的疗效终值到临床II期试验中。在某些情况下,“缓解率”可能不是评估新药的潜在抗癌活性的最佳方法。比如在界定“无恶化存活”或“无恶化率”的时间点时,可能要考虑其它的替代方法来提供合适的观察新药生物学活性的指标。但是,在一个非受控试验中有一点是清楚的——这些测量方法一定要符合评估标准,因为一个明显有希望的观察指标可能与生物学因素(如病例的选择)有关,同时要与干预的影响无关。这样,使用这一些终值的II期筛选试验可设为理想的随机对照组。也有例外,若存在某些肿瘤的行为模式一致时(通常都很不一致)采用非随机化试验是无可厚非的(见van Glabbeke等的举例[20])。但是,这样的例子中,缺乏疗效时谨慎地声明“无恶化存活”或“恶化无关比率”评价基础是很重要的。
在进展期肿瘤中进行的III期试验慢慢的变多的用来评估感兴趣的最主要结局——无恶化存活或恶化时间。如果程序规定所有的病人都为可测量疾病,那么恶化的评估是相当简单的。但是,限制进入这部分病人要依评估标准而定:(1)如果研究的疾病有一部分重要的病人需排除,可能会引起试验的结果不能普遍通用;(2)甚至延长病例收集的时间。
所以,慢慢的变多的试验允许接纳可测量疾病的病人和只有不可测量疾病的病人。此时,必须谨慎而明确的描述无可测量病灶的病人判定为恶化的依据。另外,这样的情况中,如果记录到的这些有可测量疾病病人的目标病灶最大数目可适当从5个放宽到3个(根据Bogaerts[10]和Moskowitz[11]的数据),则试验程序必须指明。 另外,如果可能,有效的肿瘤标志来衡量恶化(卵巢癌中已提出)可能有助于更充分的判定恶化。为核实“明确恶化”对影像学研究或原始成像报告集中盲评在重要药物开发或药物批准决定应该要依据此实验结果时可能是需要的。最后,如前面提到的那样,因为恶化的日期易受评定偏倚的影响,各试验组中的调查计时应该相同。Dancey等的文章有专题[21]提供了随机化试验如何评估恶化的详细讨论。
以客观反应(完全缓减和部分缓减)为初始终值的试验,特别是关键药物开发决策所依据的反应指标的数目最小时,推荐将所有声称的反应给独立于此研究之外的专家进行评论。如果是随机化试验的研究,理想的评审者应该不知道治疗的分组情况,最好能同时给出病人资料及放射影像的评论。
对(病情)恶化的独立评论引出了一些更复杂的话题:例如,在使用基于集中评审的恶化时间代替基于调查员的恶化时间的问题上,因为当前者先于后者时会潜在的引入一些有益资料的删改,这样会出现一些统计学问题。Ford等的文章[22]有专题对这一些因素和一些其它的从独立评论中得来的经验教训进行了综述。
若以疗效为主要终点,则进入临床试验的所有患者必须有可测量病灶,在进行结果报告时,所有受试患者均须包含在内,即使存在主要治疗协议的偏差或者疗效不可评价。
5.疗效不可评价:特定原因(例如:因肿瘤而早期死亡;因毒性早期死亡;肿瘤评估资料不能重复或不完全;其他(特定))
正常情况下,Ⅱ期临床试验中,所有符合规定标准的患者都应包括在有效率分析的人群中(在一些协议中,应当包括所有接受治疗的患者)。一般首选95%双边可信区间以限定有效率的评估。试验结论应基于所有符合规定标准或所有接受专业的治疗患者的有效率,而不是基于选定可评价的亚组的有效率。
Ⅲ期临床试验中,有效率评价可用来作为抗肿瘤治疗相关活性的评估,常常是一个次要终点。有效率上观察到的差异可能并不能预测所研究人群临床相关治疗的获益。如果客观有效率被选择作为一个Ⅲ期临床试验的主要终点时(仅仅是肿瘤客观有效率与临床相关治疗获益在所研究人群有明确关系的情况下),Ⅱ期临床试验中的标准可同样适用,同时所有入组患者须有至少一个可测量病灶。在许多试验中,以有效率为次要终点,而且不是所有的入组患者都有可测量病灶,这样的一种情况下,总体最佳有效率的报告方式必须在设计协议中提前说明。实际上,有效率可能以一个“意向治疗”分析(所有随机患者均包括在内)来报告,或者仅以具有基线可测量病灶的亚组人群分析来报告。设计协议应明确界定疗效结果如何报告,包括所有计划的亚组。RECIST初始版本使Ⅲ期临床试验的设计者在设计协议时,可能采用一个对RECIST指南的不严格的判读(例如,减少测量病灶的数目)为标准,而这在修订后的指南中将不再可行。指南修订的原则是,明确指南的标准应当适用于所有的临床试验,而这些试验是以解剖学上对肿瘤有效或进展的评估为终点的。