感染症医のための非劣性試験の読み方（２/３）

京都大学大学院社会健康医学系専攻医療疫学分野／神戸大学感染症内科

山本舜悟

今号は３週連続で配信します。第1号

非劣性試験を実施するうえでの5つの必要事項（CONSORT声明より）

ランダム化比較試験（randomized controlled trial；RCT）の報告を改善するためにCONSORT（Consolidated Standards of Reporting Trials）声明が広く用いられるようになっている。CONSORT声明の「非劣性および同等性ランダム化試験の報告」に関する拡張版が発表されている。この2010年の改訂版をもとに、非劣性試験の実施および解釈における注意点を以下にまとめる。非劣性試験を実施するうえで、以下の5項目を包含すべきとされている[1]。結果の報告についてのチェックリストも示されているので、興味のある人は原文を確認してほしい。

1．非劣性デザインを採用する論理的根拠

なぜ優越性試験ではなく非劣性試験を採用したかの、論理的根拠が必要である。プラセボとの比較試験が倫理的に困難である（例：細菌性肺炎に対して抗菌薬 vs プラセボ）という理由が考えられるが、これだけでは不十分である。

非劣性試験では、主要な治療効果で基準治療よりも非劣性マージンΔの分は劣ることを許容する。このため、非劣性試験を実施する前提として、新規治療が基準治療よりも主要な治療効果以外に何らかの点で優れていなければならない。治療効果以外の利点としては、副作用が少ないこと、侵襲性が少ないこと、コストが低いこと、投与方法が容易であることなどが挙げられる。この利点が全くなければ、すなわち新薬が既存薬よりも副作用も侵襲性もコストも変わりなければ、治療効果がΔだけ劣るかもしれないことを許容しながら検証する意味がない（図）。

2．試験仮説をどのようにデザインに組み込むか

優越性試験では「A薬とB薬の治療効果に差はない」ことを帰無仮説にしていた。これに対して、非劣性試験では「A薬はB薬より非劣性マージンΔ以上に劣る」こと、すなわち「差がある」ことを帰無仮説にしている。このため、群間に「差がない」ことを示せば非劣性を示すことになる。優越性試験では、バイアスを群間の差が薄まる方向にかけて、それを乗り越えても有意差を示した場合に本当に効果がありそうだと判断する。ところが、非劣性試験では、群間の差を薄める方向のバイアスは、本当は新薬が劣っていたとしても非劣性という結論を出しやすくする方向に働いてしまうことには注意が必要である。

また、有効性が確立されていない治療を基準にしていくら非劣性を示しても意味がない。このため、非劣性試験の計画・実施に当たって、CONSORT声明拡張版では、「基準治療の有効性が確立されているか、広く普及しているため、プラセボまたは無治療との比較試験が非倫理的と考えられていること」が必要としている[1]。

3．参加者、介入（特に基準治療）、アウトカムの選択

非劣性試験における参加者や基準治療の介入、アウトカムの評価尺度は、基準治療の有効性が確立された試験と同等でなければならない。非劣性試験において参加者や基準治療の介入内容、アウトカム評価尺度が、基準治療の有効性が確立された試験と異なれば、基準治療の有効性は保証されない。基準治療の有効性が保証されなければ、それに非劣性だとしてもプラセボと同等である可能性が否定できなくなるためである。

また、前述の通り、非劣性試験においては新規治療と基準治療の差が小さくなれば、非劣性を示しやすい。基準治療の薬剤投与量を本来よりも減量したり、投与方法を変更したり（例：静注から内服への変更）することは基準治療の治療効果を弱めることになり、過去の試験と同等の介入である必要がある。

4．統計学的手法（サンプルサイズ算出を含む）

サンプルサイズは、非劣性マージンΔとβエラー（または検出力）によって算出される。Δは新規治療が基準治療よりも「臨床的に意味のある差」を超えて劣らない程度に設定しなければならない。Δを設定するには、まず過去のプラセボ比較試験から基準治療の治療効果を推定する（メタアナリシスが存在すれば、その結果を用いることが望ましい）。その治療効果の信頼区間の下限値を取り、アウトカムの深刻さに応じて、その50～80％をΔに設定することが勧められている。感染症領域では、慣習的に抗菌薬はリスク差10～20％、抗HIV薬はリスク差10％で設定されることが多かったようである[2]。

今日ではプラセボとの比較試験は困難だが、米国感染症学会（Infectious Diseases Society of America；IDSA）は市中肺炎の臨床試験について、抗菌薬がなかった時代の治療成績と比較して（historical control）、抗菌薬（ペニシリンまたはスルフォンアミド）のプラセボに対する治療効果を推定し、死亡をアウトカムにした場合の非劣性マージンの上限を絶対リスク差10％にすることを提唱している（表）[3、4]。また、病院内肺炎および人工呼吸器関連肺炎の非劣性試験でも、30日間死亡をアウトカムにした場合、非劣性マージンは死亡のリスク差で10％にすることが適切だろうとしている[5]。

表　市中肺炎の臨床試験における非劣性マージンの例

エンドポイント、対象	抗菌薬の効果量の下限 a、％	提唱された非劣性マージン、％
死亡割合PSI II-V、肺炎球菌のみPSI II-VPSI II-IIIPSI III-IVPSI IV-V	241082539	101051010
3日目までの解熱PSI I、肺炎マイコプラズマのみPSI IPSI II-V	653550	201520
複合エンドポイント b	様々	10-20

PSI；Pneumonia Severity Index
a 抗菌薬がなかった時代（historical control）と比較。
b 複合エンドポイントは死亡割合、解熱、咳の軽快、呼吸困難の軽快、胸痛の軽快、倦怠感の軽快、入院期間など。
（Spellberg B，Talbot GH，Brass EP，et al：Position paper：recommended design features of future clinical trials of antibacterial agents for community-acquired pneumonia．Clin Infect Dis．2008 Dec 1；47 Suppl 3：S249-65．より引用）

　しかし、「臨床的に意味のある差」は、医師の考え方や患者の状態・意向によって実際には変わりうる。研究論文で設定された非劣性マージンΔが、誰もがいつでも受け入れられる差とは限らない。JAMAの医学文献のユーザーズガイドでは、論文で設定された非劣性マージンΔを鵜呑みにするのではなく、目の前の患者の状況に応じて個別に許容できるマージンΔを設定して臨床判断することを勧めている[6]。現場の臨床判断では、研究論文よりも厳しいマージンΔを設定したほうがよいこともあれば、逆に論文より甘いマージンでもよいこともあるだろう。

　また、不十分なアドヒアランスや脱落が多いこと、治療に反応しそうにない患者をリクルートすること、治療のクロスオーバーなどは治療群間の差を縮めるため、誤って非劣性を受け入れるような結論を出してしまう。このため、非劣性試験では優越性試験以上に試験の質の管理が重要になる。

　優越性検証のRCTでバイアスを減らすblinding（盲検化）も、非劣性試験ではバイアスの制御を保証しない[7]。仮に、ある評価者が薬の効果と関係なくすべての被験者に同じ評価を行った場合、両群の差はなくなるため、非劣性を証明できてしまう。実際にはそこまで露骨なことはないと思うが、評価されるアウトカム指標が客観的なものかどうかは注意しておく必要がある。

　解析については、検定よりも情報量の多い信頼区間アプローチが推奨されている。優越性試験ではintention-to-treat（ITT）解析、すなわちランダム割付された治療を完遂できたかどうかにかかわらず、ランダム化されたグループ内で解析することが推奨されている。ITT解析は群間の治療効果の差を薄める方向へ働くため、非劣性試験では第一種の過誤を増大させる危険性がある。このため、非劣性試験では、実際に治療を受けた患者のみについて解析するper-protocol解析も同時に実施することが望ましいとされる。ただし、per-protocol解析では群間のランダム化が担保されないため、ITT解析も同時に行うべきであり、両方の解析で同じ結論が得られれば結論の信頼性が高くなる。両者の結果が乖離した場合の解釈は難しい。

5．デザインがどのように解釈と結論に影響するか

　非劣性試験の解釈は、治療効果の信頼区間と非劣性マージンおよび帰無効果との関連性から判定される。多くの非劣性試験では、片側97.5％信頼区間の上限または両側95％信頼区間の上限に基づいて判定される。

　いったん非劣性が示されれば、事前に優越性を示す検定または信頼区間を定義しておいて、ITT解析を用いて優越性を主張することは許容される。非劣性試験の第一種過誤（αエラー）の「本当はΔ以上劣るのに誤って非劣性と証明される」の中に「誤って優越性と証明される」が包含されるため、非劣性から優越性へのスイッチはαエラーを増大させない。

　逆に、優越性試験デザインから事後的に非劣性を主張することは適切ではない。優越性試験の第一種過誤の「本当は差がないのに誤って優越性を示す」の中に「誤って非劣性を示す」ことは含まれないため、優越性から非劣性へのスイッチはαエラーを増大させるからである。優越性試験から非劣性にスイッチするためには、「事前に」研究プロトコールに両方の仮説が明確に定義されている必要がある。

【References】

1）Piaggio G，Elbourne DR，Pocock SJ，et al：Reporting of noninferiority and equivalence randomized trials: extension of the CONSORT 2010 statement．JAMA 2012 Dec 26；308（24）：2594-604．
2）Lange S，Freitag G．Choice of delta：requirements and reality―results of a systematic review．Biom J．2005 Feb；47（1）：12-27；discussion 99-107．
3）Spellberg B，Talbot GH，Brass EP，et al：Position paper：recommended design features of future clinical trials of antibacterial agents for community-acquired pneumonia．Clin Infect Dis．2008 Dec 1；47 Suppl 3：S249-65．
4）Fleming TR，Powers JH：Issues in noninferiority trials：the evidence in community-acquired pneumonia．Clin Infect Dis．2008 Dec 1；47 Suppl 3：S108-20．
5）Infectious Diseases Society of America（IDSA）；American College of Chest Physicians（ACCP）；American Thoracic Society（ATS），et al：Recommended design features of future clinical trials of antibacterial agents for hospital-acquired bacterial pneumonia and ventilator-associated bacterial pneumonia．Clin Infect Dis．2010 Aug 1；51 Suppl 1：S150-70．
6）Mulla SM，Scott IA，Jackevicius CA，et al：How to use a noninferiority trial：users’ guides to the medical literature．JAMA．2012 Dec 26；308（24）：2605-11．
7）Snapinn SM：Noninferiority trials．Curr Control Trials Cardiovasc Med．2000；1（1）：19-21．

（つづく）