臨床医のための診療ガイドライン「COVID-19薬物療法に関するRapid/Living recommendations」の読み方（2）

日本赤十字社和歌山医療センター感染症内科部・救急科部／臨床研究センター

久保健児

本号は3分割してお届けします。第1回　第3回

視点3：エビデンスはどのくらい確実なのか？

ここまでで、推奨度と効果推定値については分かったとします。では、これらはどのくらい信じてよいのでしょうか？　「そのエビデンス、信じるか信じないかは読み手次第」なのでしょうか？　あるいは、一昔前に言われていた「ランダム化比較試験（RCT）はエビデンスレベルが高い」という「エビデンスヒエラルキー」に従って確信性を判断すれば終わりでしょうか？

そこで、GRADEシステムの登場です。2000年ごろからGRADE（Grading of Recommendations Assessment, Development and Evaluation） working groupが開発してきたGRADEシステムにより、エビデンスの質の評価が洗練され、標準化されてきました。そして、コクランレビューやWHOのガイドラインなどで標準的に採用されるようになってきたのです。

弱いエビデンス、質の低いエビデンス、エビデンスの限界……どれも同じ意味？

エビデンスの質（quality of evidence）、レベル（evidence level）、限界（limitation）、強さ（strength of evidence）、確信度（confidence of evidence）は、すべて同じ意味だそうです[1、2]。最近では「エビデンスの確実性」（certainty of evidence）と呼ばれるようになってきました。また、「効果推定値における確信性」（confidence in estimates of effect）と言われもします。これを知ったときは、目から鱗が落ちました。それぞれ別物ではなく、同じ概念を言い換えているだけなんですね。とにかく、エビデンスの不確実性（uncertainty）、限界（limitation）がどのくらいあるかを評価しましょうという話です。

一点だけ、ややこしいですが、「効果推定値の精確さ」（precision in estimates of effect）を表現する用語である「信頼区間」（confidence interval；CI）は、上記と異なる概念です[1、2]。95％CIの話は既にお話ししましたが、これは統計的推定の区間を示しているに過ぎません。

エビデンス総体の不確実性（確実性）は4段階！

あるclinical question（CQ）の解答を得るためには、すべての研究報告をアウトカムごと、研究デザインごとに評価して結果をまとめるわけですが、「アウトカムごとにまとめられたもの」をエビデンス総体（body of evidence）と呼びます[1-3]。そして、エビデンス総体の確実性は、4段階で示すことになっています（表）[1-4]。

表　エビデンス総体の確実性

エビデンス総体の確実性				説　明
High	高	A	⊕⊕⊕⊕	真の効果が効果推定値に近いことに大きな確信がある。
Moderate	中	B	⊕⊕⊕◯	効果推定値に対し中等度の確信がある。つまり、真の効果は効果推定値に近いと考えられるが、大きく異なる可能性も否めない。
Low	低	C	⊕⊕◯	効果推定値に対する確信性には限界がある。真の効果は効果推定値とは大きく異なるかもしれない。
Very low	非常に低	D	⊕	効果推定値に対し、ほとんど確信が持てない。真の効果は、効果推定値とは大きく異なるものと考えられる。

（文献1-4より引用。文献4の引用は執筆時点の第3.0版に基づいたものです。本ガイドラインはRapid/Living recommendationsであり常に改訂されていますので、最新版は、https://www.jsicm.org/news/J-SSCG2020_COVID19.htmlでご確認ください。）

RCTを収集したのに確実性が「低（C）」なのはなぜ!？

従来型の「エビデンスヒエラルキー」から考えると、RCTがHigh levelで、観察研究ならLow levelという気がしませんか？　前回表1をみると、CQ-1のファビピラビルのエビデンスの確実性は「低（C）」になっています[4]。ファビピラビルに関するRCTはまったくなかったのでしょうか。「COVID-19薬物療法に関するRapid/Living recommendations」第3.0版（2021年1月29日版）の詳細版によれば、RCTが10本見つかり、そのうち5本を解析対象としたとのことです[5]。ということは、 RCTが見つからなかったわけではなく、RCTは見つかりはしたがそれら5つのRCTのエビデンス総体の確実性は「低（C）」と判断されたということになります。

研究の限界――risk of bias（RoB）

RCTであっても、バイアス（系統誤差）が存在すると、結果に影響するリスクが生じます。具体的には、ランダム割付が隠蔽されずに介入前に予測できてしまう状況だったり、盲検化が十分になされずアウトカムの測定・評価が偏るような状況だったり、はたまた最初に研究に組み入れた人たちが脱落していってアウトカムが十分フォローされていない状況（＝ITT解析されていない）だったり、といったことです。どの程度のバイアスがどの程度結果に影響するのか、定量的なことはいえないのですが、バイアスの存在はエビデンスの確実性を下げるリスクになります[1-3]。

というわけで、RoB（バイアスがかかっているリスク）を評価し、「（意思決定をする際の根拠として）確実性の高い（Aの）RCT」（＝バイアスリスクが少ない＝質が高い＝内的妥当性が高い＝適切に因果推論ができる）と扱ってよいかを確認しましょう。

RoBは、信号のような3色で示されます（図）。Low（低リスク）は緑、Unclear（不明）は黄、High（高リスク）は赤で表示されるので、緑ばかりであれば低リスクで質が高くなります。図をみると、ファビピラビルのRCTは軒並み緑（低リスク）が少なくなっており、open-label試験が3つ含まれることなどが反映されています[5]。

**図　CQ-1,2,4におけるRisk of bias（RoB）の比較** (図をクリックすると拡大します）
（文献5より引用。本引用は執筆時点の第3.0版に基づいたものです。本ガイドラインはRapid/Living recommendationsであり常に改訂されていますので、最新版は、https://www.jsicm.org/news/J-SSCG2020_COVID19.htmlでご確認ください。）

CQで想定している場面と研究の設定（PICO）が微妙に異なっていたら？――非直接性

RoB以外にも、エビデンスの確実性を下げる原因はまだあります。CQの想定している場面と、個々の研究が扱う場面（PICO）が乖離していることを「非直接性」（indirectness）と呼びます[1-3]。例えば、CQ-2レムデシビルの中等症患者の4つのRCTのうちの1つは、対象患者にSpO₂≧94％が含まれていたことから、非直接性の項目が「－1（深刻）」になりました[5]。

複数の研究を集めたときの不確実性――非一貫性と不精確性

異質な研究同士を集めた場合、個々の結果は均一にならないことが想定されます。当然、CQで設定した場面（PICO）に沿って同類の研究を集めるのですが、実際に集めてみると、個々の結果が均一でない事態はあり得ます。複数の論文間を比較して、薬物投与量の違いが「異質」とみなした方がよいほど異なるといった概念的異質性（conceptual heterogeneity）が認められる場合や、結果のデータから計算できる統計学的異質性（statistical heterogeneity）が認められた場合には、「結果の非一貫性」（inconsistency）があると表現します[1-3]。そして、結果が研究間で一貫していないなら、その結果の確実性は低いと考えます。

複数の研究を統合する目的は、十分なサンプルサイズとイベント発生数を確保し、メタアナリシスにより効果推定値を計算する＝効果の大きさを求めることです。集めてみても十分な数がなければ、効果推定値の信頼区間が幅広くなりランダム誤差（偶然誤差）が増えるので、確実性は低くなってしまいます。また、期待するeffect sizeを設定した上で、それを効果推定値の信頼区間がまたいでいる場合も、サンプルサイズが十分でないためのランダム誤差をみている可能性があり、確実性は下がります[1-3]。このようなことを「不精確性」（imprecision）と呼びます。

集めた研究だけから結論を出すときの不確実性――出版バイアス

効果が証明された研究は出版されるが、有意差が出なかった研究は出版されにくいという、出版バイアス（publication bias）の存在には注意が必要です[1-3]。これは、ファンネルプロットの図を書くなどにより対処します。

確実性の評価は、RCTなら「高（A）」、観察研究なら「低（C）」から始める

GRADEシステムでは、デフォルトでRCTは「高（A）」から始めて、確実性に問題があればグレードダウンしていきます。一方、観察研究は「低（C）」から始めて、確実性が高ければグレードアップしていくことになっています[1-3]。

ここまで述べてきたのは、RCTの確実性を落とす要素でした。観察研究であっても、治療の効果推定値が非常に大きければ、それだけで確実性が上がります。また、量反応関係がみられることも、確実性を上げます。すべての交絡因子が考慮され、介入群の効果を減じる方向に働いている場合、真の効果はデータが示すものよりも大きい可能性があるといえるので、この場合も確実性が上がります。

というわけで、レベルの低いRCTならエビデンスとしての確実性は下げられる一方で、たとえ観察研究であっても診療ガイドラインの推奨を支持するエビデンスとして確実性が高いと判断される場合もあるわけです。

「あるアウトカムに関するエビデンス総体」の確実性が決まる

以上の検討を経て、「あるアウトカム（例：死亡率や有害事象など）に関するエビデンス総体」の確実性の評価ができ、4段階のうちのいずれかが決められます（次回掲載の図2の右から2列目を参照してください）。

推奨を決めるには、複数の重大な「アウトカムに関するエビデンス総体」を一まとめに

研究としてのシステマティックレビューでは以上で終わりなのですが、診療ガイドラインとしてのシステマティックレビューでは、設定したCQ（臨床上の疑問）に対する「解答＝推奨文」を作成しなければなりません。CQに答えるためには、複数のアウトカムをまとめて比較し、益と害のバランスを評価する必要がありますよね。ということで、診療ガイドラインの作成時には、益や害になり得るアウトカムのうち、何が大事なのかをCQの設定時に決めることになっています。

「COVID-19薬物療法に関するRapid/Living recommendations」では、いずれのCQにおいても、評価すべきアウトカムとして全原因死亡、臨床症状改善、重篤有害事象の3つが設定され、いずれも「重大」とされました[4]。臨床における意思決定にとっては、重大あるいは重要なアウトカムが対象となるので、体内のウイルス量の減少といった間接的な項目は対象になっていません。

そして、複数のアウトカムのうち、重大な「アウトカムごとのエビデンス総体」を一まとめにした「あるCQにおける複数の重大なアウトカムのエビデンス総体」のエビデンスの確実性が、上記の説明と同様に4段階で決められます。この部分の確実性が、推奨文の末尾に記載されているわけです（前回の表1の推奨文の末尾を参照してください）。

ついに、エビデンスから推奨へ

ようやくここまでたどり着きました。重大なアウトカムに関するエビデンス総体の確実性が分かったところで、益と害のバランス、患者の価値観や意向・希望の多様性、コストや利用可能な資源、実行可能性を加味して（主要な4つの要素）、推奨度が決められます[1-3]。

パネル委員の総意形成によって推奨度を決めるのですが、そのときに指針となる資料としてEvidence-to-decisionテーブルが作成され、付録として公開されています。また、重要な点ですが、パネル委員のCOIも公開されています。

視点3のまとめ：エビデンスの確実性

第2回では、エビデンスの確実性（質）についてお話ししました。まとめると、RCTか観察研究か、RCTなら5つの要素（RoB、非直接性、非一貫性、不精確性、その他として出版バイアス）を評価することで、比較の質が落ちていないかを確認するということでした。

では、最後に「誤差」という視点からまとめ直して、理解を深めておこうと思います。2群（対照群と介入群）の比較をする際に、比較の質が落ちる、つまり誤差が増えると、エビデンスとしては不確実なものになります。系統誤差には交絡とバイアスがあります。交絡については、質の良いRCTでは背景因子の偏り（交絡因子）が問題にならなくなり、確実性が高くなります（→RCTなら「高」、観察研究なら「低」から始める）。一方、バイアスはどんな研究にも付き物です。RCTでも、選択バイアス（ランダム割付が担保されていない、脱落が多い）、情報バイアス（盲検化が維持されていない、選択的な報告がなされている）などが生じていると、質が低下します（→RoB）。もう一つの誤差である偶然誤差を小さくするには、十分なサンプルサイズが必要です（→不精確性）。

これらの比較の質を落とす系統誤差と偶然誤差に加えて、複数の研究を集めるときには、そもそも研究の対象者が目的とずれていないか（→非直接性）、結果に異質性はないか（→非一貫性）、研究の出版に偏りはないか（→出版バイアス）などを確認し、エビデンスの確実性を評価するわけです。

第3回へ

注意1：本稿は、2020年2月末日時点での情報を主体として、限られたガイドライン作成の経験なども踏まえて個人的に作成したものです。GRADEシステムについては、GRADE working groupの最新情報（執筆時点では2013/10版）[6]を確認してください。
https://gdt.gradepro.org/app/handbook/handbook.html

注意2：本ガイドラインはRapid/Living recommendationsなので、本稿記載のエビデンス・内容は比較的早期に古くなり、改訂に伴い常に更新されます。この点に十分注意し、最新版をご確認ください。
https://www.jsicm.org/news/J-SSCG2020_COVID19.html

【References】
1）相原守夫: 診療ガイドラインのためのGRADEシステム, 第3版, 中外医学社, 2018.
2）豊島義博, 南郷里奈, 蓮池　聡（編）: 学びなおしEBM―GRADEアプローチ時代の臨床論文の読みかた, クインテッセンス出版, 2015.
3）Minds診療ガイドライン作成マニュアル編集委員会（編）: Minds 診療ガイドライン作成マニュアル2020 ver.3.0，日本医療機能評価機構, 2021.
https://minds.jcqhc.or.jp/s/manual_2020_3_0
4）日本版敗血症診療ガイドライン2020特別委員会COVID-19 対策タスクフォース: 日本版敗血症診療ガイドライン2020（J-SSCG2020）特別編 COVID-19薬物療法に関するRapid/Living recommendations第3.0版, 2021/1/29.
https://www.jsicm.org/news/upload/J-SSCG2020_COVID-19_1_ver.3.0.0.pdf（本稿掲載の3.0版は執筆時点のもので旧版です。最新版は、https://www.jsicm.org/news/J-SSCG2020_COVID19.htmlでご確認ください。）
5）日本版敗血症診療ガイドライン2020特別委員会COVID-19 対策タスクフォース: 日本版敗血症診療ガイドライン2020（J-SSCG2020）特別編 COVID-19薬物療法に関するRapid/Living recommendations第3.0版付録, 2021/1/29.
https://www.jsicm.org/news/upload/J-SSCG2020_COVID-19_2_ver.3.0.0.pdf（本稿掲載の3.0版は執筆時点のもので旧版です。最新版は、https://www.jsicm.org/news/J-SSCG2020_COVID19.htmlでご確認ください。）
6）Schünemann H, Brożek　J, Guyatt G, et al: Handbook for grading the quality of evidence and the strength of recommendations using the GRADE approach. Updated October 2013.
https://gdt.gradepro.org/app/handbook/handbook.html