☆チョコスタ☆~第1回「ARDの統計部門担当者直伝!14のよくある間違い」

リウマチ膠原病分野で考える、研究デザイン、解析方法
〜自分の分野だと、アドバンスな研究デザイン、解析方法もイメージがしやすいく、理解も深まる!〜
リウマチ膠原病領域のトップジャーナル「ARD、A&R、Lancet Rheumatology、Rheumatology(Oxford)」から優先的に論文をピックアップ。
 
第1回はARDの統計部門担当のStian Lydersen先生が著者に対して最も頻繁に行っている14のコメントをご紹介します。
Stian Lydersen先生はノルウェー大学の統計家で2006年から2014年まで、ARDの原稿の統計的レビューを約200回行ったそうです。著者に対して最も頻繁に行っている14のコメントについて説明しています。コメントは以下の3つに分類されています。
 
1〜10項目:適切な分析方法の選択について
11~12項目:余分な分析の回避について
13~14項目:報告書のフォーマットについて
 
Lydersen S. Statistical review: frequently given comments. Ann Rheum Dis. 2015;74(2):323-325.
 
【14のよくある指摘】
[1〜10項目:適切な分析方法の選択について]
 1. どのように欠測値が扱われたかを報告すること
 2. 回帰モデルに含める共変量の数を限定すること
 3. 変数選択ステップワイズ選択を使用しないこと
 4. RCTにおいてベースライン値の調整にANCOVAを使用すること
 5. 観察研究においてベースライン値の調整にANCOVAを使用しないこと
 6. 連続変数の2値化は良くないアイデアである
 7. Studentのt 検定はノンパラメトリック検定よりも良い
 8. イェーツの連続性の補正は使用しない
 9. 平均値(SD)は非正規分布のデータにおいても妥当である
 10. 推定値、CI、(場合によっては)p値を重要な順に報告する
 
[11~12項目:余分な分析の回避について]
11. 事後的な検出力の計算をしないこと
12. RCTのベースラインの不均衡を検定しないこと
 
[13~14項目:報告書のフォーマットについて]
13. CIの報告のフォーマット
14. 実際のp値を2桁、最大3桁で報告すること
 
昭和大学リウマチ・膠原病内科
ホームページ
::::::::::::::::::::::
 
以下、各項目の解説です。
[1〜10項目:適切な分析方法の選択について]
1. どのように欠測値が扱われたかを報告すること
さまざまな変数における欠損データの量と、それが分析でどのように処理されたかを報告する。一般的に使用されている方法は完全ケース分析(部分的にデータが欠落している症例を無視する)、期待値最大化補完のような単一補完法、多重補完法、完全情報最尤法である。さらに、縦断的研究では、混合モデル分析が適切な場合があるが、「last observation carried forward(LOCF)」は、通常の仮定のもとではバイアスが生じるため、使用すべきではない。
 
2. 回帰モデルに含める共変量の数を限定すること
64症例の研究で17の共変量を含めるなど、回帰モデルに含める共変量の数が症例数に比べて多すぎることがある。経験則では、共変量あたりの症例数の比率は10でなければならないとされている。ある著者は15、ある著者は20を推奨し、他の著者は5で十分だと述べている。ロジスティック回帰とCox回帰では、通常、変数あたり10イベントで十分であり2、多くの状況では変数あたり5イベントで十分である。ロジスティック回帰では、これは参加者の合計人数ではなく、2つのアウトカムグループのうちの最小数であることに注意する。同様に、Cox回帰では、打ち切られた症例を除くイベントの数だけが、ケースとしてカウントされる。
 
3. 変数選択ステップワイズ選択を使用しないこと
かつて、ステップワイズ選択のような自動化された変数選択手順は非常に人気があった。今日では、このような手法を批判するアナリストが増えている。例えば、Modern epidemiology第3版ページ419では、「モデルを見つけるための体系的、機械的、伝統的なアルゴリズム(ステップワイズ回帰やベストサブセット回帰など)は、論理的、統計的な正当性を欠き、理論、シミュレーション、ケーススタディでのパフォーマンスが低いものがいくつかある。深刻な問題は、P値と標準誤差(SE)が低下する方向に大きくバイアスが働くことである」と述べている。共変量の選択は、目の前の臨床疑問(RQ)と生物学的に妥当なものかなどの知識に基づいて行われるべきである。Regression methods in biostatistics linear, logistic, survival, and repeated measures models. 第2版の第10章「予測変数の選択」には、この問題に関する優れた指針が示されている。
 
4. RCTにおいてベースライン値の調整にANCOVAを使用すること
アウトカム変数が治療前と治療後に測定される、2つの治療法を比較する無作為化対照試験(RCT)を考える。各治療群において、治療前から治療後への有意な変化(差)があるかどうかを個別に検証することは、適切な分析方法ではない。治療群間の平均変化を比較することは可能である。さらに良い方法は、治療後のアウトカムを従属変数とし、ベースライン値と治療群を共変量とする回帰法である。この方法は、共分散分析(ANCOVA)と呼ばれる。
 
5. 観察研究においてベースライン値の調整にANCOVAを使用しないこと
観察研究では、ANCOVAの使用は一般的には推奨されない(Applied longitudinal analysis. 第2版126ページ)。実際、ANCOVAは、スコア差(後スコアから前スコアを引いたもの)を分析するのとは異なる結論をもたらす可能性があり、これはLord’s paradoxとしても知られる現象である。RCTでは、ベースラインスコアを測定した後に治療を行うため、治療がベースラインスコアに影響を与えることはない。一方で観察研究では、ベースライン・スコアを測定する前に曝露が行われている可能性がある。その場合、ANCOVAは一般的にバイアスをもたらす。
 
6. 連続変数の2値化は良くないアイデアである
連続変数の2値化は可能な限り避ける。 2値化は情報の損失を意味し、したがって統計的検出力の損失を意味する。さらに、共変量を二分することは、その共変量の効果が閾値でのみ変化するステップ関数であることを意味する。実際には、ほとんどの共変量は滑らかな関数である。事前に定義された臨床的な閾値に応じて二分することが理にかなう場合もある。しかし、観測値の中央値より上/下などのデータドリブンな分類は、決して良いアイデアではない。同じ議論は、2つ以上のカテゴリーに分類する場合にも有効であるが、その場合、害は二分法よりも幾分少なくなる。
 
7. Studentのt 検定はノンパラメトリック検定よりも良い
Studentのt 検定は、Wilcoxon検定などのノンパラメトリック検定に比べて、大きな利点がある。
1. p値だけでなく、平均値のCIを計算することができる。
2. Student’s t 検定は、特に少数のサンプルでより強力である。一般的な誤解は、Student’s t 検定は少数のサンプルでは使用すべきではないということである。
3. Student’s t 検定は、回帰分析やその他の分析に容易に一般化される。
Studentのt検定は、ゼロから極端に離れた残差(たとえば、4-5 SDs以上)がない限り、正規性からの逸脱に対してかなり頑健である。
Q-Qプロットの目視検査は、そのような逸脱を検出するのに適している。P-Pプロットの目視検査は、このような偏差の検出には適していない。データが正規分布から大きく逸脱している場合は、例えばブートストラップ法を用いてCIとp値を求めることができる。
 
8. イェーツの連続性の補正は使用しない
2つの割合の等しさを検定するために、多くの方法が提案されている。伝統的な推奨は、すべての予想cell countsが少なくとも5以上あるような「大きな」サンプルでは、Yatesの補正なしPearsonの漸近的χ2検定を使用することである。少ないサンプルでの方法としてはFisherの正確検定を推奨する。一部の著者は、Yatesの補正をしたPearsonの検定を使用しているが、Yatesの補正は、コンピューターが一般に普及する前の歴史的な珍しい方法と考えるべきであり、決して使用してはならない。同様に、信頼区間に対するYates補正のバージョンも決して使用すべきではない。
 
9. 平均値(SD)は非正規分布のデータにおいても妥当である
平均値とSD値は、正規分布に限らず、あらゆる種類の連続分布に従うデータや、場合によっては順序データにも意味のある記述統計量である。広く誤解されているのは、データが正規分布に従わない場合、中央値やIQRのような他の尺度を使用しなければならないということである。実際には、meanとSDにはいくつかの好ましい特性がある。例えば、異なる研究から得られたmeanとSDは、後のメタアナリシスで容易に組み合わせることができる。しかし、分位値に関連する指標の場合はそうはいかない。
 
10. 推定値、CI、(場合によっては)p値を重要な順に報告する。
p値は、医学研究だけでなく、他の多くの応用科学においても多用され、強調されすぎている。”例えば、「Eに曝露された患者は、曝露されていない患者よりもDを発症する可能性が高い(p=0.04)」というように、著者がp値だけを報告することがありえる。「バンクーバー」ガイドライン http://www.icmje.org/…/preparing-for-submission.html… では次のように述べられている。
「可能な限り所見を定量化し、測定誤差や不確実性を示す適切な指標(信頼区間など)を添えて提示する。効果の大きさや推定値の精度に関する重要な情報を伝えられないp値などの統計的仮説検証のみに頼ることは避けるべきである」
 
[11~12項目:余分な分析の回避について]
11. 事後的な検出力の計算をしないこと
一部のジャーナルでは推奨されているが、事後的な検出力の計算は無駄である。
検出力とは、(将来の)研究で帰無仮説が棄却される確率のことである。研究が実施されると、この確率は1(帰無仮説が棄却された場合)または0のいずれかになる。研究後、不確実性の意味のある定量化はCIとp値である。
 
12. RCTのベースラインの不均衡を検定しないこと
RCTを報告する際には、各治療群のベースラインの人口統計学的および臨床的特性を表にして示すことが推奨される。しかし、適切に無作為化された試験でベースラインの不均衡を検定することは、いくつかの医学雑誌の記事で報告されているが、無駄である。無作為化が適切に行われたと仮定すると、ベースライン変数のうち5%がグループ間で有意に異なると予想される。
 
[13~14項目:報告書のフォーマットについて]
13. CIの報告のフォーマット
信頼限界値の間のセパレータとしては、コンマ(,)、セミコロン(;)、ハイフン(-)がよく使われる。コンマとハイフンは、10進数の区切り、千進数の区切り、マイナス記号に似ているので、避けるべきである。例えば、(0.16 to 0.25)のように、「to」を使用するのが良い選択である。同じアドバイスが、IQRや最小値から最大値までのような他の間隔にも当てはまる。
 
14. 実際のp値を2桁、最大3桁で報告すること
p値をn.s.またはp<0.05またはp<0.01として報告することは避ける。ただし、極めて小さいp値は例外で、その場合はp<0.001のように報告する必要がある。p=0.12, p=0.035, p=0.006, p<0.001のように、有効数字2桁まで最大小数3桁までのp値を報告することが推奨されている。
 
文責 柳井亮
  • このエントリーをはてなブックマークに追加

私たちと一緒に学びませんか?

プログラム・募集要項はこちら


昭和大学病院
〒142-8666 東京都品川区旗の台1-5-8
アクセスマップ
電話:03-3784-8000(代表)

[初 診]月曜~土曜 8:00~11:00
[再 診]月曜~土曜 8:00~11:00(予約のない方)
[休診日] 日曜日、祝日、創立記念日(11月15日)、年末年始