統計的レビューにおける、多く見られるコメント【Journal Club 20210623】

Statistical review: frequently given comments

Lydersen S （Regional Centre for Child and Youth Mental Health and Child Welfare, Norwegian University of Science and Technology）
Annals of the Rheumatic Diseases 2015;74:323-325.

イントロ
2006年から2014年まで、ARDの原稿の統計的レビューを約200回行ってきた。
著者に対して最も頻繁に行っている14のコメントについて説明。
1〜10項目：適切な分析方法の選択について
11～12項目：余分な分析の回避について
13～14項目：報告書のフォーマットについて

14の指摘

どのように欠測値が扱われたかを報告すること
回帰モデルに含める共変量の数を限定すること
変数選択ステップワイズ選択を使用しないこと
RCTにおいてベースライン値の調整にANCOVAを使用すること
観察研究においてベースライン値の調整にANCOVAを使用しないこと
連続変数の2値化は良くないアイデアである
Studentのt 検定はノンパラメトリック検定よりも良い。
イェーツの連続性の補正は使用しない
平均値（SD）は非正規分布のデータにおいても妥当である
推定値、CI、（場合によっては）p値を重要な順に報告する。
事後的な検出力の計算をしないこと
RCTのベースラインの不均衡を検定しないこと
CIの報告のフォーマット
実際のp値を2桁、最大3桁で報告すること

1.どのように欠測値が扱われたかを報告すること
さまざまな変数における欠損データの量と、それが分析でどのように処理されたかを報告する1。
一般的に使用されている方法は完全ケース分析（部分的にデータが欠落している症例を無視する）、期待値最大化補完のような単一補完法、多重補完法、完全情報最尤法である。
さらに、縦断的研究では、混合モデル分析が適切な場合があるが、「last observation carried forward（LOCF）」は、通常の仮定のもとではバイアスが生じるため、使用すべきではない。

2.回帰モデルに含める共変量の数を限定すること
例えば、64症例の研究で17の共変量を含めるなど、回帰モデルに含める共変量の数が症例数に比べて多すぎることがある。
経験則では、共変量あたりの症例数の比率は10でなければならないとされている。ある著者は15、ある著者は20を推奨し、他の著者は5で十分だと述べている。ロジスティック回帰とCox回帰では、通常、変数あたり10イベントで十分であり2、多くの状況では変数あたり5イベントで十分である3。
ロジスティック回帰では，これは参加者の合計人数ではなく，2つのアウトカムグループのうちの最小数であることに注意する。同様に，Cox回帰では，打ち切られた症例を除くイベントの数だけが，ケースとしてカウントされる．

3.変数選択ステップワイズ選択を使用しないこと
かつて、ステップワイズ選択のような自動化された変数選択手順は非常に人気があった。今日では、このような手法を批判するアナリストが増えている。
例えば、Modern epidemiology第3版ページ419では、「モデルを見つけるための体系的、機械的、伝統的なアルゴリズム（ステップワイズ回帰やベストサブセット回帰など）は、論理的、統計的な正当性を欠き、理論、シミュレーション、ケーススタディでのパフォーマンスが低いものがいくつかある。深刻な問題は、P値と標準誤差（SE）が低下する方向に大きくバイアスが働くことである」と述べている。
共変量の選択は，目の前の臨床疑問(RQ)と，生物学的に妥当なものかなどの知識に基づいて行われるべきである。
Regression methods in biostatistics linear, logistic, survival, and repeated measures models. 第2版の第10章「予測変数の選択」には，この問題に関する優れた指針が示されている5。

4.RCTにおいてベースライン値の調整にANCOVAを使用すること
アウトカム変数が治療前と治療後に測定される、2つの治療法を比較する無作為化対照試験（RCT）を考える。各治療群において、治療前から治療後への有意な変化（差）があるかどうかを個別に検証することは、適切な分析方法ではない。治療群間の平均変化を比較することは可能である。
さらに良い方法は、治療後のアウトカムを従属変数とし、ベースライン値と治療群を共変量とする回帰法である6。この方法は、共分散分析（ANCOVA）と呼ばれる。

5.観察研究においてベースライン値の調整にANCOVAを使用しないこと
一方、観察研究では、ANCOVAの使用は一般的には推奨されない7（Applied longitudinal analysis. 第２版126ページ）。
実際、ANCOVAは、スコア差（後スコアから前スコアを引いたもの）を分析するのとは異なる結論をもたらす可能性があり、これはLord’s paradoxとしても知られる現象である8

5.観察研究においてベースライン値の調整にANCOVAを使用しないこと
RCTでは、ベースラインスコアを測定した後に治療を行うため、治療がベースラインスコアに影響を与えることはない。
一方で観察研究では、ベースライン・スコアを測定する前に曝露が行われている可能性がある。その場合、ANCOVAは一般的にバイアスをもたらす9。

6.連続変数の2値化は良くないアイデアである
連続変数の2値化は可能な限り避ける10-12。 2値化は情報の損失を意味し，したがって統計的検出力の損失を意味する。
さらに、共変量を二分することは、その共変量の効果が閾値でのみ変化するステップ関数であることを意味する。実際には、ほとんどの共変量は滑らかな関数である。

6.連続変数の2値化は良くないアイデアである
事前に定義された臨床的な閾値に応じて二分することが理にかなう場合もある。しかし、観測値の中央値より上／下などのデータドリブンな分類は、決して良いアイデアではない。
同じ議論は、2つ以上のカテゴリーに分類する場合にも有効であるが、その場合、害は二分法よりも幾分少なくなる。

7.Studentのt 検定はノンパラメトリック検定よりも良い
Studentのt 検定は，Wilcoxon検定などのノンパラメトリック検定に比べて，大きな利点がある13。

p値だけでなく，平均値のCIを計算することができる．
Student’s t 検定は、特に少数のサンプルでより強力である14。一般的な誤解は、Student’s t 検定は少数のサンプルでは使用すべきではないということである。
Student’s t 検定は、回帰分析やその他の分析に容易に一般化される。

7.Studentのt 検定はノンパラメトリック検定よりも良い
Studentのt検定は，ゼロから極端に離れた残差（たとえば，4-5 SDs以上）がない限り，正規性からの逸脱に対してかなり頑健である15．
Q-Qプロットの目視検査は、そのような逸脱を検出するのに適している。P-Pプロットの目視検査は、このような偏差の検出には適していない。
データが正規分布から大きく逸脱している場合は、例えばブートストラップ法を用いてCIとp値を求めることができる16。

8.イェーツの連続性の補正は使用しない
2つの割合の等しさを検定するために，多くの方法が提案されている．
伝統的な推奨は、すべての予想cell countsが少なくとも5以上あるような「大きな」サンプルでは、Yatesの補正なしPearsonの漸近的χ2検定を使用することである。少ないサンプルでの方法としてはFisherの正確検定を推奨する。

8.イェーツの連続性の補正は使用しない
一部の著者は、Yatesの補正をしたPearsonの検定を使用しているが、Yatesの補正は、コンピューターが一般に普及する前の歴史的な珍しい方法と考えるべきであり、決して使用してはならない。同様に、信頼区間に対するYates補正のバージョンも決して使用すべきではない19-21。

9.平均値（SD）は非正規分布のデータにおいても妥当である
平均値とSD値は、正規分布に限らず、あらゆる種類の連続分布に従うデータや、場合によっては順序データにも意味のある記述統計量である。広く誤解されているのは、データが正規分布に従わない場合、中央値やIQRのような他の尺度を使用しなければならないということである。
実際には、meanとSDにはいくつかの好ましい特性がある。例えば，異なる研究から得られたmeanとSDは，後のメタアナリシスで容易に組み合わせることができる。しかし，分位値に関連する指標の場合はそうはいかない。

10.推定値、CI、（場合によっては）p値を重要な順に報告する。
p値は、医学研究だけでなく、他の多くの応用科学においても多用され、強調されすぎている。
この問題は、Nature誌の最近の記事22とそれに付随する論説23によく書かれている。”例えば、「Eに曝露された患者は、曝露されていない患者よりもDを発症する可能性が高い(p=0.04)」というように、著者がp値だけを報告することがありえる。
「バンクーバー」ガイドライン http://www.icmje.org/recommendations/browse/manuscript-preparation/preparing-for-submission.html#d では次のように述べられている。
「可能な限り所見を定量化し、測定誤差や不確実性を示す適切な指標（信頼区間など）を添えて提示する。効果の大きさや推定値の精度に関する重要な情報を伝えられないp値などの統計的仮説検証のみに頼ることは避けるべきである」。

11.事後的な検出力の計算をしないこと
一部のジャーナルでは推奨されているが、事後的な検出力の計算は無駄である。
検出力とは、（将来の）研究で帰無仮説が棄却される確率のことである。研究が実施されると、この確率は1（帰無仮説が棄却された場合）または0のいずれかになる24 。
研究後、不確実性の意味のある定量化はCIとp値である24,25。

12.RCTのベースラインの不均衡を検定しないこと
RCTを報告する際には、各治療群のベースラインの人口統計学的および臨床的特性を表にして示すことが推奨される。しかし、適切に無作為化された試験でベースラインの不均衡を検定することは、いくつかの医学雑誌の記事で報告されているが、無駄である26。
無作為化が適切に行われたと仮定すると、ベースライン変数のうち5％がグループ間で有意に異なると予想される27、28。

13.CIの報告のフォーマット
信頼限界値の間のセパレータとしては、コンマ(,)、セミコロン(;)、ハイフン(-)がよく使われる。コンマとハイフンは、10進数の区切り、千進数の区切り、マイナス記号に似ているので、避けるべきである。
例えば，(0.16 to 0.25)のように，「to」を使用するのが良い選択である29-30。
同じアドバイスが、IQRや最小値から最大値までのような他の間隔にも当てはまる。

14.実際のp値を2桁、最大3桁で報告すること
p値をn.s.またはp<0.05またはp<0.01として報告することは避ける。
ただし，極めて小さいp値は例外で，その場合はp<0.001のように報告する必要がある。p=0.12, p=0.035, p=0.006, p<0.001のように，有効数字2桁まで，最大小数3桁までのp値を報告することが推奨されている。

REFERENCES
1 Bjørnstad JF, Lydersen S. Missing Data. In: Veierød M, Lydersen S, Laake P, eds. Medical statistics in clinical and epidemiological research. Oslo: Gyldendal Akademisk, 2012:429–61.
2 Peduzzi P, Concato J, Kemper E, et al. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol 1996;49:1373–9.
3 Vittinghoff E, McCulloch CE. Relaxing the rule of ten events per variable in logistic and Cox regression. Am J Epidemiol 2007;165:710–18.
4 Rothman KJ, Greenland S, Lash TL. Modern epidemiology. 3rd edn., thoroughly rev. and updated ed. Philadelphia: Wolters Kluwer Health/Lippincott Williams & Wilkins, 2008.
5 Vittinghoff E. Regression methods in biostatistics linear, logistic, survival, and repeated measures models. 2nd edn. New York: Springer, 2012.
6 Vickers AJ, Altman DG. Statistics notes: analysing controlled trials with baseline and follow up measurements. BMJ 2001;323:1123–4.
7 Fitzmaurice GM, Laird NM, Ware JH. Applied longitudinal analysis. 2nd edn. Hoboken, NJ: Wiley, 2011.
8 Lord FM. A paradox in the interpretation of group comparisons. Psychol Bull 1967;68:304–5.
9 Glymour MM, Weuve J, Berkman LF, et al. When is baseline adjustment useful in analyses of change? An example with education and cognitive change. Am J Epidemiol 2005;162:267–78.
10 Altman DG, Royston P. The cost of dichotomising continuous variables. BMJ 2006;332:1080.
11 Ravichandran C, Fitzmaurice GM. To dichotomize or not to dichotomize? Nutrition 2008;24:610–11.
12 Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple regression: a bad idea. Stat Med 2006;25:127–41.
13 Altman DG, Bland JM. Practice Statistics Notes Parametric v non-parametric methods for data analysis. BMJ 2009;338:a3167.
14 Bland JM, Altman DG. Practice Statistics Notes Analysis of continuous data from small samples. BMJ 2009;338:a3166.
15 Skovlund E, Fenstad GU. Should we always choose a nonparametric test when comparing two apparently nonnormal distributions? J Clin Epidemiol 2001;54:86–92.
16 Storvik G. Bootstrapping. In: Veierød M, Lydersen S, Laake P, eds. Medical statistics in clinical and epidemiological research. Oslo: Gyldendal Akademisk, 2012:402–28.
17 Haviland MG. Yates’s Correction for Continuity and the Analysis of 2×2 Contingency-Tables. Stat Med 1990;9:363–7.
18 Hirji KF. Exact analysis of discrete data. Boca Raton: Chapman & Hall, 2006.
19 Fagerland MW, Lydersen S, Laake P. Recommended confidence intervals for two independent binomial proportions. Stat Met Med Res 2011. In press.
20 Lydersen S, Fagerland M, Laake P. Tutorial in biostatistics: recommended tests for association in 2×2 tables. Stat Med 2009;28:1159–75.
21 Lydersen S, Langaas M, Bakke Ø. The exact unconditional z-pooled test for equality of two binomial probabilities: optimal choice of the berger and boos confidence coefficient. J Stat Comput Simulation 2012;82:1311–16.
22 Nuzzo R. Statistical errors. Nature 2014;506:150–2.
23 Editorial: Number crunch. The correct use of statistics is not just good for science— it is essential. Nature 2014;506:131–2.
24 Hoenig JM, Heisey DM. The abuse of power: the pervasive fallacy of power calculations for data analysis. Am Statist 2001;55:19–2
25 Bacchetti P. Peer review of statistics in medical research: the other problem. BMJ 2002;324:1271–3.
26 CONSORT guidelines. 20-4-2010. Ref Type: Internet Communication.
27 Fayers PM, King M. A highly significant difference in baseline characteristics: the play of chance or evidence of a more selective game? Qual Life Res 2008;17:1121–3.
28 Pocock SJ, Assmann SE, Enos LE, et al. Subgroup analysis, covariate adjustment and baseline comparisons in clinical trial reporting: current practice and problems. Stat Med 2002;21:2917–30.
29 Altman DG, Machin D, Bryant TN, et al. Statistics with confidence. 2nd edn. BMJ Books, 2000.
30 Lang TA, Secic M. How to report statistics in medicine annotated guidelines for authors, editors, and reviewers. 2nd edn. New York: American College of Physicians, 2006.

担当：柳井亮

私たちと一緒に学びませんか？