2015年10月31日

統計的エビデンスへの警鐘

先日インターネットのニュースで見て驚いたんですが、
Basic and Applied Social Psychology(BASP)という社会心理学の論文誌で
P値を使った統計的手法の使用を採用しない方針を決定したそうです。

P値とは数学で開発された統計の概念で、確率を表します。

心理学や社会学は統計を使って、データの信憑性を評価するわけですが、
そのときに良く使われるのがP値を使った『帰無仮説有意性検定』です。

ややこしいんですが、心理学の論文で頻繁に使われるのは
2つの条件を比較して、差があるかどうかという議論。

例えば、
毎日30分を6日間勉強するグループと
一日で3時間勉強するグループを比較して、
 平均点が毎日のグループで70点、一日で3時間のグループで65点
という結果が得られたとします。

70点と65点という数字だけを見れば差があるようにも見えますが、
たまたまそのときにこの結果が出ただけで、
もう一回調べたら成績が逆転する可能性だって否定できません。

つまり今回は毎日勉強のグループが調子が良くて
一夜漬けグループが調子悪かったのかもしれない。

あるいは毎日勉強のグループに一人だけ
ものすごく勉強の得意な人が混ざっていたので
結果的にそっちの平均点が上がったのかもしれない。

そういう偶然の要素が否定できないわけです。

物理や化学の実験は再現性が非常に高く、
条件も完全に同じにそろえられますが、
人を使った心理学や社会学の調査はデータにムラが出やすいんです。

だからこそデータを統計の手法によって検証して、
 2つのグループの差が『偶然ではない』
と示す必要があります。

このとき
「2つのグループの差が偶然だ」と仮定して(帰無仮説)、
それが偶然に起きる確率を計算します。

このときの確率がP値です。

論文などでは P=.012 などのように表記されます。
(確率が0.012 ですから1.2%ということ)

P=.012だったら、「差が偶然である確率が1.2%」という意味です。

なお論文ごとのローカルルールや、一般的な傾向によって
P値がいくつ以下だったら偶然ではないと判断するかが違いますが、
一般的にはP<.05 (5%以下)を基準にすることが多いようです。

で、「差が偶然である確率が5%以下だ」という計算結果が出ると
結論として
 「2つのグループの差が偶然であるとは言えない」
と表現していいことになるんです。

この状況を「有意差がある」と呼びます。

「違いがある」ではなくて
「違いがないとは言えない」と結論するのが特徴ですが、
まぁ、その辺は科学の流儀であって
利用する側はP値を計算して「有意差」かどうかを調べたいだけです。


いわゆる『エビデンス』というのは、
 統計的に有意差があった
という意味です。

例えば、うつ病の薬だったとしたら
プラセボを与えるグループと、薬を与えるグループとで
一定期間後の症状のレベルを測定します。
(うつレベルを評価する基準があって、数値として結果が表される)

分かりやすくするために(実際とは違う表記ですが)、仮に
投薬前はどちらも「うつレベルが平均で5点」だったのが
プラセボ群では服薬期間の後に「平均で4点」
投薬群では「平均で3点」になったとします。

この1点の差が偶然かどうかを調べて、
 確率的に偶然であるとは言えない
という結論になれば
 「この薬の効果にはエビデンスがある」
と評価されるんです。

もちろん新薬が開発されれば、古いのとの差を調べて
「以前の薬よりも効果がある」というエビデンスが取られます。

認知行動療法にエビデンスがあるというのも
 同じように効果を症状レベルの『改善』度合いで測定して、
 コントロール群(=何もしないとき、例えば「ただ話を聞く」とか)よりも
 大きな効果があることを統計的に示した
という話です。


まず注意しないといけないのは効果の尺度です。

改善度合いを数値化して評価していますから
統計的にいえるのは「効果の量に差がある」という話に留まります。

症状が改善するというエビデンスは、言葉として解釈すれば
「効果がある」という意味になりますが、
このやり方では「治った」というレベルになるかどうかの話は議論できないんです。

「飲むと症状が軽くなる」というエビデンスのある薬を飲んだからといって
「飲み続けていれば治る」かどうかは分かりません。

仮に症状レベル5の人が1年飲み続けたときにレベル1以下になる確率を調べれば
有意差あるかどうかという話ではなく、数値そのものを見て
「何%の人は治る可能性がある」といった『考察』ができます。

「差があるかどうか」という評価しかできない帰無仮説有意性検定は
「どれぐらい」の話ができないという弱点を持っているわけです。


さらに「差があるかどうか」の評価ですから、ものすごく小さな差でも
 確率的に有意な差である
という結論が出る可能性はあります。

実際、囲碁は先手が有利だというのが統計的に調べられています。
単純に勝率からですが、膨大な量の対局結果を調べると
勝率で先手が勝つ確率がほんのチョット高いんです(厳密な五分五分じゃない)。

だからチョットだけハンデをつけましょうというのがルールに採用されている。

もちろん必要なハンデの量は「どれぐらいの差か?」の話ですから
統計からは判断ができません。

「これぐらいのハンデでやってみましょう」とやってみて
その後の対局結果を集計して、五分五分かどうかを調べる。
まだ先手が有利という有意差が出ればハンデが足りないし、
後手が有利という有意差が出ればハンデが多すぎたことになる。
そういう微調整をするしかないんです。

何よりも統計的有意差というのは、集計するデータの母数が多ければ
ほんのチョットの違いでも「違いがある」と結論されます。

先手勝率50.1%が「先手のほうが有利」として結論されることもありえる、と。

今の世の中でエビデンスと呼ばれているのは
この「ほんのチョットでも差があれば効果がある」という視点に基づいています。

あえて解熱剤で説明してみますが、膨大なデータを取って
「飲んだら平均0.1℃熱が下がりました。結果は有意な差だといえます。」
だとしたら、その解熱剤は効果にエビデンスがあることになるんです。

もちろん開発を重ねる人たちは
 前の薬や手法と比べて効果が上がっているか
を繰り返し調べて
よりよいものを目指していくわけですが、
それでも「どれぐらい」という程度の評価ができないのは
P値を使った帰無仮説有意性検定の性質なんです。


Basic and Applied Social Psychology(BASP)という雑誌が
論文投稿者に対して決定した内容にも
「推測統計学的手法は求めないが、効果量等を含む有力な記述的統計を求める」
というコメントが含まれているそうです。

違いがあるかどうかを確率で議論するのは止めましょう、という話。
ではなくて、効果の量の違いをそのまま評価する方向にしたい、と。

その量の違いが偶然ではなさそうかどうかを見るには
とにかくデータの数を増やして偶然の影響を減らしてください…
といったアナウンスだそうです。

数学的な手法を使って客観的に「差がある」と結論はできなくなりますが
少なくとも今までの流儀の問題点は嫌だということなんでしょう。

よりよい方法を提案できてはいないけれど、
今までのやり方はダメだという姿勢を強く見せたかったと想像できます。

この論文誌は社会心理学ですから
その大部分に帰無仮説有意性検定が使われていたはずです。
それが心理学の実験のスタンダードですから。

そこを否定してまで問題提起をしたかったんだと思います。

科学的な客観性が失われるのを分かった上で
実社会へ応用される段階の効果を優先したのかもしれません。


個人的には、
予備実験として少ないデータ数でアタリをつけるときにはP値で検定をして、
効果がありそうだという話になってからデータ数を増やして
違いの大きさそのものを評価するような流れが無難な気がします。

しかし「エビデンス」という単語の実態が曖昧なまま
「エビデンスがあるから良い」という印象が独り歩きする現状には
この論文誌の方針が一石を投じたといえそうです。

トラックバックURL

この記事にコメントする

名前:
URL:
  情報を記憶: 評価: 顔   
 
 
 
おしらせ
 ◆ セミナー情報 

New!

《コミュニケーション講座》
 〜人を育てる指導力〜

【日時】 
  2019年6月16日(日)
   10:00〜16:30


【場所】 
  北とぴあ 601会議室

   JR王子駅より2分
   南北線王子駅直結

詳細はこちら>>


《瞑想講座》

【日時】 
  2019年6月22日(土)

  午後の部 13:30〜16:30
  夜間の部 18:00〜21:00

【場所】 
  北とぴあ 第2和室

   JR王子駅より2分
   南北線王子駅直結

詳細は後日


《怒りの取り扱いマニュアル》
 〜期待の手放し方と
  ゆるしの技法〜


【日時】 
  2019年7月6日(土)
     7月7日(日)
   10:00〜18:30


【場所】 
  滝野川会館

   JR上中里駅より7分
   JR駒込駅より10分
   南北線西ヶ原駅より7分

詳細はこちら>>
次回未定


 ◆ 過去の講座 

《新カウンセリング講座》
 〜まとめと実践〜


当時の内容はこちら>>


《勉強会》 

【テーマ】 変化の流れを考える

当時の内容はこちら>>
次回は未定



 ◆ お問い合わせ 
  技術向上、
  コンサルティング、
  スーパーバイズ、
  執筆・講演…

  諸々のお問い合わせはこちらへ>>



ホームページ
バナー1


プロフィール
原田 幸治
理系人材育成コンサルタント。
技術力には定評のあるバイオ系化学・製薬企業にて研究職として基礎研究から開発研究までを担当。理系特有とも言える人間関係の問題に直面して心理とコミュニケーションを学び始め、それを伝えていくことを決意して独立。
コールドリーディング®、NLP(TM)、心理療法、脳科学、サブリミナルテクニック、催眠、コーチング、コミュニケーションへ円環的にアプローチ。
根底にある信念は「追求」。

・米国NLP(TM)協会認定
 NLP(TM)トレーナー。

・コールドリーディングマスター
 講座石井道場 黒帯。
(コールドリーディング®は
有限会社オーピーアソシエイツ
http://www.sublimination.net/
の登録商標となっています)
Archives
最近のコメント
QRコード
QRコード