『”決定木”という選択肢』 - 村山 幹朗
前回のコラムでは、セグメンテーション手法として、一般的に使われる因子分析、クラスター分析には問題がある事について取り上げました。また、その問題を避けるためのセグメンテーション手法、決定木について朝野先生に取り上げて頂きました。市場調査クリニックでは、決定木を用いたセグメンテーション手法として「ACAT」という手法についても掲載していますが、今回の分析裏話では、単純集計によるセグメンテーションと、決定木を用いたセグメンテーションの違いについて、より詳しく取り上げたいと思います。
■単純集計で良いのか?
消費者の行動にセグメント間で明確な違いが出る様にしたいのなら、購買意向や単価が高い人にフラグを立てて抽出し、クロス集計を切ればいいじゃないか、と思われる方もいると思います。例えば、ある製品について購買意向が高い人(”非常に買いたい”と”買いたい”のトップ2回答)とそれ以外に分けて、どんな変数に差があるか見る、といった方法です。
必ずしも決定木で得られる知見と同じものが得られるとは限りません。消費者の異質性、という問題があるからです。決定木では「購買意欲が最も高くなる人はこの条件とこの条件を持った消費者」の様なルールが導かれるのですが、全体でみるとそのルールに当てはまらない消費者も大なり小なり必ず存在するわけで、単純集計結果にはその人達が混ざってしまいます。
決定木は、同じ購買行動を起こす人達に共通するルールを見つけた上で、そのルールにはまってTOP2回答をしている人が”明らかに集中しているセグメント”を見つけ出す事ができます。単純集計でトップ2のクロスを切った結果の中には、そのルールに当てはまってトップ2になっている人もますが、パターンにあてはまらないけれどトップ2の回答をしている人もいるわけです。
つまり単純集計では誤差が混ざっているので、一見TOP2として差がある様に見えても、ターゲットの特徴として解釈出来なかったり、解釈できても別に有望なターゲットに繋がる差ではなく、たまたま出てしまった差なだけかもしれないわけです。
下の図を見てください。ある男性用健康サプリメントへの購買意向の高いトップ2回答とボトム2回答者を比較して、クロスを切ったものです。トップ2では「男性」「30代」「会社員」「ペットを飼っている」「転職を考えている」という変数に差があるので、一見これらがターゲティングをする上で重要な特徴の様にみえます。
ではこれに対して、決定木の結果を見てください。
男性30代、会社員というセグメントで購買意向が最大になっており、転職とペットは変数として落ちています。恐らく単純集計で「転職を考えている」に差が出たのは「男性30代で、会社員」だからです。別に転職を考えている事が、その健康食品への購買意向と関係あるわけではなかったという事です。
またペットに関しては、女性側のノードで「ペットを飼っている」と「飼っていない」の分岐があり、飼っている方が若干購買意欲が高い事が分かります。単純集計ではそこが混ざっていたせいで差があるように見えたのでしょう。男性側のノードでは分岐軸として出てこないので、男性側をターゲットとするのであればペットに関する訴求は必要ない事が分かります。
これは集計と決定木の違いが生まれるパターンの1例です。この辺の判断は決定木の結果だけでなく、定性的な意味合いや解釈可能性を同時に勘案しながら考える事になります。
分析裏話第2回、いかがでしたか?決定木のについての詳しい内容や決定木を用いた手法もあわせてご参照ください。