機械学習の戦略策定/施策立案への利用のデモンストレーション

2020.10.12

データサイエンス

先進的な企業では、機械学習（AI）をビジネスの現場で利用し、他と差をつけています

今回は、機械学習のビジネス利用に興味があるが、機械学習で何が具体的にできるのか分からない企業様・個人様向けに、機械学習のサービス解約抑止への利用をデモンストレーションしてみます

※注意点

機械学習のプロジェクトの過程ではなく、結果何が分かるかということに焦点を当てます
機械学習のモデル作成・解釈を自動で行う、弊社サービスの「ForecastFlow」を利用します

ビジネスのゴールの設定

「優良顧客の育成」をゴールとします

※今回はアメリカの電話会社の顧客データを用います。機械学習のタスクとしては、電話会社の顧客の解約予測をする分類問題です

機械学習で分かること（機械学習モデルの解釈）

解約を説明する上で重要な顧客の特徴

今回作成したモデルでは特徴量が19種類だけですが、実際の現場では、100種類以上の特徴量を用意することの方が多いです

※特徴量とは、解約を説明する変数です

※たくさんの特徴量が存在し得ます。例えば、年齢・性別といった個人属性、代理店や媒体といった流入経路、コンビニ支払・クレジットカードといった支払い方法とその移り変わり、サービスへのロイヤリティを表すポイント、いつサービスをどのくらい使ったかなどの変遷、キャンペーン、プロモーション、付帯サービスの利用、アプリなどの利用、季節性等

ところで、解約抑止をするために、100種類以上の変数のうち、どれが解約を説明する上で(交互作用なども含めて)重要な変数かを知りたくなります。しかし、100種類以上の変数から、解約を説明する上で重要な変数をBIツール等で探し出すのは、工数的にかなり厳しいです

これを可能にするのが、機械学習. 各特徴量の解約を説明する上での重要度が定量的に分かります

※上記グラフでは、横軸が特徴量の重要度、縦軸が特徴量の名称です

今回のケースでは、「日中通話料金」、「夕方通話料金」、「国際通話料金」、「契約月数」、「日中通話回数」が解約を説明する上で、重要だと分かります.また、これらの特徴量だけで、重要度が全体のうちの約50%（12.7%+11.6%+8.9%+8.8%+8.8%）を占めています

※特徴量の重要度についての補足. ForecastFlowに搭載されている機械学習モデルは、ある特徴量を基準に顧客を解約か継続かに何度も選り分けていくモデルです。（例えば、日中通話料金で選り分け、契約月数で選り分け、…を繰り返す）今回の結果は、その選り分ける分岐のうち、約50%が、たった5つの特徴量を基準としていることを意味しています（2020/08/06でのForecastFlowの仕様）

今回の重要度の結果で、意外だった点が大きく２つあります

1点目について. 定期的に商品が届くようなサービスや、サブスクリプションサービスで解約予測をすると、多くの場合、最も重要な特徴量として浮かび上がるのがサービスの継続期間です. サービスの継続期間が長ければ長いほど、解約しにくくなるのは、サービスの利用経験を重ねロイヤリティが高まるし、濃い顧客のみが残存していくからです. それと同じ理屈で、今回「契約月数」が最も重要だと予想していました. しかし、この予想は外れ、通話料金が重要特徴量のTop3を占めていました。その理由は、一つに、電話のサービスは(質や価格で)競合との差別化がしにくいサービスで、サービスの利用経験を重ねてもロイヤリティが高まりにくく「契約月数」が効きにくいから、というのがありそうです. また、今回は従量課金サービスであり、通話料金が、サービスの利便性を感じる度合いを表しているだけでなく、（サービスを使い終わった後に判明する）支払わなければならない金額でもあるため、「通話料金」が効くからということも重要そうです。つまり、サービスを使えば使うほど、解約しにくくなるファクタと解約しやすくなるファクタが共存していることを意味しています. この時点では、「日中通話料金」>「夕方通話料金」>「国際通話料金」の順で重要なのは、サービスの利用量（料金）が通常この順番だから（※データで確認可）だと推測していました

もう一点意外だったのは、居住地区（州）がそこまで重要でなかったことです. 定期的に商品が届くようなサービスや、サブスクリプションサービスで、大抵の場合、個人属性（年齢、性別、居住地区）等は、重要特徴量として浮かび上がります. そのうち、居.住地区が重要になるのは、県民性とサービスの相性の良し悪しがあったり、サービスと土地や気候の相性があったり、居住地区が代理店や媒体といった流入経路と紐づいたりするからです（例えば、代理店によってサービスの説明の質が様々であったり、媒体によってリーチする顧客の価値観が大きく変わったりします）. 今回は、州民性や、州の土地や気候との相性、州の流入経路を通じた解約への寄与は、比較的小さいと言えそうです

重要特徴量(日中通話料金)と解約しやすさの関係

※このグラフの青い折れ線に注目してください。解約しやすさ（解約スコア）を表します。横軸：日中通話料金、縦軸：解約スコアです

このグラフも面白いです。このグラフは、日中通話料金によって、平均的な解約しやすさが、下記のように変わることを意味しています

15ドル~23ドル：解約しにくい。解約しやすさは一定
24ドル~35ドル：最も解約しにくい。通話料金が高ければ高いほど、解約しにくくなる
36ドル~：解約しやすい。通話料金が高ければ高いほど、解約しやすくなる

ここから、「サービスの利便性」と「料金への不満度」に着目すると、次のような仮説を立てられます

15ドル~23ドル：「サービスの利便性」をそこそこ感じている（ただし、使っても一定である）. 「料金への不満度」はあまりない（こちらも一定である）
24ドル~35ドル：「サービスの利便性」を（使えば使うほど）感じている. 「料金への不満度」はあまりない
36ドル~：「サービスの利便性」は頭打ちし、「料金への不満度」が打ち勝つ

例えば、これらの3セグメントに分けて解約抑止施策を考えていくと、他の特徴量を使ったセグメンテーションよりかなり筋が良いです. 私が安易に思いついたのは、36ドル以上は定額のオプションをサービスとして作ってみることです（収益性を考えることは必須になると思いますが）. ドメイン知識（例えば、プライベートで電話を使っている層が多いのか、仕事で使っている層が多いのか等）があれば、もっと堅実な施策を考えたり、さらに考察を深めていくこともできると思います

※特徴量の組み合わせで解約を説明するパターンを探すとき、重要特徴量の組み合わせから仮説を立てて探していくと、やりやすくなります. 重要特徴量の組み合わせで解約を見ると、単相関では分からなかった性質に気付けることもあります。例えば、代理店によって、40代以下の解約抑止が得意なところもあれば、それとは真逆で、50代以上の解約抑止が得意なところもあった、ということもあります

重要特徴量(夕方通話料金)と解約しやすさの関係

※上記のグラフの青い折れ線に注目してください。横軸：夕方通話料金、縦軸：解約スコアです

このグラフも意外な結果です. 「日中通話料金」と全く形状が異なっています. 「夕方通話料金」は、基本的に高ければ高いほど、解約しやすくなることを表しています. つまり、仮説としては、使えば使うほど、「サービスの利便性」より「料金への不満度」が打ち勝つようになっていそうです

まとめ

今回のような解約抑止をゴールとした時、機械学習で分かることは、大きく二つあります

解約を説明する上で重要な特徴量（人手で探すのは工数的に難しい）
その重要特徴量が、どのように解約に寄与するか

今回の記事では、機械学習の解約抑止のための利用を、結果何が分かるかということについてフォーカスして、デモンストレーションしました

何かコメントありましたら、頂ければと思います。

データサイエンス
コメント: 0