データサイエンスすいすい会 13th
データサイエンスに関する雑談を通して、すいすいデータサイエンスを理解できるような知見を貯めていく『オンライン雑談会』
GRIの分析官リーダが主宰してテーマについてお話します
参加無料、お昼を食べながらお気軽にご参加ください
参加方法
以下のURLからzoomでの参加が可能です
https://zoom.us/j/96152836275
参加無料
時間になりましたらご自由にご参加ください
スケジュール
第13回 2021年3月10日(水)12:00~13:00
隔週で開催予定
内容
第13回「自動機械学習での特徴量エンジニアリングのテクニカル解説」
ForecastFlowなどの自動機械学習の予測結果を理解しやすくするには、インプットデータの準備の仕方を工夫するテクニックがいくつか存在します。今回は、多くの予測問題に共通する、時刻データの扱い、欠損値の扱い、カテゴリデータの扱いについて、共有いたします。
時刻データの扱い(時系列予測ではなく)
- 時刻ではなく、リードタイムや期間に変換
欠損値の扱い
- データに欠損値がある時のシチュエーション
- データに欠損値がある時のForecastFlowの挙動(訓練時、推論時)
- データに欠損値がある時のデータ準備の手順
カテゴリデータの扱い
- カテゴリデータの持ち方(ワンホット・エンコーディングとの比較)
- カテゴリデータを括る
- 数値をカテゴリに変換すべきか
ナビゲーター
古幡 征史
株式会社GRI 取締役
Ph.D in Computer Science
GRIにて50以上のAI, BI, 分析基盤構築プロジェクトをリード
KPMGコンサルティング、University of Southern California、ドワンゴを経て、2016年9月より現職
機械学習活用やデータサイエンスに関する
情報共有コミュニティ
自由にご参加いただけるSlackを用意しています
実践的に機械学習を活用するための議論やノウハウの共有を目的としています
すいすい会の内容についても活発に議論できればと思います
Slackはこちら
過去のすいすい会
第12回「ECの売上データに対して自動機械学習を用いた顧客行動予測」
EC(e-コマース)の売上データは、一般的な小売り店の売上データと比較して顧客情報データが充実しており、機械学習の予測モデルで扱いやすいテーマになります。近頃の社会情勢を反映し、EC市場の伸びは大きいですが、自社ECの成長を維持するためには、リピート注文をいかに獲得するかが鍵になります。
今回のすいすい会は、ECの成長の鍵を2つの視点で紹介します
- EC分野での自動機械学習を利用する典型的な分析テーマ例の整理
- あるイギリスのECの売上データを用いたForecastFlow(自動機械学習)のデモの共有
- 売上データを用いた予測モデル構築から得られる施策提言の例を共有します
- 自動機械学習とTableauの使いどころの違いを、予測モデル構築時の可視化分析(Tableau)やデータ前処理(Tableau Prep)の業務を通して説明します
- 大学生が60時間かけると、”初見のデータに対してここまで実現できる”ということが実感できる内容になっております
資料はこちら↓
データサイエンスすいすい会「ECの売上データに対して自動機械学習を用いた顧客行動予測」
第11回「大規模データ分析基盤と自動機械学習(BigQuery + Matillion + ForecastFlow)」
大規模データ分析基盤と自動機械学習連携の手順を紹介しました。
資料はこちら↓
データサイエンスすいすい会第11回「大規模データ分析基盤と自動機械学習」
番外編「“予測で世界は変えられる” AIで成功する企業とダメな企業の話し」
2021年1月27日のJapan IT Week関西の社長セミナーにGRI代表が登壇しました
組織で必要とされるデータサイエンティストの育成やデータサイエンスを組織に根付かせる仕組みづくりについてお話しました
資料はこちら↓
第5回JapanITWeek関西社長セミナー
第10回「はじめての自動機械学習(ForecastFlow)」
今回のすいすい会では、ForecastFlowを使ってはじめての自動機械学習に関してご説明いたします。「予測ができれば世界が変わる」というキャッチコピーの元、ForecastFlowでは誰でも機械学習(人工知能の一種)の最新技術を利用することができます。事業インパクトを出すためのForecastFlowの活用事例、及び機能紹介をいたします。
資料はこちら↓
はじめての自動機械学習
第9回「自動機械学習での予測モデル分割による詳細分析」
予測モデルの自動分割による詳細分析がテーマです。機械学習での予測結果は、入力データセットの母集団に依存します。例えば、全顧客データで予測モデルを一つ構築する場合、全顧客に対して同じ条件で予測することになります。しかしながら、いくつかのセグメントで顧客行動が明らかに異なることが現場で分かっている場合、先ほどの予測モデルに違和感を感じることもあり得ます。
このような状況への対応方法として自動機械学習基盤のForecastFlowではユニークな便利機能(予測モデルを自動分割して訓練する機能)があります。1つのデータセットから特定のカテゴリ特徴量を指定して訓練を実施すると、自動的に予測モデルが分割された上で訓練が行われます。この機能を用いて、以下の2つの事例紹介を行います。
- 米国電話会社でのサブスクリプションビジネスでの顧客行動の違いを浮かび上がらせる手順(反応していたのは価格だけでなく、オプション利用のロイヤルカスタマー化が判明)
- ADK様の大規模アンケート調査の生活者総合調査を用いた性年代ごとの旅行をするユーザの特徴を理解
資料はこちら↓
【イントロダクション】自動機械学習でのモデル分割20210113
第8回「データ活用を推進するマネージャが知っておくべき自然な摂理」
データ活用の推進とリモートワークにより、各マネージャは静かな大変動に直面しています。マネージャはリモート会議で発言の場を失い、マネージャを飛ばした意思決定などが起こり始め、若手は会社への帰属意識を失い、より魅力的な環境へ身を移しています。データを活用する上で自然な摂理がいくつか存在しており、それらをベースにマネージャとしてデータを効率的に使うための環境整備のヒントをお話しました。
資料はこちら↓
【イントロダクション】データ利活用マネージャが知っておくべきポイント
第7回「時系列のセンサーデータを扱ったPredictive Modelでの予測について」
ビジネスシーンで扱うデータの多くは時系列データであり、予測に関して、数多くのモデルが存在します。NASAの研究の一つである飛行機のタービンエンジン機器のセンサーデータを用いて、故障予測を中心にお話しました。
資料はこちら↓
第6回「予測スコアを用いた効果的な施策実施」
自動機械学習ForecastFlowを使うと、顧客一人一人のレベルで予測スコアを自動で算出できるようになります。これからの出来事が予測できるので、効率的に施策を実施することができます。その実行手順や考え方を説明します。
– 推論(予測スコアの算出)の考え方
– 予測スコアの施策選定への活かし方
– 予測スコアの算出から可視化までの自動化のやり方(Tableau PrepのTabpy連携)
– ELTツールMatillionを利用したBigQueryとForecastFlowの自動連携のやり方
– ForecastFlowの機能追加の紹介(Sensitivity Analysis (Partial Dependence Plot) の探索機能追加)
資料はこちら↓
第5回「ForecastFlowで自動機械学習をやってみよう」
自動機械学習の仕事の進め方をForecastFlowのデモ(分類問題と回帰問題)を通して紹介しました。このデモは幕張で開催された「AI・業務自動化 展」より生放送でお送りしました。
第4回「自動機械学習での特徴量の作り方」
自動機械学習の工程の中で最も時間を要するのが予測ターゲットを説明する特徴量データの準備になります。特徴量の考え方、アンチパターン、モダンなアルゴリズムで不要な特徴量処理をお話しました。また、Tableauなどの可視化ツールで事前に分析しておくべきことと自動機械学習での特徴量エンジニアリングの使いどころをお伝えしました。
資料はこちら↓
第3回「機械学習の初心者卒業: 分類問題の精度評価手法と不均衡データの実践的な取り扱い」
実社会では不均衡データを扱うのが普通ですが、教科書ではあまり触れられていないため、今回は不均衡データの実践的な取り扱い方をお話します。その際、Google ColaboratoryやTableau Prepでの実装例をご紹介します。また、不均衡データの取り扱いを理解する前提知識として正解率のパラドクスや精度評価方法を述べます。
資料はこちら↓
【イントロダクション】初心者突破①:精度評価と不均衡データの扱い
第2回「アンケートと機械学習で効率的な顧客理解の実践方法の共有」
アンケート回収数が少なくアンケート結果が眠っている企業も多いのではないでしょうか?
今回の「すいすい会」では、アンケートと機械学習の組み合わせの事例を紹介しました
QA追加回答
当日いただいたご質問への回答内容を追加いたします
Q. アンケートの内容そのものの妥当性はどのように検証するのでしょうか?
A. コンバージョンが、すぐに決まる商材であれば、コンバージョンを教師にして、設問を含めた特徴量で機械学習。設問が重要特徴量に入ってくれば、良い設問だったと言える
資料はこちら↓
【イントロダクション】アンケートと機械学習で効率的な顧客理解の実践方法の共有20200916
第1回「ビジネスでAIを上手く活用するための問題設定法の共有」
AIを実践的に活用する際、どのような問題を設定すべきか?
AIで解くべき問題が分かると、実践的なデータ利活用ができます
第1回では、サブスクリプション・ビジネス(解約防止、Life-Time Valueの予測)における問題設定の秘訣を話しました
資料はこちら↓