機械学習について概観理解

機械学習とは

機械学習とは、「データの集合から」「その法則性(パターン)」を学ぶ、見つけ出すこと
与えられたデータからより効率的に法則性を発見するための手法の集合
予測や分析、分類に用いる

ex)
入力と出力の因果関係を知りたい
複数のカテゴリを判別したい
似た者同士をまとめたい
異常な場所(場合)を発見したい

機械学習のステップ
1. 生データから特徴ベクトルへの変換
2. 機械学習アルゴリズムの適用

特徴ベクトル
対象の特徴を示す数値を、ベクトルとして並べたもの
生データから生成するため、機械学習の前処理にあたる

機械学習アルゴリズムの適用
数あるアルゴリズムの中から適切なアルゴリズムを選択する

機械学習を使うケース
例外や異常状態のパターンが多い場合
経験と勘による場合分けやルール作りが難しい場合

モデル
機械学習の結果得られた法則性を表すもの
何らかの数式やデータ構造と、その中に含まれる変更可能なパラメータの値の集合
適用するアルゴリズムにより異なる

プロセス
与えられたデータをもとに何らかの基準についてより望ましい出力が得られるようにモデルを改変する
初期状態が設定された初期モデルに対し、データを与えてアルゴリズムを適用するとパラーメータが更新された学習済みモデルが得られる
そのモデルに対して新たなデータを入力すると、学習した法則に基づいて計算された認識や予測の結果が出力される

機械学習の手法

大きく分けて2種類
・教師あり学習
・教師なし学習

教師あり学習
未知の情報に予測するため、既知の情報からパターンを学習する
教師あり学習の問題設定のうち、予測対象が数値であるものを「回帰」、カテゴリであるものを「分類」と呼ぶ

教師なし学習
訓練データをあたえず、データ内のパターンを発見する
教師なし学習の問題設定には、「クラスタリング」「次元削減」などがある

機械学習の応用
「推薦」と「異常検知」

ex)「分類」
あるサンプルが与えられたときに、そのサンプルの所属カテゴリを予測する予測器の作成
予測対象(カテゴリ)が数値で表現されていないため、サンプルがあるカテゴリに属する確率を予測する
カテゴリ1である確率、カテゴリ2である確率を求める
判別分析
データにラベルを貼るイメージ、ラベルはあらかじめ列挙しておく必要がある

分類の手法
・ロジスティック回帰
・サポートベクターマシン

サポートベクターマシン
判別分析や回帰分析に適用できる手法の1つ

参考

データサイエンティスト養成読本 機械学習入門編