機械学習とは?仕組みやAI・ディープラーニングとの違い
目次を閉じる
- 機械学習とは
- 機械学習の仕組み
- 機械学習のメリットと精度の高いモデル構築のカギ
- 機械学習と関連する用語との違い
- 機械学習とAIとの違い
- 機械学習とディープラーニングとの違い
- 機械学習の種類
- 教師あり学習
- 教師なし学習
- 強化学習
- 機械学習の代表的なアルゴリズムの例
- 線形回帰
- ニューラルネットワーク
- k近傍法
- 決定木
- ランダムフォレスト
- サポートベクターマシン(SVM)
- 機械学習の活用例
- 画像認識
- 音声認識
- レコメンデーション
- データの分類
- 異常検知
- 広告の自動入札
- ターゲティング
- 自然言語処理
- 機械学習を活用する際の注意点・デメリット
- 過学習や未学習に陥る可能性がある
- 実務に活用するにはある程度のデータ量が必要
- 出力データの根拠がわかりにくいことがある(ブラックボックス問題)
- 汎用性の不足
- 機械学習の仕組みを用いてAI活用の最適化を実現
機械学習とは
機械学習(Machine Learning)とは、コンピューターにデータを読み込ませて、蓄積されたデータをもとに機械がみずから規則やパターンを反復的に学習し、未知のデータに対する予測や判断を可能にする技術です。
人工知能(AI)の一分野であり、とくに近年注目を集めています。機械学習は、英語の「Machine Learning」をカナ表記してマシンラーニングと呼ぶこともあります。
機械学習は、次の例をはじめ活用分野が拡大中です。
- 顔認識
- 文字認識
- 売上予測
- ECサイトのレコメンド機能
機械学習の仕組み
機械学習は、人間が経験から学習するように、コンピューターがデータからみずから学習する仕組みです。そのため、データ量が増えるほど精度の向上が可能です。
機械学習のアイデア自体は、「コンピューターに経験から学ばせる」という発想にもとづいています。従来は人間がプログラムに詳細なルールを書き込んでいましたが、機械学習では次のような流れで学習を行わせます。
- 関連する大量のデータを収集する
- 異常値の除去や正規化などの前処理を行い、分析に適した形式に整える
- 膨大なデータを学習させる
- アルゴリズム(計算手順)にもとづいてそのデータを分析する
- データ中に潜む共通点や法則(特徴量)を繰り返しの学習によって発見する
- 別のテスト用データでモデルの性能を評価する
- 得られた機械学習モデルに新しいデータを入力し、学習で得たルールにもとづき予測や判断の結果を出力
- 精度が不十分な場合、アルゴリズムの見直しやパラメータ調整、特徴量の追加、データ量の増加などを行い再学習
機械学習のアルゴリズムでは、連続的な値を使って特定の数値から別の数値を予測する「回帰」と、分析対象のデータ属性をもとにカテゴリーや種類を判定する「分類」がよく使われます。
機械学習のメリットと精度の高いモデル構築のカギ
機械学習は、人間が一つひとつルールを定義しなくても、十分なデータを与えればコンピューターがみずから規則を推測してくれる点が大きなメリットです。
機械学習では、データから得られるパターンが重視されます。そのため、正しく学習させるには大量の高品質なデータが必要であり、データの前処理やアルゴリズムの適切な選択が重要になります。言い換えれば、コンピューターに「正しい経験」を積ませることが、精度の高いモデル構築のカギです。
機械学習と関連する用語との違い
機械学習とよく混同される用語として、AIやディープラーニングが挙げられます。
機械学習は人工知能(AI)の実現手法の一つであり、AIという大きな枠の中に機械学習が位置づけられます。その機械学習の一部が、深層学習(ディープラーニング)です。
それぞれの違いについて解説します。
機械学習とAIとの違い
AIは「コンピューターに人間と同等の知能をもたせる試み」の総称であり、その中で機械学習はデータから規則性を見つけ出す具体的な手法のことを指すという違いがあります。
AIは広義の概念で、人間の知能や行動を模倣するための技術全般を含みます。一方、機械学習はそのAI技術の一部であり、とくにデータを活用して学習するアルゴリズムに焦点を当てているのが特徴です。機械学習は、予測や意思決定を行う技術や手法を指しています。
機械学習とディープラーニングとの違い
ディープラーニング(深層学習)は、機械学習の分野の一つです。脳の神経細胞を模倣した構造をもつニューラルネットワーク(人工の神経回路網)を用いて、多層のノード(ニューロン)を組み合わせ、データから特徴を自動的に抽出して学習を行います。
従来の機械学習では、データの前処理や特徴抽出に人手が必要で、そのための専門知識が求められます。モデルにデータを学習させる前に、人間が特徴量と呼ばれる指標を設計する必要がありました。
一方で、ディープラーニングではネットワークが自動的に特徴抽出を行うため、前処理にかかる手間を最小限に抑えられるのが強みです。さらに、機械学習は小規模から中規模のデータセットに強みをもつのに対し、ディープラーニングは大規模なデータセットに優れた性能を発揮します。
ディープラーニングは、機械学習の進化形であり、膨大なデータや複雑なパターンの学習に適した技術です。
機械学習の種類
機械学習には、教師あり学習や教師なし学習といった複数の種類があります。それぞれ学習方法が異なるため、最適なAIモデルを開発するためには種類ごとの特徴を押さえることが大切です。
| 学習手法 | 概要 | 主な用途や例 |
|---|---|---|
| 教師あり学習 (Supervised Learning) | 入力データとそれに対応する正解ラベル(出力)をセットで与え、モデルに「入力→出力」のパターンを学習させる手法 正解が明示されたデータから誤差を逆算し、モデルの予測精度を高める | 分類や数値予測など スパムメール判定・画像認識・売上予測 |
| 教師なし学習 (Unsupervised Learning) | 学習データにラベルを付与せず、入力データセット内のパターンからデータの構造を学習させる手法 データをいくつかのグループにクラスタリングしたり、次元圧縮によって特徴を抽出したりする | クラスタリング・次元圧縮など 顧客データのグループ分け・異常検知 |
| 強化学習 (Reinforcement Learning) | 試行錯誤を通じて、環境との相互作用から「報酬」を最大化するような方策を学習する手法 正解を直接与えず、行動に対して与えられる報酬をもとに逐次学習を行い、最適な戦略(ポリシー)を獲得する | ゲームAI・ロボット制御など 囲碁AIによる最善手の学習・自動運転車の走行制御 |
機械学習の代表的な3種類を紹介します。
教師あり学習
教師あり学習とは、コンピューターにラベルと呼ばれる正解データを事前に提供することで学習を行う手法です。既知のデータと対応する正解を与えることによって、未知のデータに対して予測や分類を行えるようになります。
教師あり学習の利点は、教師データをもとにモデルを構築するため、予測精度が高くなる可能性があることです。ただし、教師データの作成に時間とコストがかかる点には注意が必要です。
教師なし学習
教師なし学習とは、与えられたデータの本質的な構造や法則を、モデルを使って自動的に抽出する手法です。教師なし学習は、正解データが存在しない場合に、データ間の構造や法則性、関係性をコンピューターが自動的に解析して導き出せる点がメリットです。いままでのデータが活かしきれないケースに効果を発揮します。
教師あり学習の前段階としても活用でき、ビッグデータ解析にも用いられるため、機械学習の中でも重要な手法だといえるでしょう。
強化学習
強化学習とは、システムが試行錯誤を繰り返しながら最適な制御方法を見つけ出す手法です。教師あり学習や教師なし学習と違い、明確なデータをもとにするわけではありません。
プログラムが与えられた環境を観察→行動選択→行動価値の評価を繰り返し、みずから更新しながら学習を進めるのが特徴です。さまざまな行動を試し、最も価値のある行動を見つけるという点では、人間の学習過程とよく似ています。
強化学習はゲームやロボットの制御など、明確な正解を与えにくい問題で威力を発揮します。
機械学習の代表的なアルゴリズムの例
機械学習はアルゴリズムによって複数の種類に分けられます。ニューラルネットワークやk近傍法など、代表的なアルゴリズムを紹介します。
線形回帰
線形回帰とは、与えられたデータの線形な関係(直線的な傾向)をモデル化し、連続値を予測するアルゴリズムです。広告費と売上の関係にもとづく売上高の予測を含め、幅広く利用されています。
ニューラルネットワーク
ニューラルネットワークとは、人間の脳内にあるニューロンという神経細胞を模倣し、人工ニューロンという数式で表現したアルゴリズムのことです。脳の回路に似た構造をもつユニットで構成され、一般的には「入力層・中間層・出力層」の3層から成り立っています。単純な人工ニューロンを複数組み合わせることで、より複雑な処理を実行できるのが特徴です。
ニューラルネットワークは、従来のアルゴリズムでは解決が難しかった問題にも、高精度かつ効率的に対応できるため、さまざまな分野で重要な技術とされています。たとえば、次のような多岐にわたる分野でニューラルネットワークを活用したAIが利用されています。
- 機械翻訳
- 株価予測
- 不良品の分類
- 自動運転における物体認識
- 医療分野での癌予測 など
とくに画像認識や音声認識の精度については、ときとして人間の予測を超えることもあるほどです。
k近傍法
k近傍法は、データを分類する際に使用されるアルゴリズムです。未知のデータが与えられた際に、その周囲の学習データのクラスを参考にして未知データの分類方法を決定します。また、「k」はこの手法におけるパラメータであり、近くにある学習データのクラス数を示しています。
決定木
決定木とは、木の構造(樹形図)を使って分類や回帰を行うアルゴリズムです。樹形図を使用することで、データは上から順に枝分かれして各クラスに分類されるため、分析結果の解釈が簡単です。顧客情報やアンケート結果、属性をもとに購買意欲を分類する、といった活用法があります。
ランダムフォレスト
ランダムフォレストは、複数の決定木を組み合わせて予測を行うアルゴリズムです。ランダムフォレストはアンサンブル学習という手法の一種に分類されます。
アンサンブル学習とは、複数の弱い学習器を組み合わせて、より強力な学習器を作り上げる手法です。ランダムフォレストでは、多くの決定木を組み合わせることで、個々の決定木の弱点を補い、全体の予測精度を向上できます。
サポートベクターマシン(SVM)
サポートベクターマシンとは、データを分類する強力な手法です。マージン最大化の考え方にもとづき高次元の特徴空間で分類境界を見つけます。少ないデータでも高い精度を出せるのが特徴です。画像の2クラス分類(犬 vs 猫)のような活用法があります。
機械学習の活用例
機械学習を用いたAIは、主に次のようなシーンで活用されています。
- 画像認識
- 音声認識
- レコメンデーション
- データの分類
- 異常検知
- 広告の自動入札
- ターゲティング
- 自然言語処理
機械学習は生活のあらゆる場面で活用が広がっています。検索エンジンや地図アプリの経路予測、SNSのコンテンツ表示最適化、自動運転など、例を挙げればきりがありません。
ここでは、活用されている技術と具体的な事例を紹介します。
画像認識
画像認識とは、写真や動画から物体・人物を識別する技術のことです。スマートフォンの顔認証や写真アプリの自動タグ付け、工場の外観検査、レントゲン画像からの診断などで活用されています。
音声認識
音声認識とは、人間の話す言葉をテキストに変換したり、意味を理解したりする技術です。スマートスピーカーやスマホの音声アシスタント(SiriやAlexaなど)が代表的な例で、問いかけに応答する裏で機械学習モデルが動作しています。
レコメンデーション
レコメンデーションとは、ユーザーの過去の行動から好みを学習し、関連商品やコンテンツを推薦する機能のことです。ユーザーにとっては最適な商品を見つけやすくなり、満足度の向上につながります。
たとえば、ECサイトでは、ユーザーの購入履歴や閲覧履歴を分析し、個々のユーザーに最適な商品を提案できます。Netflix・YouTubeといった動画サービスの「あなたへのおすすめ」機能は、機械学習の典型的な応用です。
データ分析を通じて顧客のニーズや市場のトレンドを把握し、ビジネス戦略を最適化できるのもポイントです。
データの分類
データの分類とは、入力されたデータがどのような内容に関するものであるかを調べ、トピックごとに分ける作業を指します。これまでは人間が手作業で行っていましたが、最近ではAIによってこの作業を自動化・高精度化できます。
データの分類が可能なのは、機械学習に加えて自然言語処理技術が存在するためです。自然言語処理技術により、人間が普段から使用する言語を読み取ったり出力したりできます。そのため、データベース内のテキストを抽出し、条件どおりに並び替える、あるいは整理するなどが可能です。
異常検知
異常検知とは、大量のデータの中から通常とは異なるデータを見つけ出すことを指します。データマイニングという技術を活用し、大量のデータから法則性や傾向を見つけ出し、ほかのデータと照らし合わせて一致しないものを特定する仕組みです。
異常検知は、次のような分野で活用されています。
- 機械や設備の故障の予知
- 製品の外観検査
- 迷惑メール
- 金融取引をはじめとする不正の検知 など
従来はこのような作業を人の手で行う必要がありましたが、AIが作業を一任することで手間や人件費を最小限に抑えられます。
広告の自動入札
機械学習を用いたAIは広告の領域でも活用が進んでいます。とくに自動入札が代表的です。AIが過去のデータや目標をもとに最適な入札戦略を提案してくれます。
従来は多数の広告を運用している場合、一つひとつの広告の入札単価を手動で設定しなければならず、手間がかかっていました。AIに入札単価の調整を任せることで工数を抑制できるほか、コンバージョン数の最適化にも効果的です。
ターゲティング
広告やメールマガジンなどの施策を実施する際は、配信するユーザーの属性を絞り込むのが一般的です。特定の条件に合わせて配信先を限定することをターゲティングといいます。
本来、ターゲティングを実施するには、見込み客個別の属性や行動傾向を分析しなければならず、配信数によっては大きな労力がかかります。一方、AIを活用すると、蓄積されたデータから適切な配信先を割り出せるため、マーケティング効率の向上が可能です。
自然言語処理
文章データの分析や翻訳、要約などの自然言語処理にも機械学習は利用されています。たとえば、メールのスパムフィルターは機械学習で迷惑メールを自動分類しており、翻訳アプリではニューラル機械翻訳で高精度な言語変換を実現しています。
機械学習を活用する際の注意点・デメリット
機械学習を利用する際の注意点やデメリットは次のとおりです。
- 過学習や未学習に陥る可能性がある
- 実務に活用するにはある程度のデータ量が必要
- 出力データの根拠がわかりにくいことがある
- 汎用性の不足
前提として、高度な機械学習システムを構築・運用するには、専門知識をもつ人材や計算資源(高性能GPUなど)が不可欠です。開発には時間と費用がかかるうえ、運用中もモデルの定期的な再学習やメンテナンスが必要です。
適切に扱うためにはデータの確保やモデル管理、倫理面の配慮が求められる点にも注意しましょう。その他、具体的な注意点を解説します。
過学習や未学習に陥る可能性がある
まず注意すべきは、過学習が発生すると正確な評価が難しくなる点です。過学習とは学習データに過度に適合しすぎることで、検証データに対する精度が低下してしまう状態を指します。これを防ぐためには、分割検証や正則化手法の導入など、慎重な設計・チューニングが必要です。
また、訓練誤差と汎化誤差の両方が大きい状態が続いている未学習も、機械学習でよく起こりやすい問題だといえます。未学習の主な要因としては、データの特性とモデルが適合していないことや、計算条件の設定が不適切であることが挙げられます。
実務に活用するにはある程度のデータ量が必要
機械学習を活用する際は、十分な量のデータを準備したうえで予測モデルの開発を進めましょう。データの収集期間が短かったり、ノイズが多く含まれていたりすると、予測モデルの精度が低下する可能性があります。また、データは常に最新の情報を反映させることが重要です。高品質なデータを活用することで、予測モデルの精度を向上できます。
機械学習に必要なデータ量は特徴量の数の10倍が目安とされています。しかし、開発するAIモデルの複雑さによって必要量が異なるため、一概にはいえません。実務にAIを活用する場合は、ある程度期間をかけて学習用のデータを収集する必要があります。
出力データの根拠がわかりにくいことがある(ブラックボックス問題)
機械学習によって開発されたAIは総じて、出力されたデータの根拠がわかりにくいという、説明性の欠如の問題を抱えています。これは「ブラックボックス問題」ともいわれ、AIを活用するうえでの大きな課題の一つです。仮に出力されたデータに誤りが見つかった場合、ミスをした原因がはっきりとわからず、学習モデルの見直しにつながらない可能性も考えられます。
ただし、最近ではブラックボックス問題を解消するため、「説明可能なAI」という技術の開発が進められています。同技術を採り入れたソリューションをすでに展開しているケースもあるため、機械学習で複雑なテーマ(医療や金融など)を扱う場合は、そうした製品を導入するのも一つの方法です。
汎用性の不足
現在の機械学習モデルは特定のタスクに特化しており、人間のように柔軟なマルチタスク能力はもちません。一つのモデルができるのは一領域の判断のみで、異なる問題には別途モデルを用意する必要がある点はデメリットといえるでしょう。いわゆる汎用人工知能にはいたっておらず、用途ごとに個別の学習が必要です。
機械学習の仕組みを用いてAI活用の最適化を実現
機械学習はAI開発を進めるうえで欠かせない技術の一つです。コンピューターにデータを与えて、繰り返し自動学習ができるため、機械学習を何度も実施することでAIモデルの精度向上につながります。
ただし、過学習に陥るリスクが生じたり、膨大な学習データを用意する必要があったりと、機械学習にもさまざまな注意点があります。そのため、AI開発を進める際は専門家の知識も採り入れつつ、複数のリスクを理解したうえで運用計画を策定することが大切です。機械学習の仕組みをしっかりと把握し、ビジネスシーンでAIを最大限に活用しましょう。
