シューハート管理図
プロアナリスト +AI
Windows、Mac、Linux用

ロシアのソフトウェアの登録 (エントリ番号 18857、2023 年 9 月 5 日付け)

ソフトウェアを購入する

機械学習 (ML)。 クラスタリング BIRCH、ガウス混合

[機械学習機能 - BIRCHクラスタリング]ボタン

クラスタリングは、類似または同種のインスタンスを個別のデータ クラスターにグループ化するために使用される機械学習手法です。この方法は、教師なし機械学習タスクで使用されます。

クラスタリング アルゴリズムのサンプル構造化テーブル ファイルをダウンロードできます。 XLSX

テーブル ファイルの構造化データはインポートに使用できます。 Excel ワークブック (*.xlsx)。 Excel バイナリ ワークブック (*.xlsb); OpenDocument スプレッドシート (*.ods)。

どこに適用できますか

例 1. 顧客の購入に関してマーケティング部門が収集したデータにより、顧客間に類似点があるかどうかを理解できます。これらの類似性により顧客はグループ (クラスター) に分割され、顧客グループを持つことは、ターゲットを絞ったキャンペーン、プロモーション、コンバージョン、およびより良い顧客関係の構築に役立ちます。

例 2. 混合物中の各成分の定量的または定性的な指標に基づいて、成分の混合物の定性的な指標に従って最も均質なグループを識別する。

例 3. さまざまな技術的生産モードに基づく最終製品の定性的または定量的指標による、最も均質なグループの特定。

例 4. どのクラスターにも接続できない非定型オブジェクトの特定。

BIRCH クラスタリング
[機械学習機能 - BIRCHクラスタリング]ボタン

クラスタリング BIRCH (階層を使用したバランスのとれた反復リダクションとクラスタリング) - 階層を使用したバランスのとれた反復リダクションとクラスタリング。

BIRCH アルゴリズムによるクラスター分析には、メトリック属性を持つデータが必要です。メトリック属性は、その値がユークリッド空間の明示的な座標 (カテゴリカル変数なし) で表現できる属性です。

クラスタリング機能ボタンが強調表示された機械学習 (ML) 機能ウィンドウ

図 1. 機械学習 (ML) 関数ウィンドウ。 BIRCH およびガウス混合アルゴリズムを使用したクラスタリング関数に移動するためのボタンの上にマウスを置くと、ツールチップが表示されます。

機械学習 (ML) 関数ウィンドウ。 BIRCH メソッドを使用したクラスタリング機能に移動するためのボタンの上にマウスを置くと、ツールチップが表示されます。

図 2. 機械学習 (ML) 関数ウィンドウ。 BIRCH アルゴリズムを使用したクラスタリング機能に移動するためのボタンの上にマウスを置くと、ツールチップが表示されます。

機械学習 (ML) 関数ウィンドウ - BIRCH メソッドを使用したクラスタリング。ポイントのメトリック属性のメジャーを選択し、[しきい値]と[クラスター数]の値を設定し、[結果を保存する]チェックボックスをオフにします。

図 3. 機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。ポイントのメトリック属性のメジャーを選択し、[しきい値]と[クラスターの数]の値を設定し、[重心とポイントの間の線]と[結果を保存する]チェックボックスをオフにします。黒い十字はクラスター番号が付いたセントロイド (クラスターの重心) を示します。

機械学習 (ML) 関数ウィンドウ - BIRCH メソッドを使用したクラスタリング。 [Y] 軸に沿って、メジャーのドロップダウン リストが表示されます。 [結果を保存する]チェックボックスにチェックが入っています。

図 4. 機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。 [Y] 軸に沿って、メジャーのドロップダウン リストが表示されます。

機械学習 (ML) 関数ウィンドウ - BIRCH メソッドを使用したクラスタリング。 [X] 軸に沿って、メジャーのドロップダウン リストが表示されます。

図 5. 機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。 [X] 軸に沿って、メジャーのドロップダウン リストが表示されます。

機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。 [重心と点を結ぶ線]にチェックが入っています。

図 6. 機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。 [重心と点の間の線]と[結果を保存する]チェックボックスがチェックされます。

機械学習 (ML) 関数ウィンドウ - BIRCH メソッドを使用したクラスタリング。割り当てられたクラスター コードを BIRCH シート上のソース ファイルのデータ ペア (X と Y) に保存するためのメッセージが表示されます。

図 7. 機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。 「BIRCH」シート上のソースファイル内のデータペア(XとY)に割り当てられたクラスターコードを保存することについてのメッセージが表示されます。割り当てられたクラスターの列の名前には、クラスター手法の名前、クラスターの自動検出またはユーザー定義、ユーザーが選択したメジャーと指標のペアの名前 [しきい値] と [クラスターの数] が保持されます。

機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。グラフに縦線・横線を引くボタンにマウスを重ねるとヒントが表示されます

図 8. 機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。グラフに縦線や横線を引く機能は、ボタンにマウスを重ねるとヒントが表示されます。

グラフ上に縦線や横線を引く補助機能のウィンドウです。

図 9. 機械学習 (ML) 関数ウィンドウ - BIRCH アルゴリズムによるクラスタリング。グラフ上に縦線や横線を引く補助機能のウィンドウです。名前の入った縦線が 2 行、横行が 1 行追加されました。ラベル (名前と値) を付けて任意の数の行を表示できます。リストで選択した任意の行の値を変更できます。ドロップダウン リストで選択した任意の行を削除することも、すべての行を一度に削除することもできます。

BIRCHクラスタリング手法を用いた数理モデルの品質が不十分な理由
  1. 次善のハイパーパラメータ調整: BIRCH クラスタリングには、しきい値やクラスタ半径などの調整が必要なハイパーパラメータがあります。ハイパーパラメータの選択を誤ると、モデルの品質が低下する可能性があります。
  2. データの不正確さと一貫性: データにクラスターの境界や構造を乱す可能性のあるノイズや外れ値が含まれている場合、BIRCH クラスタリングの品質が低下する可能性があります。
  3. 類似性基準が指定されていない、または誤って選択されている: BIRCH クラスタリングの品質は、類似性基準の選択または設定に依存する可能性があります。類似性基準の選択を誤ると、クラスタリングの精度が不十分になる可能性があります。
  4. 不適切なデータ スケーリング: データの値の範囲や測定単位が異なる場合、不適切なスケーリングにより BIRCH クラスタリングの品質が低下する可能性があります。
  5. データが不十分: モデルをトレーニングするために使用できるデータが不十分な場合、BIRCH クラスタリングの品質が不十分になる可能性があります。データが増えると、クラスタリングの品質が向上します。
ガウス混合クラスタリング
[機械学習機能 - BIRCHクラスタリング]ボタン

混合ガウス モデルは、すべてのデータ ポイントが未知のパラメーターを持つ有限数のガウス分布の混合から生成されると仮定する確率モデルです。この機械学習アルゴリズムでは、各サンプルに、それが属する可能性が最も高いガウス図を割り当てることができます。私たちの分析では、混合ガウスは、推定された差分クラスの共分散を制約する変形、つまり完全共分散を導入します。

期待値最大化モデル (ガウス混合) は必ずユーザーが指定した数の成分を使用しますが、変分推論モデル (ベイジアン ガウス混合) は適切な適合に必要な数の成分のみを効果的に使用します。ユーザー指定の成分数が有効数より少ない場合、ベイジアン ガウス混合プロットにはユーザー指定の成分数が表示されます。

ガウス混合アルゴリズムによるクラスタリングは、ベイジアン ガウス混合アルゴリズムとガウス混合アルゴリズムに対応する 2 つのグラフで示されています。

わかりやすくするために、混合ガウス モデルの楕円体がグラフ上に表示されます。

機械学習 (ML) 関数ウィンドウ。混合ガウス法を使用したクラスタリング関数に移動するためのボタンの上にマウスを置くと、ツールヒントが表示されます。

図 10. 機械学習 (ML) 関数ウィンドウ。混合ガウス アルゴリズムを使用したクラスタリング関数に移動するためのボタンの上にマウスを置くと、ツールチップが表示されます。

ベイジアン ガウス混合法およびガウス混合法を使用したクラスタリング関数ウィンドウ。コンポーネント数パラメータは (3) に設定されます。

図 11. ベイジアン ガウス混合アルゴリズムおよびガウス混合アルゴリズムのクラスタリング関数ウィンドウ。コンポーネント数パラメータは (3) に設定されます。

ベイジアン ガウス混合法およびガウス混合法を使用したクラスタリング関数ウィンドウ。コンポーネント数パラメータは (5) に設定されます。

図 12. ベイジアン ガウス混合アルゴリズムおよびガウス混合アルゴリズムのクラスタリング関数ウィンドウ。コンポーネント数パラメータは (5) に設定されます。

ベイジアン ガウス混合法およびガウス混合法を使用したクラスタリング関数ウィンドウ。コンポーネント数パラメータは (10) に設定されます。

図 13. ベイジアン ガウス混合アルゴリズムおよびガウス混合アルゴリズムのクラスタリング関数ウィンドウ。コンポーネント数パラメータは (10) に設定されます。

以下の図の例は、「興味深い」データ セットに対する BIRCH およびガウス混合クラスタリング アルゴリズムのパフォーマンスを示しています。

「興味深い」データセットのための BIRCH およびガウス混合クラスタリング アルゴリズム。

図 14. 「興味深い」データセットに対する BIRCH およびガウス混合クラスタリング アルゴリズムのパフォーマンスの比較デモンストレーション。最後のデータ セット (右の列) は、クラスタリングの「ヌル」状況の例です。データは均一であり、うまくクラスタ化されていません。

事前自動データ準備

クラスタリングが適用される前に、インポートされたデータは標準化を使用して自動的にスケーリングされます。

標準化は、平均が 0、標準偏差が 1 になるようにデータをスケーリングするプロセスです。

インポートされたデータに [男性、女性] などのカテゴリ列が含まれている場合、ユーザーはその列を自動的に「ホット エンコード」して、データを新しい数値コード列 [0、1] に変換するように求められます。ホット エンコードされたデータは、新しいシートの元の [xlsx] ファイルに保存されます。

ワンホット エンコーディングは、カテゴリ変数を機械学習アルゴリズムで簡単に使用できる形式に変換するために使用されます。ワンホット エンコーディングの基本的な考え方は、元のカテゴリ値を表す [0] と [1] の値を取る新しい変数を作成することです。つまり、数値以外の列の一意の値はそれぞれ、[0] フラグと [1] フラグを含む新しいバイナリ列に変換されます。この列では、[1] はこの値が存在することを示し、[0] は値が存在しないことを示します。

ベイジアンガウス混合分布とガウス混合分布クラスタリング法を用いた数学モデルの品質が不十分となる可能性がある理由
  1. コンポーネントの数の間違った選択: どちらのクラスタリング方法も、モデル内のコンポーネントの数が正しく選択されているかどうかに依存しています。選択されたコンポーネントの数が不十分な場合、または逆に選択されたコンポーネントが多すぎる場合、クラスタリングの精度が不十分になる可能性があります。
  2. 次善のハイパーパラメータ調整: どちらの方法にも、共分散行列パラメータや事前分布など、調整が必要なハイパーパラメータがあります。ハイパーパラメータの選択や調整を誤ると、クラスタリング モデルの品質が低下する可能性があります。
  3. 分布の仮定の不一致: ベイジアン ガウス混合法とガウス混合法では、データがガウス分布していると仮定します。データがこの仮定を満たしていない場合、クラスタリングの品質が不十分になる可能性があります。
  4. 外れ値とノイズの不適切な処理: データ内の外れ値とノイズの存在は、クラスタリングの品質に悪影響を与える可能性があります。異常値を処理するようにメソッドが適応されていない場合、またはデータが前処理されていない場合、クラスタリングの品質が低下する可能性があります。
  5. データのスケーリングが不十分または不正確: データの値の範囲または測定単位が異なる場合は、クラスタリングの前にデータを適切にスケーリングする必要があります。スケーリングが正しくないと、クラスタリングの品質に影響を与える可能性があります。