機械学習 (ML)。アルゴリズムを使用した数学的モデルのトレーニングディシジョンツリー回帰および分類方法

ボタン [決定木法 (回帰と分類) を使用した数学的モデルのトレーニングと適用]

デシジョンツリーは教師あり機械学習 (ML) アルゴリズムとして分類され、連続 (回帰) 出力変数とカテゴリカル (分類) 出力変数の両方を予測するために使用されます。当社のソフトウェアのこの機能により、幅広いユーザーが機械学習テクノロジーにアクセスできるようになります。

数学モデルを作成し、回帰分析用のデシジョンツリーアルゴリズムを予測するための構造化スプレッドシートファイルの例をダウンロードできます。 XLSX そして分類のために XLSX 。

テーブルファイルの構造化データはインポートに使用できます。 Excel ワークブック (*.xlsx)。 Excel バイナリワークブック (*.xlsb); OpenDocument スプレッドシート (*.ods)。

どこで使われているのでしょうか？

デシジョンツリー手法を使用したデータ分析は、次の場合に使用できます。

効果的な（コスト、時間、リソース）代替手段として」実験の計画「入力パラメータの最適なモードを検索します。
出力パラメータの測定手順が高価かつ/または時間のかかるテストによって実行される場合、出力パラメータの予備的または代替評価用。
意思決定に人的エラーのリスクが伴う場合の、専門家意思決定支援システム (DSS) 向け。

データモデルファイル

当社のソフトウェアは、他のコンピュータで作成され、ファイル (*.sav) に保存された、scikit-learn ライブラリのデシジョンツリーのトレーニング済み数学モデルを使用できます。

入力および出力における連続量（測定値）の回帰法による決定木

弊社クライアントの使用例:
あなたは設計開発と組立生産を管理し、大規模な金属加工センターに部品を注文します。メタルセンターのコスト計算リクエストの数は、メタルセンターからの実際の注文数を大幅に上回っています。メタルセンターの管理者はすでに消極的で、あなたの要求への対応が遅れています。あなたは、従業員の仕事の邪魔をせずに、メタルセンターの作業コストを迅速に計算できるように、計算アルゴリズムを提供するようメタルセンターに提供しましたが、当然のことながら、拒否されます。

数量、部品の技術的特性（メタルセンターサービスのコストを計算するための基礎となる）、提供されたコストを含む注文履歴は、回帰モデルを作成し、計算リクエストを送信せずに非常に近いメタルセンター価格を独自に取得するために使用するのに最適な基礎となります。機械学習機能ソフトウェア回帰による決定木、シューハート管理図+AIは、数学モデルの構築時にその精度の評価を示します。構築された数学モデル「現在の値と予測値」を使用して予測されたメタルセンター価格の誤差のグラフィカル分析は、「危険」方向と「安全」方向の両方で起こり得るリスクの評価を示し、価格設定に考慮することができます。数学モデルを更新するには、メタルセンターで実際に実行される注文をモデルに追加することができます。

図 1. 機械学習 (ML) 機能にアクセスするためのウィンドウ。メインメニュー項目の上にマウスを置くと、ドロップダウンメニューのリストが表示されます。

図 2. 機械学習 (ML) 関数ウィンドウ。ボタンの上にマウスを置くとツールヒントが表示され、決定木の機能 (回帰と分類) に移動します。

決定木手法 (回帰および分類) を使用して機械学習アルゴリズムを適用する機能に移行するためのウィンドウ。

図 3. デシジョンツリー (回帰と分類) を使用して機械学習アルゴリズムを管理するための機能に移行するためのウィンドウ。ボタンの上にマウスを置くと、ドロップダウンツールチップが表示され、デシジョンツリーアルゴリズムコントロールパネル (回帰) に移動します。

図 4. 決定木法 (回帰) を使用した機械学習アルゴリズムの制御関数のウィンドウ。ドロップダウンリストが開き、予測変数を選択します。

図 5. 決定木法 (回帰) を使用した機械学習アルゴリズムの制御関数のウィンドウ。デシジョンツリーの深さの制限を削除するためのチェックボックスがオンになります。チェックボックスをオンにすると、モデルパラメーターを変更するときにモデルが対応するアプリケーションフォルダー (SCCPython\resources\Model_AI) に保存されます。

図 6. 決定木法 (回帰) を使用した機械学習アルゴリズムの制御関数のウィンドウ。数学モデル評価グラフの種類を含むドロップダウンリストが開きます。プロット領域には、テストデータセットの「実際の値と予測値」のグラフが表示されます。

図 7. 決定木の数学的モデル (回帰) の適用を制御する関数のウィンドウ。グラフの下にあるズームツールを使用して、グラフの X 軸をスケールして表示されるポイントの数を減らします (140 から 196 まで)。ボタンの上にマウスを置くと、ドロップダウンツールチップが表示され、次の手順で選択した新しいデータに適用するトレーニング済み数学モデルを選択する機能に移動します。

図 8. デシジョンツリーの数学的モデルの選択を管理する関数のウィンドウ (回帰)。選択したトレーニング済み数学モデルへのパスが記載されたフィールドの上にマウスを移動すると、ドロップダウンツールチップが表示されます。

図 9. デシジョンツリーの数学的モデルの選択を管理する関数のウィンドウ (回帰)。ボタンの上にカーソルを置くと、ドロップダウンツールチップが表示され、数学モデルで使用するデータを選択する機能に移動します。

図 10. データを含むファイルの選択を管理し、それらにデシジョンツリーの数学的モデル (回帰) を適用する関数のウィンドウ。 [結果を予測] ボタンの上にマウスを置くと、ドロップダウンツールチップが表示されます。

図 11. インポートされたデータへのデシジョンツリー数学的モデル (回帰) の適用を制御するウィンドウ。 [結果を予測] ボタンをクリックすると、インポートされたデータにモデルが適用され、操作が完了すると通知ウィンドウが開き、予測値がソースデータとともに Excel ファイルに保存されます。

インポートされたデータに、[男性、女性] などのカテゴリ値を持つ説明変数列が 1 つ以上含まれている場合、自動ワンホットエンコーディング手順が実行され、データが新しい数値コード列 [0, 1] に変換されます。ホットエンコードされたデータは、新しいシートの元の [xlsx] ファイルに保存されます。

デシジョンツリー (回帰) 法を使用した数学モデルの精度が低い理由

限られたデータ: モデルへの入力データが制限されているか、不十分な情報が含まれている場合、モデルでは正確な予測モデルを生成するにはデータが不足する可能性があります。
不適切な特徴の選択: 不適切または無関係な特徴がモデルに含まれている場合、モデルの精度に影響を与える可能性があります。回帰モデルの高精度を達成するには、適切な特徴を選択し、外れ値やノイズからデータを除去することが非常に重要です。
アンダートレーニング: モデルが十分な期間トレーニングされていない場合、またはデータ内の複雑な関係を近似できるほど複雑ではない場合、予測精度が低下する可能性があります。このような場合、決定木の深さを増やすか、他の機械学習技術を使用することが必要になる場合があります。
過学習: モデルのパラメーターが多すぎる場合、またはデシジョンツリーが深すぎる場合、トレーニングデータに対して過学習が発生し、新しいデータのパフォーマンスが低下する可能性があります。過学習に対処する 1 つの方法は、ボビングやモデルパラメーターの制約などの正則化を使用することです。
不均衡なデータ: トレーニングデータセットに含まれるターゲット変数値の例の数が不均一な場合、モデルの精度が低下する可能性があります。このような場合、重み付け手法の例を使用する必要がある場合があります。
データ内のノイズ: データ内のノイズまたはランダムな外れ値により、回帰モデルの精度が低下する可能性があります。事前のデータ分析を行って外れ値を除去したり、データの平滑化やフィルタリングなどのノイズの影響を軽減する方法を適用する必要があります。

連続量（測定値）を入力とし、カテゴリデータ（クラス）を出力とする分類法による決定木

例 1. 患者の臨床検査の結果に基づいて、病気か病気ではないかなどの診断を決定する必要があります。

例 2. 多くの特性 (プロパティ) の測定結果に基づいて、オブジェクトまたはイベントが特定のクラス (タイプ) に属するかどうかについて結論を引き出す必要があります。

図 12. 決定木の数学的モデル (分類) のトレーニングと評価を管理する関数のウィンドウ。ボタンの上にマウスを置くと、ドロップダウンツールチップが表示され、分類方法を使用するデシジョンツリーアルゴリズムのコントロールパネルに移動します。

図 13. 決定木の数学的モデル (分類) のトレーニングと評価を管理する関数のウィンドウ。チェックボックスをオンにすると、デシジョンツリーの深さの制限が解除されます。チェックボックスをオンにすると、モデルパラメーターを変更するときにモデルが対応するアプリケーションフォルダー (SCCPython\resources\Model_AI) に保存されます。トレーニングデータセットに含まれていないテストデータを使用する場合、トレーニング済みモデルの評価グラフの種類を選択するドロップダウンリストが表示されます。

図 14. 「混同行列」のグラフを使用した決定木の数学的モデル (分類) のトレーニングと評価を管理する関数のウィンドウ。ボタンの上にマウスカーソルを置くとヒントが表示され、次のステップでデータをインポートするトレーニング済みモデルを選択するためのコントロールパネルに移動します。

図 15. 次のステップでユーザーが選択したデータに対するデシジョンツリー (分類) のトレーニング済み数学モデルを選択するための関数のウィンドウ。ボタンの上にマウスを置くとツールヒントが表示され、選択したトレーニング済みモデルを適用するデータ選択コントロールパネルに移動します。

図 16. トレーニングされた数学的決定木モデル (分類) をユーザーが選択したデータに適用する関数のウィンドウ。 [結果の予測] ボタンの上にマウスを置くと、ツールチップが表示されます。

図 17. トレーニングされた数学的決定木モデル (分類) をユーザーが選択したデータに適用する関数のウィンドウ。「結果を予測」ボタンをクリックすると、インポートされたデータにモデルが適用され、操作が完了すると通知ウィンドウが開き、予測値が Excel ファイルに保存されます。

図 18. 決定木の数学的モデル (分類) のトレーニングと評価を管理する関数のウィンドウ。グラフ領域では、混同行列が大きく表示されます。これは、デシジョンツリー (分類) の 2 番目のタイプのグラフです。

デシジョンツリー (分類) 手法を使用した数学モデルの精度が低い理由

データ量が不十分: モデルが少量のデータでトレーニングされた場合、精度が低くなる可能性があります。トレーニングに利用できるデータが多いほど、モデルの精度が高くなります。
不適切な特徴選択: 不適切または無関係な特徴がモデルに含まれている場合、モデルの精度が低下する可能性があります。高い分類精度を達成するには、ターゲット変数との相関が最も高い特徴を選択することが重要です。
不十分なデータの前処理: 不適切なスケーリングや正規化などの不適切なデータ処理は、モデルの精度の低下につながる可能性があります。外れ値からデータを除去したり、欠損値を埋めたりするなど、必要なデータ前処理手順を実行することが重要です。
モデルのオーバートレーニング: モデルが複雑すぎる場合、またはパラメーターが多すぎる場合、トレーニングデータでオーバートレーニングし、新しいデータのパフォーマンスが低下する可能性があります。過学習は、たとえばツリーの深さを制限したり、正則化を使用したりすることで軽減できます。
クラスの不均衡: データ内のクラスの不均衡、つまり、1 つのクラスが他のクラスよりも優勢である場合、モデルは優勢なクラスを予測し、あまり表現されていないクラスでは精度が低いことを示す傾向がある可能性があります。このような場合、アップサンプリングやダウンサンプリングなどのクラスバランシング手法を使用すると、モデルの精度を向上させることができます。
決定ルールの誤った選択: ツリーノード内のクラスの分布を決定する決定ルールが誤って選択されると、モデルの精度が低下する可能性があります。クラスを最も正確に分離する適切な決定ルールを選択することが重要です。

シューハート管理図 プロアナリスト +AI Windows、Mac、Linux用 ロシアのソフトウェアの登録 (エントリ番号 18857、2023 年 9 月 5 日付け)

機械学習 (ML)。アルゴリズムを使用した数学的モデルのトレーニング ディシジョン ツリー 回帰および分類方法