亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

ML モデルのデータ前処理手法

Dec 03, 2024 am 10:39 AM

Data Preprocessing Techniques for ML Models

データの前処理とは、データセットを機械學(xué)習(xí)やその他のタスクに使用する前に、データセットに対して特定のアクションやステップを?qū)g行する行為です。データの前処理には、品質(zhì)を向上させるため、または主な目的 (この場合はモデルのトレーニング) に適していることを確認(rèn)するために、データのクリーニング、フォーマット、または変換が含まれます。クリーンで高品質(zhì)なデータセットは、機械學(xué)習(xí)モデルのパフォーマンスを向上させます。

低品質(zhì)のデータに関する一般的な問題には次のようなものがあります。

  • 欠損値
  • 一貫性のない形式
  • 値が重複しています
  • 無関係な機能

この記事では、モデルのトレーニングで使用するデータセットを準(zhǔn)備するための一般的なデータ前処理手法をいくつか紹介します。 Python の基本的な知識と、Python ライブラリとフレームワークの使用方法が必要です。

要件:
このガイドを最大限に活用するには、次のことが必要です

  • Python 3.12
  • Jupyter Notebook またはお気に入りのノートブック
  • でこぼこ
  • パンダ
  • シピー
  • Scikit の學(xué)習(xí)
  • メルボルンの住宅データセット

Github 上のこれらの Jupyter ノートブックで各コードの出力をチェックアウトすることもできます。

設(shè)定

Python をまだインストールしていない場合は、Python Web サイトからダウンロードし、指示に従ってインストールできます。

Python がインストールされたら、必要なライブラリをインストールします

pip install numpy scipy pandas scikit-learn

Jupyter Notebook をインストールします。

pip install notebook

インストール後、次のコマンドで Jupyter Notebook を起動します

jupyter notebook

これにより、デフォルトの Web ブラウザで Jupyter Notebook が起動します。そうでない場合は、ブラウザに手動で貼り付けることができるリンクがあるかターミナルを確認(rèn)してください。

[ファイル] メニューから新しいノートブックを開き、必要なライブラリをインポートしてセルを?qū)g行します

import numpy as np
import pandas as pd
import scipy
import sklearn

メルボルン住宅データセット サイトに移動し、データセットをダウンロードします。次のコードを使用して、データセットをノートブックに読み込みます。コンピューター上のファイル パスをコピーして、read_csv 関數(shù)に貼り付けることができます。以下に示すように、csv ファイルをノートブックと同じフォルダーに配置し、ファイルをインポートすることもできます。

data = pd.read_csv(r"melb_data.csv")

# View the first 5 columns of the dataset
data.head()

データをトレーニング セットと検証セットに分割します

from sklearn.model_selection import train_test_split

# Set the target
y = data['Price']

# Firstly drop categorical data types
melb_features = data.drop(['Price'], axis=1) #drop the target column

X = melb_features.select_dtypes(exclude=['object'])

# Divide data into training and validation sets
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

データ漏洩を防ぐために、データをトレーニング セットと検証セットに分割する必要があります。結(jié)果として、トレーニング特徴セットに対して実行する前処理手法は、検証特徴セットに対して実行するものと同じになります。

これでデータセットを処理する準(zhǔn)備ができました!

データクリーニング

欠損値の処理
データセット內(nèi)の欠損値は、ドレスを縫うために使用されるはずの布地の穴のようなものです。それはドレスを作る前から臺無しにしてしまいます。

データセット內(nèi)の欠損値を処理するには 3 つの方法があります。

  1. 空のセルを含む行または列を削除します
pip install numpy scipy pandas scikit-learn

この方法の問題は、モデルのトレーニングに使用する貴重な情報が失われる可能性があることです。削除された行または列のほとんどの値が欠落していない限り、空のセルを含む行または列を削除する必要はありません。

  1. 空のセルに値を入力します 空のセルに、その特定の列のデータの平均値、中央値、または最頻値を代入したり埋めることができます。 Scikit learn の SimpleImputer は、空のセルに値を代入するために使用されます。
pip install notebook
  1. 入力と通知 これがどのように機能するかというと、空のセルに値を入力しますが、そのセルが最初は空であったことを示す列も作成します。
jupyter notebook

重複の削除
重複したセルはデータが繰り返されていることを意味し、モデルの精度に影響します。それらに対処する唯一の方法は、それらをドロップすることです。

import numpy as np
import pandas as pd
import scipy
import sklearn

外れ値への対処
外れ値は、データセット內(nèi)の他の値と大きく異なる値です。他のデータ値と比較して、異常に高いか低い場合があります。これらは入力エラーによって発生する可能性もあれば、本當(dāng)に外れ値である可能性もあります。

外れ値に対処することが重要です。そうしないと、不正確なデータ分析やモデルが作成されてしまいます。外れ値を検出する方法の 1 つは、Z スコアを計算することです。

その仕組みは、Z スコアを使用して、データ ポイントが平均値から 3 ポイント以上離れているかどうかを確認(rèn)することです。この計算はすべてのデータ ポイントに対して実行されます。データ ポイントの Z スコアが 3 以上の値である場合、そのデータ ポイントは外れ値です。

data = pd.read_csv(r"melb_data.csv")

# View the first 5 columns of the dataset
data.head()

データ変換

正規(guī)化
特徴を正規(guī)化して、正規(guī)分布として記述できるようにします。

正規(guī)分布 (ガウス分布としても知られる) は、平均値の上下にほぼ等しい距離または分布がある統(tǒng)計的分布です。正規(guī)分布データのデータ ポイントのグラフは、釣鐘曲線を形成します。

データを正規(guī)化するポイントは、使用したい機械學(xué)習(xí)アルゴリズムがデータが正規(guī)分布していると仮定しているかどうかです。例としては、ガウス単純ベイズ モデルがあります。

from sklearn.model_selection import train_test_split

# Set the target
y = data['Price']

# Firstly drop categorical data types
melb_features = data.drop(['Price'], axis=1) #drop the target column

X = melb_features.select_dtypes(exclude=['object'])

# Divide data into training and validation sets
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化では、データセットの特徴が平均 0、標(biāo)準(zhǔn)偏差 1 になるように変換されます。このプロセスでは、データ全體で同様の範(fàn)囲になるように各特徴がスケーリングされます。これにより、各機能がモデルのトレーニングに均等に寄與することが保証されます。

次の場合に標(biāo)準(zhǔn)化を使用します。

  • データ內(nèi)の特徴はスケールまたは単位が異なります。
  • 使用したい機械學(xué)習(xí)モデルは、距離または勾配ベースの最適化 (線形回帰、ロジスティック回帰、K 平均法クラスタリングなど) に基づいています。

機能を標(biāo)準(zhǔn)化するには、sklearn ライブラリの StandardScaler() を使用します。

pip install numpy scipy pandas scikit-learn

結(jié)論

データの前処理は単なる準(zhǔn)備段階ではありません。これは、正確な機械學(xué)習(xí)モデルを構(gòu)築するプロセスの一部です。作業(yè)しているデータセットのニーズに合わせて調(diào)整することもできます。

ほとんどのアクティビティと同様、練習(xí)すれば完璧になります。データの前処理を続けると、モデルだけでなくスキルも向上します。

これについてのあなたのご意見をぜひ読みたいです?

以上がML モデルのデータ前処理手法の詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Pythonクラスの多型 Pythonクラスの多型 Jul 05, 2025 am 02:58 AM

Pythonオブジェクト指向プログラミングのコアコンセプトであるPythonは、「1つのインターフェイス、複數(shù)の実裝」を指し、異なるタイプのオブジェクトの統(tǒng)一処理を可能にします。 1。多型は、メソッドの書き換えを通じて実裝されます。サブクラスは、親クラスの方法を再定義できます。たとえば、Animal ClassのSOCK()方法は、犬と貓のサブクラスに異なる実裝を持っています。 2.多型の実用的な用途には、グラフィカルドローイングプログラムでdraw()メソッドを均一に呼び出すなど、コード構(gòu)造を簡素化し、スケーラビリティを向上させる、ゲーム開発における異なる文字の共通の動作の処理などが含まれます。 3. Pythonの実裝多型を満たす必要があります:親クラスはメソッドを定義し、子クラスはメソッドを上書きしますが、同じ親クラスの継承は必要ありません。オブジェクトが同じ方法を?qū)g裝する限り、これは「アヒル型」と呼ばれます。 4.注意すべきことには、メンテナンスが含まれます

Python関數(shù)引數(shù)とパラメーター Python関數(shù)引數(shù)とパラメーター Jul 04, 2025 am 03:26 AM

パラメーターは関數(shù)を定義するときはプレースホルダーであり、引數(shù)は呼び出し時に特定の値が渡されます。 1。位置パラメーターを順番に渡す必要があり、順序が正しくない場合は結(jié)果のエラーにつながります。 2。キーワードパラメーターはパラメーター名で指定されており、順序を変更して読みやすさを向上させることができます。 3.デフォルトのパラメーター値は、複製コードを避けるために定義されたときに割り當(dāng)てられますが、変數(shù)オブジェクトはデフォルト値として避ける必要があります。 4. Argsおよび *Kwargsは、不確実な數(shù)のパラメーターを処理でき、一般的なインターフェイスまたはデコレータに適していますが、読みやすさを維持するためには注意して使用する必要があります。

Pythonジェネレーターと反復(fù)器を説明します。 Pythonジェネレーターと反復(fù)器を説明します。 Jul 05, 2025 am 02:55 AM

イテレータは、__iter __()および__next __()メソッドを?qū)g裝するオブジェクトです。ジェネレーターは、単純化されたバージョンのイテレーターです。これは、収量キーワードを介してこれらのメソッドを自動的に実裝しています。 1. Iteratorは、次の()を呼び出すたびに要素を返し、要素がなくなると停止例外をスローします。 2。ジェネレーターは関數(shù)定義を使用して、オンデマンドでデータを生成し、メモリを保存し、無限シーケンスをサポートします。 3。既存のセットを処理するときに反復(fù)器を使用すると、大きなファイルを読み取るときに行ごとにロードするなど、ビッグデータや怠zyな評価を動的に生成するときにジェネレーターを使用します。注:リストなどの反復(fù)オブジェクトは反復(fù)因子ではありません。イテレーターがその端に達(dá)した後、それらは再作成する必要があり、発電機はそれを一度しか通過できません。

python `@classmethod`デコレーターが説明しました python `@classmethod`デコレーターが説明しました Jul 04, 2025 am 03:26 AM

クラスメソッドは、@ClassMethodデコレーターを介してPythonで定義されるメソッドです。最初のパラメーターはクラス自體(CLS)で、クラス?fàn)顟B(tài)へのアクセスまたは変更に使用されます。特定のインスタンスではなく、クラス全體に影響を與えるクラスまたはインスタンスを通じて呼び出すことができます。たとえば、Personクラスでは、show_count()メソッドは作成されたオブジェクトの數(shù)を數(shù)えます。クラスメソッドを定義するときは、@ClassMethodデコレータを使用して、Change_Var(new_Value)メソッドなどの最初のパラメーターCLSに名前を付けてクラス変數(shù)を変更する必要があります。クラス方法は、インスタンスメソッド(自己パラメーター)および靜的メソッド(自動パラメーターなし)とは異なり、工場の方法、代替コンストラクター、およびクラス変數(shù)の管理に適しています。一般的な用途には以下が含まれます。

PythonでAPI認(rèn)証を処理する方法 PythonでAPI認(rèn)証を処理する方法 Jul 13, 2025 am 02:22 AM

API認(rèn)証を扱うための鍵は、認(rèn)証方法を正しく理解して使用することです。 1。Apikeyは、通常、リクエストヘッダーまたはURLパラメーターに配置されている最も単純な認(rèn)証方法です。 2。BasicAuthは、內(nèi)部システムに適したBase64エンコード送信にユーザー名とパスワードを使用します。 3。OAUTH2は、最初にclient_idとclient_secretを介してトークンを取得し、次にリクエストヘッダーにbearertokenを持ち込む必要があります。 4。トークンの有効期限に対処するために、トークン管理クラスをカプセル化し、トークンを自動的に更新できます。要するに、文書に従って適切な方法を選択し、重要な情報を安全に保存することが重要です。

Python Magic MethodsまたはDunder Methodとは何ですか? Python Magic MethodsまたはDunder Methodとは何ですか? Jul 04, 2025 am 03:20 AM

PythonのMagicMethods(またはDunder Methods)は、オブジェクトの動作を定義するために使用される特別な方法であり、二重のアンダースコアで始まり、終了します。 1.オブジェクトは、追加、比較、文字列表現(xiàn)などの組み込み操作に応答できるようにします。 2.一般的なユースケースには、オブジェクトの初期化と表現(xiàn)(__init__、__Repr__、__str__)、算術(shù)操作(__ add__、__sub__、__mul__)、および比較操作(__eq__、___lt__)が含まれます。 3。それを使用するときは、彼らの行動が期待を満たしていることを確認(rèn)してください。たとえば、__Repr__はリファクタリング可能なオブジェクトの式を返す必要があり、算術(shù)メソッドは新しいインスタンスを返す必要があります。 4.過剰使用または混亂を招くことは避ける必要があります。

Pythonメモリ管理はどのように機能しますか? Pythonメモリ管理はどのように機能しますか? Jul 04, 2025 am 03:26 AM

PythonManagesMemoryAutomatelyUsingTuntingAndagarBageCollector.ReferencountingTrackShowManyvariablesRefertoAnobject、およびThemeMoryisfreed.

PythonのPython Garbage Collectionを説明してください。 PythonのPython Garbage Collectionを説明してください。 Jul 03, 2025 am 02:07 AM

Pythonのごみ収集メカニズムは、參照カウントと定期的なごみ収集を通じてメモリを自動的に管理します。そのコアメソッドは參照カウントであり、オブジェクトの參照の數(shù)がゼロになるとすぐにメモリを解放します。ただし、円形の參照を処理できないため、ループを検出してクリーニングするために、Garbage Collection Module(GC)が導(dǎo)入されています。通常、ガベージコレクションは、プログラムの操作中に參照カウントが減少したときにトリガーされます。割り當(dāng)てとリリースの差がしきい値を超える、またはgc.collect()が手動で呼ばれるときにトリガーされます。ユーザーは、gc.disable()を介して自動リサイクルをオフにし、gc.collect()を手動で実行し、gc.set_threshold()を介して制御を?qū)g現(xiàn)するためにしきい値を調(diào)整できます。すべてのオブジェクトがループリサイクルに參加するわけではありません。參照が含まれていないオブジェクトが參照カウントによって処理されている場合、それは組み込まれています

See all articles