📖

第5章 統計 (Statistics)

イントロダクション

統計学は、機械学習(ML)とデータサイエンスの領域において不可欠なツールであり、データ駆動型の意思決定、アルゴリズムの開発、およびモデル評価の基盤として機能します。機械学習エンジニアにとって、統計学の原理をしっかりと理解することは、データの解釈、モデルの実装、および意味のある結論を導き出すために極めて重要です。この章では、MLおよびデータサイエンスの役割に不可欠ないくつかの重要な統計学の概念について詳しく説明し、これらの領域における応用スキルを測る典型的な面接の質問についても触れます。

中央傾向の尺度 (Measure of Central Tendency)

中央傾向の尺度は、データセットにおけるデータの平均的な値または「中心」を表す統計的指標です。これらは、データセット全体を代表する単一の値を提供することで、データの一般的な傾向を理解するのに役立ちます。中央傾向の尺度には主に以下の3つがあります。
  1. 平均(Mean): データセット内の全ての値の総和を、データの総数で割った値です。平均はデータセットの算術的中心を示し、最も一般的に使用される中央傾向の尺度の一つです。しかし、外れ値の影響を受けやすいという欠点があります。
  1. 中央値(Median): データセットを値の大小順に並べたとき、中央に位置する値です。データセットの数が奇数の場合は、中央の値が中央値となります。偶数の場合は、中央に位置する2つの値の平均が中央値になります。中央値は外れ値の影響を受けにくいため、平均よりも堅牢な尺度とされます。
  1. 最頻値(Mode): データセット内で最も頻繁に出現する値です。一つのデータセットに複数の最頻値が存在する場合があります。
これらの中央傾向の尺度は、データセットの特徴を要約し、データの分布を理解するための基本的なツールです(特に、探索的データ分析「Exploratory Data Analysis (EDA)」を行う時です)。それぞれが異なるデータの特性を反映しているため、分析の目的やデータの種類に応じて適切な尺度を選択することが重要です。

中央傾向の尺度 (Measure of Spread)

分布の散布度(ばらつき)を測る尺度は、データセット内のデータが中央値からどの程度広がっているか、または分布しているかを示す統計的指標です。これらの尺度は、データの変動性や一貫性を評価するのに役立ちます。散布度の主な尺度には以下のものがあります。
すべてを見るには

返金は購入日から1日以内に申し出て下さい。詳細はこちらからご確認ください。
また、このコンテンツ以外の他の永久アクセス権は付与されない事はご注意下さい。

支払いはによって保護されています

購入済の方はこちらからログインしてください

Loading...