目次
統計、データマイニング、機械学習などのデータ分析において、外れ値を見つけ、それを取り除くことは非常に一般的な作業です。 データセットから外れ値を見つける方法は非常に多くありますが、それを取り除くプロセスはそう簡単ではありません。 この記事では、次の方法を紹介します。 Excelで外れ値を除去する .
ワークブックダウンロード
練習用Excelワークブックは、こちらから無料でダウンロードできます。
外れ値を削除する.xlsxExcelの外れ値とは何ですか?
An 外れ値 外れ値とは、データセットの平均値や中央値から大きく外れている値のことで、言い換えれば、データセット内の他の値よりも著しく高い値や低い値のことである。
クリケットの試合で、打者は全員50点前後なのに、一人だけセンチュリー(100点)を出した打者と、0点で退場した打者がいたとします。この100点と0点がこの試合の外れ値です。
外れ値は、データ解析の結果を歪め、誤解を招く可能性があるため、外れ値を見つけ、それを除去することでスムーズなデータセットを作成することができます。
Excelで外れ値を除去する3つの方法
このセクションでは、次のことを学びます。 外れ値を消去する 外れ値を除去するのは難しいので、記事全体を注意深く読んでください。
1.外れ値のない平均値を算出するExcel関数の活用
エクセル TRIMMEAN機能 は,与えられたデータセットから外れ値を除外して平均を計算するために使われる。 除外するデータポイントはパーセントで与えられる。 パーセント値は,10進数形式またはパーセント形式で入力することができる。
外れ値を除いた平均を計算する構文は以下の通り。
=TRIMMEAN(配列、パーセント)これです。
- 勢揃い = トリミングして平均結果を計算するデータの範囲
- パーセント = 除外するデータ点数
この関数を実装して、外れ値を取り除いた結果を計算する方法を見てみましょう。
上の図を見てください。 セルB5~B14 .ここでは、ほとんどの数値が20から27の間ですが、2つの値 - があります。 0と100 - はその値から大きく外れている。 つまり、これらは がいせき を、私たちのデータセットに追加しました。
今回のデータセットでは、異常値を除いた平均値をExcelで計算する式は次のようになります。 トリムミーン 関数は
=trimmean(b5:b14,0.2)
これです。
- B5:B14 = トリミングして平均結果を計算するデータの範囲
- 0.2 (または20%) = 除外するデータポイント数
データセットの中に、他のデータセットから20%大きく外れた数値があれば、その数値は外れ値と呼ばれることになる。
データセットに応じた数式を記述し 入力 を取得します。 外れ値なし平均値 をデータセットに追加します。 セルE6 は、計算された平均値を保持しています。 23.50 .
その答えが正しいかどうかを確認するために、以下のように実行します。 AVERAGE機能 において セルE5 で、平均値を返します ( 28.80 ) の範囲にあるすべての値の B5:B14 ... で、 セルE7 を実行すると、別の 平均値 関数で、外れ値を持つセル以外を手動で入力したところ 23.50 という結果になりました。
ということが言えます。 トリムミーン 関数は、Excel で平均を計算する際に、与えられたデータセットから外れ値をうまく取り除くことができます。
続きを読む エクセルで数式をクリアする方法(7つ以上の方法)
2.Excelでデータセットと折れ線グラフから外れ値を除去する
次の図に注目してください。 あるデータをもとに折れ線グラフを作成しました。 折れ線グラフから、次のようなことが簡単にわかります。 データポイント4と8は異常値です。 .
では、データセットから外れた値を取り除くことで、折れ線グラフを滑らかにする方法を見ていきましょう。
別のセル(この例では セルH6 )を、次の式で書きなさい。
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)),NA(),C6)
これです。
- C6 = データセットの最初のデータを保持するセル
- C5 = 最初のデータセルの上のセル
- C7 = 最初のデータセルの下のセル
- $E$6 = データポイント間の差分。
私たちのデータを見ると、どうやらデータポイントが 10台差 として指定されています。 外れ値 だから、私たちは 10 において セルE6 とし、それを 絶対セル参照 このセルは、データセット全体をスキャンして計算するときに固定されるようにします。
を押した後 入力 最初のデータはまだ結果のセルに表示されているのがわかります。 H6 をドラッグできるように数式を作成するだけです。 フィルハンドル をクリックすると、残りのセルに数式が適用されます。
で行を下にドラッグします。 フィルハンドル で埋め尽くされていることがわかります。 #該当なし .
そして、折れ線グラフを見てください。これは、異常値のない平坦なグラフになっています。
フォーミュラ・ブレークダウン
=IF(
結果を抽出するための値を比較するため、式は イフ の状態です。
=IF(AND(
現在のデータポイントと、上のセル、下のセルを比較し、両方が真であれば、そのデータポイントだけを結果として表示します。 ですから、「両方」の比較を扱う必要があるので、そのために AND機能 .
=IF(AND(ABS(
データの引き算をするとき、データによっては負の値を投げることがあります。 そして、負の値は「差が10のときにデータを取り除く」という条件に必ず反するので、負の値を扱いたくありません。 そこで、常に正の結果が得られるように、比較の部分を 絶対値関数 .
=IF(AND(ABS(C6-C5)>$E$6)
ここで、最初の比較を開始しました。 現在の値と上記の値を単純に引き、その結果が、以下のように保存された差分レベルより大きいかどうかを確認します。 セルE6 とし、セルを アブソリュートリファレンス をクリックすると、セルの値がロックされたままになります。
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6))
次に、カンマで区切られた比較の2番目の部分です。 これは、現在のデータポイントと次のデータポイントを比較します。
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)),NA()
ここでカンマを入れ、入れることを決定する。 NA機能 の両方があれば、そこに アンド 関数が真であることを示します。
=IF(AND(ABS(C6-C5)>$E$6,ABS(C6-C7)>$E$6)),NA(),C6)
また、もし アンド が真でない場合は,実際のデータ点を イフ 偽の値です。 そこで、カンマを入力し、セルの参照番号を渡します。 C6 が入っています。
続きを読む Excelのデータ検証を削除する方法(5つの方法)
類似の読み物
- エクセルでヘッダーを削除する方法(4つの方法)
- エクセルで点線を消す(5つの簡単な方法)
- Excelからグリッドを削除する方法(6つの簡単な方法)
- エクセルでボーダーを削除する(4つの簡単な方法)
- Excelの互換性モードを解除する方法(2つの簡単な方法)
3.Excelで外れ値を手動で削除する
Excelで外れ値を除去するもう一つの簡単な方法は、データセットの値をソートして、その中からトップとボトムの値を手動で削除することである。
データを並べ替えるには
- 選択 データセット
- 次のページへ ソート&フィルター において 編集 をグループ化し、どちらかを選択します。 小さいものから大きいものへ並べ替え または 大きいものから小さいものへのソート .
- 私たちの場合、選択したのは 小さいものから大きいものへ並べ替え これは、データセットの数字を昇順に並べ替え、小さいものを上に、大きいものを下に配置するものです。
あとは、それらのデータを手動で削除して、データセットの外れをなくすだけです。
データセットが小さくて見やすい場合は、この手順を適用することができますが、そうでない場合は、この手順を実行しないでください。
続きを読む Excelの並べ替えを解除する方法(3つの簡単な方法)
結論
この記事では、次の方法を紹介しました。 外れ値を取り除く この記事が皆様のお役に立てれば幸いです。 また、ご質問等ございましたら、お気軽にお問い合わせください。