データサイエンスろぐ

データサイエンスを学ぶ大学4年生の学習ブログ

機械学習における特徴量の種類や処理についてまとめた

今回は、機械学習における特徴量の種類と主な処理方法をまとめた。

質的変数と量的変数

まず、特徴量には大きく分けて質的変数量的変数がある。

質的変数は質的な変数で、量的変数は量的な変数である。

…これではさすがに説明になっていないので説明しないほうがマシと言われてもしょうがないため、もう少しちゃんと説明する。

質的変数は、例えば、ある画像データが「ネコ」であるとか「イヌ」であるとか(名義尺度という。詳しくは後述)、服のサイズが「S以下」か「M」か「L以上」かとか(順序尺度という。詳しくは後述)、データの性質を表す変数のことである。

一方、量的変数は、例えば、体重が何kgか、速さが時速何kmか、テストの点数が何点か、といった測定可能な変数のことである。

よく定性的とか定量といった言葉を聞くがそのイメージだとわかりやすい。

ただし、質的変数のことを、性的変数と言ってしまうと、「男」か「女」かという変数なのか、はたまたエッチな変数なのか、と要らぬ妄想を膨らませてしまう危険性があるので注意が必要である。

質的変数

さて、質的変数には大きく分けて名義尺度というものと、順序尺度というものがある。

名義尺度

名義尺度は、具体的には、ある画像データが「ネコ」であるとか「イヌ」であるとか、そういうものをイメージするとよい。

後述の順序尺度とは違って、「ネコ」であるか「イヌ」であるかということに順序関係はない。

「私はイヌよりもネコの方が好きだからネコの方が上だよ」

という考え方は名義尺度で考える場合は適用しない。

順序尺度

順序尺度は、服のサイズが「S以下」か「M」か「L以上」かというものをイメージするとよい。

これらには、大きさという点においては明確に順序関係が存在し、

S以下\lt M\lt L以上

という関係が成り立つ。

量的変数

量的変数にも種類があり、間隔尺度と、比例尺度に分けられる。

間隔尺度

間隔尺度は、例えば気温をイメージするとわかりやすい。

気温は摂氏か華氏かによって変わるが、特定の単位をもって表現される。

後述の比例尺度との違いは、0が相対的なものであり、絶対的なものではないという点である。

0℃というのは人間が勝手に水が氷になる温度として設定しただけであり、ゼロという意味はない。あくまで相対的なものである。

比例尺度

比例尺度は、身長や体重といったものをイメージするとよい。

間隔尺度と違い、0に絶対的な意味がある。

特徴量の処理

ここからは、特徴量の主な処理方法をまとめる。

順序尺度

順序尺度はマッピングという手法を用いて処理する。

マッピング

マッピングは、特徴量を数値に対応させる処理である。

数値に対応させることで、コンピュータが処理できるようになるし、数値の大小によって順序関係も考えることができるようになる。

服のサイズを例にして具体的に説明する。

コンピュータに「S」とか「M」とか「L」とか言っても、コンピュータにとってそれらは単なる文字に過ぎないので、例えば「S以下」を0に、「M」を1に、「L以上」を2に、といった具合に数値に対応させる。

こうすることで、コンピュータが処理しやすい形になり、

S以下\lt M\lt L以上

という順序関係も考えることができるようになる。

名義尺度

名義尺度も同様にマッピングを行うのだが、名義尺度には順序関係がない分、違うマッピングの方法がある。

one-hotマッピング

名義尺度には順序関係がない。

そのため、例えば「ネコ」は0、「イヌ」は1、「ゾウ」は2、といったマッピングを行っても、0,1,2の大小関係には意味がない。

ここで、one-hotマッピングというものがある。

言葉で説明するよりも、表を用いて説明するほうがわかりやすいため、以下の表を参照してほしい。

イヌ ネコ ゾウ
ダックスフント 1 0 0
ゴールデンレトリーバー 1 0 0
スコティッシュフォールド 0 1 0
アフリカゾウ 0 0 1
インドゾウ 0 0 1
乃木坂46 欅坂46 日向坂46
齋藤飛鳥 1 0 0
鈴木絢音 1 0 0
菅井友香 0 1 0
加藤史帆 0 0 1
上村ひなの 0 0 1

このように該当するものに関しては1を該当しないものに関しては0を付与するマッピング方法である。

量的特徴量

量的特徴量の処理方法には、2値化丸めといったものがある。

2値化

2値化はある閾値を超えるデータは1,超えないデータは0とみなす処理である。

こうすることで、その後の処理を高速化することができるというメリットがある。

例)乃木坂46の1stシングルから25thシングルまでの選抜入り回数を5回以上か5回未満かによって2値化する。

実際の選抜回数 2値化
齋藤飛鳥 18 1
鈴木絢音 2 0
堀未央奈 17 1
大園桃子 6 1
岩本蓮加 3 0

丸め

実際のデータとしては少数第〇位まで測定されているが、

今回の解析ではそこまでの精度のデータは求めてないよ

という場合に、整数に変換するような処理のことを丸めという。

参考図書

株式会社マイナビ出版から発行されている、中山光樹著の『機械学習・深層学習による自然言語処理入門 scikit-learnとTensorFlowを使った実践プログラミング』という書籍が大変参考になった。

www.amazon.co.jp