-
精度の高い結果を得るためには、bodaisに入力するデータを上手く加工する必要があります。
ここでは、そういったノウハウをご紹介します。
-
変数の分布
値が入力されていないこと(欠損と呼びます)が多い変数はありませんか。また、ほとんど同じ値ばかりが入力されている変数はありませんか。
こういった変数を解析に使うと精度が落ちてしまいます。
欠損数、平均値、データのばらつきを表す標準偏差などの基本的な統計量から変数の有効性を知ることができます。
-
変数の選択
変数には、解析に使うと精度が向上するものや逆に解析に使うと精度が落ちてしまうものがあります。
例えば、比例関係にある2つの変数の組を同時に使うと精度が落ちてしまうことが知られています。
統計的手法で使う変数を選ぶことも可能です。
-
変数の区分の調整
変数の値にも適切な区分があります。
例えば、年齢を1歳刻みで扱った方がよい場合や、10歳代、20歳代、…と年代で扱う方がよい場合もあります。
-
新たな変数の作成
すでにある変数を組み合わせて新たな変数(派生変数と呼びます)を作成すると解析の精度が向上することがあります。
どのようにして新たな変数を作成すればよいかにもノウハウがあります。
-
他にも様々なノウハウがあります。
データ加工でお困りの際は、ぜひサポートサービスをご利用ください。
データ解析のスペシャリストがお手伝いさせていただきます。