統計検定データサイエンス基礎（DS基礎）に10日で75点で合格した勉強方法とチートシート

楽天ブックス

＼最大10%ポイントアップ！／

＼ポイント最大11倍！／

ポチップ

一般受験生は7000円ですが、学割を使えれば5000円で受験できます。ちなみに次のレベルのデータサイエンス発展の試験の金額の方が安いという変わった検定です。試験はエクセルを用いて行う形式で大問が８題出題され小問が5問程度あり、合計45問程度の小問に90分で回答する形式です。

100点満点中60点以上で合格となります。

レベル感としては統計検定２級レベルの内容を電卓を使わずにエクセルを用いて解く感じです。しかし体感的には統計検定２級の方が難易度が高いと感じます。

DS基礎の学習におけるワンポイントアドバイス

楽天ブックス

＼最大10%ポイントアップ！／

＼ポイント最大11倍！／

ポチップ

よく問題を読んで〇〇あたり〜という表記に注意

公式本『日本統計学会公式認定統計検定データサイエンス基礎対応　データアナリティクス基礎』で学習していて気づいたのですが、おそらくこの注意点が最も大事です。しっかりと問題文を読んで、何のデータを分析するのかを見据えることがポイントです。

有効数字に注意

例えば168という答えになった時に、小数第一位まで求めよと言われたら168.0と書かないとバツになります。

ピポットテーブルを知らないと合格できません！

僕はこの検定を学習する際に初めて知ったのですが、DS基礎はピポットテーブルを使えないとおそらく受かることはできません。ピポットテーブルとはエクセルに装備されている機能で、エクセルに書かれたデータを自身で行と列のカテゴリを指定して、データを整えることができる素晴らしい機能です。

ポイントは、行、列、値、フィルタを何にするのか？を問題文から適切に選択することです。設定の仕方の正解は１つではないのですが、あまりデフォルトから外れてしまうと回答時間が伸びてしまってもったいないと思います。

このピポットテーブルは多くの問題で使用します。公式参考書『日本統計学会公式認定統計検定データサイエンス基礎対応　データアナリティクス基礎』の演習問題でしっかりと自分でエクセルを走らせて問題を解いてみることがとても大事です！

データの個数を数える時にも使えます。

横データを縦データにする方法

頻度順に並べ替える時など、横データは不適切な場合があります。縦データにする場合は、横データをコピーして貼り付ける際に、「型式を選択して貼り付け」を選択し、行と列を入れ替えるを選択します。

データ分析機能で相関係数行列や各種検定を一気に解ける

エクセルすごい！と感心したのが、データ分析機能が装備されていることです。

この機能を用いなくても問題を解くことができますが、データ分析機能を用いれば面倒な流れを一気にエクセル側が計算してくれるので時短ができます。

ただしエクセルによってはこのデータ分析機能を表示させるために細かい設定が必要です。公式参考書『日本統計学会公式認定統計検定データサイエンス基礎対応　データアナリティクス基礎』にここらへんのことも記述があるので、本書の入手は合格に向けて必須です。

＄マークの使用ができると便利

なぜ＄マークを使用するかというと、エクセルにおいてコピペをするときに値がズレることを防ぐためです。

僕はドルマークの使用について初めて知ったのが2025年の3月に合格したデータサイエンティスト検定（リテラシーレベル）の勉強をしていた時です。

＄マークの使い方の公式を教えてください

＄Aとかいた場合は、A行を固定するという意味です。＄ABと買いた場合はA行は固定されますが、列はB列に固定されないという意味です。反対に、A＄Bと書いた場合は、A行は固定されないけどB列は固定されるという意味です。＄A＄Bと買いた場合はA行もB列も固定されるという意味です。

DS基礎の難所攻略のためのチートシート

楽天ブックス

＼最大10%ポイントアップ！／

＼ポイント最大11倍！／

ポチップ

質的データ解析

クロス集計表で２つの変数に関連があるかの判定

時間がかかる内容なので本番ではあと回してもOKです！

これは条件付き構成割合（行を100%または列を100%として表を作る）を考えて違いがあれば関連があると判断します。例えば３つの変数XとYとZに対して、XのYに対する構成割合、XのZに対する構成割合が共に違いが認められれば、変数Xで層別すると、変数YとZ間の連関は消える。従って、変数YとZの連関は。変数Xで説明できる疑似的なものです。

このカイ２乗統計量を求めずに層別をさせて考えさせる問題はDS基礎では頻出のタイプです。出題数は少ないですが捨て問にはしないようにしたいですね。

特化係数

特化係数は部分集団の割合を全体集団の割合で割ったものですが、この定義だけを覚えているとおそらく混乱します。ポイントはどこを全体とするか？です。例えば月毎の〜と言われたら、それ以外の部分の合計値を基準に考えます。すると間違えません。要するに２回割り算をすることもありますが、特化係数は固有の値なので、行と列、どちらから先に計算しても値は変わりません。

おそらく理解のしにくさはDS基礎の中ではここが最も身につきにくいので、公式参考書『日本統計学会公式認定統計検定データサイエンス基礎対応　データアナリティクス基礎』で練習しておきましょう！

連関係数

相関係数で知られる相関という言葉は量的データにおいて使用される言葉です。質的データの相関に相当する言葉が連関です。

連関係数はクラメールの連関係数とピアソンの連関係数があります。これは覚えていないと解けないので覚えてしまいましょう。ちなみに相関係数は−１から１までをとりますが、連関係数は０から１までです。

ルートがあるからと思えば覚えやすいですよね。

分布構造の把握

使用頻度が高いので、分散VAR.P( )、標準偏差STDEV.P( )←こちらはこういう関数があるという認識で良い、は覚えておいた方が良いです。標本の場合は.Pの部分が.Sに変わるだけです。要するに標準偏差を求めるときに、いちいち分散を求めて平方根を取るより、一気に関数を用いて求めた方が時短ができるということです。

パーセント点を求める関数もあります。意識しておいた方が良いです！

エクセルでは外れ値を、第１、第３四分位から四分位範囲の1.5倍を超えて離れた値として認識されます。

変動係数を求めるときは、STDEV.P（）関数を用います。要するに普通の標準偏差の方を用います。盲点です！

確率関数と確率密度関数

関数形式の選択でTRUEは累積確率、FALSEは単に値を代入したものを返します。

また、各種資格試験でも問われますが、偽陽性や感度といった概念で混乱しないようにしましょう。

偽陽性は、罹患していないのに陽性判定されること。偽陰性は、罹患しているのに陰性となることです。感度は罹患者の中で正しく陽性と判定された割合で、特異度は罹患していない人の中で陰性と判定された割合です。感度と特異度を条件付き確率として計算した場合、それらを入れ替えたものをそれぞれ、陽性的中率、陰性的中率と言います。

ここら辺はこの順で覚えると忘れにくいですよ！

CONFIDENCE関数と基本統計量

母平均の信頼区間を素早く求めたい場合にCONFIDENCE関数を使用します。それかデータ分析機能で基本統計量を用いれば、もっとはやく求まります！しかし信頼度で出力される数字は、CONFIDENCE.T関数の値ですので注意です。

変動係数は標準偏差を用いてます。不偏分散から求めるのではありませんので注意です。

エクセルを用いた検定ではp値を出すことにより、それが有意水準よりも小さいかで棄却するかを判定します。

時系列データ解析

時系列データの分析の季節変動の箇所がこの検定で最も難易度が高いです。

指数と増加率と成長率の違い

t時点での指数はt時点での値を基準時点での値で割った値に100をかけたものです。t時点での増加率は、t時点での値から基準時点での値を引いた値を基準時点での値で割ったものに100をかけたものです。

注意点としてはどちらも単位は％であることです。

t時点での成長率は、増加率の特別な場合で、基準点を１つ前の時刻とします。単位は％を用いません。

中心化移動平均

移動平均は選択するセル（ウィンドウ幅）が偶数の場合は２つの平均の平均として算出します。ここが落ち着いて考えた方が良ポイントです。

季節調整

ここがDS基礎の最難関の箇所です。

季節調整とは、季節変動を除去することです。季節調整が施されたデータを季節調整済み系列と言われます。t月の季節調整値は、t月の原系列をt月の季節指数で割った値に100をかけたものです。

指数の単位は％でしたね！でも季節指数って何ですか？

季節指数とは、１月あたりの平均が100（つまり1年で1200）となるように調整したものです。そのために各月の平均値が必要となります。同様に、第t四半期の季節調整値は、第t四半期の現系列を第t四半期の季節指数で割った値に100をかけたものです。

なるほど。では四半期別の季節指数の合計は400になるわけですね。

その通りです。第１四半期〜第４四半期までの平均が100になるように調整するので、合計が400になるのです。

寄与度

t時点での部分系列Aの寄与度は、t時点の部分系列Aの値から１つ前時点での部分系列Aの値を引いたものを、一つ前時点での合計系列Tの値で割ったものです。

寄与度は参考書の最後に載っていますが、難易度は低く、機械的に上の公式に代入するだけで答えが出せます。

テキストデータの分析

覚えることは、TTRとギロー指数の求め方です。TTRは語彙の種類数を語彙の総数で割ったものです。ギロー指数は語彙の種類を語彙の総数の平方根で割ったものです。

本番の難易度と注意点

試験は公式本『日本統計学会公式認定統計検定データサイエンス基礎対応　データアナリティクス基礎』の例題、演習問題や模擬試験よりも難しい印象でした。難しさの理由は、時間制限のキツさです。これが120分ならばもっと得点できるのだと思いますが、やはり時間制限が厳しかったです。

おそらくその理由は実務で素早くデータを弾き出せるか？を見ていると思われます。本試験の問題は約45問なので時間制限90分なので、１つの課題につき2分というタイムリミットです。そう考えれば理にかなっている時間制限だと感じます。

大問でわかない問題があれば、エクセルデータを保存して、次の大問に進んだ方が良いです！

今回の作戦では１周目で半分くらい解きました。その時点で残り時間が50分くらい残っていました。２周目で計算が多い問題に取り組みました。その時点で残り15分程度でした。残りの問題はわかりませんでした。つまり実質的に時間切れで解けなかったのではなく、知識不足で解けなかった問題が25%程度あったということです。

本試験の難易度がさほど高くないのは合格ラインが6割に設定されているからです。このラインが8割などに設定されていたら、かなりの難関資格になると感じています。裏を返せば6割取れれば合格できるので、楽しく勉強して解ける問題を増やしていくことが合格への近道です！

皆様のDS基礎への挑戦を応援しています。

楽天ブックス

＼最大10%ポイントアップ！／

＼ポイント最大11倍！／