データサイエンス発展に10日で合格した勉強方法と難易度について考察

2026年5月2日

2026年5月2日にデータサイエンス発展を受験して合格しました。本記事では下記の指定教材を用いて、どのように学習すれば合格を目指せるのか？を軸に記事を書きたいと思います。また、実際に受験してみて意外な検定が絡んでくることにも追記します。

ちなみに学習期間はPython３エンジニア認定データ分析試験に合格した日（2026年4月22日）から開始したので10日で合格できたことになります。

10日と聞くと短いと思うかも知れませんが、下記に紹介する公式教材でしっかり学習すれば十分に可能です！

統計検定データサイエンス発展に合格しました。75点でした。指定教材https://t.co/Vn4VrHCIA4の模擬試験と同じ点数でした。本教材で学習したからこそ取れた点数だと思います。データサイエンスエキスパート試験へ進みます。統計検定準１級〜１級のイメージなので、学習の過程をXでシェアしていきます。 pic.twitter.com/CuSBEclF0t
— 志田龍太郎 (@nananairu7) May 2, 2026

DS発展は論理・AI、数理、情報、統計・可視化の４つの領域から出題されます。単独の４分野に加えて、数理と情報、数理と統計・可視化、情報と統計・可視化の３つの融合分野を合わせた合計７問の大問の構成で各大問から４問出題されるため、合計28問の問題を60分間で解いて6割以上つまり17問以上の正解で合格です。指定教材『データサイエンス発展演習』によると前書きの説明の内容から統計検定２級と統計検定準１級の間の難易度となります。

『https://t.co/aHEeMiPDXB』がついに発売されますのでシェアします。データサイエンス発展演習ということで最上級のエキスパート編ももうすぐ登場すると良いですね。出題範囲などを比較しますと、統計検定準１級の難易度はデータサイエンスに関してスタンダード（コア）的な位置付けだと感じました。
— 志田龍太郎 (@nananairu7) August 12, 2024

指定教材によると、まずはこの教材の１分野単独問題の例題の第６章→２分野複合問題の例題の第７章をはじめてからインプット内容である第２章〜第５章を学習することを勧めています。最後に第８章の模擬試験を行い完成となります。また付録にてPythonのライブラリについての説明もあり、試験内容的に読んでおくことは必須要件だと思われます。このライブラリはPython３エンジニア認定データ分析試験と範囲が被っていますので、余力のある方はこのデータ分析試験の受験もお勧めします。

本書にてコラムで扱う問題は成績上位を狙う受験生を想定したものですので、試験範囲に含まれます。

: 未経験でも2週間でPython３エンジニア認定データ分析試験に9割以上で合格する勉強方法
2026年4月22日にPython３エンジニア認定データ分析試験を受験して925点で合格できました！ https://twitter.com/nananairu7/status/20468986623 ...

: 統計検定データサイエンス基礎（DS基礎）に10日で75点で合格した勉強方法とチートシート
2026年4月6日にデータサイエンス基礎を受験して75点で合格できました。学習期間は10日以内でした。この検定はエクセルを用いた統計検定２級レベルのデータ分析をこなせるかどうかを試す、ビッグデータの重 ...

データサイエンス発展演習日本統計学会公式認定　統計検定データサイエンス発展 [ 日本統計学会 ]

楽天ブックス

＼最大10%ポイントアップ！／

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

論理・AIに関する基礎的な事項

３VとはVolume、Velocity、Varietyです。それに加えてVeracity（正確性）とValueを加えて、４Vや５Vということもあります。ICTによる変化を第４次産業革命といい、サイバー空間とフィジカル空間との融合をSociety5.0といいます。AI時代に対応できる公共政策や法案を提案できる人材が必要です。EBPMはBig Data/AIを用いた政策立案です。例えばサイバーエージェントでは広告のキャッチコピーにChatGPTを用いてます。

ムーアの法則とは半導体の集積密度が２年で２倍になることです。

第１次AIブームはトイ・プロブレム、第２次AIブームはエキスパートシステム、第３次AIブームは機械学習です。RNNは時系列データや順序が重視されるケースのデータの処理に適したニューラルネットワークで自然言語処理や音声認識に広く活用されています。画像の生成AIには拡散モデルに基づくモデルの性能が高いです。

アノテーションは取得したままの状態のデータに追加情報やラベルを付けることです。総務省の情報通信白書によると、ビッグデータは生成する主体（政府・企業・個人）に着目すると、オープンデータ、産業データ、パーソナルデータに分類できます。

人間は直感的な速い思考と熟考する遅い思考を使い分けて思考します。

データを基点とした考え方により社会実態に即した意思決定ができるようになります。これをデータ駆動型社会といいます。

１次データは競合が高いです。２次データは競合が低いですが範囲が膨大です。

最適化の連続や離散の判断は、関数が微分できるか否かで考えます。

販売分野でのダイナミックプライシングとは、需要や供給の変動に応じて価格をリアルタイムで調整する手法です、決定木ベースのアルゴリズムなどを用います。最適価格の決定（価格感度分析）ではコンジョイント分析やPSM（PSM分析（Price Sensitivity Meter）は、４つの価格（高い、安い、高すぎて買えない、安すぎて品質不安）に関するアンケート調査から、消費者心理に基づく適正価格帯を導き出す手法です。）などが用いられます。発見において、バスケット分析とは、同時あるいは順次に購入される商品の組やサービスの組を見つけることです。強調フィルタリングは顧客〜商品の対のデータからレコメンデーションすることです。企業は個人のデータをほとんど使用せずにマーケティングを行うことが可能になったのではなく、企業は適切な同意を得た上で、プライバシーを尊重しつつ個人データを活用しています。

予測＝教師あり学習です。データサイエンスの予測における目的変数yは将来の値である必要はなく、欠けている値でも良いです。

データの同化とは、シミュレーションデータと実際のデータの融合のことです。

日本の将来人口の予測では、高位推計、中位推計、低位推計が発表されています。

地図上のデータはベクタデータ（地点、線、多角形として表現され正確な位置情報と共に属性情報を保つことができます）とラスタデータ（地表を等間隔のピクセルで表現し各ピクセルに特定の値を割り当て情報を表現します）があります。ベクタデータ（JSON系で保存）はプログラム言語が必要であったり実行に時間がかかります。ラスタデータはメッシュ統計（csv保存）などに利用されます。

特徴	ラスタデータ (Raster)	ベクタデータ (Vector)
表現方法	格子状のグリッド（画素/ピクセル）	座標（点・線・面）による幾何学的な表現
最小単位	画素（ピクセル）	点（ノード/頂点）
拡大	拡大するとぼやける（ジャギーが出る）	拡大しても劣化しない（数式で描画）
適したデータ	連続的な変化（写真、衛星画像、温度分布）	個別の事象（道路、境界線、POIの地点）
データ容量	解像度が高いと非常に大きくなる	比較的軽量（座標情報のみのため）

POI（Point of Interest）は、地図や地理情報システム（GIS）において、レストラン、観光スポット、駅、避難所など、ユーザーが関心を持つ「特定の場所・地点」を指します。

データサイエンスのサイクルにはPPDACサイクルがあります。Problem→Plan→Data→Analysis→Conclusionの順で行います。

Airbnbとは民泊のことです。

ELSI（Ethical,Legal,and Social Issues）は倫理的・法的・社会的な課題です。GDPRは2018年5月25日に施行されました。17条が忘れられる権利です。インフォームドコンセントは個人が自分の個人情報の使用に関して十分な情報を持っていて、その使用に同意することです。

手続きはオプトイン設計です。

知的財産権＝著作権、特許権、商標権、意匠権です。

技術の提供者はAccountabilityとTrust（過去の類似性を示して妥当性や公平性を納得してもらうこと）を行うべきです。

データサイエンスや製品開発においては、「アルゴリズムは特許（または秘密管理）」「プログラムは著作権」「マニュアルは著作権（および商標）」と、守るべき対象に応じて戦略を使い分けることが非常に重要です。

対象物	著作権（表現を保護）	特許権（発明を保護）	備考・補足
生データ (Raw Data)	基本的に×	×	事実は誰のものでもないため保護されない。
データベース	○（選択・構成に創作性がある場合）	×	データの並べ方や分類に工夫があれば保護される。
アルゴリズム（考え方）	×	×（アイデアのみでは対象外）	手順そのものは保護されない。
ソースコード	○（プログラムの著作物）	○（技術的発明であれば可）	プログラムとしての表現と、技術的発明の両面を持つ。
取り扱い説明書（文書）	○（文学的著作物）	×（文書自体は発明ではない）	文章や図版は「著作物」として強く保護される。

人間中心のAI社会原則は、３つの基本理念（人間の尊厳が尊重される社会、多様な背景を持つ人々が多様な幸せを追求できる社会、持続性のある社会）です。

また７つの基本原則（人間中心の原則、教育・リテラシーの原則、プライバシー保護の原則、セキュリティ確保の原則、公正競争確保の原則、公平性、説明責任及び透明性の原則、イノベーションの原則）があります。

なりすましの発信行為によって完全性が損なわれます。デジタル署名やハッシュ関数は完全性を実現します。ランサムウェアによってファイルにアクセスできなくなり身代金を要求されたとき、可用性が損なわれています。

公開鍵暗号を信頼するには、Aのみが秘密鍵を知っていることが前提で、その仕組みは認証局の公開鍵認証基盤の提供です。公開鍵暗号は電子署名にも用いることができます。

2022年4月に改正個人情報保護法が施行されました。下記のような状態での漏洩の事態の際は個人情報保護委員会への報告および本人への通知が義務付けされました。

どのように機能し、そのように判断するかのプロセスを理解するのは透明性です。

共通鍵暗号のことを対称暗号ともいいます。公開鍵暗号は非対称暗号です。リサンプリング（個人を特定できないようにすることの１つ）とは、手元のデータから一部のみを取り出して（一部と明言した上で）利用に供することです。トップコーディングは、例えば80歳以上は実際の年齢を80歳以上とするなどです。リコーディング（グルーピング）は階級で大きくくくることです。ミクロアグリゲーションとは、ある特性値において各個人の値をそのグループの平均値や中央値で置き換えることです。PRAMとはある確率に従ってカテゴリーを入れ替えることです。

Open Knowledge Foundationとはオープンデータの可能性を最大限に引き出すことを目的とした国際的な非営利組織です。オープンデータの公開性の評価のために５スターオープンデータがあります。例えば、PDF<Excel<csv<RDF<LOD（ロジカルなネットワーク（LOD： Linked Open Data））の順で星が増えます。レベル３以上はオープンフォーマットです。

オープンライセンス＜編集可能＜SWを問わない＜外部からリンクが可能＜外部へのリンクがあるという理由になります。

4つ星までは「データの形式」の問題ですが、5つ星は「データ同士の繋がり（セマンティック・ウェブ）」を目指す段階であり、データの孤立を防ぐという点において最大の優位性があります。

オープンデータは、利用できる、再利用できる、誰でも使えることが条件です。例えば電子行政オープンデータ戦略では、二時使用のルールは積極的なデータ公開、機械判読可能、営利非営利問わずに活用を促進することが原則です。

各種オープンデータは、e-stat（人口統計など政府統計ポータルサイト）やDATA.GO.JP（各府省の保有データを利用できるデータカタログサイト）があります。

統計法はデータに関する基本的な法律です。第１条は使う目的です。基幹統計とは、行政機関が作成する統計のうち総務大臣が指定する重要な統計です。（第２条第４項）。それを作成するための統計調査を基幹統計調査といいます。（第２条第６項）。報告義務（第13条）があります。かたり調査の禁止（第17条）（公的調査を装う詐欺を許さない。）、地方公共団体による事務の実施（第16条）、調査関係者の守秘義務（第41条）があります。統計調査のために２次的に利用可能です。調査票情報の自らの利用（第34条）、匿名データの提供（第36条）があります。オーダーメイド集計及び匿名データの提供を受けるには手数料の納付が必要です（第38条）。

調査実施者は自ら行った統計調査の調査票情報でもその利用は統計の作成等を行う場合に限定されます。調査実施者は自ら行った統計調査の調査情報を一定の要件を満たした民間事業者や個人に提供できます。委託による統計の作成等は、調査実施者等が、一定の要件を満たした一般の依頼者からの依頼に対して、統計成果物を作成・提供することをいいます。匿名データとは、一般の利用に共することを目的として調査票情報を特定の個人や法人等の識別ができないように加工したものです。委託における統計の作成等や匿名データの提供を受けるには、手数料を納付しなければなりません。

k-匿名性とは、データセット内の各個人が、少なくとも(k-1)人の他の個人と区別がつかないようにする手法です。例えばヒストグラムにて２つの階級値を用いる場合、変換されたデータベースは3-匿名性を持ちます。

匿名化について他には、連結可能匿名化は連続性のあるIDを発行して連結表を持つことです。連結不可能匿名化は連結表を持たない、仮IDすら持たないことです。

数理に関する基礎的な事項

データサイエンス発展演習日本統計学会公式認定　統計検定データサイエンス発展 [ 日本統計学会 ]

楽天ブックス

＼最大10%ポイントアップ！／

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

ド・モルガンの法則のことを双対性ともいいます。

10桁のパスワードと言われた場合、最高位には0が入っても問題ないパターンが普通にあります。

シグモイド関数y=1/(1+e^(-x))の逆関数がロジット関数です。ロジスティック損失関数はシグモイド関数に自然対数をとったものです。

勾配降下法の更新式

等高線の接線の方程式

等高線の接線の方程式は、接する平面の方程式において、z＝cとしたときの結果となります。

情報に関する基礎的な事項

２の補数は、負の数を絶対値が同じ正の値から１を引き、その値のすべてのビットを反転させれば良いです。

例えば３ビットで考えるとき、−１は１を考えて１−１＝０つまり２進数にすると０００なので１１１です。−４は４を考えて４−１＝３つまり０１１つまり１００です。

整数型を浮動小数点数形式で保持した場合、符号部、指数部、仮数部で表現するため表現できる整数は同じビットではかなり少なくなり、整数の表現として上位互換性はないので問題があります。仮数部を４ビットに増やせば精度が一桁改善されますが、指数部が３ビットで８通りに減るので表現できる数の範囲が１桁狭くなります。

浮動小数点形式で整数は丸め誤差を伴わずに正確に表現できることはありません。また浮動小数点形式は表現できる最小値から最大値までの値をすべて正確に表現できるわけではないです。

情報落ち＝絶対値が大きい数と小さい数の加減で小さい数が結果に含まれないこと
桁落ち＝大きさが近い数同士の引き算で有効数字が減ること
打ち切り誤差＝値の計算を途中で打ち切ることにより生じる
丸め誤差＝有効桁数などにより桁が制約されて生じる

ちなみにゼタより上はヨタ（Y）、ロナ（R）、クエタ（Q）です。ピコより下は、フェムト（f）、アト（a）、そしてゼプト（z）、ヨクト（y）、ロント（r）、クエクト（q）と小さくなります。

まあ試験には出ないと思いますけどね！笑

標本化定理とは、離散時間信号からアナログ信号を復元する際の定理で、サンプリングレートがアナログ信号に含まれる成分の最大周波数の２倍より大きければ誤差なく完全に元の信号を再構成できます。パルス符号化変調（PCM）は量子化された２進数ラベルを時間インデックスの順に並べてデジタル信号を得る方法のことです。

画像では２次元の空間の座標に対して輝度値が割り当てられます。輝度値は階調で表します。画像データは容量が大きいので圧縮されます。ただし白黒画像なら0 or 1です。カラー画像ならRGB方式が代表的で、R,G,Bそれぞれを256階調で表現する場合、１ピクセルあたり8bit×3色で24bitになります。可逆圧縮はPNGやGIFです。非可逆圧縮はJPEGです。動画において１秒あたりの画素数（fps）はフレームレートといいます。現在の地上波デジタルテレビ放送では29.97fpsです。

IEEE754は浮動小数点形式の標準です。けち表現とは、最初の非0桁f_1を１として省略し、f_2以降の桁のみを用いると、実質的に１ビット多くの情報を保持できるためにそのように呼ばれます。

Aには97を割り当てるなど、非負整数値の集合を、符号化文字集合＝文字コードといいます。

ASCⅡコードはアルフベッド数字や記号に７ビットで表現できる数字を割り当てます。１バイトで表される文字をシングルバイト文字で日本語など２バイトで文字を表現する方式をダブルバイト文字です。JISコードは0~65535と日本語の文字を対応させる方法式です。コンピュータにUnicodeを用いる場合には文字符号化方式を用います。例えばUTF-8です。シフトJISは、シングルバイト文字２つとダイルバイト文字の区別をするためのもので、半角カナが使えますが複雑な処理をします。この前にEUCがありました。データサイエンティストの試験などでは、特に「UTF-8はASCIIと互換性がある」という点がよく問われます。

２進木（根から出発して高々２つの子を持つように作られる木です）の点vに対して、vから根まで辿ったときに通過する枝の本数をvの深さといいます。各点の深さの最大値を２進木の高さといいます。高さkの２進木Tに対して深さk未満の点がすべて表れているとき、平衡２進木といいます。つまり各葉の深さが（高々１しか違わず）揃っており、バランスの取れた木です。

平衡２進木の点の数をnとしたときの不等式でありk＝O(logn)が得られます。

アルゴリズムの基本的構成要素として、代入、順次構造、選択構造、繰り返し構造があります。

構造化定理とは、順次、選択、反復の３つの構造で任意のプログラムが表現できることです。

結局、選択ソートがオーダー的には一番効率が悪いのですね。また、フィボナッチ数列のアルゴリズムはO(τ^n)です。

選択ソートは最小値１を先頭に寄せる、次に最小値２を先頭に寄せる・・・を繰り返します

計数ソート＜ヒープソート＝マージシート＜クイックソート（ここまでlog）＜バブルソート＝挿入ソート＜選択ソートの順です。

配列は連続的にアクセスしやすいですが要素の追加や削除に時間がかかります。対してリストは要素とポインタの組から形成されるのでアクセスに時間がかかりますが、要素の追加や削除には便利です。つまり両者の長所短所は真逆の関係になります。現代ではリストにするメリットがあまりありません。連想配列はキーと値の組を格納するデータです。Pythonにおける辞書です。検索を高速で行えるのでデータベースでも使用されます。

インタプリタ方式（Python、R、JavaScript）は開発時の修正作業が容易であり、可搬性が高いですが実行時の性能は低いです。コンパイラ方式（Java、C、C++）はプログラムが大きくなるとコンパイルの完了を待つ時間が長くなります。また可搬性が低いですが実行時の性能が高いです。これも真逆の関係があります。

: python3エンジニア認定基礎試験にGeminiと共に挑んだ学習の軌跡
2026年1月11日に python３エンジニア認定基礎試験を受験し合格することができました。AIのGeminiを活用し、自分なりの学習手順で合格をすることができました。世間では簡単な試験だと言われて ...

Pythonでbreakはfor文などを強制終了して抜けるための命令です。

csvは単純すぎるため複雑な構造のデータにはXMLを用います。＜＞がないのがJSONです。{}を用います。XML形式は複雑な階層的データを表現できます。csv、XML、JSONはいずれもテキストデータです。JSON形式はJavaScriptのオブジェクトの表記法から発生しました。

形態素を表すタグを品詞（POS：Part of Speech）タグといいます。

tf-idfは、単語の出現頻度（tf）にその単語を含むテキスト数の逆数をかけ合わせた値です。単純な出現頻度でなく、テキストにおけるその単語の重要度を示す値です。

以下に具体的な例題を挙げます。

ID	内容
Doc1	"Python Data"
Doc2	"Data Science"
Doc3	"Science Cooking"

ここで全文書数N＝３で、各文書における各単語の重要度を考えます。

これらの解析の利点は、重要度の低い単語を無視することで次元削減できます。また、scikit-learn の TfidfVectorizer を使えば、これらを一撃でベクトル化可能です。ただし単語の頻度についての手法なので、単語の意味は考慮されません。対策としてはBERTやTransformerなどの意味ベクトルを用いる手法が主流です。これらはG検定の範囲です。

コサイン類似度は、テキスト間の類似度を２つのベクトル（テキスト）がなす角度で表現します。

グラフにおいて閉路を部分グラフとして含まない連結グラフを木（グラフ）といいます。グラフを表現する際に隣接行列がありますがデータ量を減らすために隣接リストがあります。これは１と表示される行列の成分を書き足していくものです。

隣接リスト（これがJSON形式）

データベース管理システムとしてOracle（米国オラクル社）、DB2（IBM）、SQL Server（マイクロソフト）、MySQL（オープンソース）、PostgreSQL（オープンソース）があります。

リレーショナルデータベースは1970年代にコッドにより提案されました。第１行を属性やフィールド、第２行以下がタプルやレコードと呼ばれます。

商演算について考えます。

商演算とは「条件となる表（Divisor）のすべての項目を満たしている行を抽出する」という演算です。今回の結果は生徒Aと生徒Cです。

データベース管理システムの機能は、メタデータ管理、質問処理、トランザクション管理などがあります。

社員番号	メールアドレス	氏名	生年月日
101	a@ex.com	佐藤	1990/01/01
102	b@ex.com	鈴木	1995/05/05

次に正規化について考えます。これにより更新時異状、削除時異状、修正時異状が防げます。第１正規化までではこうした異状が起こる可能性があるので第３正規形まで追っていきます。

学生ID	氏名	講義コード	講義名	担当教官
101	田中	CS01	アルゴリズム	佐藤教授
101	田中	CS02	データベース	鈴木教授
102	佐藤	CS01	アルゴリズム	佐藤教授

まずこの表は第１正規形です。なぜなら、１つのセルには１つのデータのみ入っているからです。もし「講義」の欄に「アルゴリズム, データベース」とカンマ区切りで入っていたらそれは非第１正規形なので、それを１行ずつに分けるのが第１正規形です。公式教材には第１正規形までしか掲載されていませんが、第２正規形以降も解説します。

第２正規形は、部分関数従属の排除が目的です。つまり主キーの一部にのみ依存している情報を別テーブルにします。

第３正規形は推移的関数従属の排除が目的です。つまり主キー以外の列に依存している情報を別テーブルにします。

結合演算によって元のリレーションに戻せるようなリレーションの分解は情報無損失分解と言われます。

外部キーとは、その値が空でないときは、他のリレーションの主キーの値をとる属性のことです。

NoSQLにおいて、共有データシステムでは、整合性、可用性、分断特性の３つの性質のうち２つしか両立できないCAP定理があります。NoSQLでは、基本的に可用（CAP定理の意味で）、ソフト状態（入力がなくても時間経過とともに変遷していくかもしれない）、結果整合性（整合性のないデータでも更新要求がなく、システム障害などが発生しなければ、いつかは整合するということ）というBASE特性があります。

キーバリューデータベースは、Dynamoが採用し、列指向データベース（クローラが収集したwebサイトデータなどを収集）は、Bigtableが採用し、ドキュメント指向データベース（XMLやJSON）は、MongoDBが採用し、グラフデータベースもあります。

名寄せとは同一の意味を表す異なる表記のデータを同一のものとして扱う処理です。

統計・可視化に関する基礎的な事項

データサイエンス発展演習日本統計学会公式認定　統計検定データサイエンス発展 [ 日本統計学会 ]

楽天ブックス

＼最大10%ポイントアップ！／

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

量的データをメジャー、質的データをディメンジョンともいいます。

量的変量は、示量性変量（総和量を算出できるデータ）と示強性変量（総和量に意味を与えられない密度や速度などのデータ）に分けられます。

５数要約は最小値、第１四分位数、第２四分位数、第３四分位数、最大値のことです。

同じクラスターに属する調査対象は似た性質を持ちやすいので標本には偏りが生じる可能性が高いです。

異常検知は異常データが少ないので教師なし学習を適用します。典型的なアプローチとしてはpdf（確率密度関数）を使う方法があります。pdfの結果から閾値を超える値を異常と見做します。

ベイズの定理周辺は時間がかかるので後回しが賢明です。

混同行列	予測：正 (Positive)	予測：負 (Negative)
実測：正 (Positive)	TP (True Positive: 真陽性)	FN (False Negative: 偽陰性)
実測：負 (Negative)	FP (False Positive: 偽陽性)	TN (True Negative: 真陰性)

指標名	別名	定義式	意味（直感的な理解）
正解率 (Accuracy)	-	最も単純	全体のうち、どれだけ正解したか
適合率 (Precision)	精度	TP/(TP+FP)	「正」と予測したもののうち、本当に正だった割合
感度 (Sensitivity)	再現率 (Recall)	TP/(TP+FN)	実測が「正」のもののうち、正しく予測できた割合
特異度 (Specificity)	-	TN/(FP+TN)	実測が「負」のもののうち、正しく負と予測できた割合
F1値 (F1-score)	-	F値のこと	適合率と再現率の調和平均（バランスの指標）

ROC曲線において横軸は偽陽性率（FPR）＝１ー特異度です。縦軸は真陽性率（TPR＝感度＝再現率)です。ちなみに不均衡データに強いPR曲線は（縦軸：適合率、横軸：再現率）です。

モーメント推定量を求めよと言われたら、対象となる確率分布に注意します。また不偏性はnによらないので、不偏性について判断する場合はn＝１として様子を見ることも有効な手段です。

この解き方はアクチュアリー数学での常套手段です。

和の不偏分散も通常の分散の公式つまり共分散が出てくる公式に対応しています。その理由は、その公式の両辺にnをかけて両辺をn-1で割れば和の不偏分散の式が出てくるためです。

単回帰モデルにおいて、切片が０のとき（RTOモデル）について、βを求める公式は通常の公式とは異なる形になります。残差の和が０にならずに回帰直線がデータの重心を通る保証がなくなります。通常の決定係数を計算すると負になるケースがありますので、RTOでは決定係数の定義を全変動の捉え方から変える必要があります。

統計検定のデータサイエンス発展の公式テキスト『https://t.co/bJt0SlTOgA』のφ係数の説明が簡略化されすぎていると感じたので、ダミー変数化から分割表を作ってAとBの相関係数（つまりファイ係数のこと）を求める流れの過程を数式化してみました。ベルヌーイ分布に気付けたので最終結果を出せました。 pic.twitter.com/2I8lVnnyYc
— 志田龍太郎 (@nananairu7) April 25, 2026

独立性の仮定を行うと、カイ２乗検定統計量は次のように計算できファイ係数と密接な関係があります。

次の問題が指定教材『データサイエンス発展演習』の中で最難問です。

まず以下のことに注意します。度数分布の器つまり、各試行で得られた結果（成功回数k）が何回発生したかをカウントするための「バケツ」を準備している状態を意識しましょう。

0からNまでの整数を数え上げるためには、合計でN + 1個の要素が必要になります。

施策を行った対象を処理群や処置群、行わなかった対象を対照群やコントロール群といいます。また、自然実験とは、偶発的な実験状況になっているケースです。

条件のそろったペアを作ることをマッチングといい、このようにして得られたデータを対標本といいます。処理の前後での比較を行うことを差分の差分法といいます。

時系列データは折れ線グラフによってチャート化するといいます。チャートジャンクは過度な視覚的要素です。散布図においてプロットに自治体名などの文字列を加えてると情報過多になります。円グラフはカテゴリを2-5にします。

前年同期比について原系列を計算すれば季節変動を除去できますが、季節調整済み系列の前年同期比を用いると２重に調整されるため不適切です。

人間の視覚属性は、次の順で比較しやすいです。位置＞長さ＞向き（角度）＞太さ（幅）＞大きさ（面積）＞色（彩度または明度）＞色（色相）＞形

覚え方は、語呂「イナム・フオ・サシカ」。勢いで考えました。

A/Bテストでは調査が長期化すると調査期間中に気候や社会情勢の変化など広告デザイン以外の条件が変動する可能性があるため、時期的な影響を受けない程度に短期間で十分なデータが得られるように実験を設計すべきです。

A/Bテストの例として、アプリでさまざまなクーポンを発行して顧客の反応が良いものを見つけたいときに用います。k-means法の例は、顧客を類別してそれぞれのアプローチを考える際に用います。

離散一様分布に従う確率変数YはU~U[0,1]のとき、Y=INT(nU)+1です。

一様分布についてこちらでまとめています（統計検定１級やアクチュアリー数学にも難易度的には対応しています）

混合正規分布はGMMといいます。これは複数の正規分布の和で表現されます。

自由度kのt分布

バイアスーバリアンス分解

p値とは、帰無仮説のもとで、それ以上に極端な値を観測する確率です。また先ほども説明を行いましたが、２×２分割表においてカイ２乗統計量をYとすると、Y＝N(φ)^2が成立します。わかち書きとは、文章において語の区切りに空白を挟んで記述することです。日本語はそれを行いません。

名詞出現頻度を度数分布表で表しても良いですがワードクラウドという視覚に訴える方法もあります。

画像認識では画像から抽出された特徴量を元に機械学習やアルゴリズムによる解析を行います。シーン全体を推測することをシーン認識、ここの物体の情報を抽出するには物体認識を行います。物体認識では物体検出と画像分類の双方を行います。物体検出はバウンディングボックスを利用し、画像分類は特徴抽出器と分類器によって構成されます。近年は特徴抽出器と分類器が合わさっています。

顔画像検出はViola-Jones法で、Harr-like特徴量による顔画像検出を行います。ImageNetは画像認識向けの大規模データセットです。AlexNetはILSVRC2012でトロント大学が考案しました。CNNの畳み込み層では特徴を取り出してプーリング層で画像を小さくします。UCF101は101種類の動作認識を行うデータセットです。

回帰のモデルは平均平方二乗誤差（RMSE）つまり、残差平方和をnで割ったものの平方根を取ったものが、最小になるモデルを構築することが一般的です。MSE（平均二乗誤差）はRSMEのルートを取る前です。これらは外れ値の値の影響を受けやすいですが、MAE（平均絶対誤差）は誤差の絶対値の平均のため、外れ値の影響をRSMEほど受けにくいです。MAPEは誤差の割合で評価するための手法です。

主成分分析は教師なし学習です。主成分分析では特徴量は元データの一次結合でありますが、深層学習においては非線形な特徴量をもつオートエンコーダ（自己符号化器）が用いられます。

: 主成分分析での固有値の役割を行列の考えを用いてわかりやすく解説
多変量解析の１つの山場である主成分分析について解説します。判別分析よりも数段難しい印象です。なぜこんなに難しく感じるのでしょうか？線型代数の知識を知っている状態で解説している書籍が多い理由と、次元 ...

DS検定の模擬試験

統計検定データサイエンス発展の公式教材『https://t.co/2VXn2it4GI』の最終章にある模擬試験を試験時間で解きました。結果は正解率75%で合格基準は大丈夫なものの時間配分について改善する必要性を感じました。試験まで3日あるので間違った問題周辺の話題をしっかりと総整理していきたいと思います。 pic.twitter.com/N3R6cleQmQ
— 志田龍太郎 (@nananairu7) April 29, 2026

本番の3日前である2026/4/29に指定教材『データサイエンス発展演習』の第８章の模擬試験を解きました。合格圏で安心しましたが、色々と課題が残る結果となりました。

選択肢にて、該当するものをすべて選べ、などの表現に注意しましょう。僕はそれで１問正解を逃しました。

終盤の問題ではアクチュアリー数学と似た雰囲気の問題もありました。おそらく難問指定だと思うのですが、それが正解していて他の暗記系の問題で失点していることが勿体無いと感じています。残りの３日間で知識の抜けを埋めていきたいと思います！

DS発展で用いるPythonのライブラリ

データサイエンス発展演習日本統計学会公式認定　統計検定データサイエンス発展 [ 日本統計学会 ]

楽天ブックス

＼最大10%ポイントアップ！／

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

本書の巻末にあるDS発展試験にて出題される内容が整理されていますので、ここでまとめます。

MATH

通常の戻り値は浮動焦点です。複素数には対応していません。

math.pow(x,y)=x^yでmath.log(x[,base])=底がbaseのxの対数でbaseが指定されていないとeが使用されます。rradians(degree)でdegreeが度数法で書かれた角度を弧度法で表現します。

NumPy

np.dot(A,B)は行列積です。

NumPyには制限もあり、配列のサイズは固定されており、一度作成すると変更できません。

Pandas

表形式のデータにデータクレンジング、加工、分析などの操作ができます。

Pandasにも制限があります。

Scikit-learn

Scikit-learnはオープンソースライブラリです。

2026/4/29日現在で本番まであと３日になりましたので、当日の戦略を立ててXに投稿しました。

データサイエンス発展試験まであと３日です。模擬試験を解いた感覚だと、①知識問題②瞬時に計算が終わる問題③吟味する問題④閃き問題に分かれている感じでした。本番では17/28取れば合格なので、１周目で①と②で素早く17問以上確保した後で２周目で③→３周目で④を攻略する戦略を立ててみました。
— 志田龍太郎 (@nananairu7) April 29, 2026

DS発展の本番の難易度

本番では作戦通り少しでも考えてしまう問題を後回しにして１周目を10分以内で終えました。２周目を終えた時点で合格ラインの17問は確保できていたと思います。３周目は答えまで辿り着くのに５分程度要する問題を解きました。最後の４周目で複雑なアルゴリズムの問題や他の問題では最も答えに近いものを２択まで絞って選びました。

DS発展では公式教材のレベルと模擬試験の難易度で本番の予想をした難易度の１つ上の難易度だと思っておいた方が良いです。僕が今回受けた回が難易度が上振れしていた可能性もありますが、公式参考書よりも全体的に難易度が高いと感じました。

数学の問題で数学検定１級１次と同等の問題が出ていて驚きました。次のデータサイエンスエキスパート試験は統計検定準１級〜１級のレベルのようですので、しっかりと勉強して準備をしていきたいと思います。

データサイエンス発展演習日本統計学会公式認定　統計検定データサイエンス発展 [ 日本統計学会 ]

楽天ブックス

＼最大10%ポイントアップ！／

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

志田龍太郎

東京大学修士→30代セミFIRE元数学教諭(麻布高など指導)/アクチュアリー数学,統計検定１級(2026年に再挑戦)/数検１級→高３・漢検１級→教諭時代に合格/ブログ＋SNS運営/AmazonAssociates連携

2026/05/02

データサイエンス発展に10日で合格した勉強方法と難易度について考察

2026/04/23

QC検定準１級に合格するためのたった一つの心構え

2026/04/22

未経験でも2週間でPython３エンジニア認定データ分析試験に9割以上で合格する勉強方法

志田龍太郎の記事をもっと見る

-学習
-データサイエンス発展, 統計検定

コメント欄コメントをキャンセル

他のおすすめ記事

2026/4/28

QC検定準１級に合格するためのたった一つの心構え

2026年3月15日に受験したQC検定準１級に合格しました。今回の試験について思うところがあるので、普段とは違ったテイストの記事にしたいと思います。たった一つの心構えとは、本番の問題の相性が合否にかなり影響を及ぼしていることを理解しておくべきだという心構えです。いつもは学習の軌跡を記事にしていますが、今回は異色の記事になります。その理由は読み進めてもらえたら分かると思います。 QC検定準１級にどのくらいの学習時間で受かったか自己採点の際の僕のツイートをご覧ください。 https://twitter. ...

2026/4/22

未経験でも2週間でPython３エンジニア認定データ分析試験に9割以上で合格する勉強方法

2026年4月22日にPython３エンジニア認定データ分析試験を受験して925点で合格できました！ https://twitter.com/nananairu7/status/2046898662392098835 Pythonは本記事を書いている段階（2026年4月）で業務で使用したことはございません。そのため未経験でも9割を超える得点を出すことは学習方法を守れば可能である可能性があります！本記事では公式教材『Pythonによるあたらしいデータ分析の教科書第3版 (AI & TECHNOL ...

2026/5/2

統計検定データサイエンス基礎（DS基礎）に10日で75点で合格した勉強方法とチートシート

2026年4月6日にデータサイエンス基礎を受験して75点で合格できました。学習期間は10日以内でした。この検定はエクセルを用いた統計検定２級レベルのデータ分析をこなせるかどうかを試す、ビッグデータの重要性が唱えられている現代にとって有用な資格です。僕自身、エクセルでこんなことができるのか！すごい！と思う連続でした。多くの方にお勧めできる検定です。本記事ではDS基礎の学習方法について主に解説します。データサイエンス基礎に合格するために公式本『日本統計学会公式認定統計検定データサイエンス基礎対応　データア ...

2026/4/29

情報セキュリティマネジメント試験に約２週間で合格できた勉強方法

2026年1月26日（月）に情報セキュリティマネジメント試験で合格点を取れましたので、セキュマネ試験をどのように学習して合格したかの軌跡を書きたいと思います。まず試験中に思った結論から書きます。勉強時間（2026/1/12~2026/1/26の15日）参考書→『令和8年情報処理教科書出るとこだけ！情報セキュリティマネジメント［科目A］［科目B］テキスト 2026年版／参考書模擬問題2回分 [科目A]問題のWebアプリ (EXAMPRESS)』が効率が良いという意味でベスト過去問→過去問道場の問題 ...

2026/1/11

python3エンジニア認定基礎試験にGeminiと共に挑んだ学習の軌跡

2026年1月11日に python３エンジニア認定基礎試験を受験し合格することができました。AIのGeminiを活用し、自分なりの学習手順で合格をすることができました。世間では簡単な試験だと言われていますが、しっかりとした対策をしないと確実に合格をすることは難しいと思いました。本記事では合格への軌跡を記したいと思います。この試験は明確な出題範囲が定められているため、戦略的な対策をとることによって合格を確実に狙うことができます。しかし結局は下記のチュートリアルの大事な箇所を理解していないと点数が取れない ...

QC検定準１級に合格するためのたった一つの心構え