統計学初学者の超あるあるネタなので、くどくど説明しませんが、件名の通りです。
で、これをChatGPTに説明させてみたら、概ね以下のような趣旨の説明をしていて、けっこう腑に落ちる感じがしました。
データポイントが n 個あるとき、それを「n次元空間」に配置して考えることができる。ただし、「平均で中心化されたデータ」は、1次元少ない空間上に存在することになる。したがって、そのデータのばらつき(広がり)を評価する際は、n−1 次元上でのばらつきを計算すべき。
注意が必要なのは、普通はたとえば1000人の学生の体重のデータが得られた場合、体重という1つの(1次元の)変数に関して1000個のサンプルが得られたというふうに捉えるけど、ここでは1000個の(1000次元の)変数に関して1つずつ値が得られたというふうに捉え直している点。
1000次元空間上の1点に今回得られたデータセットが配置されるというイメージだと、「1つの点のばらつきって??」となって混乱しそうなところがトリッキーではある。
1000次元の空間上の1点として1つのデータセットが表現されることになるわけだけど、そのデータセットが、xy平面でいうところのy=x(いわゆる45度線)からどれだけズレているかで、データのばらつきを表す発想だと言い換えてもいいと思う。*1
「平均で中心化された結果として、1次元小さい空間にばらついている」というのも、具体的にイメージするのが難しく、次元というよりはランクと言ったほうがいいのかも。
【追記】
あとで考えたのだが、1回のサンプリングで得られたデータがn-1次元空間にばらつくのではなく、サンプリングを何回も繰り返したときに、そのサンプルのばらつきがn-1次元空間に収まるということで、これは図示すればわかりやすい。
サンプルサイズ3のデータをサンプリングして、3次元空間に描画するというのをランダムにやると、当然立体的にまんべんなく分布するのだが、平均や合計が特定の値になるように制約を置くと、平べったく平面上に分布する。
平均値を固定して何回もサンプリングするという話と、今回たまたま得られたデータの平均値を「正」として分散を計算するという話のつながりを意識しないといけないので、頭がこんがらがってくるが。
*1:n次元の空間にランダムに生成されたデータの45度線からの距離は、nの平方根に比例し、次元が大きいほどばらつきは大きくなる。