StatsBeginner: 初学者の統計学習ノート

文系出身で工学部(工学研究科)の教員をしてます。

ステップワイズ法はp値を歪める

さっき学生に説明したことのメモ。 説明変数の候補がたくさんあるときに、説明力が高くなる組み合わせを機械的に選ぶステップワイズ法というのがあります。便利は便利ですが、これをやると、仮説検定の時にp値が歪みます(不当に有意になりやすくなる)。に…

対数変換して求めた予測値を指数で再変換するときの下振れの補正(スミアリング)

昨日学生に説明したことのメモ。 世の中には、何かと何かの「掛け算」で決まっていそうなものが色々あります。たとえば、私はオフロードバイクで山を走るのが好きなのですが、オフロードの走破能力は、マシンの性能と自分の技量の「掛け算」で高まるのだとい…

紙の教科書とデジタル教科書の教育効果を比較した研究のまとめ

参政党の神谷代表が、「デジタル教科書より紙の教科書のほうがいい」という主張をしているらしく、個人的には賛成ですが、いろんな研究があるので場合をわけて考えたほうがいいと思います。 「デジタル教科書より紙のほうが学習効果高いという研究も」“元教…

「便所の落書き」は楽しかった

昔、掲示板サイトの2ちゃんねるがよく「便所の落書き」と批判されていて、いまのSNSも同じように言われることがありますが、最近の都会のトイレは総じて綺麗で、落書きというものを見ることがほぼなくなりました。なので、そもそも便所の落書きとはどんなも…

天体望遠鏡のトレンドが90年代とはだいぶ変わっていた

最小二乗法の歴史を調べていたら(先日のエントリ)、かつて統計学を発展させたのは「天体観測」と「測量」だったのだなぁということを改めて実感したのですが、そういえば私は中高生だった1990年代に天体写真を撮っていました。で、「そういえばいまの望遠…

統計的因果推論の手法を選ぶためのチートシート

統計的因果推論について、学生とかが「手元にどんなデータがあるか」に応じて使える手法を大雑把に判断するためのチートシートのようなものを作っているのですが、正直私自身もあまり理解してなくて、正確性を気にしていたらキリがないと思い、いったん現行…

なぜ誤差を「二乗」するのか?

何年か前に、統計学の勉強会をしている学生の会話を聞いていたら、パラメータの推定に「二乗誤差」を用いる理由を「誤差の符号を正にするため」というふうに先輩が後輩に説明していました。理由を考えようとする姿勢は素晴らしいと思いつつ、「そう単純でも…

95%信頼区間は何が「95%」なのか?

10年以上前に、「信頼区間の意味と、Rのpredict()関数の使い方の注意点」というエントリを書いてましたが、余計な記述が多かったのであらためて論点を整理しておきます。 統計学の教科書をまじめに読んでいる人にとっては今さらな話なのですが、「95%信頼区…

「検定を繰り返すと第一種の過誤が増える」は間違い

やや煽り気味のタイトルを付けてみましたが、そんな大層なことをいいたいわけではありません。 以前、検定の繰り返しと多重比較についてというエントリを書いていたですが、こんなにくどくど書かなくてもいいよなと思ったので、改めて話を簡潔に整理しておき…

不偏分散の分母がn-1であることの直観的な理解

同じタイトルで数ヶ月前にエントリを書いていたのですが、よくよく考えると全然意味のある説明になってなかったので、まとめ直します。 不偏分散が であることの、証明というか導出は、統計学の教科書を見れば書いてあるのですが、「なんで1引くの?」という…

マーケティング専門紙「日経MJ」と「うまい棒」の思い出

私は会社員を10年やってから大学に転職したのですが、会社員時代の前半は本社の営業部門に所属していて、現場の営業マンをサポートするためのデータ分析やらツール開発やらを担当しておりました。そういう仕事をやっていたので、マーケティング関連の媒体に…

生成AIに頼ることで失われるもの

今年、大学院入試の取りまとめ役をやっていたのですが、私が所属してる専攻は教員が100人ぐらいいるんですけど、毎年1名のメイン担当がほぼすべての情報を把握し、ほぼすべての書類を作成するので、けっこう大変でした。夏の院試は170人ぐらい、冬の院試は30…

大学教員が最近の学生をみて感じるカルチャーショック10選

民間企業で10年働いてから大学に転職して、8年が経ちました。自分が大学生だった20年前と比べてのカルチャーショック、ジェネレーションギャップのまとめ(決定版)です。 第10位 授業にちゃんと出席している 最近の大学生は、とにかく授業に出席します。 い…

「社会課題」という日本語への違和感

学生のレポートや、就職活動のために書いているエントリーシートの作文などを見ていて、「社会課題」という言葉がよく使われるのが前から気になっていました。「この技術はさまざまな社会課題の解決に貢献し得る」みたいな。 おかしな日本語なのかと言われる…

researchmapに一括登録するためのcsvをエクセルから生成するツール

以前、researchmapに一括登録するためのcsvをエクセルからの変換で生成する方法についてのエントリ(リンク)を書いてましたが、Pythonのスクリプトとシェルスクリプトに分かれていたり、スクリプトを置く場所を気をつけないといけなかったり、Windowsの人と…

西部邁とAI

あるところで西部邁という人のむかしの仕事について、短い論評を書く機会があったのだが、字数制限があったので省略していた論点についてメモしておきたい。 西部邁はもともと東大の経済学者で、ある揉め事があって東大を辞めてからは「保守派の評論家」とし…

頻度主義の「統計的仮説検定」についての理解度チェック

うちは工学部で、4回生になると研究室に配属されて卒論のための研究が始まるのですが、その段階で統計データの分析をしなければならないので、研究室内で毎年春から夏にかけて、統計学の基本的な理論とRのコードの書き方の勉強会が行われています。 で、この…

このブログのおすすめエントリ(随時追加)

このブログで書いてきた記事のうち、後々自分でも読み返すことが多いものまとめておきます。 はてなブックマークがたくさんついてホットエントリに入ったような記事でも、時間が経ってツールのバージョン変更などにより価値が薄れているものは除き、今でも読…

DeepSeekが深読みしすぎていて面白い

推論能力(多段階のロジックなどが必要な場合でも正しい答えを出す能力)の高さを謳っている最近のLLMは、ユーザーの質問に対してすぐに回答を返すのではなく、いったん生成した回答について内面的な反省を繰り返してから、ユーザーに返答するようになってい…

重み付き回帰で2種類の重みを使いたい時

Rで重み付きの回帰を実行する場合、lmとかlmer(ランダム効果を使う場合)のweights引数に重みを指定すればいいだけですが、2種類の重みを同時に使いたいような場合があります。たとえばパネル調査データで、母集団からのサンプリングのバイアスを補正するた…

Mamba(最近話題の新しいAIアーキテクチャ)の名前の由来

長大なシーケンスを扱うことができ、処理速度が高速で、Transformerを超えるのではないか(今のところケースによって強み弱みはあるらしいけど)と話題になっているMamba(論文リンク)ですが、名前が何の略だったか思い出せなくて確認していたら、そもそも…

LightGBMにおけるカテゴリ変数の扱い方

LightGBMにおけるカテゴリ変数の扱いについてググっていたら、以下のような投稿があった。 [SOLVED] How exactly does LightGBM handle the categorical features? | Kaggle この投稿のなかで、いろいろ参考になるリファレンスが貼られている。 max_cat_to_o…

MacでのChrome AppsのTwitter (X)アプリのインストール

今、Macでツイッター(X)のアカウントを複数運用するなら、Chrome Appsのアプリが最適だと思っていて、それを再度インストール(正確にはMacの別のユーザアカウントにインストール)しようと思ったら方法が分からなくて困ったのでメモしておきます。 説明す…

“All You Need”論文のベースモデルに近いスペックの英日翻訳Transformerを作ってみた

先日から英日Transformerの学習結果の報告を何度か書いてますが(エントリ1・エントリ2・エントリ3)、AWSでA100というGPUが8枚使える最高スペックのインスタンスが空いたので*1、コーパスとモデルを少し大きくして、Googleの有名な“Attention is all you ne…

英日翻訳Transformerを少しだけ大きくしてみた結果

研究でTransformerを使いたいので(去年ちょっと実際に使いましたが)、基本から勉強しようと思い、先日自分でTransformerに英日翻訳を学習させてみたのですが(エントリ1・エントリ2)、GPUを複数枚並列で動かせる環境を手に入れたので、コーパスとモデルを…

AWSの深層学習用GPUインスタンスのスペックと価格を一覧化した

つい先日も似たようなエントリを書きましたが、AWSのサイトでいまいち一覧化された情報がないことに怒りを感じたので、表にまとめました。 インスタンスを起動(作成)する画面からインスタンスの比較表をみることが出来ますが、そこではGPUの製品名やメモリ…

PyTorch初心者のメモ

以下は、PyTorchでのニューラルネット構築について、学んだ基礎的事項のメモです。 nn.ModuleというのはTransformerを含めたニューラルネットワークの部品を意味していて、nn.Moduleの__call__メソッドはforwardメソッドを呼ぶようになっているので、nn.Modu…

なんか凄そうな日英対訳コーパスを発見

LASER/tasks/WikiMatrix at main · facebookresearch/LASER · GitHub Wikipediaから作られた多言語の対訳データで、英語と日本語の組み合わせをみると85万1000件ある。 これは中身も少し整理してみたが、結構品質は高い。明らかに変なデータも混じっていたり…

DataParallelでの複数GPUの並列化が上手くいかない(PyTorch)

単なる作業経過のメモです。 AWSで、gクラスのインスタンスのvCPU数上限緩和を申請したら通りまして、複数GPUのインスタンスが使えるようになりました。 そこでGPU4枚のインスタンスを立てて、以下のような情報を参考に、先日構築したTransformer翻訳機にと…

英日翻訳の混合コーパスとJParaCrawlで機械翻訳の品質を比べてみた

※コーパスを「自作」したとは言えないのでタイトルから「自作」を取りました 先日、小型Transformerで英→日の機械翻訳をやらせてみた(先日のエントリ)のですが、その際にコーパスは、いくつかの無償配布コーパスを処理して独自に再編成したもの(合計約128…