さっき学生に説明したことのメモ。 説明変数の候補がたくさんあるときに、説明力が高くなる組み合わせを機械的に選ぶステップワイズ法というのがあります。便利は便利ですが、これをやると、仮説検定の時にp値が歪みます(不当に有意になりやすくなる)。に…
昨日学生に説明したことのメモ。 世の中には、何かと何かの「掛け算」で決まっていそうなものが色々あります。たとえば、私はオフロードバイクで山を走るのが好きなのですが、オフロードの走破能力は、マシンの性能と自分の技量の「掛け算」で高まるのだとい…
参政党の神谷代表が、「デジタル教科書より紙の教科書のほうがいい」という主張をしているらしく、個人的には賛成ですが、いろんな研究があるので場合をわけて考えたほうがいいと思います。 「デジタル教科書より紙のほうが学習効果高いという研究も」“元教…
昔、掲示板サイトの2ちゃんねるがよく「便所の落書き」と批判されていて、いまのSNSも同じように言われることがありますが、最近の都会のトイレは総じて綺麗で、落書きというものを見ることがほぼなくなりました。なので、そもそも便所の落書きとはどんなも…
最小二乗法の歴史を調べていたら(先日のエントリ)、かつて統計学を発展させたのは「天体観測」と「測量」だったのだなぁということを改めて実感したのですが、そういえば私は中高生だった1990年代に天体写真を撮っていました。で、「そういえばいまの望遠…
統計的因果推論について、学生とかが「手元にどんなデータがあるか」に応じて使える手法を大雑把に判断するためのチートシートのようなものを作っているのですが、正直私自身もあまり理解してなくて、正確性を気にしていたらキリがないと思い、いったん現行…
何年か前に、統計学の勉強会をしている学生の会話を聞いていたら、パラメータの推定に「二乗誤差」を用いる理由を「誤差の符号を正にするため」というふうに先輩が後輩に説明していました。理由を考えようとする姿勢は素晴らしいと思いつつ、「そう単純でも…
10年以上前に、「信頼区間の意味と、Rのpredict()関数の使い方の注意点」というエントリを書いてましたが、余計な記述が多かったのであらためて論点を整理しておきます。 統計学の教科書をまじめに読んでいる人にとっては今さらな話なのですが、「95%信頼区…
やや煽り気味のタイトルを付けてみましたが、そんな大層なことをいいたいわけではありません。 以前、検定の繰り返しと多重比較についてというエントリを書いていたですが、こんなにくどくど書かなくてもいいよなと思ったので、改めて話を簡潔に整理しておき…
同じタイトルで数ヶ月前にエントリを書いていたのですが、よくよく考えると全然意味のある説明になってなかったので、まとめ直します。 不偏分散が であることの、証明というか導出は、統計学の教科書を見れば書いてあるのですが、「なんで1引くの?」という…
私は会社員を10年やってから大学に転職したのですが、会社員時代の前半は本社の営業部門に所属していて、現場の営業マンをサポートするためのデータ分析やらツール開発やらを担当しておりました。そういう仕事をやっていたので、マーケティング関連の媒体に…
今年、大学院入試の取りまとめ役をやっていたのですが、私が所属してる専攻は教員が100人ぐらいいるんですけど、毎年1名のメイン担当がほぼすべての情報を把握し、ほぼすべての書類を作成するので、けっこう大変でした。夏の院試は170人ぐらい、冬の院試は30…
民間企業で10年働いてから大学に転職して、8年が経ちました。自分が大学生だった20年前と比べてのカルチャーショック、ジェネレーションギャップのまとめ(決定版)です。 第10位 授業にちゃんと出席している 最近の大学生は、とにかく授業に出席します。 い…
学生のレポートや、就職活動のために書いているエントリーシートの作文などを見ていて、「社会課題」という言葉がよく使われるのが前から気になっていました。「この技術はさまざまな社会課題の解決に貢献し得る」みたいな。 おかしな日本語なのかと言われる…
以前、researchmapに一括登録するためのcsvをエクセルからの変換で生成する方法についてのエントリ(リンク)を書いてましたが、Pythonのスクリプトとシェルスクリプトに分かれていたり、スクリプトを置く場所を気をつけないといけなかったり、Windowsの人と…
あるところで西部邁という人のむかしの仕事について、短い論評を書く機会があったのだが、字数制限があったので省略していた論点についてメモしておきたい。 西部邁はもともと東大の経済学者で、ある揉め事があって東大を辞めてからは「保守派の評論家」とし…
うちは工学部で、4回生になると研究室に配属されて卒論のための研究が始まるのですが、その段階で統計データの分析をしなければならないので、研究室内で毎年春から夏にかけて、統計学の基本的な理論とRのコードの書き方の勉強会が行われています。 で、この…
このブログで書いてきた記事のうち、後々自分でも読み返すことが多いものまとめておきます。 はてなブックマークがたくさんついてホットエントリに入ったような記事でも、時間が経ってツールのバージョン変更などにより価値が薄れているものは除き、今でも読…
推論能力(多段階のロジックなどが必要な場合でも正しい答えを出す能力)の高さを謳っている最近のLLMは、ユーザーの質問に対してすぐに回答を返すのではなく、いったん生成した回答について内面的な反省を繰り返してから、ユーザーに返答するようになってい…
Rで重み付きの回帰を実行する場合、lmとかlmer(ランダム効果を使う場合)のweights引数に重みを指定すればいいだけですが、2種類の重みを同時に使いたいような場合があります。たとえばパネル調査データで、母集団からのサンプリングのバイアスを補正するた…
長大なシーケンスを扱うことができ、処理速度が高速で、Transformerを超えるのではないか(今のところケースによって強み弱みはあるらしいけど)と話題になっているMamba(論文リンク)ですが、名前が何の略だったか思い出せなくて確認していたら、そもそも…
LightGBMにおけるカテゴリ変数の扱いについてググっていたら、以下のような投稿があった。 [SOLVED] How exactly does LightGBM handle the categorical features? | Kaggle この投稿のなかで、いろいろ参考になるリファレンスが貼られている。 max_cat_to_o…
今、Macでツイッター(X)のアカウントを複数運用するなら、Chrome Appsのアプリが最適だと思っていて、それを再度インストール(正確にはMacの別のユーザアカウントにインストール)しようと思ったら方法が分からなくて困ったのでメモしておきます。 説明す…
先日から英日Transformerの学習結果の報告を何度か書いてますが(エントリ1・エントリ2・エントリ3)、AWSでA100というGPUが8枚使える最高スペックのインスタンスが空いたので*1、コーパスとモデルを少し大きくして、Googleの有名な“Attention is all you ne…
研究でTransformerを使いたいので(去年ちょっと実際に使いましたが)、基本から勉強しようと思い、先日自分でTransformerに英日翻訳を学習させてみたのですが(エントリ1・エントリ2)、GPUを複数枚並列で動かせる環境を手に入れたので、コーパスとモデルを…
つい先日も似たようなエントリを書きましたが、AWSのサイトでいまいち一覧化された情報がないことに怒りを感じたので、表にまとめました。 インスタンスを起動(作成)する画面からインスタンスの比較表をみることが出来ますが、そこではGPUの製品名やメモリ…
以下は、PyTorchでのニューラルネット構築について、学んだ基礎的事項のメモです。 nn.ModuleというのはTransformerを含めたニューラルネットワークの部品を意味していて、nn.Moduleの__call__メソッドはforwardメソッドを呼ぶようになっているので、nn.Modu…
LASER/tasks/WikiMatrix at main · facebookresearch/LASER · GitHub Wikipediaから作られた多言語の対訳データで、英語と日本語の組み合わせをみると85万1000件ある。 これは中身も少し整理してみたが、結構品質は高い。明らかに変なデータも混じっていたり…
単なる作業経過のメモです。 AWSで、gクラスのインスタンスのvCPU数上限緩和を申請したら通りまして、複数GPUのインスタンスが使えるようになりました。 そこでGPU4枚のインスタンスを立てて、以下のような情報を参考に、先日構築したTransformer翻訳機にと…
※コーパスを「自作」したとは言えないのでタイトルから「自作」を取りました 先日、小型Transformerで英→日の機械翻訳をやらせてみた(先日のエントリ)のですが、その際にコーパスは、いくつかの無償配布コーパスを処理して独自に再編成したもの(合計約128…