researchmapに一括登録するためのcsvをエクセルから生成するツール

以前、researchmapに一括登録するためのcsvをエクセルからの変換で生成する方法についてのエントリ（リンク）を書いてましたが、Pythonのスクリプトとシェルスクリプトに分かれていたり、スクリプトを置く場所を気をつけないといけなかったり、Windowsの人と…

2025-06-13

西部邁とAI

あるところで西部邁という人のむかしの仕事について、短い論評を書く機会があったのだが、字数制限があったので省略していた論点についてメモしておきたい。西部邁はもともと東大の経済学者で、ある揉め事があって東大を辞めてからは「保守派の評論家」とし…

2025-05-26

頻度主義の「統計的仮説検定」についての理解度チェック

うちは工学部で、4回生になると研究室に配属されて卒論のための研究が始まるのですが、その段階で統計データの分析をしなければならないので、研究室内で毎年春から夏にかけて、統計学の基本的な理論とRのコードの書き方の勉強会が行われています。で、この…

2025-05-22

不偏分散の分母がn-1である理由の直観的な理解

統計学初学者の超あるあるネタなので、くどくど説明しませんが、件名の通りです。で、これをChatGPTに説明させてみたら、概ね以下のような趣旨の説明をしていて、けっこう腑に落ちる感じがしました。データポイントが n 個あるとき、それを「n次元空間」に…

2025-02-16

DeepSeekが深読みしすぎていて面白い

推論能力（多段階のロジックなどが必要な場合でも正しい答えを出す能力）の高さを謳っている最近のLLMは、ユーザーの質問に対してすぐに回答を返すのではなく、いったん生成した回答について内面的な反省を繰り返してから、ユーザーに返答するようになってい…

2025-02-15

重み付き回帰で2種類の重みを使いたい時

Rで重み付きの回帰を実行する場合、lmとかlmer（ランダム効果を使う場合）のweights引数に重みを指定すればいいだけですが、2種類の重みを同時に使いたいような場合があります。たとえばパネル調査データで、母集団からのサンプリングのバイアスを補正するた…

2024-05-01

Mamba（最近話題の新しいAIアーキテクチャ）の名前の由来

長大なシーケンスを扱うことができ、処理速度が高速で、Transformerを超えるのではないか（今のところケースによって強み弱みはあるらしいけど）と話題になっているMamba（論文リンク）ですが、名前が何の略だったか思い出せなくて確認していたら、そもそも…

2023-12-24

LightGBMにおけるカテゴリ変数の扱い方

LightGBMにおけるカテゴリ変数の扱いについてググっていたら、以下のような投稿があった。 [SOLVED] How exactly does LightGBM handle the categorical features? | Kaggle この投稿のなかで、いろいろ参考になるリファレンスが貼られている。 max_cat_to_o…

2023-11-30

MacでのChrome AppsのTwitter (X)アプリのインストール

今、Macでツイッター（X）のアカウントを複数運用するなら、Chrome Appsのアプリが最適だと思っていて、それを再度インストール（正確にはMacの別のユーザアカウントにインストール）しようと思ったら方法が分からなくて困ったのでメモしておきます。説明す…

2023-09-27

“All You Need”論文のベースモデルに近いスペックの英日翻訳Transformerを作ってみた

先日から英日Transformerの学習結果の報告を何度か書いてますが（エントリ1・エントリ2・エントリ3）、AWSでA100というGPUが8枚使える最高スペックのインスタンスが空いたので*1、コーパスとモデルを少し大きくして、Googleの有名な“Attention is all you ne…

2023-09-18

英日翻訳Transformerを少しだけ大きくしてみた結果

研究でTransformerを使いたいので（去年ちょっと実際に使いましたが）、基本から勉強しようと思い、先日自分でTransformerに英日翻訳を学習させてみたのですが（エントリ1・エントリ2）、GPUを複数枚並列で動かせる環境を手に入れたので、コーパスとモデルを…

2023-09-17

AWSの深層学習用GPUインスタンスのスペックと価格を一覧化した

つい先日も似たようなエントリを書きましたが、AWSのサイトでいまいち一覧化された情報がないことに怒りを感じたので、表にまとめました。インスタンスを起動（作成）する画面からインスタンスの比較表をみることが出来ますが、そこではGPUの製品名やメモリ…

2023-09-16

PyTorch初心者のメモ

以下は、PyTorchでのニューラルネット構築について、学んだ基礎的事項のメモです。 nn.ModuleというのはTransformerを含めたニューラルネットワークの部品を意味していて、nn.Moduleの__call__メソッドはforwardメソッドを呼ぶようになっているので、nn.Modu…

2023-09-10

なんか凄そうな日英対訳コーパスを発見

LASER/tasks/WikiMatrix at main · facebookresearch/LASER · GitHub Wikipediaから作られた多言語の対訳データで、英語と日本語の組み合わせをみると85万1000件ある。これは中身も少し整理してみたが、結構品質は高い。明らかに変なデータも混じっていたり…

2023-09-10

DataParallelでの複数GPUの並列化が上手くいかない（PyTorch）

単なる作業経過のメモです。 AWSで、gクラスのインスタンスのvCPU数上限緩和を申請したら通りまして、複数GPUのインスタンスが使えるようになりました。そこでGPU4枚のインスタンスを立てて、以下のような情報を参考に、先日構築したTransformer翻訳機にと…

2023-09-03

英日翻訳の混合コーパスとJParaCrawlで機械翻訳の品質を比べてみた

※コーパスを「自作」したとは言えないのでタイトルから「自作」を取りました先日、小型Transformerで英→日の機械翻訳をやらせてみた（先日のエントリ）のですが、その際にコーパスは、いくつかの無償配布コーパスを処理して独自に再編成したもの（合計約128…

2023-09-01

AWSのディープラーニング用インスタンスを検討する

Google Colabの環境は気に入ってるのですが、操作しないと90分でランタイムが切断されるルールや、Pro+に入っても24時間以上は回せないルール、さらには実行中にGoogle Driveに書き込めなくなったりする不具合などもあって、長時間の学習ではストレスが溜ま…

2023-08-31

小型のTransformerに英日翻訳をイチから学習させてみた

翻訳機を自作してみた ChatGPTやDeepLの元になったTransformer*1をつかって、英語から日本語への翻訳を学習させてみました。とりあえず現段階で、いくつかの英文を翻訳させてみた結果が以下のとおりです（青字が機械翻訳）。 Your time is limited, so don’…

2023-08-30

Google Colabでネット接続が切れた時

Google Colabでニューラルネットの学習中に、いかに処理を中断させないかで悩むことは多いと思います。ググるとよく紹介されているのは、 12時間や24時間でランタイムがリセットされてしまう問題：これはどうしようもないので、それまでにモデルや設定を保存…

2023-08-27

無償配布の日本語・英語対訳コーパスのデータを綺麗にする

★めぼしいコーパスをまとめてダウンロードしてクリーニングして統合するPythonのコードを最後にのせてます。 ★少しソースを増やして、最終的には後日のエントリに書いてあるようなコーパス構成にしました。日英対訳の（なるべく）綺麗なデータを得たい Tran…

2023-08-24

Jupyter Notebook/Jupyter LabがMacでちゃんと開くようにconfigを設定

Jupyter Labを使ってるのですが、起動しようとするとブラウザでちゃんと開いてくれなくて、変なHTMLファイルがテキストエディタで開くようになってしまいました。そのHTMLファイルに書かれてあるURLをブラウザに入れると使えるのですが。これはconfigにデフ…

2023-07-31

MacのAcrobatで見開きPDFを1ページごとに分割する

後でまた使うことがありそうなのでメモしておく。見開きが複数ある場合は、まず、1見開き1ファイルに分割する個々のファイルをAcrobatで開く ToolsのOrganize Pagesを開く Moreのメニューから「Set page Boxes」を開くインチで分かりにくければmmに変更し…

2023-04-25

ChatGPTにプログラミングを教わるとは、こういう感じです。

ChatGPTとのやり取りで一番楽しいのは、やっぱり、プログラミングを教えてもらうことですね。今回は、とあるアニメーションの作り方を教えてもらいました。下にそのやりとりを掲載しておきますが、コードの中身は読み飛ばして、文章でのやり取りの部分と出…

2023-02-23

TransformerやAttentionの分かりにくい点についてのメモ

ChatGPTの「GPT」はGenerative Pretrained Transformerの略であり、TransformerというのはGoogleが2017年に発表した『Attention is all you need』という論文で提案されたディープラーニングの画期的なアーキテクチャで、その論文のタイトル通り「Attention…

2023-01-08

Rで距離行列を求める高速な関数

Rでクラスター分析などをするときに距離行列を求める必要があるが、次元が大きくなると（万単位とか）けっこう時間がかかる。で、標準で入ってる{stats}のdist() {Rfast}のDist() {wordspace}のmatrix.dist() を比較してみたところ、3つ目のやつが一番速く…

2023-01-08

configure: error: gsl-config not found, is GSL installed? ERROR: configuration failed for package ‘RcppGSL’

こういう環境構築系の作業をいちいち書いてたらキリがないのだが、ググってすぐに解決しなかったものについては、後で助かる人がいるかもと思ってなるべく書いています。以下はAWS（Amazon Linux）上のRでの話です。 {Rfast}というパッケージを入れる際に{R…

2022-12-28

Rの正規表現でURLを抽出

正規表現でURLを表現する方法は、ググるといろんな人がエントリにしているが、Rでやる場合は以下のようにする。 '以外のエスケープの\を重ねることや、perlをTRUEにするのを忘れないように。 grep('https?://[\\w!\\?/\\+\\-_~=;\\.,\\*&@#\\$%\$\$\'\\[\\…

2022-12-17

文章を「カギ括弧に挟まれている場合以外は句点で区切る」のってどうすればいいの？

日本語のパラグラフをセンテンス単位に分割するのって、もちろんいろんなパターンをプログラムで書いていけばできると思うのだが、シンプルなコードでやろうとすると、どうなるんだろうか。普通に考えると、「。」で区切る「？」や「！」でも区切る（これ…

2022-12-16

AWSのR4.0.2に{devtools'}が入らない

AWSに設置したRStudio Serverで{devtools}のインストールに失敗し、以下のように依存関係のエラーが出る。（途中の行を省略している） > ERROR: configuration failed for package ‘textshaping’ > ERROR: dependency ‘textshaping’ is not available for pa…

2022-12-04

Rで{snow}と{parallel}の並列化を少し試してみた

Rで計算を高速化したいとき、なるべくベクトル計算にしてforで頭からみていくような処理を避ける自作関数をコンパイルする並列化（マルチコアの利用）などの手法があり、ベクトル化とコンパイルに関してはケースによって何が有効かというのは難しい。た…

StatsBeginner: 初学者の統計学習ノート

統計学およびR、Pythonでのプログラミングの勉強の過程をメモっていくノート。たまにMacの話題。