長大なシーケンスを扱うことができ、処理速度が高速で、Transformerを超えるのではないか(今のところケースによって強み弱みはあるらしいけど)と話題になっているMamba(論文リンク)ですが、名前が何の略だったか思い出せなくて確認していたら、そもそも何かの略ではなく、ヘビの名前だそうです。
先日、飲み会中に「ヘビの名前ですか?」と訊かれて「いや、何かの略だったかと」と答えたのですが、ヘビの名前でした。以下は開発者のツイートです。
Why "Mamba"? 🐍🐍
— Albert Gu (@_albertgu) 2023年12月4日
- It's fast: based on a (i) simple recurrence with linear scaling in sequence length, and (ii) hardware-aware design and implementation
- It's deadly -- to sequence modeling problems 🙃💀💀
- Its core mechanism is the latest evolution of S4 models... SSSS
8/
最後のS4というのは、Mambaのベースとなっている状態空間モデルのStructured State Spaces for Sequence Modelingのことですが、Sの字が蛇みたいに見えるということかな。
で、ブラックマンバというヘビは移動速度がめちゃめちゃ速くて、かつ毒が強力で殺傷能力が高いらしいので、長めの系列データ(シーケンス)がすごい速さでモデルの中を移動する様子や、問題をあっさり片付けてしまう様子をイメージして、このヘビの名前を付けたようです。
Transformerなどの既存モデルを殺してしまうというイメージもあるのかなと思いました(上記ツイートのスレッドの最初を見ると、ヘビがロボットに襲いかかるイラストが添付されている)。