従来の大規模言語モデルの制約だった入力量の限界を取り払ったRWKVは一体どんな言語モデルなのか

従来の大規模言語モデルの制約だった入力量の限界を取り払ったRWKVは一体どんな言語モデルなのか

従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか?

ChatGPTやBardなど、2023年7月時点で商用利用されている大規模言語モデルはほとんど全てがトランスフォーマーというアーキテクチャを利用したモデルですが、トランスフォーマー型のモデルは入力の長さの2乗に比例して計算量が増加するため、入力サイズが制限されてしまう問題があります。そうした問題に応えて、大きいデータへの対応や推論時のメモリ使用量の削減を達成しつつトランスフォーマー型に匹敵する性能を出せるアーキテクチャ「RWKV」について、著者の一人がブログで解説しています。

続きを読む…

続きを見る

おもしろカテゴリの最新記事