日本語特化の生成AI：GENIACが証明する“小さくても高性能”の真実

驚異の8Bモデル誕生
GENIAC第２期の目標と進捗
日本語特有のベンチマークでの優位性
今後の展望：より高性能な小さなモデルへ
まとめ

驚異の8Bモデル誕生

いま「大規模言語モデル（LLM）」という言葉を耳にしない日はないほど、生成AIの進化は著しいものがあります。しかし大型モデルばかり注目され、「小型モデルは本当に使えるの？」と疑問を抱く方も多いでしょう。

そこで今回は、経産省とNEDOが支援する生成AI開発プロジェクト「GENIAC」を通じて、小型モデルがどこまで高性能を実現できるのか、その最新動向をお伝えします。

実は8B規模でも大きなモデルを凌駕する結果が出はじめており、小型モデルに新たな可能性を見いだす絶好の機会となるはずです。この記事を読むことで、次世代AI活用に向けた最新トレンドを効率よく把握できるでしょう。

GENIAC第２期の目標と進捗

経産省とNEDOが進める生成AI開発支援プロジェクト「GENIAC」の第２期は、昨年後半から今年の4月中旬にかけて行われました。今回の大きな目標は、2024年に開発した「PLaMo-100B」を大きく上回る性能を、10分の1以下のパラメータ数（8B規模）のモデルで実現することです。その要となるのは、LLMを活用した大規模かつ高品質なデータセットの作成。これにより、同等の演算量やモデルサイズでも精度を高められるかどうかを検証しています。

結果として、開発された8Bモデルは「PLaMo-100B」と比較して、ほぼ全領域で同等か、それ以上の性能を示すことが確認されました。特にコード生成能力（JHumanEval）の評価では、8Bモデルが0.443という数値を叩き出し、100Bモデルだけでなく、中国のQwenや日本発のLlama 3.1 Swallowなど、同じ8Bクラスの他モデルと肩を並べるほどの性能を実現しています。

日本語特有のベンチマークでの優位性

日本語に特化した評価指標として知られるJMMLUでは、熟語・公民・地理・日本史といった日本固有の設問を含むため、日本向けモデルの実力が顕著に現れます。今回の8Bモデルは、これら日本固有のタスクにおいて他の主要モデルを上回る結果を示しました。

さらに、一般に公開されていない独自ベンチマーク「pfgen」においても、QwenやPLaMo-100Bに対して優位に立ち、小規模モデルながら高い精度が確認されています。開発チームによればpfgen用の特別なチューニングは行っておらず、このスコアは汎用的にトレーニングした成果をそのまま表しているとのことです。

今後の展望：より高性能な小さなモデルへ

現時点では8Bモデルの事前学習が完了し、今後は指示文に対する応答を学習させる「事後学習」や、思考過程を明示的に扱う「Chain of Thought（CoT）」などのテクニックを組み合わせてさらなる性能向上を図っていく計画です。また、30Bモデルの学習もすでに始動しており、「Samba（Sliding Window Attention＋Mamba）」という独自アーキテクチャを活かして、連続的な入力にも柔軟に対応できるモデル設計が進められています。

もし、この8Bクラスのモデルの性能がさらに高まり、軽量・高速動作が可能になると、エッジデバイスなどの制約がある環境でも高度な推論を実行しやすくなるでしょう。加えて、入力ウィンドウが連続的に供給されるようなリアルタイムの対話システムなど、新たなユースケースへの展開も期待できます。

まとめ

GENIACプロジェクトの第２期では、10倍以上のパラメータ数を持つモデルに匹敵する、あるいは超える性能を8B規模のモデルで実現するという当初の目標がほぼ達成されました。

今後はさらに学習・最適化を進めることで、日本語に特化したさまざまなタスクやリアルタイム処理など、新たな分野での有効活用が見込まれます。小型モデルの優位性が明確になるにつれ、生成AIの導入障壁は一段と下がり、多様な産業領域でイノベーションを促進する大きな原動力となるでしょう。

参考　GENIAC （METI/経済産業省）