画像生成からテキスト革命へ:Midjourneyの新たな挑戦とその影響
AIが創造する世界は、私たちの想像を超えたスピードで進化しています。特に、AIによる文章生成は、これまで固定的だった文体やテーマの壁を乗り越え、新たな地平を切り開こうとしています。
この記事では、AI画像生成で知られるMidjourneyが、ニューヨーク大学(NYU)との共同研究を通じて、AIがより創造的な文章を生成するための新手法を開発したことを紹介します。この技術革新は、AIが生成する文章の質を劇的に向上させ、企業やクリエイターにとって新たな可能性を広げるものです。AIがどのようにしてより人間的な創造性を発揮できるようになるのか、その鍵を握る革新技術に迫ります。
Midjourneyの新たな挑戦:LLMに創造性を

Midjourneyは、AI画像生成で名を馳せる企業ですが、その範囲は今やテキスト生成にも広がろうとしています。2024年夏の終わりに、自社のコンピューティングおよびAIハードウェアの開発を発表した同社は、ニューヨーク大学(NYU)と共同で、テキストベースの大規模言語モデル(LLM)の創造性を高める研究を行いました。この研究の成果として、Diversified Direct Preference Optimization(DDPO)とDiversified Odds Ratio Preference Optimization(DORPO)という新しい手法が発表されました。これらの手法は、可能な出力の範囲を広げつつ、文章の一貫性や読みやすさを維持することを目的としています。
これにより、Midjourneyは視覚に限らず、テキスト分野でも独自の価値を提供する準備が整ったことを示しています。この取り組みは、同社が画像生成だけでない新たなクリエイティブの地平を追求していることを証明しています。
なぜAI文章生成は似たり寄ったりなのか?

AIによる文章生成は、特に事実に基づくQ&Aやコーディング支援の分野で、一つの最適解を提供することが求められます。しかし、クリエイティブな文章生成は本質的に多様性を必要とし、一つの指示に対して様々な解答が存在します。例えば「月にいる犬の物語を書いてください」という指示に対して、AIは以下のような異なる可能性を探索できます:
– 月面探査のミッションで偶然に取り残された宇宙飛行士のペットの犬
– 未来の犬の宇宙コロニーでの生活を描いた物語
– 異星種族と友達になる孤独な犬の物語
しかし、指導されたLLMは往々にして似たようなストーリーラインやテーマに収束してしまいます。この原因として、ポストトレーニング技術がユーザーの好みを優先し、オリジナリティを抑制してしまうこと、指導調整がバリエーションを平滑化し、安全な応答を好む傾向があることがあります。さらに、既存の多様性促進技術は推論時にのみ作用し、モデルの学習過程には組み込まれていないため、AIが生成する創造的な文章は単調で驚きや深みを欠くものとなってしまいます。
DDPOとDORPO:創造性を引き出す新手法
これらの制限を克服するために、研究者たちはDDPOとDORPOという2つの新しい手法を導入しました。これらの手法の核心は、応答が他の応答とどれだけ異なるかを示す偏差を用いて訓練を導くことです。具体的には、次のように機能します。
訓練中にモデルは、ライティングの指示と複数の可能な応答を与えられます。それぞれの応答は同じ指示に対する他の応答と比較され、偏差スコアが計算されます。レアだが質の高い応答はトレーニングでより重視され、モデルがこれらの応答から学ぶように促されます。このアプローチにより、AI文章生成における多様性が促進され、より豊かで興味深い物語が生み出されることが期待されます。
AIの創造性がもたらす未来の可能性
Midjourneyの新しい手法は、AIが生成する文章の質を向上させるだけでなく、企業やクリエイターが新たな価値を創造するための強力なツールとなる可能性を秘めています。特に、企業のAIチームやプロダクト開発者、コンテンツクリエイターにとって、AIが生成する文章の多様性と創造性を高めることは、新しいアイデアやストーリーを生み出すための大きな助けとなるでしょう。
この研究はまた、最近のマルチモーダルや推論型言語モデルへの関心や投資が増えている中でも、従来のトランスフォーマーベースのテキスト中心のLLMからまだ多くの可能性を引き出せることを示しています。AIがどのようにしてより人間的な創造性を発揮できるようになるのか、その進化の過程を見守ることで、私たちは未来のAIがもたらす新たな可能性に期待を寄せることができるでしょう。
参考)Modifying Large Language Model Post-Training for Diverse Creative Writing