2023年9月、Open AI社からGPT-4Vが発表されました。従来のChatGPTに画像解析機能と音声出力機能を持たせたマルチモーダルAIであるGPT-4Vでは、どのようなことができるようになったのか、詳しく解説します。
GPT-4Vは声と目が搭載された新しいAI
マルチモーダルAIとは、テキスト・画像・音声・動画など複数の種類のデータを一度に処理できるAIの技術のことです。これまでのGPT-4はテキストのみの対応でしたが、画像や音声、動画などにも対応します。つまり、ChatGPTに「声」と「目」が搭載されたものが、GPT-4Vです。
GPT-4Vでどんなことができるのか、分かりやすく1分で紹介した動画
GPT-4Vの特徴
テキスト、コード、画像などの膨大なデータセットでトレーニングされており、テキストの生成、翻訳、要約、質問への回答など、さまざまなタスクを実行できます。GPT-4Vの具体的な特徴としては、以下のようなものが挙げられます。
- 画像認識に対応(画像を読み込んで理解する能力)
- 音声の入力と出力(人間が話す言葉を聞き取って、音声で会話できる能力)
- より正確、より創造的なテキスト生成
GPT-4Vを使えるのは?
GPT-4VはGPTプラスに課金されている方なら、誰でもその機能を使えます。別途で課金の必要はありません。チャットを入力する欄の左にあるクリップマーク(下画像の青矢印部分)をクリックすると、画像の入力が可能です。
GPT-4Vでビシネスの可能性が広がる
GPT-4Vはさまざまな分野で活用できる可能性を秘めた強力なツールです。企業で使用する場合は、とくに以下の用途などに活用できるでしょう。
顧客サービス
顧客からの質問や問い合わせに回答するチャットボットとして活用できます。GPT-4Vは膨大な量のテキストデータを学習しているため、人間が回答するのに難しい質問や問い合わせにも対応できます。
また、チャットボットだけではなく電話応対の初期対応にも使えます。 AIが電話応対した内容を適切な部署にチャットで送れば、担当者の負担を大幅に減らすこともできるでしょう。
開発、コーディング
画面のスクリーンショットをGPT-4Vに読み込ませることで、その画面を作るためのコードを出力してくれます。GPT-4Vに、某計算機アプリのスクリーンショットを与えて、このアプリ作りたいと指示したら、正常に動いて計算もできるHTML+JavaScriptのサンプルコードが1発で出てきた事例もあります。
OCR、文字起こし
GPT-4Vは画像認識ができるため、筆記の文章を認識することができます。紙の文書をデジタルデータに変換してくれるのは、いろいろと活用できる機能です。
マーケティングやプレゼン資料作成
ターゲット顧客に効果的なマーケティングコンテンツを作成するために活用できます。GPT-4Vは顧客のニーズや興味を理解し、それに合ったコンテンツを生成できます。
また、GPT-4Vは画像や音声の生成も可能なので、視覚や聴覚に訴える効果的な広告を作成することができます。例えば、商品やサービスの特徴を説明するテキストと、それをイメージさせる画像や音声を組み合わせた広告を作成すれば、ターゲット顧客の記憶に残りやすい広告を作成することが可能です。
研究開発
新しい製品やサービスのアイデアを創出するために活用できます。テキストだけではなく画像や音声の生成により、これまでになかったようなアイデアを生み出すことが可能です。
また、アイディアや研究の成果を発表する際にも画像や音声の生成を活用すれば、他の人達にわかりやすく伝えられるため、理解度を向上させることができます。
GPT-4 Turbo with Visionとは
2023年9月にGPT4Vがリリースされた後、同年11月にはGPT-4 TurboならびGPT-4 Turbo with Visionの発表もありました。これらはGPT-4をより開発者向けに作られたものです。
GPT4Vの機能は一般の有料会員なら誰でも使えるのに対し、GPT-4 TurboならびGPT-4 Turbo with VisionはAPIへの課金が必要です(2023年11月現在)。
そのため、APIへの課金を行なっているユーザーしか利用できませんが、GPT-4 Turbo with VisionではGPT4Vのメリットをより強調した機能が使えます。詳細は以下の記事をご覧ください。
まとめ
リリースされたばかりということもあり、GPT-4Vはまだまだ情報も出揃っていませんし、開発中の部分も少なくありません。しかし、既に発表されている機能だけでも十分に魅力的ですし、今後はさらなる性能の向上も期待されています。
ビジネス面で活用する可能性がある方は、GPT-4Vに関する最新情報を積極的にチェックしていきましょう。