GoogleのAI専門チーム、Google AIが開発した最先端AI「Gemini」はテキスト生成だけでなく、画像生成や音声処理までこなすことができるマルチモーダルAIです。
リリース当初からChatGPT超えとの呼び声高いGeminiについて、本記事では、Geminiの機能、料金、活用事例、ChatGPTとの比較までを徹底解説します。
Geminiは、Google AIが開発したマルチモーダル生成AIです。従来のAIとは異なり、テキストだけでなく、画像や音声も扱うことができ、より高度な情報処理とコンテンツ生成が実現されています。
数ある高性能AIの中でもGeminiは以下の点で優れており、無料で使えるエントリーモデルから、組織的な需要に対応するプロフェッショナルな有料プランまで幅広く準備されています。
マルチモーダル対応 |
テキスト、画像、音声の複数モダリティを理解し、処理 |
高精度な生成 |
現段階での最高水準の推論能力で細かいニュアンスや複雑なロジックにも対応した生成が可能 |
柔軟性 |
プラグイン(拡張機能)やGoogle Workspaceとの連携を駆使し、様々な用途に合わせたカスタマイズが可能 |
使いやすさ |
慣れ親しんだGoogle的で直感的なインターフェースで、初心者でも簡単に利用可能 |
マルチモーダルAIとは、テキスト、画像、音声、動画など、複数の種類の情報(モダリティ)を理解し、処理できるAIです。
従来のAIは、主にテキストベースの情報処理に特化していましたが、マルチモーダルAIは、異なるモダリティ間の関係性を理解することで、より人間に近い情報処理が可能になります。
また、近年では自動運転や自然言語処理など、AIの活用局面はより人間生活に近いところまで迫っており、AIのマルチモーダル化は日々進んでいます。
マルチモーダル生成AIの2トップとなったGoogleのGeminiとOpenAIのChatGPT、どちらも高性能で基本的なタスク処理には優れている中でどちらをメインで使うか迷っている方も一定数いるでしょう。
そこで、この章ではChatGPTとGeminiの公式な性能差から実際に手元で使った際のデータや使用感の起業LOG編集部による考察など、多面的に両モデルを比較していきます。
Google : 最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
まずは公式に発表されている両者のスペックを元にGoogleが発表した比較表では、大多数の項目でGeminiが上回っていると報告されてます。
比較項目は左上から順番に「全般」「推論」「数学」「コーディング」で、「Reasoning(推論)」能力における「Hellaswag」(AIが文の連続性をどれだけ効果的に把握するかを測定するために使用される指標。簡単に言うと、文脈を把握する力のこと)以外ではGeminiに軍配があがるとのことです。
ChatGPTもGeminiも、もちろんWEBサイトやアプリを通じて単体サービスとして利用することができますし、現状はそれがメインの利用方法となっていますが、両者ともに外部ツールとの連携手段もあります。
この章では、そうした公式サイトやアプリ以外の外部での利用のしやすさや利用手段の多さを比較していきます。
ChatGPTでは、OpenAI公式よりAPIが有償提供されており、様々なツール内の一部機能としてChatGPTを利用することができます。
代表的なツールとしてはMicrosoftのCopolitやDiscode、Snapchat 、Shopify、語学学習サービスのDuolingo、ビジネスチャットのSlackなど多様なツールにChatGPTのAPIが搭載されています。
一方のGeminiはGoogleの既存アセットを最大限に活用した外部連携が可能となっており、既にGoogle系のサービスに慣れ親しんでいる人にはかなりアドバンテージとなるかもしれません。
以下は一部ですが主要な連携先を解説します。
Google Workspace
Gmail、Googleカレンダー、ドライブ、ドキュメント、スプレッドシートなどでテキスト生成、表計算、スケジュールやメールの管理など
Googleマップ
ルートの検索や、複数条件下でのフライトの検索、比較や最適な旅行プランの作成など幅広く対応
Youtube
動画の検索から字幕生成、更には以前までChatGPTの拡張機能を利用するしかなかった動画の要約までGoogle内で完結
今回は、Gemini ProとChatGPTのGPT-4oという現在一般ユーザーがアクセス可能な中での最上位モデルを同プロンプトで比較しました。
単純なテキスト出力はあまり差が出なかったりと明確な比較ができなかったので、今回は経済産業省が公表している「世界経済が難局を迎える中で我が国がとるべき対応」という全体で200ページ以上ある中での、第二部第一章「我が国を取り巻くグローバル・バリューチェーンの強靱化」という25ページを要約して箇条書きに重点をまとめてもらうという、もし自分に降ってきたら悲鳴をあげてしまいそうな難タスクを使って比較していきます。
実際のプロンプト
この資料を要約した上で重要なポイントを箇条書きにまとめてください【資料:世界経済が難局を迎える中で我が国がとるべき対応をアップロード】
起業LOG編集部
私も実際にこの資料の当該部分をチェックしましたが、私の完全な独断と偏見の上では「Gemini」に軍配があがっています。
まず、どちらも要約としては完成度の高いものなのですが、ChatGPTが「全体要約+重要なポイント」の2つの構造から成っているのに対して、Geminiは「全体要約+テーマ+重要なポイント」という3つの構造から成っており、要約の基本である構造化がうまくできているからです。
また、出力形式としても読みやすく、要約を読んだときの納得感もGeminiの方が優れており、これは上手に構造化されていることに起因していると思います。
Geminiには様々な料金やモデルが用意されおり、各モデルによって能力や料金が異なりますが、一般ユーザーが個人でGeminiを利用するために課金できるのは「Gemini Advanced」のみでこれに加入すると「Gemini Pro」という高性能モデルを利用できるようになります。
出典:Google One
Gemini Advancedは現在、月額2900円のところを2ヶ月間無料で利用することができます。ChatGPTとどちらに課金するべきか迷っている人は、ひとまずこちらの無料お試し期間中に試してみてはいかがでしょうか。
モデル名 | 性能 | 対象ユーザー | 料金 |
Gemini (旧Google Bard) | 基本的な会話、簡単な質問応答、短文作成 | 一般ユーザー | 無料 |
Gemini Pro | 長文生成、複雑な質問応答、要約、翻訳、コーディングなど | 一般ユーザー | 月額2,900円 (Gemini Advancedプラン) |
Gemini 1.5 Flash | 高速応答、大規模かつ高頻度のタスク処理 | 一般ユーザー | 要問合せ (Google Cloud Platformで利用可能) |
Gemini 1.5 Pro | 幅広いタスクに対応、スケーリングに最適化 | 企業、開発者 | 要問合せ (Google Cloud Platformで利用可能) |
Gemini Ultra | 高度な推論能力、専門知識、大規模なコンテキストウィンドウ | 研究機関、専門家 | 要問合せ (Google Cloud Platformで利用可能) |
Gemini Nano | 高速応答、低消費電力、オフライン動作 | 一般ユーザー | 無料 (Androidスマートフォン、Google Homeなどに搭載) |
また、Geminiではまだ一般公開はされていないものも含めると多様なモデルが存在し、対象となるユーザーも個人から法人、大規模な組織からIoTデバイスまで多岐にわたります。
また、開発者向けに公表されているものをみると、ChatGPT同様にAPIでの利用も可能で料金は以下の通りです。
テキスト入力 ・・・0.00025ドル(約0.035円)/ 1,000文字
画像入力 ・・・0.0025ドル(約0.35円)/ 1画像
テキスト出力 ・・・0.0005ドル(約0.071円)/ 1,000文字
ここまでGeminiの料金やChatGPTとの違いについて解説しましたが、使い方、始め方で言うとGeminiはどのAIよりも簡単だと言っても過言ではありません。
というのも、GeminiはGoogleのサービスなのでGoogleドキュメントやGoogleスプレッドシートなどと同じようにGoogleアカウントさえあれば誰でも使うことができます。
まだ使ったことがない人は、Gemini ‐Google AI‐ にアクセスして、是非使ってみてください。
出典:Google One
Geminiはマルチモーダル化されたAIなので、その分使える機能や活用シーンもかなりたくさんあります。
この章では、Geminiの機能を大きく「テキスト処理」「画像・動画処理」「音声処理」の3つに分けて各モーダルで利用できる機能や活用方法を解説していきます。
対話形式での生成 | 質疑応答、チャットボット、メールや書類の作成補助など最も一般的用法 |
翻訳 | PDF、Gmailなどから直接翻訳できる他、その他ツールにはないニュアンスを細かく汲み取ったコンテキスト翻訳も可能 |
要約 | URLやPDFを入力するだけで内容を指示に合わせて要約できる。 |
長文処理 | 論文などの比較的長い文章でも対応可能。上限は1500ページか(諸説あり) |
GoogleWorkspace連携 | Gmail、ドキュメント、スプレッドシートなど各サービスを直接Geminiから使える。 |
校正 | コンテキストを把握能力ではGPTに劣るものの、かなり高精度で文章の校正が可能 |
長文処理については、Googleの公式YouTubeでもアポロ計画の402ページにもわたる資料を読み込んで推論する様子が公開されています。
出典:Google公式YouTube
情報抽出 | 画像内のテキスト認識、オブジェクト検出 |
キャプション生成 | 画像を入力すると、その画像のキャプションを生成しSNSやWEBサイトなどバリアフリー化が容易にできます |
画像編集 | Geminiでは画像を入力するとその画像をテキスト入力のみで編集したものを出力できます。 |
動画の内容解析 | 動画でも、画像と同じようにオブジェクトを把握したり、内容について解説したりしてくれます。 |
字幕生成 | また、シーンや言語に対応して字幕も円滑に生成してくれます。 |
Geminiによって編集された画像:Google Cloud
文字起こし | 音声をテキストに変換精度も他ツールよりかなり高く、会議の議事録作成、インタビュー記録などに最適。 |
リアルタイム翻訳 | 音声のリアルタイム翻訳はもちろん、いままで難しかった多言語音声の同時認識も可能になった。 |
要約 | 上記機能をフル活用した上で、要約まで可能なので音声情報のインプット、アウトプットを高速化できる。 |
Wordなどを始め、既に多くのツールが存在する音声処理機能においても、Geminiは多くの局面で他ツールに負けない性能をもっています。
例えば、他記事ではGeminiの音声処理技術を他のChatGPTなどと比較しても、相対的に優れていることが報告されています。
出典:Play Store
Geminiは現在、日本でアプリ版が利用できるのはAndroid端末でPlayStoreからのみで、iOSの場合はGoogleアプリから利用することができます。
出典:Play Store
アプリ版では、画像のように直接撮った写真を入力したり、PCよりもスムーズに音声処理機能を使えるなどメリットも多いです。
いかがでしたか?この記事ではGeminiの料金~機能まで解説しました。起業LOGでは、他にもAIやその他ビジネス、ITに関する情報を日々発信しているので他にも気になるものがあればチェックしてみてください。