【Google Gemini現る！】vs ChatGPTと比較してみた。使い方は？どこで使える？

Youtubeから引用

Googleが新しい人工知能技術「Gemini」を公開したことが話題となっています。本記事ではGeminiの使い方を解説します！
この技術は、GPT-4越えなどと騒がれており、GPT-4と並ぶ大きな注目を集めております。
2023年12/6より発表となった内容に基づいて記事を執筆しています。

Geminiの機能や性能についての詳細はまだ不明ですが、その可能性に期待が高まっています。

この記事はこんな人におすすめ

・Geminiの使い方を知りたい、どこで使えるのか知りたい。
・Geminiで何ができるのか知りたい
・GeminiがChatGPTよりすごいと言われているのがなぜか知りたい

Google Bardの使い方はこちらから

 【おすすめAIツール一覧】2023年12月最新！ジャンル別53選

マルチモーダル機能搭載！Geminiの概要、特徴
1. Geminiは何故すごいと言われている？
GeminiとChatGPTの性能比較
Geminiはどこで使えるの？
無料で使う方法はある？Geminiの使い方
BardでのGeminiの能力は？
1. 日本語の文字認識機能がエグイ
2. グラフ図をバキバキに読み取ってもらう。
Geminiの安全性について
Geminiの今決まっている事まとめ
GoogleGeminiを使うためにはまずはBardで！

マルチモーダル機能搭載！Geminiの概要、特徴

Googleが開発中のGeminiは、テキスト生成能力と画像生成能力を組み合わせた先進的なAIシステムです。このシステムは、メールの下書きから歌詞、ニュース記事などのテキスト生成や要約、さらにはテキストプロンプトから画像を生成するといった多様な機能を持っています。

きょろ

Googleの最新AI「Gemini」のデモンストレーションは、GPT-4の発表時に感じた衝撃と同等です。この動画では、GoogleのスタッフがGeminiと対話しています。Geminiはカメラからの映像情報や人間の発言から、柔軟に状況や会話の意図を把握しています。さらに、ほぼ人間のように聞こえる音声で正確かつ機知に富んだ回答を提供し、必要に応じて画像やオーディオを生成する能力も備えています。これにより、Geminiは単なるマシンを超えた、生物のような存在に感じられます。

Gemini の特徴

・高精度なテキストベースの画像認識機能・手書きのグラフやテキストも正確に識別・画像内のテキストを解析し、質問に的確に回答・声が何のものなのか認識が可能・プレゼンテーションスライドの内容を読み取り、詳細な説明を提供

きょろ

動画にGeminiの全容が載っていますがすごいなと思ったのがこのアヒルのおもちゃに言及するGeminiの発言です。
まずアヒルがおもちゃだという事を認識し、アヒルのおもちゃの泣く声からどういう役割をするものなのかまで明確に答えられています。

Geminiには３タイプある

・「Gemini Ultra」：複雑な作業に特化し、最も大規模なモデル（現在は利用不可）
・「Gemini Pro」：多様な作業に適応可能な最上位モデル
・「Gemini Nano」：デバイス内での作業に特化した最も効率的なモデル

Geminiは何故すごいと言われている？

GeminiはGoogleのAI研究部門、DeepMindの強化学習技術を基盤としています。この技術は、以前に囲碁の世界チャンピオンを破ったAlphaGoやその進化形であるAlphaGo Zeroでも使用されています。

グーグルのAIプログラム「AlphaGo」、囲碁世界チャンピオンに勝利

きょろ

これは当時話題になりましたよね・・・。

洗練された推論能力と多様な理解
Geminiは、テキストだけでなく画像も生成できる多機能性を持ち、問題解決能力が高いとされています。さらに、Googleエコシステムとの統合が期待されており、既存のGoogleサービスとのシームレスな連携が見込まれます。

GeminiとChatGPTの性能比較

GeminiとChatGPTは、テキスト生成、画像生成と共に高度な能力を持っていますが、技術的な違いとして、GeminiはDeepMindの強化学習技術を採用しているのに対し、ChatGPTはGPT-4アーキテクチャに基づいています。

下の図をご覧ください。

Geminiは、32の学術テストのうち30で最新の成果を超える性能を発揮したAIモデルです。このモデルは特に、57の分野を網羅するMMLU（大規模多目的言語理解）テストで90.0%のスコアを達成し、人間の専門家の成績を超える初のモデルとなりました。

MMLU（Massive Multitask Language Understanding）は、機械学習モデル、特に自然言語処理（NLP）モデルの理解力と推論能力を総合的に評価するために設計されたベンチマークです。このベンチマークは、多様なトピックとジャンルをカバーする一連のテストから構成されており、AIモデルがどの程度人間のような理解と推論を行えるかを測定することを目的としています。

Gemini Ultra、Large Language Model（LLM）の研究開発で広く使用される32の学術的ベンチマークのうち30において、GPT-4の性能を上回っています。これは、Gemini Ultraが特に高度な自然言語処理能力、理解力、および推論能力を持つことを示しており、AI分野での新たな基準を設定しています。

これらのベンチマークは、言語理解、論理的推論、知識把握、問題解決能力など、LLMのさまざまな側面を評価するために設計されています。Gemini Ultraが多くのベンチマークで優れた結果を示したことは、そのモデルが複雑なタスクを効果的に処理し、多様なアプリケーションに適用可能であることを意味します。

business insiderより引用

またGeminiは、OCR（光学文字認識）システムのサポートなしに画像認識などのベンチマークでも先行するモデルを上回る結果を示しました。これらの成果は、Geminiの高度な推論能力と機能の多様性を示しています。このような能力は、AI技術の応用範囲を広げ、さまざまな分野での利用可能性を高めるものと期待されています。

Geminiはどこで使えるの？

Geminiは現在下記の3つの方法で活用できます。

・Google Bard
・API
・Google Pixel

一つずつ見ていきましょう。

Google Bard

現行の英語版Chromeを通じて、BardのGemini Pro機能を使用可能です。Bardは、Googleアカウントを有する者が無償で利用できる生成型AIサービスで、ChatGPTと類似の機能を提供します。

Chromeを英語版に設定する手順を説明します。下記を押下してください。

Google bardでの使い方

Google Workspaceアカウントを持つ場合、管理者が設定を完了しないと利用できませんのでご注意ください。

Gemini API

地域時間2023年12月13日、GeminiのAPIがリリースされました。このAPIを通して、Gemini Proへのアクセスが可能です。

APIを利用すると、

・Gemini Pro
・Gemini Pro vision

という2種類のモデルにアクセス可能です。Gemini Proはテキストベースのやり取りを目的としており、Gemini Pro visionは画像や動画を扱うモデルです。

ここからは、実際にAPIを利用してGemini Proにアクセスする方法を見ていきましょう。Google AI StudioまたはVartex AIを通じてアクセスが可能です。ここではGoogle AI Studioを使用する方法を紹介します。

まず、APIキーを取得しましょう。リンクからGoogle AI Studioにアクセスします。

Get API key in Google AI Studioを選択します。Google AI Studioに入ったら、Get API keyをクリックしてAPIキーの取得画面に進みます。

「Continue」を押下

「Get API key」を押下します。

左側の「Create API key in new project」を選択し、APIキーが生成されたらコピーして保管しましょう。

以下が、Gemini Proを利用するPythonコード例です。実際に使ってみましょう。

pip install -q -U google-generativeai

#モジュールのインポート
import google.generativeai as genai

#APIキーの設定
#YOUR_API_KEYに取得したAPIキーを入力してください。
GOOGLE_API_KEY='YOUR_API_KEY'
genai.configure(api_key=GOOGLE_API_KEY)

#モデルの選択
model = genai.GenerativeModel('gemini-pro')

#""内に文章を入力してください。
response = model.generate_content("おすすめのAIツールを教えて")

#回答の表示
print(response.text)

「Create new」を押下　→　「Freeform prompt」を押下

APIキーを入れ替えたら「Run」を押下します。すると・・・

回答が表示されました！

AIとは、人間の知能を模倣または超えることができる機械です。AIは、コンピュータサイエンスの分野であり、機械学習、自然言語処理、音声認識、画像認識などの分野で研究されています。AIは、医療、金融、製造、小売、交通など、さまざまな分野で活用されています。

今後こちらの本格的な利用は有料になる予定です。

Google Pixcel

Pixcel 8 Pro Googleが販売するスマートフォン、Google Pixcel 8 ProではGemin Nanoが利用可能になると発表されています。現在、Google Pixcel 8 Proは159900円から購入可能です。

録音アプリの要約機能やスマート返信機能が搭載されています。

無料で使う方法はある？Geminiの使い方

Googleの新しいAIモデル「Gemini」を活用する方法について説明します。現在、Gemini Proの改良版は、Bardを介して誰でも利用可能です。ただし、以下のような簡単な手順を踏む必要があります。

・Google Chromeの使用：まず、Google Chromeブラウザを開きます。
・アカウント設定：ブラウザの右上にあるドットメニューアイコンからアカウントを選択します。
・「個人情報」の選択：左側のバーから「個人情報」を選びます。
・言語設定の変更：「ウェブ向け全般設定」にて言語を英語（English）に変更します。
・Bardへログイン：BardへログインするとそのままGeminiが使えるようになります。

これらのステップを完了すると、Bardに戻った際に最新モデルのGeminiが組み込まれたBardを使用できるようになります。

・Google Chromeの使用：まず、Google Chromeブラウザを開きます。

・アカウント設定：ブラウザの右上にあるドットメニューアイコンから「Googleアカウントを管理」を選択します。

・「個人情報」の選択：左側のバーから「個人情報」を選びます。

・言語設定の変更：「ウェブ向け全般設定」にて言語を英語（English）に変更します。

少し下にスクロールすると言語があるので日本語から英語にしましょう。

Englishを選択した後「United States」を押下

・Bardへログイン：BardへログインするとそのままGeminiが使えるようになります。

これで準備は完了です。

BardでのGeminiの能力は？

日本語の文字認識機能がエグイ

メルカリの出品した商品画像内の文字を読み取ってもらいました。

これすごくないですか？！GPT-4よりも回答速度も速いです。

グラフ図をバキバキに読み取ってもらう。

統計局より引用

送信されたグラフは、日本の高齢者人口の推移を示しています。グラフの横軸は年、縦軸は人口（万人）です。

グラフから読み取れる主な内容は、以下のとおりです。

1950年には、日本の65歳以上の高齢者人口は500万人に満たなかったが、2022年には3627万人と、7倍以上に増加した。

高齢者人口の増加に伴い、高齢者人口の割合も上昇している。2022年には、高齢者人口の割合は29.1%と、過去最高を記録した。

高齢者人口の増加は、日本の社会構造に大きな変化をもたらしている。例えば、労働力人口の減少や、介護・医療の需要の増加などが挙げられる。

具体的には、以下の点に注目するとよいでしょう。

1950年から1970年頃までは、高齢者人口の増加は緩やかだった。しかし、1970年頃から高齢化が加速し、2020年頃からはさらに加速している。

高齢者人口の増加は、年齢階級別人口の構成にも変化をもたらしている。例えば、2022年には、65歳以上の人口が全人口の29.1%を占め、15歳未満の人口の2.1倍に達している。

今後も、日本の高齢化は進んでいくことが予想される。そのため、高齢者人口の増加に伴う社会構造の変化への対応が求められている。

いやえぐいてえ・・・

きょろ

ぶっちゃけGPT-4に課金するのが嫌だという意識を持っている方でしたらBardとBingAIで事足りるかもしれません。※画像生成はまだ実装されていないので注意です。

Geminiの安全性について

Geminiはまだ開発途中であり、その安全性や使い方については今後の情報が待たれます。しかし、12/13からGeminiで開発ができるようになるとのことで、多くの開発者がその公開を心待ちにしています。

Geminiの今決まっている事まとめ

Googleの最新AIモデル「Gemini」に関する重要な情報をまとめました。

Googleは「Gemini 1.0」を発表し、多様な製品とプラットフォームに展開。
「Gemini」には「Nano」、「Pro」、「Ultra」というバージョンがあり、それぞれ性能が向上しています。
今日から、「Bard」は「Gemini Pro」の改善版を採用し、より進んだ理解力と計画能力を提供。
「Gemini Ultra」は、MMLU（大規模多目的言語理解）で人間の専門家を超える90.0％のスコアを達成し、GPT-4を上回る。
「Pixel 8 Pro」には「Gemini Nano」が搭載され、録音アプリの「要約」機能やGboardの「スマート返信」機能に対応。
12月13日から、Google AI StudioやGoogle Cloud Vertex AIで「Gemini Pro API」にアクセス可能。
Android開発者は、Android 14のAICoreを通じて「Gemini Nano」を利用できます。
数ヶ月以内にGoogleのSearch、Ads、Chrome、Duet AIなどで「Gemini」が利用可能に。
「Gemini Ultra」は、信頼性と安全性の検証を経て、来年初めに開発者と企業に提供予定。
来年初めには、最先端のAI体験を提供する「Bard Advanced」が「Gemini Ultra」と共に導入されます。
「Gemini Ultra」はテキスト、画像、音声、ビデオ、コードなど多様なタイプの情報を迅速に理解し対応するよう設計されています。

GoogleGeminiを使うためにはまずはBardで！

Geminiの公開は、AI業界における大きな話題となっており、その性能と応用の可能性により、GPT-4の最大の対抗馬となることが期待されています。今後の展開に注目が集まります。

Google Bardがついに日本語で画像認識対応可能に！その使い方は？

きょろ

趣味：業務効率化、RPA、AI、サウナ、音楽
職務経験：ECマーチャンダイザー、WEBマーケティング、リードナーチャリング支援
所有資格：Google AI Essentials,HubSpot Inbound Certification,HubSpot Marketing Software Certification,HubSpot Inbound Sales Certification
▼書籍掲載実績
Chrome拡張×ChatGPTで作業効率化/工学社出版
 保護者と教育者のための生成AI入門/工学社出版（【全国学校図書館協議会選定図書】）

突如、社内にて資料100件を毎月作ることとなり、何とかサボれないかとテクノロジー初心者が業務効率化にハマる。AIのスキルがない初心者レベルでもできる業務効率化やAIツールを紹介。中の人はSEO歴５年、HubSpot歴１年