Googleより引用
毎年恒例のGoogle開発者会議「Google I/O」が今年も開催され、AIを活用した革新的な新機能が数多く発表されました。検索、画像・音楽・動画生成、カスタマイズ機能など、さまざまな分野でAIの新しい可能性が示されました。
とにかくOpenAIを意識しているとしか思えないAIづくしの発表でした。
ほぼ近い日に開催されたGPT-4oなどのOpenAI Spring Updateの詳細については以下をご覧ください。
GPT-4o(オムニ)の使い方を徹底解説!OpenAI Spring Updateもまとめた!
本記事では「Google I/O 2024」で発表されたことを解説します。
この記事はこんな人におすすめ
・Google I/O 2024で発表されたことをまとめて簡単にわかりやすく知りたい
・「Gemini」がOpenAIの何かを超えたらしいけどなんだろう。
Google I/O 2024はどこで観られる?
Google I/O 2024は既に終わっていますが、アーカイブで以下より見ることが出来ます。
Youtubeより引用
OpenAIもすごいけど、さすがのGoogle。
仕込まれているネタが規格外すぎます(笑)
2時間ほどで視聴が可能です。
AI Overview
Youtubeより引用
Googleの検索結果に新機能が加わります
Googleは、検索結果にAIが生成した概要説明を表示する新機能「AI Overview」を導入します。これまで一部のユーザーを対象に試験的に提供してきた「SGE(Search Generative Experience)」が進化したものです。
AI Overviewでは、複雑な検索クエリに対して、生成AIがその概要をまとめて説明します。この機能は現在米国で一般公開されており、今後他の国でも段階的に展開される予定とのことです。
検索結果にAI Overviewが表示されると、その概要説明に「AI Overview」というラベルが付与されます。ユーザーがその概要をクリックした場合、その行動データがSearch Consoleの検索パフォーマンス報告に反映されるようになります。
SGEの試験提供時よりも対象範囲は狭まる見込みですが、AIの概要生成機能が検索体験を補完し、より理解を深められることが期待されています。GoogleはAI技術を搭載した新しい検索体験の提供を目指しています。
AI OverviewによっていよいよSEOの業界も変わっていく予感がします・・・。
Google SGEがAI Overviewに名前をあらため、米国で一般公開
「Gemini 1.5 Pro」を一般公開
Googleより引用
Googleは、これまで限定公開だった大規模言語モデル「Gemini 1.5 Pro」の一般提供を開始しました。同モデルの大きな特徴は、最大100万トークンの入出力に対応できる点です。OpenAIの「GPT-4o」が最大12.8万トークンなので、処理能力におけるアドバンテージがあります。
例えば、アポロ11号の月面着陸に関する膨大な記録(402ページ)があった場合でも、その中の会話、出来事、画像、詳細などについて、複雑な推論を行うことが可能です。
長文や大量のデータからの論理的な推論は、大規模言語モデルに求められる重要な能力です。Gemini 1.5 Proはこの点において卓越した性能を発揮できるようです。
以下の動画をご覧ください。
YOUTUBEより引用
実際に使ってみましたがこのようにスラスラと回答が出てくるのはエグイです。。。
Gemini 1.5 Pro
GoogleはまたWebアプリ「Gemini」において、Gemini 1.5 Proを利用できる「Gemini Advanced」プランを発表しました。Google Oneの有料プラン「AIプレミアム」(月額2,900円)に加入すれば、同プランが利用可能となります。
200万トークン対応の「Gemini 1.5 Pro」
さらにGoogleは、最大200万トークンの入出力に対応する「Gemini 1.5 Pro」のプライベートプレビューも発表しました。100万トークン版が一般公開されたことで、さらに大規模なバージョンを限定的に解放する形になります。
GoogleはGeminiシリーズの幅広い提供を通じ、大手に遅れをとっていた大規模言語モデルの分野での存在感を高めようとしています。一般ユーザー向けから企業向けまで、ラインナップの充実が図られています。
Gemini 1.5 Flash & Gemini Nan
Googleより引用
軽量&スピーディーなAIアシスタント
GoogleのAI技術の名称「Gemini」にも、新しいバージョンが登場しました。「Gemini Flash」は、Gemini Proよりも小さな軽量モデルですが、スピードと効率を重視。
質問と回答の間隔がGemini Proよりも短くなる見込みです。Google AI Studioから最大100万トークン、開発者は最大200万トークンまでお試しできます。
注目を集めているGemini 1.5、Gemini Pro、そしてFlashモデルですが、Flashは価格対性能の面で魅力的な選択肢となる可能性があります。もちろん、詳細を検証すればGPT-4oとの差異は生じるでしょうが、安価で高速、かつ十分な性能を備えていると言えます。
Google AI Studioで試用できるFlashは、かなり高速なレスポンスを実現しています。主な特徴は以下の通りです。
- 100万トークンに対応(Gemini Proと同等)
- 1時間のビデオ、11時間のオーディオ、30,000行を超えるコード、70万ワードを超えるコードベースを処理可能
- 高速ビルド
料金面での比較は下記の表のようになります。
モデル | 入力1M トークン | 出力1M トークン | 備考 |
---|---|---|---|
Flash | $0.35 | $0.53 | 128Kトークンまで |
Gemini Pro | $3.5 | $7.0 | 128Kトークンまで |
GPT-4o | $5.0 | $15.0 | – |
価格と性能・品質を勘案すると、Flashはバランスの取れたモデルである可能性が高いと考えられます。
一方の「Gemini Nano」は、Google AIで最も小型のモデルですが、マルチモーダル対応しています。詐欺電話などのスキャンにも対応し、Pixel 8aにプリインストールされているとのこと。軽量でありながらハイパフォーマンスなAIアシスタントの行く末が注目されます。
Imagen 3 – 実写に近い画像生成
Googleより引用
「文章から画像を生成できるモデル」の最新バージョンとなります。
AI画像生成の新バージョン「Imagen 3」が発表され、より実写に近い写真の生成が可能になりました。プロンプトが詳細であればあるほど、リアルな写真が生成できるようになります。Labs.Google.comから無料で体験でき(登録が必要)、開発者はVertex AIから利用可能になる予定です。
実際に以下はImagen 3で作られた画像のサンプルです。Midjourneyと大差ないほどに品質エグクナイデスカ・・・
AIによる画像生成の質が飛躍的に向上し、クリエイティブな表現の可能性が広がりそうです。
以下のリンクからウェイトリストに登録可能です!
Music AI Sandbox – AIが音楽を作曲
プロに近い音楽生成が実現
YOUTUBEより引用
「Music AI Sandbox」は、AIが音楽を作り出すツールです。プロに近い音楽生成が可能だと発表されました。音楽制作の民主化が進み、誰もがアーティストになれる時代が到来するかもしれません。AIによる音楽生成の実力が注目されています。
上記はAIで作られた音楽デモです。かなり人間に近くないですか?(笑)
音楽生成AIについては下記記事も参考になります。
【爆2分越え作曲可能】進化した音楽生成AI Suno v3の使い方紹介~以前のVerと比較
【誰でも山下達郎】音楽生成AI「Udio」の使い方!Suno AIと比較してみた。
Veo – テキストから動画生成
Googleより引用
誰でも監督に!?
「Veo」は、テキストから動画を生成するAIツールです。Googleは「誰でも監督になれる。誰でも監督になるべきだ」と説明しています。必要に応じて動画を長くする機能も備えています。Labs.Google.comのウェイティングリストに登録すれば利用できるとのこと。動画制作の新しい可能性が開かれそうです。
Veoの主な特徴を表形式で示します。
特徴 | 内容 |
---|---|
長尺動画生成 | 1分を超える長尺の動画生成が可能。OpenAI Soraを上回る性能。 |
高品質映像生成 | テキスト入力に応じてフルHD高画質の映像を生成。 |
動画編集機能 | 追加プロンプトで一度生成した動画を編集可能。 |
ストーリーボード | 音楽付加など、ストーリーボードモードでの作業が可能。 |
学習データ量 | GoogleがYouTubeの膨大な動画データで学習させており、動画解析力が高い。 |
提供開始 | 一般公開はまずアメリカから。日本からもウェイティングリスト登録可能。 |
Veoは映像生成から編集、さらには長尺コンテンツ制作までをカバーする包括的な動画AIです。特に長尺動画生成や動画編集機能は大きな強みとなっています。GoogleがYouTubeデータで高度な学習を行った結果、高品質な映像生成が実現できているのが特徴です。
実際に下記はVeoで作られた動画です。
Soraに匹敵するほどの品質です。
Googleより引用
他にもこんな生き物のような動画もいけます。
こちらもウェイティングリストから登録できますので要チェックです!
Gems – カスタマイズ可能なGemini
Googleより引用
ユーザーニーズに合わせてAIをカスタマイズ
Geminiをユーザーのニーズにカスタマイズできるようになる「Gems」が発表されました。Googleのさまざまなサービスに対応する予定で、ユーザーひとりひとりに合わせたAIアシスタントを実現できそうです。いわゆるGPTsのGoogle版みたいなものです。
Gemini Advancedを利用するユーザーは、ChatGPTにおける「GPTs」のような存在を自在に生成できます。簡単なテキストによる説明を与えるだけで、独自の特性を持つ対話エージェントが作られます。Googleではこれを「ジェム」と呼んでいます。
ユーザーはジェムのペルソナを詳細に設定することができます。例えば専門分野、対話スタイル、タスク指向性など、さまざまな属性を指定して、要求に合わせたアシスタントを用意することができるでしょう。
PaliGemma & Gemma 2
Google、画像処理対応の新OSSモデル「PaliGemma」を発表
GoogleはついにビジョンAIに対応したオープンソースモデル「PaliGemma」を発表しました。これは文章生成AIとして知られる「Gemma」シリーズの新バージョンで、画像入力への対応が大きな進化点です。
PaliGemmaの登場により、OSSの領域でも画像とテキストの複合的な処理が可能になりました。マルチモーダル対応は大規模モデルの重要な要件とされており、Googleは先んじてこの課題を克服しました。
一方、Gemmaシリーズの最新版である「Gemma 2」も合わせて発表されています。27億パラメータを有するこのモデルは、文章生成における実用性が一段と高まっているとみられています。6月にローンチ予定とのこと。
ただし、Gemma 2のようなビッグモデルを運用するにはインフラ面での課題もあり、構築は一筋縄ではいきません。しかし高いパラメータ数を確保できれば、実用レベルでの活用が現実的になってくるでしょう。
GoogleはPaliGemmaとGemma 2の2つの新モデルを前面に押し出すことで、OSSのAI分野で存在感を一層高めていく考えのようです。
LearnLM
Googleより引用
【Google、学習特化の新モデルファミリー「LearnLM」を発表】
Googleは、Geminiベースで学習用に特化した新しいモデルファミリー「LearnLM」を発表しました。教育研究に基づき、学習体験を魅力的で個人に合わせたものにすることを目指しています。
LearnLMは以下の学習科学の原則を体現しています。
- アクティブな学習の促進
- 認知負荷の管理
- 学習者への動的な適応
- 好奇心の刺激
- メタ認知の深化
これらの原則を反映させ、以下の製品でLearnLMを活用した新機能を導入します。
Googleより引用
【Google検索】 AIによる概要を、ユーザーごとに分かりやすい形式に調整可能。
【Android】 Circle to Searchで数学・物理の問題を解ける。後半には図形・グラフなども対応。
【Gemini】 トピックごとの個人専門家「Gem」が利用可能に。学習コーチGemは段階的ガイダンスを提供。
【YouTube】 会話型AIで講義ビデオの理解をサポート。質問や説明の要求、クイズに対応。
GoogleはLearnLMの適用を通じ、単なる回答提示を超えて、真の理解を深められる学習体験の実現を目指しています。
Gemini Live
Googleより引用
GoogleはOpenAIの最新モデル「GPT-4o」に対抗する新しいAIモデルを発表しました。両社の競争が一段と熱を帯びてきました。
この新モデルの最大の特徴は、「リアルタイムでAIと対話できる機能」を備えている点です。ユーザーは質問をすれば即座にAIが応答し、自然な対話が可能になります。
完全にGPT-4oに被せてきましたね。
GPT-4o(オムニ)の使い方や料金を徹底解説!OpenAI Spring Updateもまとめた!
対話AIの分野でGoogleがOpenAIに遅れをとっていた状況を踏まえ、この新モデルは大きなカウンターとなる存在です。リアルタイム対話によりユーザー体験が大きく改善されることが期待されています。
Google I/O 2024 まとめ
Google I/Oでは、検索、生成、カスタマイズなど、さまざまな分野でAIの新機能が発表されました。AIの活躍の場が一層広がり、私たちの生活に浸透していくことが予想されます。一方で、AIの発展に伴う倫理的課題や、AIに人間の仕事を奪われるのではないかといった懸念の声も上がっています。AIとヒトの共生の在り方を、社会全体で議論していく必要があるでしょう。
AI技術の進化に伴い、私たちの生活はこれまでにない変革を遂げようとしています。AIの新機能に期待を寄せつつ、その影響や課題についても冷静に見つめていく必要があります。
趣味:業務効率化、RPA、AI、サウナ、音楽
職務経験:ECマーチャンダイザー、WEBマーケティング、リードナーチャリング支援
所有資格:Google AI Essentials,HubSpot Inbound Certification,HubSpot Marketing Software Certification,HubSpot Inbound Sales Certification
▼書籍掲載実績
Chrome拡張×ChatGPTで作業効率化/工学社出版
保護者と教育者のための生成AI入門/工学社出版(【全国学校図書館協議会選定図書】)
突如、社内にて資料100件を毎月作ることとなり、何とかサボれないかとテクノロジー初心者が業務効率化にハマる。AIのスキルがない初心者レベルでもできる業務効率化やAIツールを紹介。中の人はSEO歴5年、HubSpot歴1年