PR

Soraとは?ChatGPTのOpenAIから動画生成AIが発表!いつから使える?料金や仕組みは?【RunwayやPikaと比較してみた】

AIツール

動画制作に革命をもたらすかもしれないAIがOpenAIから登場しました。その名はSoraです。まずは下記動画を見てください。

Soraより引用

こちらは東京郊外の動画です。なんと・・・AIが作成しました。しかもプロンプトはたった下記1文です。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

きょろ
きょろ

もう正直このレベルまで来ると本物って言われて見せられてもわからないですよね?窓に人の顔が映る感じとか・・・自然すぎる。

OpenAIが開発したSoraは、テキストや音声だけでリアルな動画を生成することができるという驚異的な技術です。Soraはどのように動画を生成するのでしょうか?そして、Soraはいつから一般に利用できるのでしょうか?この記事では、Soraについていつから使えるのかや、仕組み、料金まで詳しく解説します。

【2024年最新】AIでラクに自動生成!AI動画作成ツール6選!初心者向けに編集方法も解説

おすすめのAIツール総まとめはこちら

尚、結論から申しますと、まだ「Sora」は一般ユーザーが使う事はできません。高クオリティの動画生成AIツールを使いたいのであれば下記記事がおすすめです。

【Runway Gen-2 使い方】作成した恐竜の動画がすごいw指定した箇所が動く?新機能も!

【AI新海誠!?】Pika 1.0がエグイ!使い方と活用事例を徹底解説

この記事はこんな人におすすめ

・SNSで話題になっている「Sora」について仕組みを知りたい
・「Sora」が他の動画生成AIツールと比較してどれほど違うのか見てみたい

OpenAIから登場したSoraとは

Soraとは、OpenAIが開発した動画生成AIです。多くの企業がAI技術を活用し、テキストから動画への変換に挑戦しています。

これには大規模企業や新興スタートアップが含まれており、その範囲はPikaからRunwayにまで及びます。Soraは、他のモデルとは一線を画する点がいくつかあります。
まず、まるでiPhoneで撮影したかのようなリアリズムを実現している点が挙げられます。下記はSNSで大きく話題になりました。

さらに、他のモデルが生成する短い映像とは違い、最大1分間の長さを持つ動画の生成が可能です。これらの特徴により、SoraはAI分野での新たな進展を示しています。

きょろ
きょろ

通常他の動画生成AIツールでは1回につき3秒~10秒程度。
この60秒という長さがどれほどすごい事かがお分かりいただけると思います。
しかもすごいのが「Sora」によって作成された上記動画は修正がされていないという点です。

Soraの特徴


Soraは、AI技術の進化を示す、注目すべき特徴を備えています。以下はSoraの重要な特徴です。

複雑なシーンの生成能力
物理的な細部への細かさ
動画の出典検出ツールの開発

  1. 複雑なシーンの生成能力: Soraは、複数のキャラクターや特定のモーションを含む複雑なシーンの生成が可能です。これには、物理的な世界での存在の仕方に関する理解も含まれます。たとえば、スタイリッシュな女性がネオンライトとデジタルサイネージに満ちた東京の夜の街を歩くシーンなど、リアルな映像を生み出すことができます。

実際に下記は東京のワンシーンです。これ、ドラマなんかのシーンでも全然違和感なく使えますよね。


Soraより引用

何がすごいってこの女性のシミの具合とかがかなーりリアルです。

2.物理的な細部への細かさ:下記の動画に注目してほしいのですが、16秒あたりで歩いている二人が前方に障害がある事を察知してしっかり別の道へ方向転換しているシーンです。これはすごいですよね。

Soraより引用

3.動画の出典検出ツールの開発: また、Soraによって生成された動画を識別できる分類子などのツールも開発中です。OpenAIに導入される場合は、C2PAメタデータを含める計画です。

Soraができる事


Soraの多彩な機能について、紹介していきます。

基本的に今発表されている中で「Sora」のできる事は下記の通りです。

・Text-To-Video
・Image-to-Video
・Video-to-Video
・画像生成
・シミュレーション

Text-To-Video

Runwayなどでも有名な機能ですね。テキスト(プロンプト)から動画を生成する機能の事です。

Soraは、ただテキストから動画を作成するだけでなく、さまざまな機能を備えています。その中でも目を引くのが、Text-To-Video機能です。この機能は、詳細で一貫性のある動画を、最大1分間の長さで作成することができます。

たとえば、「20 代の若い男性が空の雲の上に座って本を読んでいます。」という指示文を入れると、下記のようなリアルな動画が生成されます。Soraは歪なく鮮明に映像化できます。

Soraより引用

Image-to-Video

さらに、Soraは画像からも動画を生成することが可能です。例えば、DALL・Eで作成された画像をベースにしたアニメーション映像も制作できます。例えば下記の犬の画像をもとに動画も生成できます。

引用元
Soraより引用

目の瞬きとか本当にリアルじゃないですか?(笑) これが画像からできるのはすごい。

Video-to-Video

動画の拡張機能も魅力的です。生成された動画の一部を取り、時間を逆行させることで、異なる始まりから同じ結末に至る動画を作成できます。この技術は、シームレスなループ動画の制作にも応用できます。この機能は他の動画生成AIにはなかなか見られない機能です。下記は始まりが違いますが、オチは同じとなっています。

また、Soraには、テキストプロンプトから動画を編集するSDEdit機能があります。これにより、動画のスタイルや環境を、例えば緑豊かなジャングルに変えることも可能です。

画像生成

Soraはまた、高解像度の画像生成機能も搭載しており、2048×2048までのサイズで様々な画像を作成できます。秋の女性のクローズアップポートレートのような、細部までこだわった作品も生成可能です。

秋の女性のクローズアップポートレートショット、極端なディテール、浅い被写界深度
居心地の良い小屋とオーロラ表示、高精細で写実的なデジタル一眼レフカメラ、50mm f/1.2 を備えた雪の山村

シミュレーション

最後に、Soraの新しいシミュレーション能力も注目です。動いたり回ったりするカメラで撮ったような動画を作ることができるんです。例えばカメラが動くと、画面の中の人や物も本当にその場所にいるみたいに、前後左右上下に動きます。iPhoneで撮ったかのような動画がとってもリアルに見えます。

Soraより引用

これらの機能は、ビデオモデルの将来性を示すもので、物理世界とデジタル世界の融合に一役買っています。

Soraは一般ユーザーも使える?料金は?

Soraについてはまだ一般ユーザーは使えません。ですので料金も不明です。

使えない理由は下記の通りOpenAIが発表しています。

・悪用されないかの検証
・AIで生成された動画であることがわかるようにするため

・悪用されないかの検証

OpenAIでは、Soraというビデオ生成プログラムを一般ユーザーが使う前に、いくつか安全対策をするつもりです。

まず、悪い使い方を見つける専門家チームと一緒に、Soraをテストしています。
このチームは偽・嘘情報や差別的なコンテンツなどが生成されないようにチェックを実施しています。

さらに、Soraで作られたビデオだとわかるようなツールも作っています。
これはディープフェイクなど、誤った情報を拡散されるのを防ぐために役立ちます。最近日本では岸田首相の偽AI動画が悪質であると話題になったかと思います。
将来、SoraをOpenAIの製品に入れる時は、特別な「C2PAメタデータ」も付ける予定です。

生成AIで岸田首相の偽動画、SNSで拡散…ロゴを悪用された日テレ「到底許すことはできない」

Soraを安全に使えるようにするためには、新しい技術を開発するだけでなく、既にある安全な方法も使います。たとえば、OpenAIの製品には、暴力的な内容や性的な内容、有名人の肖像や他人の権利を侵害するテキストをチェックして拒否するシステムがあります。ビデオも、ユーザーに見せる前に、同じように安全かどうかを確認するようにするとのことです。

Soraはどうやってできた?小学生でもわかる仕組みを解説

Soraが提供する優れた動画制作機能の背後にある技術の仕組みを、ここから詳しくご紹介します。

どのような先進技術が、これらの高機能モデルを支えているのでしょうか…

フェーズ①視覚データの分割した学習

<ここで言いたい事>
・データを細かく分解する事で学習しやすくさせる

OpenAIより引用

インターネットにいっぱいある情報を学習したコンピュータの話をするね。
コンピュータは、文章を読んだり、数学の問題を解いたり、色んな言葉を使って話したりできるようになります。これをできるようにするには、「トークン」という小さな単位で情報を分けて学びます。

今度は、このコンピュータに似た話として、Soraは、ビデオや写真を理解するのが得意です。
これをできるようにするためには、「ビジュアルパッチ」という小さな絵のかけらみたいなもので学習します。この方法で、Soraはいろんなビデオや写真を見て、それについて学んで、新しいビデオや写真を作ることができるようになります。

では、Soraっていう賢いコンピュータがどうやってビデオを理解して、新しいビデオを作るか説明します。

まず、Soraはビデオを「低次元の潜在空間」という特別な形に圧縮します。これは、ビデオをもっと簡単な形に変えることを意味しています。そのあと、ビデオを「時空パッチ」という小さな部分に分けるんです。

「ビデオ圧縮ネットワーク」というものを使って、Soraはビデオを学ぶんです。これは、ビデオを小さくして、その中の大切な情報だけを取り出す仕事をするんです。Soraはこの情報を使って学習して、それをもとに新しいビデオを作ります。そして、その新しいビデオをまた普通のビデオの形に戻すこともできます。

「時空潜在パッチ」というのは、圧縮されたビデオから、小さな部分を取り出して、それを使って新しいビデオを考えることです。写真も、実は一瞬のビデオみたいなものなので、この方法で写真も理解できます。Soraは、この小さなパッチを使って、いろいろな大きさや形のビデオや写真を学ぶことができるんです。そして、新しいビデオを作る時には、これらのパッチを適切な大きさで並べて、ビデオの大きさを決めることができるんです。

これにより、Soraは様々な解像度や長さ、アスペクト比を持つビデオや画像でトレーニング可能となり、推論時にはランダムに初期化されたパッチを適切なサイズのグリッドに配置することで、生成されるビデオのサイズを調整できます。

フェーズ②動画生成方法

<ここで言いたい事>
「トランスフォーマー」という技術により失敗すればするほどクオリティの高い動画が作成可能

Soraがどのようにビデオを作るか、詳しく説明します。

OpenAIより引用

まず、Soraは「ディフュージョンモデル」という特別な方法を使っています。これは、ちょっと雑音が入ったようなパッチ(ビデオや写真の小さな部分)やテキストのヒントを使って、元のきれいなパッチを当てるゲームみたいなものです。Soraは、このゲームをすることで学んでいきます。

そして、Soraは「トランスフォーマー」という技術を使っています。これは、文章を理解したり、写真を見たり、新しい画像を作ったりするのに使われる技術です。つまり、Soraは言葉やビジュアルを理解して、新しいビデオや画像を作ることができるんです。

この研究では、トランスフォーマーを使ってビデオを作る方法がとても上手くいくことがわかりました。トレーニング(学習)が進むにつれて、ビデオの品質がどんどん良くなるんです。トレーニングが増えると、ビデオの品質もぐんと上がるというわけです。

実際に下記は「Sora」が学習すればするほどに高品質な動画が生成できる過程です。
右になればなるほどクオリティが上昇してますよね?


DALL・E3/GPTの技術の併用

<ここで言いたい事>
DALL・E3/GPTの既存技術の併用によりクオリティの高い動画生成が可能

ビデオを作るには、そのビデオに合った言葉の説明(テキストキャプション)がたくさん必要です。Soraは、DALL・E3という別の賢いコンピュータが使っている技術を使って、ビデオの説明を学んでいます。まず、とても詳しくビデオを説明できるモデルを作り、それを使ってたくさんのビデオに言葉の説明をつけるんです。

この方法でビデオの説明を学ぶと、ビデオの全体的な質が良くなるだけでなく、言葉の説明もより正確になるんですよ。

GPTという技術も使って、短いユーザーのリクエストをもっと長くて詳しい説明に変えて、それをビデオモデルに送ります。これによって、Soraはユーザーが要望した通りのビデオを正確に作ることができるんです。

【画像生成機能】ChatGPT「DALL-E 3(DALLE3)」使い方~応用裏技紹介

例えば、「愛らしいカンガルーがブルージーンズと白いTシャツを着て、ムンバイ、インドで楽しい散歩をしている様子」や「その間に冬の嵐が起こる」というようなリクエストがあったら、Soraはそれに合ったビデオを作ることができるんです。

以上がSoraの高クオリティな動画が生成される仕組みでした。

元記事:https://openai.com/research/video-generation-models-as-world-simulators

Soraの動画クオリティは?RunwayやPikaと実際に比較してみた。

動画生成AIツールで、有名なのは「Runway gen-2」や「Pika」でしょう。

実際にSoraのプロンプトで作られた動画と比較してみました。

まずはSoraで生成された動画です。

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

(数匹の巨大なケナガマンモスが雪に覆われた草原を踏みしめながら近づいてきます。その長いケナガマンモスの毛皮が風に軽く吹きながら歩きます。遠くには雪に覆われた木々やドラマチックな雪を頂いた山々が見えます。うっすらとした雲と太陽が高く昇る午後半ばの光です。距離を置くと温かみのある光が生まれ、低いカメラの視点から美しい写真と被写界深度で大きな毛皮に覆われた哺乳類が見事に捉えられます。)

実際に同じプロンプトで「Runway gen-2」と「Pika」それぞれ動画を生成してみました。

左が「Runway gen-2」、右が「Pika」です。

何をどう考えても、「Sora」のクオリティの高さがうかがえませんか?(笑)

Runway gen-2」が相当頑張っていますが、モーションがここまで効いている「Sora」はエグイです。

きょろ
きょろ

Runway gen-2」と「Pika」も相当クオリティが高いはずなのに、それを凌駕する「Sora」が恐ろしい(笑)
Runway gen-2」と「Pika」はそれぞれ無料で一定数使えるので使い方については下記記事もご参照ください。

Soraの動画は完璧ではない!問題点

いくら高画質とはいえ、期待させすぎもよくないですね。実際に動画も観てみていくつかの失敗例もありましたので、以下にご紹介します。

椅子の物理的な動きにバグがあり、途中から空中に浮かんでしまっていますw

バスケットボールがフープを通過し、その後爆発するシーン。2個目のボールはそのままフープをすり抜けていきます。

複数のオブジェクトやキャラクターが複雑に関わり合う場面の再現は、まだ苦手のようです。

また、長いプロンプトを使用したデモ動画では、「息を吹きかけてキャンドルを消します」「キャンドルの光が消える」という指示が二度されているにもかかわらず、キャンドルの火が消えないこともありました。

Soraのリリース日(一般公開)は?

DALLE3の発表は当時2023年9月21日でした。
その後、先行ユーザーへの開放は9月30日、そして正式リリースが10月20日とあっという間にリリースがなされたので、この流れに基づけば大体1か月後には使えている可能性も!

Soraの由来は?

Soraの由来について公式発表はありませんが、現在SNSでいい意味で物議を起こしています。

それがこれです。

OpenAI公式のChatGPTアカウントが「空色デイズ」と突然日本語で投稿したことが話題となっています。OpenAIがしょこたんファン、もしくはグレンラガンのファンであるのと同時に動画生成AIのSoraの元ネタ説が急浮上しています。

実際にデモ動画に東京や日本のシーンがふんだんに使われている事からも、日本へのポジティブな興味関心があることは間違いありません。

OpenAI Soraの活用される未来について

Soraが今後どのように活用されるのか実際に今OpenAIがSoraに対して実践していることを例に挙げていきます。

画像から動画を生成
Soraは、テキストプロンプトだけでなく画像からも動画を作成できます。ペットを非日常的なシーンに配置したり、特定のポーズを取らせるなど、ユニークでスタイリッシュなビジュアルの生成が可能です。下記は実際に画像から動画へと生成されたものです。波の打つ様がかなりリアルです。

アニメーション動画の制作
画像から動画を生成できるため、オリジナルキャラクターのアニメーション動画制作も可能です。絵を描けない人でも、テキストプロンプトからキャラクターを生成し、アニメーションを作成できます。下記は画像からアニメーション動画生成し成功した事例です。

クリエイティブな動画の作成
YouTube、Instagram、TikTokなどでバズを狙うクリエイターは、Soraを利用して動画の企画から生成までを簡素化できます。これにより、短時間で多数の動画を作成し、公開することが可能です。下記のような縦型の動画を作成することも可能です。

soraより引用

生成AI動画への編集
実際に下記は生成AI動画に音入れをしたものがXで公開され話題になりました。
今後は我々が見るCMなど、生成AI動画の素材が当たり前のものになっていることでしょう。

高品質な画像の生成
動画生成AIであるSoraですが、高解像度の画像生成も可能です。これにより、他の画像生成AIと比べても引けを取らない品質の画像を作成できます。

きょろ
きょろ

見ていただくとわかる通りDALL-E3とは比べ物にならないほどに品質が上がっております。
同じプロンプトで比較してみました。左がDALL-E3、右がSoraです。

OpenAI「Sora」の最新情報

ここではOpenAI「Sora」に関する最新情報を随時更新していきます。

OpenAIのメンバーが発表:Soraは動画生成における「GPT-2の瞬間」

OpenAIのメンバーがSoraのこのクオリティはGPT-2レベルであるとレビューしました。

下記は日本語に訳したものです。

ソラは動画生成における「GPT-2の瞬間」

2018年に登場した「GPT-2」は、文章を論理的かつ正しく生成することができました。しかし、長い文章を書く際はまだ、矛盾が生じたり事実と異なる内容が混ざったりするなど課題がありました。しかし、GPT-2の登場は大きな刺激となり、その後のモデル開発を加速させました。そしてわずか5年で、GPT-4は「思考の流れ」を把握したり、事実誤認のない長い文章を書いたりできるようになりました。

同様に、現在のソラは芸術的でリアルなショート動画を生成できます。しかし、一貫したキャラクター設定や魅力的なストーリーを持つ40分番組を作ることはまだできません。しかし、今後、ソラや他の動画生成モデルは、長期的な一貫性、非常に高いリアルさ、物語を構成する力といった能力を備えていくと考えられます。

これからの展開について、次のような予測が立てられます。

  • 動画はテキストよりも情報が少ないため、動画から推論などの能力を学習させるには、より多くの計算リソースとデータが必要です。
  • そのため、音声やテキストなどの別の情報を組み合わせて学習させることが重要になります。
  • 高品質なテキストデータに対する競争と同じように、高品質な動画データに対する競争も激化するでしょう。
  • これまでの自然言語処理分野の研究者が言語モデルのスケーリング成功に合わせて新しい手法を学ぶように、動画分野の研究者も新しい技術への適応が求められます。
  • 映画業界は、GPT-4が文章作成に与えた変化と同様の変化を経験するでしょう。つまり、平均的な作品を超える支援ツールにはなるものの、プロの仕事には到底及ばないということです。

今のレベルで2018年のChatGPTレベルだというのであれば・・・GPT-4レベルになったら世界が驚愕するほどに歴史を変えるものになると言えます。「Sora」は。

Soraを実際に体験したいなら

OpenAIの公式ウェブサイトで、Soraを体験できます。

こちらから
数多くの組み合わせからSoraを楽しむことができます!

ただし、サイトには多くの動画があってページが重たいため、このタブが表示されるまでに3分程度かかることがありますので、ご注意ください。

OpenAIのSora 要点まとめ

Soraの登場が楽しみですね!要点をまとめてみました。

  • 発表日と開発者: 2024年2月15日にOpenAIによって発表された動画生成AIモデル。
  • リアリティと高解像度: 実際の映像と見間違うほどのリアルな動画生成が可能。
  • テキストベースの動画生成: テキスト入力に基づいて高品質な動画を生成。
  • 進化したビデオ生成技術: 動画生成に特化したディフュージョントランスフォーマーを採用し、トレーニングの計算量が増加すると性能も向上。
  • 多機能ビデオプロセッシング: 動画の拡張・編集・接続や画像生成など、多彩な機能を備える。
  • 他モデルとの技術融合: DALL·E 3のキャプション再生成技術やGPTを用いたプロンプトの詳細化など、他モデルの技術を活用することで高品質な動画生成が可能。
  • AGI達成への貢献: 現実世界の理解とシミュレーションを可能にし、人工汎能(AGI)達成に向けた重要なステップとされている。
タイトルとURLをコピーしました