動画制作に革命をもたらすかもしれないAIがOpenAIから登場しました。その名はSoraです。まずは下記動画を見てください。
Soraより引用
こちらは東京郊外の動画です。なんと・・・AIが作成しました。しかもプロンプトはたった下記1文です。
Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
もう正直このレベルまで来ると本物って言われて見せられてもわからないですよね?窓に人の顔が映る感じとか・・・自然すぎる。
OpenAIが開発したSoraは、テキストや音声だけでリアルな動画を生成することができるという驚異的な技術です。Soraはどのように動画を生成するのでしょうか?そして、Soraはいつから一般に利用できるのでしょうか?この記事では、Soraについていつから使えるのかや、仕組み、料金、事例まで詳しく解説します。
【2024年最新】AIでラクに自動生成!AI動画作成ツール6選!初心者向けに編集方法も解説
高クオリティの動画生成AIツールを使いたいのであれば下記記事がおすすめです。
Runway Gen-3 Alphaが登場!Dream Machineと比較!使い方~料金を解説
動画生成AI Pika 1.5のアップデート!「Pikaffects」の使い方や料金について解説
この記事はこんな人におすすめ
・SNSで話題になっている「Sora」の使い方を知りたい
・「Sora」が他の動画生成AIツールと比較してどれほど違うのか見てみたい
OpenAIから登場したSoraとは
OpenAIより引用
Soraとは、OpenAIが開発した動画生成AIです。多くの企業がAI技術を活用し、テキストから動画への変換に挑戦しています。
これには大規模企業や新興スタートアップが含まれており、その範囲はPikaからRunwayにまで及びます。Soraは、他のモデルとは一線を画する点がいくつかあります。
2024年12月、「12 Days of OpenAI」イベントの3日目にてとうとう「Sora」の発表がなされました。
「12 Days of OpenAI」の発表内容まとめについては以下の記事をご覧ください。
まず、SoraのすごさとしてはまるでiPhoneで撮影したかのようなリアリズムを実現している点が挙げられます。下記をご覧ください。これ、AIって言われて誰が気づきますか・・・?
通常他の動画生成AIツールでは1回につき3秒~10秒程度。
この60秒という長さがどれほどすごい事かがお分かりいただけると思います。
しかもすごいのが「Sora」によって作成された上記動画は修正がされていないという点です。
Soraの特徴
Soraは、AI技術の進化を示す、注目すべき特徴を備えています。以下はSoraの重要な特徴です。
・次世代エンジン「Sora Turbo」搭載による高性能化
・シーン変換機能「Remix」
・タイムライン編集機能
・
実際に下記はクマが寿司を食べているシーンです。これ、ギャグ映画なんかのシーンでも全然違和感なく使えますよね。
Soraより引用
以下は上記のように、ドアを開くと様々なシーンに切り替わる様子です。
広大な赤い風景の中に、遠くドッキングした宇宙船が見える0:00 – 0:11
宇宙船の内部から、中央に立つスペースカウボーイを見る0:11 – 0:32
Soraの料金表
Soraの料金表は以下の通り。Plusユーザーは普通に使えるのはすごいですね。
- 基本的なSora機能へのアクセス
- 最大720p解像度の動画生成
- 月間50本の優先生成(1,000クレジット)
- ウォーターマーク付きダウンロード
- 標準的な生成速度
- 最大1080p高解像度対応
- 最大20秒の長尺クリップ生成
- 最大5つの同時生成
- ウォーターマークなしダウンロード
- 月間500本の優先生成(10,000クレジット)
- 無制限のリラックス生成
Teamプランは使えないことに注意が必要です。
Soraの使い方
アカウントを作成する
・まずはアカウントを作成します。OpenAIに飛び、右上のStart nowを押下します。
以下のような画面が出てきた場合は現在パンクしているため、再会されるまであきらめましょう。
生年月日を入力して次へを押下。
Soraの利用を開始すると、2つのプラン選択が提示されます。標準的なChatGPT Plus(月額20ドル、約3,000円)でも十分な機能を利用できますが、より本格的な利用には上位プランのChatGPT Pro(月額200ドル、約30,000円)が用意されています。後者は生成可能な動画数が大幅に増加し、より多くのコンテンツ制作が可能となります。まずは基本プランでの利用を選び、続行ボタンを押して次のステップに進み登録完了です。
プロンプトを入力
Soraによる動画生成は、プロンプト(テキスト)入力と画像入力の2つの方法で行えます。特にプロンプトについては、現時点では英語での入力を推奨しています。例えば「A majestic white wolf running through a snowy forest at dawn(夜明けの雪の森を駆け抜ける白い狼)」や「An ancient steampunk city with floating islands connected by brass bridges(真鍮の橋で繋がれた浮遊島のある古代スチームパンクの街)」といった具合に以下のボードに入れます。
画像からの生成も可能で、既存の画像に対してプロンプトを追加することで、より詳細な指示を行うことができます。例えば、「Two cats seated on a rocky shore facing the ocean. Gentle waves roll in, clouds drift slowly overhead, and a light breeze causes their fur to ripple slightly.」といった具合です。
動画生成時には、以下の設定をカスタマイズできます:
– スタイルプリセット:あらかじめ用意された様々な表現スタイル
– アスペクト比:9:16(縦長)、16:9(横長)、1:1(正方形)
– 解像度:480p、720p、1080p
– 再生時間:動画の長さ
– バリエーション数:同時に生成する異なるバージョンの数
クレジット数の確認
画面右上のヘルプマークにマウスを重ねると、選択している設定で必要となるクレジットポイントを確認できます。このポイント表示により、動画生成前に利用可能なクレジット残高を事前に把握することができます。
動画を生成
「↑」ボタンをクリックすると動画生成が開始されます。
動画の編集機能
生成された動画は、以下の機能を使って編集できます:
・Re-Cut(再カット):動画の開始位置と終了位置を調整し、必要なシーンを抽出
・Remix(リミックス):自然言語による指示で動画の内容を修正
・Blend(ブレンド):2つの動画をシームレスに結合
・Loop(ループ):特定区間を滑らかに繰り返し再生
プロンプトとストーリーボードの編集機能を使えば、より細かな調整も可能です。画面下部のツールバーからアクセスできます。
作品の管理と共有機能
生成した動画は以下の方法で管理・共有できます:
・お気に入り登録:ハートアイコンで作品を保存
・共有:他のユーザーと作品を共有
・ダウンロード:作品をローカルに保存
画面左側のライブラリメニューでは、最近の作品、おすすめ、保存済み、アップロード済みの動画を整理でき、新しいフォルダを作成して管理することもできます。
Soraを使う際の注意点
公開設定について
動画生成に関する重要なプライバシー設定についてお知らせします。初期設定では、作成した動画は他のユーザーも閲覧できる公開状態となっています。
作品を非公開にしたい場合は、設定メニューのGeneralタブから「Publish to explore」の項目をオフにすることで、以降に生成する動画をコミュニティに表示させないよう変更できます。制作前にこの設定を確認しておくことをお勧めします。
[設定] → [General] → [Publish to explore]
「C2PA」について
OpenAIでは、Soraで作られたビデオだとわかるようなツールも作っています。それが「C2PA」
これはディープフェイクなど、誤った情報を拡散されるのを防ぐために役立ちます。最近日本では岸田首相の偽AI動画が悪質であると話題になったかと思います。
生成AIで岸田首相の偽動画、SNSで拡散…ロゴを悪用された日テレ「到底許すことはできない」
Soraを安全に使えるようにするためには、新しい技術を開発するだけでなく、既にある安全な方法も使います。たとえば、OpenAIの製品には、暴力的な内容や性的な内容、有名人の肖像や他人の権利を侵害するテキストをチェックして拒否するシステムがあります。ビデオも、ユーザーに見せる前に、同じように安全かどうかを確認するようにするとのことです。
Soraの安全性について
OpenAIによる包括的な安全対策とユーザー保護の取り組みを以下のとおり行っています。
おまけ:Soraはどうやってできた?小学生でもわかる仕組みを解説
Soraが提供する優れた動画制作機能の背後にある技術の仕組みを、ここから詳しくご紹介します。
どのような先進技術が、これらの高機能モデルを支えているのでしょうか…
フェーズ①視覚データの分割した学習
<ここで言いたい事>
・データを細かく分解する事で学習しやすくさせる
OpenAIより引用
インターネットにいっぱいある情報を学習したコンピュータの話をします。
コンピュータは、文章を読んだり、数学の問題を解いたり、色んな言葉を使って話したりできるようになります。これをできるようにするには、「トークン」という小さな単位で情報を分けて学びます。
今度は、このコンピュータに似た話として、Soraは、ビデオや写真を理解するのが得意です。
これをできるようにするためには、「ビジュアルパッチ」という小さな絵のかけらみたいなもので学習します。この方法で、Soraはいろんなビデオや写真を見て、それについて学んで、新しいビデオや写真を作ることができるようになります。
では、Soraっていう賢いコンピュータがどうやってビデオを理解して、新しいビデオを作るか説明します。
まず、Soraはビデオを「低次元の潜在空間」という特別な形に圧縮します。これは、ビデオをもっと簡単な形に変えることを意味しています。そのあと、ビデオを「時空パッチ」という小さな部分に分けるんです。
「ビデオ圧縮ネットワーク」というものを使って、Soraはビデオを学ぶんです。これは、ビデオを小さくして、その中の大切な情報だけを取り出す仕事をするんです。Soraはこの情報を使って学習して、それをもとに新しいビデオを作ります。そして、その新しいビデオをまた普通のビデオの形に戻すこともできます。
「時空潜在パッチ」というのは、圧縮されたビデオから、小さな部分を取り出して、それを使って新しいビデオを考えることです。写真も、実は一瞬のビデオみたいなものなので、この方法で写真も理解できます。Soraは、この小さなパッチを使って、いろいろな大きさや形のビデオや写真を学ぶことができるんです。そして、新しいビデオを作る時には、これらのパッチを適切な大きさで並べて、ビデオの大きさを決めることができるんです。
これにより、Soraは様々な解像度や長さ、アスペクト比を持つビデオや画像でトレーニング可能となり、推論時にはランダムに初期化されたパッチを適切なサイズのグリッドに配置することで、生成されるビデオのサイズを調整できます。
フェーズ②動画生成方法
<ここで言いたい事>
「トランスフォーマー」という技術により失敗すればするほどクオリティの高い動画が作成可能
Soraがどのようにビデオを作るか、詳しく説明します。
OpenAIより引用
まず、Soraは「ディフュージョンモデル」という特別な方法を使っています。これは、ちょっと雑音が入ったようなパッチ(ビデオや写真の小さな部分)やテキストのヒントを使って、元のきれいなパッチを当てるゲームみたいなものです。Soraは、このゲームをすることで学んでいきます。
そして、Soraは「トランスフォーマー」という技術を使っています。これは、文章を理解したり、写真を見たり、新しい画像を作ったりするのに使われる技術です。つまり、Soraは言葉やビジュアルを理解して、新しいビデオや画像を作ることができるんです。
この研究では、トランスフォーマーを使ってビデオを作る方法がとても上手くいくことがわかりました。トレーニング(学習)が進むにつれて、ビデオの品質がどんどん良くなるんです。トレーニングが増えると、ビデオの品質もぐんと上がるというわけです。
実際に下記は「Sora」が学習すればするほどに高品質な動画が生成できる過程です。
右になればなるほどクオリティが上昇してますよね?
DALL・E3/GPTの技術の併用
<ここで言いたい事>
DALL・E3/GPTの既存技術の併用によりクオリティの高い動画生成が可能
ビデオを作るには、そのビデオに合った言葉の説明(テキストキャプション)がたくさん必要です。Soraは、DALL・E3という別の賢いコンピュータが使っている技術を使って、ビデオの説明を学んでいます。まず、とても詳しくビデオを説明できるモデルを作り、それを使ってたくさんのビデオに言葉の説明をつけるんです。
この方法でビデオの説明を学ぶと、ビデオの全体的な質が良くなるだけでなく、言葉の説明もより正確になるんですよ。
GPTという技術も使って、短いユーザーのリクエストをもっと長くて詳しい説明に変えて、それをビデオモデルに送ります。これによって、Soraはユーザーが要望した通りのビデオを正確に作ることができるんです。
【画像生成機能】ChatGPT「DALL-E 3(DALLE3)」使い方~応用裏技紹介
例えば、「愛らしいカンガルーがブルージーンズと白いTシャツを着て、ムンバイ、インドで楽しい散歩をしている様子」や「その間に冬の嵐が起こる」というようなリクエストがあったら、Soraはそれに合ったビデオを作ることができるんです。
以上がSoraの高クオリティな動画が生成される仕組みでした。
元記事:https://openai.com/research/video-generation-models-as-world-simulators
Soraの動画クオリティは?RunwayやPikaと実際に比較してみた。
動画生成AIツールで、有名なのは「Runway gen-2」や「Pika」でしょう。
実際にSoraのプロンプトで作られた動画と比較してみました。
まずはSoraで生成された動画です。
Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
(数匹の巨大なケナガマンモスが雪に覆われた草原を踏みしめながら近づいてきます。その長いケナガマンモスの毛皮が風に軽く吹きながら歩きます。遠くには雪に覆われた木々やドラマチックな雪を頂いた山々が見えます。うっすらとした雲と太陽が高く昇る午後半ばの光です。距離を置くと温かみのある光が生まれ、低いカメラの視点から美しい写真と被写界深度で大きな毛皮に覆われた哺乳類が見事に捉えられます。)
実際に同じプロンプトで「Runway gen-2」と「Pika」それぞれ動画を生成してみました。
左が「Runway gen-2」、右が「Pika」です。
何をどう考えても、「Sora」のクオリティの高さがうかがえませんか?(笑)
「Runway gen-2」が相当頑張っていますが、モーションがここまで効いている「Sora」はエグイです。
「Runway gen-2」と「Pika」も相当クオリティが高いはずなのに、それを凌駕する「Sora」が恐ろしい(笑)
「Runway gen-2」と「Pika」はそれぞれ無料で一定数使えるので使い方については下記記事もご参照ください。
OpenAI Soraの活用される未来について
Soraが今後どのように活用されるのか実際に今OpenAIがSoraに対して実践していることを例に挙げていきます。
画像から動画を生成
Soraは、テキストプロンプトだけでなく画像からも動画を作成できます。ペットを非日常的なシーンに配置したり、特定のポーズを取らせるなど、ユニークでスタイリッシュなビジュアルの生成が可能です。下記は実際に画像から動画へと生成されたものです。波の打つ様がかなりリアルです。
アニメーション動画の制作
画像から動画を生成できるため、オリジナルキャラクターのアニメーション動画制作も可能です。絵を描けない人でも、テキストプロンプトからキャラクターを生成し、アニメーションを作成できます。下記は画像からアニメーション動画生成し成功した事例です。
クリエイティブな動画の作成
YouTube、Instagram、TikTokなどでバズを狙うクリエイターは、Soraを利用して動画の企画から生成までを簡素化できます。これにより、短時間で多数の動画を作成し、公開することが可能です。下記のような縦型の動画を作成することも可能です。
soraより引用
OpenAIのSora 要点まとめ
革新的な動画生成AI「Sora」の登場により、テキストプロンプトからの映像制作が新たなステージに入りました。高性能な生成エンジンと直感的な編集ツールの組み合わせは、クリエイティブな表現の可能性を大きく広げています。
料金体系も柔軟で、基本的な機能を備えたPlusプランから、より高度な制作ニーズに応えるProプランまで、用途に応じた選択が可能です。特にPlusプランは、動画生成技術に興味を持つ一般ユーザーにとって、適度な機能と価格のバランスを実現しています。
趣味:業務効率化、RPA、AI、サウナ、音楽
職務経験:ECマーチャンダイザー、WEBマーケティング、リードナーチャリング支援
所有資格:Google AI Essentials,HubSpot Inbound Certification,HubSpot Marketing Software Certification,HubSpot Inbound Sales Certification
▼書籍掲載実績
Chrome拡張×ChatGPTで作業効率化/工学社出版
保護者と教育者のための生成AI入門/工学社出版(【全国学校図書館協議会選定図書】)
突如、社内にて資料100件を毎月作ることとなり、何とかサボれないかとテクノロジー初心者が業務効率化にハマる。AIのスキルがない初心者レベルでもできる業務効率化やAIツールを紹介。中の人はSEO歴5年、HubSpot歴1年