EMO(emote portrait alive)とは？アリババの音声AIが画像から歌声を作り出す驚異の技術

最近、SNSで画像が本当に喋っているかのような動画が生成できるAIが話題となっています。

EMO-Emote Portrait Aliveより引用

きょろ

特に1：33秒～の進撃の巨人のEDで使われた歌を歌うアニメイラストの女性をご覧ください。
日本語をこんな巧みに口を動かして歌っているのすごくないですか？(笑)
声の伸ばし方と口の動きのシンクロがすごい！

このサービスはEMO(emote portrait alive)と言います。アリババが開発した音声AIで、画像から人物の声や感情を生成することができるというものです。これは非常に画期的な技術で、エンタメ業界に大きな影響を与える可能性があります。

この記事では、EMOの魅力やSNSでどんな点がバズっているのかに焦点を当てて詳しくご紹介します。この内容をじっくりと読み進めることで、EMOの活用性が理解できるでしょう。

最後まで目を通していただければ幸いです。

音声合成（音声生成）AIツール8選｜オススメツールやできること、使用上の注意点を解説

アリババはOpenAIに引けを取らないAI技術を様々に開発しています。アリババのその他AI技術は下記をご覧ください。

この記事はこんな人におすすめ

・EMOがなんでこんなにバズっているのか知りたい
・EMOの技術面について知りたい
・EMOの活用性について知りたい

EMOとは何か？
EMOの仕組み
EMOの学習方法と研究成果
1. EMOの研究成果
EMOの応用例とメリット
1. 歌手デビュー
2. エンタメコンテンツ
音声AIが変えるエンタメ業界の未来
1. 音声コンテンツの多様化と高品質化
EMOに対するSNSの口コミ
EMOはいつから使える？料金は？
まとめ

EMOとは何か？

EMOより引用

EMOとは、Emote Portrait Aliveの略で、アリババが開発した音声AIの一種です。EMOは、一つの画像と一つの音声から人物の声や感情を動画として生成できるAIです。つまり、どんな画像でも、その人物が歌っているかのような音声を作り出すことができるのです。

EMOは、2023年11月にアリババの研究チームが発表した論文で初めて公開されました。この論文では、EMOの技術的な仕組みや、実験の結果や評価について詳しく説明されています。EMOは、音声合成の分野において、画期的な成果を達成したと言えます。

EMOは、音声AIとしてだけでなく、エンタメ業界においても大きな可能性を秘めています。EMOを使えば、画像と一つの音声から本格的なアーティストを生成することができるので、誰でも簡単に顔出しをせずに歌手デビューができるようになります。また、EMOは、音声の感情や特徴に合わせて、画像の表現力を調整することができるので、よりリアルで感動的な動画を作ることができます。

EMOは、音声AIの新たな可能性を示す技術です。では、EMOはどのようにして画像から音声を生成するのでしょうか。次のセクションでは、EMOの仕組みについて解説します。

EMOの仕組み

EMOより引用

EMOが音声動画を作成するための手法は、簡単に言うと二つの大切なステップがあります。

・ReferenceNet
・Backbone Network

最初のステップでは、コンピューターが絵や動きの写真から大事な情報を集めます。これは「ReferenceNet」と呼ばれています。次に、「拡散プロセス」というステップで、コンピューターは音声を聞いて、それを理解します。

この手法では、顔の部分を見つけるための特別なマスクを使い、コンピューターが顔の絵を描くのを手伝います。そして、コンピューターがこの仕事をうまくできるように、特別なプログラム（Backbone Network）が使われます。このプログラムは、絵の中の人物が本物の人のように見えるように、顔の動きや音声に注意を払います。最後に、このプログラムは絵が動く速さも調整します。これはちょうど、動画でキャラクターが早く動いたり遅く動いたりするのを調整するようなものです。

EMOの仕組みを見てきましたが、EMOはどのようにして学習するのでしょうか。次のセクションでは、EMOの学習方法と研究結果について解説します。

EMOの学習方法と研究成果

EMOの学習は意外とシンプル！

①写真を見る
②動画を見る
③動きの速さを理解する
④合体させる

EMOの学習方法は、簡単に言えば、子どもたちが新しいゲームを学ぶようなものです。最初に、コンピューターは写真を見て、顔や場所を覚えます。次に、動画を見て、音声や時間の流れを学びます。最後に、コンピューターは動きの速さを理解するために、別のステップを学びます。全部で、コンピューターは40回のステップを踏んで、15秒で動画を作ります。実験では、他の方法と比べて、EMOはとても上手に表情豊かな動画を作ることができました。

EMOの研究成果

EMOより引用

この実験では、コンピューターが人の顔の動きを映像で再現する能力を向上させるために、特定の手順に従って行われました。まず、大量の動画データを使用してコンピューターに学習させました。

EMOより引用

これには特別なデータセットを使い、10％はテストに、90％は学習に使いました。次に、EMOを他のいくつかの方法と比べてみました。それから、インターネットから集めた250時間分の動画も使って、もっと学ばせました。コンピューターがどれだけうまく動画を作れるかを色々なテストで評価しました。結果、EMOは特に人の表情を上手に動画にできることがわかりました。Ourが「EMO」です。

EMOの応用例とメリット

EMOは、画像から音声を生成するという画期的な技術ですが、具体的にどのように使えるのでしょうか。EMOの応用例とメリットについて、いくつか紹介します。

歌手デビュー

EMOの最も魅力的な応用例の一つは、歌手デビューです。EMOを使えば、自分の写真や好きな人物の写真から、本格的な歌声を生成することができます。これは、音楽の才能や経験がなくても、誰でも簡単に歌手になれるということを意味します。また、EMOは、動画音声に合わせて、音声のトーンや表現力を調整することができるので、自分のオリジナリティや個性を表現することができます。

下記は実際に人間の喋っている動画をそのまま画像にトレースしている映像です。

OpenAI Soraの動画生成AIで話題になった女性をうまく活用していますね(笑)

EMOより引用

EMOのメリットは、歌手デビューだけにとどまりません。EMOを使えば、人物の表情を、様々なジャンルやスタイルの音楽に合わせて変化させることができます。例えば、ロックやポップ、ジャズやクラシックなど、自分の好きな音楽に合わせて、変えることができます。また、EMOは、歌詞の言語や文法、韻律、意味などを分析することができるので、自分の母語以外の言語でも、自然な表情を生成することができます。

EMOは、歌手デビューの夢を叶えるだけでなく、音楽の楽しみ方や表現方法を広げることができる技術です。

エンタメコンテンツ

EMOのもう一つの応用例は、エンタメコンテンツです。EMOを使えば、画像から音声動画を生成することができるので、様々なエンタメコンテンツに活用することができます。例えば、映画やドラマ、アニメやゲームなどの映像作品に、EMOで生成した動画を使って、キャラクターの声を付けることができます。これは、声優や俳優のコストや時間を節約するだけでなく、よりリアルで感動的な作品を作ることができます。

下記は進撃の巨人ユミルに声をあてた映像です。本当にこれが実現できるならアフレコの業務効率化に繋がることは間違いないです。（主役級レベルの名演技をAIがカバーする未来は遠いとは思いますがコマによっては効率化できますよね。）

EMOより引用

EMOは、エンタメコンテンツの制作や鑑賞に革新をもたらすことができる技術です。

音声AIが変えるエンタメ業界の未来

EMOは、画像と動画から音声動画を生成するという画期的な技術ですが、EMOだけではありません。音声AIは、様々な分野や応用で発展しています。音声AIは、エンタメ業界において、どのような影響を与えるのでしょうか。ここでは、音声AIが変えるエンタメ業界の未来について、いくつか紹介します。

音声コンテンツの多様化と高品質化

音声AIは、音声コンテンツの多様化と高品質化に貢献します。音声AIは、音声の生成や変換、合成や分析などの技術を用いて、様々な音声コンテンツを作ることができます。例えば、音声AIは、音楽や歌声、朗読やナレーション、ポッドキャストやラジオなどの音声コンテンツを作ることができます。また、音声AIは、音声の品質や自然さ、感情や表現力などを向上させることができます。例えば、音声AIは、音声のノイズや歪みを除去したり、音声のトーンやアクセントを変更したり、音声の強弱や抑揚を調整したりすることができます。

直近では東京都交通局は2020年10月から、都営地下鉄浅草線新橋駅で多言語対応の対話型ロボットを運用し始めました。このロボットは、対話を通じて電車の乗り換え案内や駅周辺の施設情報を提供します。コロナ禍の影響で外国人利用者はまだ少ないですが、注目を集めています。ただし、音声認識の精度向上や運用コストの削減など、改善が必要とされています。将来、訪日外国人数が回復すると、こういった音声AIの役割がさらに重要になることが期待されています。

引用元：駅改札そばに設置した対話ロボット、東京都交通局の担当者が指摘する課題

EMOに対するSNSの口コミ

ジョーカーの瞬きが本人そのものでビビります。

It's been a huge day for AI with announcements from Alibaba, Lightricks, Ideogram, Apple, Adobe, OpenAI, and more.

The 7 most important developments that happened:

1. Alibaba researchers unveiled EMO, an AI that adds lip-syncing to videos.pic.twitter.com/QlxdMCZFdN
— Rowan Cheung (@rowancheung) February 29, 2024

中国のAI進化のすごさに驚かされています。

【音声と写真から表情豊かに歌声を作れるAIが半端ない】

AlibabaがEMO（Emote Portrait Alive）という音声と写真から、超自然に喋る・歌うAIを作れる技術を発表

表情が自然すぎてヤバい

気づいたら、AIドラマ、AI歌手、AI映画が溢れてそう

中国はAIアニメも推進しているし、最近中華勢の勢いも凄い pic.twitter.com/KZAopbTVDx
— チャエン | 重要AIニュースを毎日発信⚡️ (@masahirochaen) February 28, 2024

EMOはいつから使える？料金は？

2024年3月現在、EMOは使えません。しかしGitHub上にレポジトリーは作成されており、準備ができしだい公開されるのではないかと期待されています。

GitHubはこちら

きょろ

なお、同じアリババが開発をしているOutfit Anyoneは一部制限されていますがすでに活用ができます。ファッション業界を変えうるとんでもないAI機能なので是非下記記事もご参照ください。

【Outfit Anyone】使い方解説！ファッション界に衝撃、ルフィがファッションショーし始めるｗ

まとめ

EMOとは、アリババが開発した音声AIで、画像と音声動画から人物の声や感情を生成することができる技術です。EMOは、歌手デビューやエンタメコンテンツなどの応用例がすでにあり、音声AIの新たな可能性を示しています。

きょろ

趣味：業務効率化、RPA、AI、サウナ、音楽
職務経験：ECマーチャンダイザー、WEBマーケティング、リードナーチャリング支援
所有資格：Google AI Essentials,HubSpot Inbound Certification,HubSpot Marketing Software Certification,HubSpot Inbound Sales Certification
▼書籍掲載実績
Chrome拡張×ChatGPTで作業効率化/工学社出版
 保護者と教育者のための生成AI入門/工学社出版（【全国学校図書館協議会選定図書】）

突如、社内にて資料100件を毎月作ることとなり、何とかサボれないかとテクノロジー初心者が業務効率化にハマる。AIのスキルがない初心者レベルでもできる業務効率化やAIツールを紹介。中の人はSEO歴５年、HubSpot歴１年