【史上初AI】Anytextが日本語文字画像を生成！概要と使い方解説

こちらの画像をご覧ください。これ、AIが作成致しました。日本最高！！

画像生成AIを勉強するなら以下の記事をご覧ください。

きょろ

これ、何がすごいって今までAIの画像生成において文字入れ機能はあったものの、すべて日本語には対応していないものばかりでした。日本語もAIで生成できるようになると今後ロゴや制作などクリエイティブ面で本格的な効率化が可能になります。

今日はそんな「Anytext」の概要と使い方を徹底解説します！

Anytextはアリババが開発した画像生成AIツールです。アリババは先進的なAI技術をどんどん開発しています。他にも下記記事にてアリババのAIツール技術を紹介しておりますので、是非ご覧ください。

この記事はこんな人におすすめ

・AI画像生成に日本語の文字入れをしたい
・何回指示文を打っても日本語がAI画像に入らない

Anytextとは？
Anytextと他の画像生成は何が違うの？
Anytextの使い方
【応用編】Anytextは漢字やひらがな、カタカナは入る？
Anytextの注意点
Anytext まとめ

Anytextとは？

Anytextより引用

Anytextは、アリババが開発した画像生成AIです。このAIは、日本語や漢字を上手に生成することができます。そのため、ユーザーは自分の思い描いたイメージを具現化することが可能になります。

Alibabaによって開発された新しい画像生成ツール「Anytext」は、画像にテキストを効果的に統合するための革新的なソリューションを提供しています。このツールは、テキストと画像の自然な融合を実現し、情報伝達を強化することを目的としています。特に、中国語と英語のテキスト生成において、顕著な能力を示すことが下記データよりわかっております。

Anytextより引用

簡単に説明すると、以下のような内容です。

これらのカラムにはそれぞれ以下の3つのサブカラムがあります：

Sen. ACC（文の正確さ）：文の構造や文脈におけるテキスト生成の正確さを測定していると思われます。上向きの矢印（↑）は、数値が高い方が良いことを示しています。

NED（正規化編集距離）：生成されたテキストと参照テキストとの類似性を測定しており、数値が低いほど、より少ない編集で済むため、テキストの質が高いことを意味します。上向きの矢印（↑）があるのは、一般には編集距離が低いほど性能が良いため、これは表記の誤りかもしれません。

FID（フレシェ・インセプション距離）：GAN（生成的敵対ネットワーク）によって生成された画像の品質を評価するために一般的に使用され、数値が低いほど実際の画像セットに近い画像であることを示します。下向きの矢印（↓）は、数値が低いほうが良いことを示しています。

きょろ

Sen. ACCを見るとAnyText-v1.0とAnyText-v1.1は、中国語において他の方法よりもすべての指標で顕著な改善を示しており英語とほぼ変わらないクオリティの成果をあげられていることがわかります。

ControlNetとTextDiffuserは、英語においてはまずまずの文の正確さとNEDスコアを持っていますが、中国語では特に文の正確さが低下しています。
GlyphControl†とGlyphControl‡は、パフォーマンスにばらつきがあり、後者は英語におけるNEDとFIDスコアが良いですが、中国語ではそうではありません。
AnyText-v1.0とAnyText-v1.1は、他の方法よりもすべての指標で顕著な改善を示しており、バージョン1.1がバージョン1.0よりも優れています。これは、特に中国語の指標で顕著で、AnyTextのバージョンは文の正確さが大幅に向上し、FIDが低下しており、より高品質なテキスト統合と自然に見える画像生成が行われています。

特にバージョン1.1のAnyTextが、英語と中国語の両方でテキストを画像に統合するのにより効果的であることが示されており、中国語の性能において顕著な優位性を持っていることがわかります。

Anytextは、画像内のテキストを作成または編集し、その雰囲気に合わせて調整する機能を備えています。さらに、中国語、英語、日本語、韓国語といった多様な言語に対応しており、幅広いニーズに応えることができます。このツールには、テキスト生成と編集の二つの主要機能があり、その使用例は公式Githubページで紹介されています。

サンプル一覧

また、「AnyWord-3M」という名前の多言語テキスト画像データセットも提供されており、この技術は広告、ソーシャルメディア、教育資料など、様々な分野での応用が期待されています。特に、日本語を含む多言語のテキストを美しく生成できる点が、ビジネス分野での活用を促進する要因となるでしょう。

このツールのソースコードはGithubで公開されており、技術的な詳細や具体的な応用例を確認することが可能です。AlibabaがリリースしたAnytextは、画像とテキストを融合させる新しい時代の幕開けを告げています。

Anytextと他の画像生成は何が違うの？

Anytextは、他の画像生成AIと比較して、アジア圏、中国はもちろんですが特に日本語や漢字の生成に優れています。例えば、DALLE-3は広範な画像生成能力を持っていますが、特定の言語や文字の生成には限定的です。実際に下記はChatGPTで日本語を入れようと何度も試しましたが「日本語」という文字の箇所が「Japanese」にトレースされてしまいます。

Anytextの使い方

Anytextの使い方は至って簡単です。

・Anytextへアクセス
・Examplesの4番目を選択
・プロンプトをいじる
・「Run」を押下

一つずつ見ていきましょう。

・Anytextへアクセス

Anytextへアクセスするとこんな画面になり混乱するかもしれません。
中国語に特化しているため無理もないです。

・Examplesの4番目を選択

したにscrollすると「Examples」見えます。

わけがわからないと思いますがこれはそういうものだと思って、上記4番目をクリックします。

するとプロンプトとあと墨のようなものが入っていたらOKです。

・プロンプトをいじる

プロンプトの””の部分を文字入れしたいものに入れ替えます。

「最強我」と中二病な文字を入れてみましたｗ

photo of caramel macchiato coffee on the table, top-down perspective, with “最強” “我” written on it using cream

・「Run」を押下

最後に「Run」を押下します。すると・・・

くっきりと入りました！

きょろ

今のところこのプロンプトですと4文字じゃないとうまくバランスがとれないようですね。

【応用編】Anytextは漢字やひらがな、カタカナは入る？

まずはひらがなから。「おはよう　我」と入れてみました。

きょろ

全くそっちの人間じゃないので安心ください。

絶妙にニュアンスは掴んでいるものの、難しいですね。

カタカナは大分いい感じに入りました！

プロンプト自体を変えてみました。

photo of desk, top-down perspective, with “オハヨウ” “我” written on it using cream

うん、いけますね！！

きょろ

カタカナと漢字はうまく入るみたいです。

Anytextの注意点

今現在できない事をまとめました。

・ひらがなははっきりとは映らない
・柔軟なプロンプトには対応していない
・画像から画像生成は現時点では不可
・あくまでAnytextは中国語に強いということ

きょろ

実際に漢字とカタカナが入るので何かサムネイルを作成する際やロゴの案出しにはうまく使えるのではないかと考えています。宇宙人を登場させるプロンプトを入れてみました。が・・・エラーとなりました。

Anytext まとめ

Anytextは、日本語や漢字を上手に生成することができる画像生成AIです。その使い方は簡単で、ユーザーは自分の思い描いたイメージを具現化することが可能です。これにより、新たなクリエイティブな表現が可能になります。

きょろ

趣味：業務効率化、RPA、AI、サウナ、音楽
職務経験：ECマーチャンダイザー、WEBマーケティング、リードナーチャリング支援
所有資格：Google AI Essentials,HubSpot Inbound Certification,HubSpot Marketing Software Certification,HubSpot Inbound Sales Certification
▼書籍掲載実績
Chrome拡張×ChatGPTで作業効率化/工学社出版
 保護者と教育者のための生成AI入門/工学社出版（【全国学校図書館協議会選定図書】）

突如、社内にて資料100件を毎月作ることとなり、何とかサボれないかとテクノロジー初心者が業務効率化にハマる。AIのスキルがない初心者レベルでもできる業務効率化やAIツールを紹介。中の人はSEO歴５年、HubSpot歴１年