その1 生成AIアプリのインストーラ pinokio
生成AIは、個人的には文書生成やコード開発、会社では事務処理の自動化等で定着し始めていますが、ほかの分野でも多くのアプリが作られているようです。動画生成や音楽生成等で俳優や作曲家の将来はどうなるのというような話題を耳にするようになりました。また、中高生がフェイク音声や動画などを使って詐欺罪で捕まるというニュースもありました。押収された機器にはノートPCやスマホの他にラズパイ基板や、GPUボード搭載のタワー型PCがありました。おそらくゲームオタクが高性能のGPUを使って生成AIでフェイク動画等を作ってしまったということだと思います。好奇心を持つことは良いのですが犯罪に手を染めてしまったのが残念です。この少年たちが短期間で生成AIアプリを使えるようになった背景には、pinokioなどの生成アプリインストーラの存在があったと思います。今回はpinokioを使用して少年たちのプロファイリングをしようと思います。まず、pinokioとは何かを説明した資料を示します。

次にpinokio本体のインストール方法を示します。インストールは簡単ですが、各種AIアプリをインストールする場合、数十GBの領域が必要です。また、大半のアプリは12GB以上のVRAMを持つGPUが必要です。普通のノートPCだと無理です。

2025年6月7日時点で、Discoveryボタンを押しても表示されない不具合が発生していますが、ボタンを押すとアプリのアイコンが表示されます。

それでは、作曲AIアプリ「YuE」をインストールしてみます。アイコンをダブルクリックするだけで、完全自動で個別環境を作りインストールしてくれます。モデル読み込みなどで数十分くらい掛かりました。作曲AIとしては、以前「Magenta」を紹介ました。https://twinkletec.org/2024/12/24/gpt-llm-llama2-diffusers-magenta/ Magentaは数年前の作曲AIで、歌詞を入力してボーカルを加えることはできませんでした。その後「SunoAI」というボーカルを加えることのできるアプリが登場しましたが、ローカル非対応や制約が多いこともありヘビーなユーザー向けでした。ところがつい最近、中華「Suno」版のような「YuE」がpinokioに対応しました。

早速試してみました。プロンプトで「アップテンポなポップスとジャズピアノ風な曲」を指定し、日本語の対応が怪しいので適当な歌詞を英語で入力しました。処理には、20分くらい掛かりましたが、30秒程度の曲が仕上がりました。

その2 生成AIによる3Dモデル生成
前回に続いてpinokioの話ですが、中国のテンセント社(マイコンで有名)から3D合成をAIで行う「Hunyuan3D-2.0」がリリースされています。これを試してみました。何をするAIかというと彫刻家みたいなやつです。写真から立体を造形します。

試しに3枚の画像を入力して3D合成してみました、RTX2060_12GBで5分くらいです。Shape Generationは3次元の形状を予測する部分で、Texture Synthesisは表面に絵付け(着色)する部分の2段階で構成されています。造形職人と絵付け職人の2人作業です。

次に、アボカドの120度毎の赤外画像からアボカドの皮下の状態を3D合成してみた例を示します。上3枚が3面撮影画像です。3D合成したものを比較のため、同じ方向から見た3D画像を表示しました。

Shape Generation職人はきちんと仕事をしているようですが、Texture Synthesis職人は想像力が強すぎてシール面を背中と見立てて反対方向に顔みたいなものを描いてくれたようです。要するに3Dプリンタの出力には使えますが、システムプロンプト等を追加しないと(このアプリではダメ)欠陥位置の正確な描写はできないようです。プラモデル作りが好きな人のために、1枚の画像からどこまで立体を合成できるかを試験してみました。1枚の画像からでもそこそこ合成できています。職人たちが良い仕事をしたようです。

その3 動画生成AIなど
次に紹介するのは動画生成です。アリババクラウドがリリースした動画生成AI Wan2.1 です。最低12GBのVRAMで動作するとのことで、RTX3060_12GBで試しました。10秒の動画を作るのに20分くらい掛かりました。

早速、ミルククラウンのスローモーション動画を作ってみました。プロンプトは英語で入力する必要があります。時系列的に区切って以下を入力しました。

ここからは、フェイク系の生成AIです。ニュースでお年寄りがオレオレ詐欺の被害にあう時代から、思慮分別のある中年層がロマンス詐欺にあう時代に変わってきています。原因の一つには、スマートフォンを介した詐欺ツールが充実してきたためだと思います。ローカル生成AIは、足跡を付けずに詐欺コンテンツを作ることができます。考えてみれば恐ろしいですね。まず「Face Fusion」ですが、その名のとおり顔を入れ替えた動画を生成するツールです。亡き安倍首相の街頭演説をトランプさんに変更するようなことができます。

pinokioを介して「Face Fusion」を試してみました。まず、satble_diffusionで日本人とアメリカ人女性の画像を生成し、顔を入れ替えてみました。簡単です。免許証などの捏造が心配です。

次は「Live Portrait」という、静止画の口元を動かしあたかもしゃべっているかのようなドッキリアプリです。詐欺には使えないと思います。口を動かすパターンはいくつか用意されています。複数の人物が映った写真を使うと同期して口元を動かすので不気味です。

人間だけでなく、動物の口元も動かせるようなので、私のPCの背景に使っている寝そべった犬の写真を使ってみました。出力は動画ファイル以外にgifファイルも生成してくれます。

顔の部分だけが抽出されました。Gifファイルを貼り付けておきます。

最後に、「Hello2」を紹介します。これは結構やばいツールかもしれません。写真1枚あれば、任意の音声ファイルと同期して口もとの動きを生成します。あたかもその写真の人物が話しているかのような動画を生成します。スマートフォンで本人に成りすました動画メッセージ等を送られたら、思慮分別がやや衰退期にある私のようなシニア層は、コロッと騙されると思います。

早速実験してみました。身内の写真を使うとよくないので少女の写真を「stable_diffusion」で生成しました。音声も身内のものを使うとよくないので、「OpenJTalk」を使い合成しました。生成した音声は「おはようございます。良い天気ですな。」です。すごく自然な動画になりました。



