PersonaPlex - リアルタイム全二重音声対話モデル

NVIDIA が公開したリアルタイム音声対話モデル。人間の発話の途中で割り込んだり、相槌を打ったりする、極めて自然な会話体験を提供します。

リポジトリ概要

PersonaPlex は、低遅延かつ全二重（フルデュプレックス）な音声対話を実現する最新の AI アーキテクチャです。従来の「話が終わるのを待ってから処理する」ターンベースの対話とは異なり、聞きながら同時に考え、応答を生成することが可能です。これにより、自然な会話におけるターン交代や相槌、割り込みなどが再現されます。

主な特徴と機能

フルデュプレックス対話: 同時に聴取と発話を行うことができ、ユーザーの反応に合わせて応答を即座に調整できます。
ペルソナ制御: テキストベースの役割定義だけでなく、音声の条件付けによって、キャラクターの性格や話し方を柔軟に制御可能です。
Moshi アーキテクチャ継承: Kyutai の Moshi フレームワークをベースに、NVIDIA の推論最適化技術を組み込んで構築されています。
高品質なプリセット音声: 自然な抑揚を持つ複数の音声プリセット（NAT、VAR）が同梱されています。

最近のアップデート (2026年4月)

最新の Blackwell GPU シリーズへの最適化が完了し、評価用ベンチマーク「FullDuplexBench」への対応が行われました。これにより、実用的な対話エージェントとしての性能が飛躍的に向上しています。

導入と活用方法

NVIDIA の公式リポジトリから重みとコードをダウンロードします。
NVIDIA GPU 環境で推論サーバーを起動します。
提供されている Python SDK または API を介して、独自のフロントエンドやアプリケーションに統合可能です。

まとめ

PersonaPlex は、AI とのコミュニケーションを「操作」から「対話」へと進化させる重要なマイルストーンです。カスタマーサポート、バーチャルキャラクター、教育アシスタントなど、あらゆる音声対話の場面で革命的な体験をもたらすでしょう。

ソースリンク

NVIDIA/personaplex