リポジトリ概要
PersonaPlex は、低遅延かつ全二重(フルデュプレックス)な音声対話を実現する最新の AI アーキテクチャです。従来の「話が終わるのを待ってから処理する」ターンベースの対話とは異なり、聞きながら同時に考え、応答を生成することが可能です。これにより、自然な会話におけるターン交代や相槌、割り込みなどが再現されます。
主な特徴と機能
- フルデュプレックス対話: 同時に聴取と発話を行うことができ、ユーザーの反応に合わせて応答を即座に調整できます。
- ペルソナ制御: テキストベースの役割定義だけでなく、音声の条件付けによって、キャラクターの性格や話し方を柔軟に制御可能です。
- Moshi アーキテクチャ継承: Kyutai の Moshi フレームワークをベースに、NVIDIA の推論最適化技術を組み込んで構築されています。
- 高品質なプリセット音声: 自然な抑揚を持つ複数の音声プリセット(NAT、VAR)が同梱されています。
最近のアップデート (2026年4月)
最新の Blackwell GPU シリーズへの最適化が完了し、評価用ベンチマーク「FullDuplexBench」への対応が行われました。これにより、実用的な対話エージェントとしての性能が飛躍的に向上しています。
導入と活用方法
- NVIDIA の公式リポジトリから重みとコードをダウンロードします。
- NVIDIA GPU 環境で推論サーバーを起動します。
- 提供されている Python SDK または API を介して、独自のフロントエンドやアプリケーションに統合可能です。
まとめ
PersonaPlex は、AI とのコミュニケーションを「操作」から「対話」へと進化させる重要なマイルストーンです。カスタマーサポート、バーチャルキャラクター、教育アシスタントなど、あらゆる音声対話の場面で革命的な体験をもたらすでしょう。