@ NTTは生成人工知能(AI)を活用し、その人の声や話し方を本物そっくりに似せて再現する「音声合成技術」を開発したと発表しました。これまで個人の特徴を学習し再現するには大量のデータが必要でしたが、新技術は数分〜10分程度の音声データを機械に読み込ませれば声の合成が可能となりました。また、性別や年代による声色の特徴を高いレベルで再現するだけでなく、同じ言葉でも「平静」「喜び」「悲しみ」など、感情に変化をつけて発声できるようになりました。
A 技術の実演では、短い会話から高齢者の声音や話し方の特徴をとらえ、本人と聞き間違えるほどの合成音声に成功しました。NTTの説明によると、将来的には自分の代わりに他人と会話する「デジタル分身」を誰もが持てるようになるとのことです。また、実際には自分自身がそこに参加していなくても、(命令されなくても)自律的に活動する分身が(インターネットの)仮想空間上で、自分の代わって、まるで自分のように自分らしく会話してくれるようになるとのことです。
B これが可能になると、会話している相手は本人なのかAI音声なのか区別が付かなかったり、フェイク(にせもの)音声が出回ったりするなど、ゆゆしき(見過ごせない)世の中になる可能性があります。しかし、その一方で病気などで失語した(話せない)人の声を復活させたり、他界した人(亡くなった人)とリアルな会話ができたりといった活用が見込まれています。