AI M2ヘッドフォン：複数の話者を瞬時に翻訳

ワイヤレスイヤホンは常にピクセルの芽 Google Featureより即時翻訳すばらしい。過去数年間、Timkettle などのブランドは、ビジネス顧客向けに同様のイヤホンを提供してきました。ただし、これらのソリューションはすべて、翻訳時に一度に 1 つのオーディオストリームしか処理できません。

ワシントン大学 (UW) の研究者たちは、一度に複数の話者の音声を翻訳できる AI 搭載ヘッドフォンという実に驚くべきものを開発しました。混雑したバーにいる多言語話者が、同時にさまざまな言語を話している周囲の人々の話を理解できるところを想像してみてください。この革新は同時翻訳技術における飛躍的な進歩を表しています。

チームはこの革新技術を「空間音声翻訳」と呼んでおり、これは両耳ヘッドフォンを使用して実現されています。ご存じない方のために説明すると、バイノーラルオーディオテクノロジーは、人間の耳が自然に聞く音響効果とまったく同じようにシミュレートするものです。録音するには、ダミーの頭にマイクを取り付け、両側に人間の耳と同じ間隔をあけます。このテクノロジーは、2 つの異なるソースからのオーディオを録音して 3D リスニング体験を生み出します。

このアプローチは非常に重要です。なぜなら、私たちの耳は音を聞くだけでなく、音源の方向を測定するのにも役立つからです。全体的な目標は、ライブ感のあるコンサートのような感覚を提供できるステレオ効果を備えた自然なサウンドステージを作り出すことです。あるいは、現代的な文脈では、空間リスニングです。このテクノロジーは、リアルなサラウンドサウンドを提供することでユーザーエクスペリエンスを向上させます。

この研究は、シャム・ゴラコタ教授率いるチームによるものです。ゴラコタ教授は、水中GPSをスマートウォッチに搭載するアプリケーション、甲虫を写真家に変身させるアプリケーション、電子機器と連携する脳インプラント、感染症の音を聞き取るモバイルアプリ、そしてPlusといった技術開発の実績を有しています。これらの成果は、ゴラコタ教授の革新的技術における専門知識を際立たせています。

複数話者翻訳はどのように機能しますか?

「初めて、私たちは各人の声と彼らがどこから来たのかを記録しました」と、同研究所のポール・G・アレン・コンピューターサイエンス・エンジニアリング学部の現教授であるゴルコタ氏は説明する。

研究チームはこの技術をレーダーに例えている。レーダーはまず周囲のスピーカーの数を識別し、人々が聴取範囲内に入ったり出たりするとリアルタイムでその数を更新する。このアプローチは完全にデバイスベースであり、翻訳のためにユーザーの音声ストリームをクラウドサーバーに送信する必要はありません。ああ、プライバシー！

同グループは、音声を翻訳するだけでなく、「各話者の声の表現力と音量」も維持している。さらに、スピーカーが部屋の中を移動すると、方向と音量が調整されます。興味深いことに、Appleも開発中と言われている AirPodsが音声翻訳できるシステムリアルタイムで。

人工知能で瞬時の翻訳がどのように実現されるのでしょうか?

ワシントン大学 (UW) チームは、AI 搭載スマートヘッドフォンの翻訳機能を屋内外の約 12 か所でテストしました。パフォーマンスの面では、システムは 2 ～ 4 秒以内に翻訳された音声を受信、処理、生成できます。テスト参加者は3〜4秒の遅延を好むようですが、チームは翻訳プロセスを高速化するために取り組んでいます。

チームはこれまでスペイン語、ドイツ語、フランス語の翻訳のみをテストしてきましたが、将来的にはPlusをスイートに追加したいと考えています。技術的には、ブラインド音源分離、定位、リアルタイムの表現力豊かな翻訳、そしてバイノーラル配信を単一のストリームに凝縮しており、これは非常に印象的な成果です。この先進技術の統合は、同時通訳分野における飛躍的な進歩を表しています。

このシステムのために、チームはApple M2チップ上でリアルタイムに実行可能な音声翻訳モデルを開発し、リアルタイム推論を実現した。オーディオは、Sony WH-1000XM4 ノイズキャンセリングヘッドフォンと Sonic Presence SP15C バイノーラル USB マイクによって処理されました。

そして、ここが最高の部分です。「概念実証のマシンコードは他の人が利用するために公開されています」と財団のプレスリリースには記されている。これは、科学コミュニティとオープンソースソフトウェアコミュニティが、UW チームによって築かれた基盤に基づいて、より高度なプロジェクトから学び、それを基盤として構築できることを意味します。これにより、人工知能を活用した翻訳技術の将来的な発展への扉が開かれます。