AI M2ヘッドフォン:複数の話者を瞬時に翻訳
ワイヤレスイヤホンは常に ピクセルの芽 Google Featureより 即時翻訳 すばらしい。過去数年間、Timkettle などのブランドは、ビジネス顧客向けに同様のイヤホンを提供してきました。ただし、これらのソリューションはすべて、翻訳時に一度に 1 つのオーディオ ストリームしか処理できません。
チームはこの革新技術を「空間音声翻訳」と呼んでおり、これは両耳ヘッドフォンを使用して実現されています。ご存じない方のために説明すると、バイノーラル オーディオ テクノロジーは、人間の耳が自然に聞く音響効果とまったく同じようにシミュレートするものです。録音するには、ダミーの頭にマイクを取り付け、両側に人間の耳と同じ間隔をあけます。このテクノロジーは、2 つの異なるソースからのオーディオを録音して 3D リスニング体験を生み出します。
このアプローチは非常に重要です。なぜなら、私たちの耳は音を聞くだけでなく、音源の方向を測定するのにも役立つからです。全体的な目標は、ライブ感のあるコンサートのような感覚を提供できるステレオ効果を備えた自然なサウンドステージを作り出すことです。あるいは、現代的な文脈では、空間リスニングです。このテクノロジーは、リアルなサラウンドサウンドを提供することでユーザーエクスペリエンスを向上させます。
この研究は、シャム・ゴラコタ教授率いるチームによるものです。ゴラコタ教授は、水中GPSをスマートウォッチに搭載するアプリケーション、甲虫を写真家に変身させるアプリケーション、電子機器と連携する脳インプラント、感染症の音を聞き取るモバイルアプリ、そしてPlusといった技術開発の実績を有しています。これらの成果は、ゴラコタ教授の革新的技術における専門知識を際立たせています。
複数話者翻訳はどのように機能しますか?
「初めて、私たちは各人の声と彼らがどこから来たのかを記録しました」と、同研究所のポール・G・アレン・コンピューターサイエンス・エンジニアリング学部の現教授であるゴルコタ氏は説明する。

研究チームはこの技術をレーダーに例えている。レーダーはまず周囲のスピーカーの数を識別し、人々が聴取範囲内に入ったり出たりするとリアルタイムでその数を更新する。このアプローチは完全にデバイスベースであり、翻訳のためにユーザーの音声ストリームをクラウド サーバーに送信する必要はありません。ああ、プライバシー!
同グループは、音声を翻訳するだけでなく、「各話者の声の表現力と音量」も維持している。さらに、スピーカーが部屋の中を移動すると、方向と音量が調整されます。興味深いことに、Appleも開発中と言われている AirPodsが音声翻訳できるシステム リアルタイムで。
人工知能で瞬時の翻訳がどのように実現されるのでしょうか?
ワシントン大学 (UW) チームは、AI 搭載スマート ヘッドフォンの翻訳機能を屋内外の約 12 か所でテストしました。パフォーマンスの面では、システムは 2 ~ 4 秒以内に翻訳された音声を受信、処理、生成できます。テスト参加者は3〜4秒の遅延を好むようですが、チームは翻訳プロセスを高速化するために取り組んでいます。

チームはこれまでスペイン語、ドイツ語、フランス語の翻訳のみをテストしてきましたが、将来的にはPlusをスイートに追加したいと考えています。技術的には、ブラインド音源分離、定位、リアルタイムの表現力豊かな翻訳、そしてバイノーラル配信を単一のストリームに凝縮しており、これは非常に印象的な成果です。この先進技術の統合は、同時通訳分野における飛躍的な進歩を表しています。
このシステムのために、チームはApple M2チップ上でリアルタイムに実行可能な音声翻訳モデルを開発し、リアルタイム推論を実現した。オーディオは、Sony WH-1000XM4 ノイズキャンセリング ヘッドフォンと Sonic Presence SP15C バイノーラル USB マイクによって処理されました。
そして、ここが最高の部分です。 「概念実証のマシンコードは他の人が利用するために公開されています」と財団のプレスリリースには記されている。これは、科学コミュニティとオープンソース ソフトウェア コミュニティが、UW チームによって築かれた基盤に基づいて、より高度なプロジェクトから学び、それを基盤として構築できることを意味します。これにより、人工知能を活用した翻訳技術の将来的な発展への扉が開かれます。
コメントは締め切りました。