世界初、音の波をハイスピードカメラとAIで高精細に見える化 ~深層学習と光計測を組み合わせた高感度な音のイメージングを実現~
- ハイスピードカメラとレーザー光およびAI処理を用いた音の見える化技術を開発しました
- 音の物理特性を考慮した独自の深層学習モデルを用いたノイズ除去により高精細に音場をとらえることが可能になりました
- 本成果は音響デバイスの設計や音に関わる現象のさらなる理解、将来的には「音のデジタルツイン」実現への貢献が期待されます
本成果は6月24日より開催される、コミュニケーション科学基礎研究所オープンハウス2024に出展いたします。
1.研究の背景
音は日々の生活に身近な存在であり、会話などの音声コミュニケーション、スピーカーやヘッドホン等による音楽鑑賞やウェブ会議、様々な騒音、超音波を使ったセンサーなど、身の回りに溢れています。
人間は音を聞くことでその音色や響き、音が鳴った方向など様々な情報を得ることができます。音は空気の圧力変動であり、ある地点で発生した音は、波として空気中を伝わっていきます。その様子は、水面に投げ入れられた石が作る波紋が周囲に一定の速度で広がっていく様子に似ています。しかし、音は水面とは異なり目で直接見ることができないうえ、反射や回折をともなって空間中を複雑に伝搬するため、音がどのように発生し伝わっていくかを把握することは困難です。 NTTでは、誰にとっても心地のよい最適な音環境を創出するための研究開発に取り組んでおり、音を聞くのではなく「見る」ことを可能とすることで、音に関する様々な課題を解決できると考え、光を用いて音場(※1)を見える化する技術「光学的音場イメージング」(※2)の研究を進めてきました。
光学的音場イメージングは、目に見えない音を光の明るさに変換する特殊なイメージング装置を用いることで、ある瞬間の音の波紋の形を写真を取るようにそのまま画像として記録する技術です。一般に音の空間特性の測定に用いられるマイクロホンアレイと比較すると光学的音場イメージングは約100倍の空間分解能を有しています(表1)。これによって音の波がどこからどのように伝わっていくのかを、文字通り「見る」ことができるようになります。しかし光学的音場イメージングでは非常に小さな信号の変化を検出する必要があるため相対的に光学的なノイズの影響が大きく、これまで高感度かつ高精細に音を見える化することは困難でした。
2. 研究の成果
本成果では、光学的音場イメージングおよび独自の深層学習モデルを用いて、音を動画像として捉える光学的音場イメージングの大幅な高精度化に成功しました。その結果、従来技術では検出することのできなかった微弱な音の波を、高精細にイメージングできることを示しました(図2)。ハイスピードカメラにより撮影されたノイズを多く含む画像に対して、画像中に含まれる微弱な音波成分のみを高感度に抽出するニューラルネットワークを適用することにより、高精細な音の画像化が実現されます。図2は光学的音場イメージングにより撮影された音場画像を60マイクロ秒ごとに示したもので、左から右に向かって音波が伝搬しています。本成果によるAI処理によって音の波が空気中を伝わる様子が鮮明に捉えられていることが分かります。
3.技術のポイント
①音を動画像として捉える光学的音場イメージング技術
光学的音場イメージング技術では、光を用いて空気中の音を検出します(図3)。音は空気中を粗密波として伝わりますが、音響光学効果(※3)と呼ばれる現象により、音がある空気中を光が通過する際に気体の粗密に応じて光の速さが僅かに変化します。レーザー光を測定したい音場内に伝搬させ、干渉計などの光学技術を用いて音によって生じた光の微弱な変化を高感度に検出することにより音が測定されます。このような光の変動をハイスピードカメラ用いて毎秒数千~数十万フレームの速さで撮影することにより、音波を動画像として捉えることができます。
②独自の深層学習モデルによる雑音除去
光学的音場イメージングでは、音によって生じる光信号の変化が微小であることから、撮影された画像の中から音の波を高精細に見える化することは困難でした。特に高感度な測定においては、レーザー光や撮像素子に含まれる光学的なノイズが、音の可視化品質を著しく低下させてしまっていました。本成果では、ハイスピードカメラにより撮影された動画像の中から、不要なノイズを除去し、音波のみを見える化する独自の深層学習モデルを新たに考案し、高精細な光学的音場イメージングを実現しました(図4)。独自のモデルでは、音の物理的な性質に基づいた演算により人工的に生成した訓練画像を用いて、ニューラルネットワークの学習を実施しました。さらに、動画像を周波数毎に独立して処理する独自アルゴリズムにより、従来手法を大幅に上回る高精度なノイズ除去処理を実現しました(図5)。
4.今後の展開
NTTはIOWN構想の中でデジタルツインコンピューティングを提唱し、その研究開発を進めています。本研究の成果は、音を見える化するのみならず、空間に存在する音を余すところなくデジタル化する「音のデジタルツイン」技術への活用が期待されます。今後さらなる研究進め、誰にとっても心地のよい最適な音環境の創出に貢献してまいります。
【注1】
K. Ishikawa, D. Takeuchi, N. Harada, and T. Moriya “Deep sound-field denoiser: optically-measured sound-field denoising using deep neural network,'' Opt. Express, vol.31, no.20, pp.33405-20, 2023.
【用語解説】
※1 音場
音が存在し、その音が伝わっていく空間のことです。ここでは音の物理量である音圧がある時刻ある位置でどのような値となるかを数値的に表したものです。
※2 光学的音場イメージング
光を用いて音場を可視化する技術です。音響光学効果(※3)によって音によって生じた光の微弱な変動を、光干渉計などを用いて検出します。特に、カメラを用いて画像として音場を捉えることによって、音の見える化、すなわち音場イメージングを行うことが可能です。
※3 音響光学効果
音が存在する空間を光が伝搬する際に、音によって光の特性が変化する現象のことです。音は媒質の密度変化であるため、そこを通る光の伝搬速度を変化させます。媒質の違いや音の大きさや周波数の違いによって様々な効果が現れます。空気中の音を対象とする場合、光の位相と呼ばれる量が、ごくわずかに変化します。このごくわずかな変動を高感度に検出することで、光を用いて音を測定することができます。