2022年11月18日08時03分 / 提供:マイナビニュース
2022年10月25日、MetaのFundamental AI Research team(FAIRチーム)は、AIを使って音声データを圧縮する技術「Encodec」の開発を発表した。この技術は、音声データの品質を保ちながら、64kbpsでMP3と比較して約10倍の圧縮率を達成したという。では、このMetaのAIを使った音声データ圧縮技術とはどのようなものなのか、どのような点がすごいのか、今回は、こんな話題について紹介したいと思う。
AIで音声データを圧縮する「Encodec」とは?
データ圧縮技術は、わたしたちの普段の生活にはなくてはならないものだ。皆さんがご存知の圧縮技術形式には、例えばzip、jpeg、mpegなどがあるだろう。データ圧縮とは、ファイルのデータを再エンコードして元のファイルよりも少ないビット数で保存し、ファイルのサイズを小さくするプロセスのことだ。不要な情報のビットを削除することでファイルサイズを減らす非可逆圧縮や、情報を1ビットたりとも削除せずにファイルサイズを減らす可逆圧縮などがある。
ではなぜMetaは、AIを活用した音声データ圧縮技術を開発したのだろうか。Metaは次のように述べている。
"Most classic codecs leverage human hearing knowledge (psychoacoustics) but have a finite or given set of handcrafted ways to efficiently code and decode the file. We are probably close to the limit of what handcrafting can give us, which is why it’s important to explore new techniques."
つまり、ファイルを効率的にコーディングおよびデコードするためのハンドクラフト(手作り的な手法)には限界が近づいているため、AIを活用した新しい技術を開発する必要があるというのだ。
今回Metaが開発したEncodecは、大きく3つの要素で構成されている。1つ目が、圧縮されていないデータを取得し、それを高次元で低フレームレートの表現に変換するエンコーダ。2つ目が、エンコーダで変換した表現をあるターゲットサイズに圧縮する量子化器。3つ目が、圧縮された信号を可能な限りオリジナルに近い波形に戻す非可逆圧縮のデコーダだ。
この技術は、音声データの品質を損なうことなく64kbpsでMP3と比較して約10倍の圧縮率を達成したという。Metaは、従来からこのような音声データに関する圧縮技術を開発する試みはあるが、音楽配信の標準である48kHzサンプリングのステレオオーディオで実施したのは、同社が初めてだとしている。
いかがだっただろうか。今回のMeta のEncodecは音声データに関する圧縮技術であるが、Metaでは、今後ビデオ関連の圧縮技術についても開発を進めていくという。さらに、ネットワークの状態が悪いときでも、より高速で高品質の通話をサポートし、大幅な帯域幅の改善を必要とせずにリッチなメタバースエクスペリエンスを提供することを目指すという。
齊田興哉 さいだともや 2004年東北大学大学院工学研究科を修了、工学博士。同年、宇宙航空研究開発機構(JAXA)に入社し、2機の人工衛星プロジェクトチームに配属。2012年日本総合研究所に入社。官公庁、企業向けの宇宙ビジネスのコンサルティングに従事。 現在は、コンサルティングと情報発信に注力。書籍に「宇宙ビジネス第三の波」、「図解入門業界研究 最新宇宙ビジネスの動向とカラクリがよ~くわかる本」など。テレビ、新聞、Webサイト、セミナー・講演も多数。 この著者の記事一覧はこちら