JASジャーナル目次

2024spring

地上デジタル放送の高度化に係わる
音声符号化方式

ARIBデジタル放送システム開発部会
音声符号化方式作業班
主任　浦野丈治（日本テレビ放送網）
委員　中山靖茂（日本放送協会）

はじめに

2019年、地上デジタル放送方式の高度化（以下、地デジ高度化方式と称する）に係わる技術的条件について情報通信審議会・放送システム委員会にて検討が開始された^[1]。具体的検討の場として、当委員会傘下に地上デジタル放送方式高度化作業班（以下、情通審作業班と称する）を設置するとともに、高度化に資する技術方式の提案募集が行われた。

音声符号化方式においては、これまでの総務省の研究開発・技術試験事務等で先行して検討中の方式、および提案募集に対する方式提案を受け、MPEG-4 AAC、MPEG-H 3DAudio、Enhanced AC-3、AC-4の4方式を検討対象とし、各方式の比較評価を行うこととなった。

この比較評価は、情通審作業班からの検討依頼を受け、電波産業会（ARIB）デジタル放送システム開発部会・音声符号化方式作業班を中心に対応した。具体的には、音声符号化方式作業班に加え、オブジェクトベース音響の検討、主観音質評価の実施においてARIBスタジオ設備開発部会（スタジオ音声作業班、音声品質評価法作業班）と共同で検討体制を構築し作業を進め、検討結果について2021年2月（方式概要・比較報告^[2]）、2021年10月および2022年2月（主観評価実験中間報告^[3]、最終報告^[4]）に情通審作業班に報告した。

以下、地デジ高度化方式の音声符号化方式の検討における想定サービス、それを実現するためのオブジェクトベース音響の概要を解説するとともに、ARIBで実施した具体的な検討内容と結果の概要を紹介する。

想定サービスと音声符号化方式

地上デジタル放送の高度化の技術検討にあたり、新しい音声サービスとしてパーソナライズ（個人適用）サービスを想定して検討を進めた。例えば2か国語放送の場合、現在の放送では日本語と英語の番組をそれぞれ符号化・放送し、受信機側で符号化ストリームを切り替えているが、地上デジタル放送の高度化では、これを日本語、英語のナレーションと背景音をミックスせず個別に符号化し、それら音声による番組を構成するためのメタデータとともに放送し、受信機で必要な音声信号（例えば英語のナレーションと背景音）だけを統合することで実現する。

ナレーションや背景音などの音声オブジェクトを個別に放送することにより、ナレーションや背景音、音楽、効果音の音量を個別に調整することでナレーションを聞き取りやすくしたり、日本語が非ネイティブの方に情報を伝えるため多くの言語を追加して効率的に多言語対応したりするなど、視聴者の好みに合わせた音声サービスをきめ細かく提供できる。また、マルチチャンネル音響においても家庭のスピーカー配置や視聴環境に最適化することも可能となる。

このようなパーソナライズサービスを実現するためには、オブジェクトベース音響で制作された番組音声に対応した最新の音声符号化方式が必要であり、今回の検討ではMPEG-H 3DAudio、Enhanced AC3、AC-4の3方式がその対象となった。

図1　オブジェクトベース音響を用いた
パーソナライズサービス^{[4] 一部改}

以下、チャンネルベース音響、オブジェクトベース音響、オブジェクトベース音響に対応した符号化方式の構成について説明する。

①チャンネルベース音響

放送局の番組制作では、各音の素材（ナレーションのようなダイアログ、背景音、効果音等）を収音して最終的に一つ（または複数）のチャンネル構成（例えば、2chステレオや5.1ch）にまとめて放送される。受信側ではチャンネル構成（2chの場合は左チャンネルと右チャンネル）に対応するスピーカーから再生することにより、視聴者は制作意図を保ったまま番組音声を楽しむことができる。このように制作時のチャンネル構成と受信機側の再生チャンネル構成が同一であることを前提に受信側のスピーカーを直接ドライブする信号を制作/伝送する方式をチャンネルベース音響と呼ぶ。（図2）

図2　チャンネルベース音響^{[2] 一部改}

②オブジェクトベース音響

ナレーションや背景音、音楽や効果音などの音の素材を個別に位置やレベルなどを記述したメタデータとともに伝送し、受信側でメタデータを基に番組音声を再構成してスピーカーをドライブする信号を出力する方式をオブジェクトベース音響と呼ぶ。（図3）

図3　オブジェクトベース音響^{[2] 一部改}

③オブジェクトベース音響に対応した音声符号化方式

オブジェクトベース音響に対応した音声符号化方式の基本的な構成について説明する。符号化処理は概して3つのブロックに分かれている。（図4）

コア符号化
背景音やダイアログなどの音声信号とメタデータが入力され、それぞれの信号を圧縮、多重化しビットストリームを生成出力する。コア符号化では圧縮伝送する総信号数をエレメント数と呼んでいる。例えば背景音として22.2ch（24個の音声信号）、ダイアログとして４個の音声信号を入力した場合、28エレメントとなる。最大伝送可能なエレメント数に制約がある場合（MPEG-H 3DAudio）や、指定されたビットレート内で制限なくエレメント数を入力可能な方式（Enhanced AC-3/AC-4）もある（この場合、符号化の過程でエレメント数を聴感上影響がないよう削減する必要がある）。
コア復号
ビットストリームから背景音信号やダイアログなどの音声信号、メタデータを復号（デコード）する。一般にビットストリームに記録された音声信号のうち、同時にデコードできるエレメント数に制限がある。しかし、ビットストリームから復号する音声信号をユーザーインタラクションにより選択することで同時デコード数より多くのエレメントを利用できる場合がある。
レンダラー
コア復号で復号された背景音、ダイアログ音声、メタデータに加え、ユーザーインタラクション情報に基づき再生環境のスピーカー配置に即したスピーカーをドライブする信号を生成する。レンダラーには背景音とダイアログをミックスするミキサー、各音声信号のダイナミクスを制御するDRC（Dynamic Range Compression/Control）、音声オブジェクトを空間上にマッピングするパンニング、スピーカー配置の信号数に変換するためのチャンネル数変換など、放送用音声卓の基本機能が凝縮したものといえる。

図4　オブジェクトベース音響に対応した音声符号化方式の基本的な構成 ^[2]

ARIBにおける技術検討の概要

(1)方式概要・比較評価^[2]

4方式の技術的概要をまとめるとともに、「5.1chを超えるマルチチャンネル音響の音声信号の高効率圧縮」「オブジェクトベース音響」を主な評価ポイントとして比較評価を行った。

高効率圧縮の観点では、最新のMPEG音声符号化方式（2015年標準化）であるMPEG-H 3DAudioで768kbps/22.2ch（MPEG-4 AACの約50%）、2015年にETSI標準化されたAC-4で192kbps/5.1ch、288kbps/7.1.4chで放送品質を実現することを文献調査により確認するとともに、主観評価実験（コア符号化およびレンダラー）を実施した（後述）。

また、オブジェクトベース音響の観点では、前述の通りMPEG-4 AACを除く3方式がオブジェクトベース音響にも対応した音声符号化方式である。なお、レンダラー機能（再生側での音声信号のマッピング）においては、MPEG-H 3DAudioは3D VBAP（Vector Based Amplitude Panning、極座標ベース）、AC-4はTriple Balance Panner（直行座標ベース）という違いがある。

(2)主観評価実験（ビットレートと品質、レンダリング技術）の実施^[3]^[4]

2021年2月の文献調査による品質評価は、各標準化団体で実施したデータの条件が揃っていないこと、またオブジェクトベース音響のサービスを想定したコンテンツによる評価データがないことから、提案された4方式の品質評価の比較が困難であった。また、オブジェクトベース音響におけるレンダラーは再生品質に影響を与えるが、その評価方法が定まっていなかった。そのためARIBにてビットレートと品質、レンダリング技術に関する主観評価を実施し、提案方式間の比較評価を行った。

①コア符号化のビットレート

4方式の符号化音の音質を主観評価実験により確認し放送品質を満たすビットレート（所要ビットレート）を算出する目的で実施した。所要ビットレートの導出にあたっては、再生側で音声オブジェクトの再生レベルを変化させても放送品質を満たすよう、単一の背景音やモノオブジェクトだけで再生しても放送品質を担保するビットレートとした。

その結果、MPEG-H 3DAudioとAC-4の2方式が他より所要ビットレートが低くなった。MPEG-H 3DAudioとAC-4のチャンネル構成における、所要ビットレートを表1に示す。

表1　放送品質を満足するビットレート^{[4] 一部改}
音声符号化方式	チャンネル構成
音声符号化方式	22.2ch	7.1.4^*1	5.1ch^*2	2ch（ステレオ）	1ch（モノ）
MPEG-H 3DAudio	512kbps	192kbps	－	96kbps	64kbps
AC-4	768kbps	256kbps	－	－	48kbps

*1：符号化が難しい音源が集まらなかったため参考値　
*2：5.1chの場合、実験では放送品質を見出すことができなかった

②レンダリング技術

MPEG-H 3DAudioおよびAC-4の2方式について、レンダリング技術の違い（3D VBAP、Triple Balance Panner）による音源位置の再現性能の違いによる音声品質への影響について評価実験を行うとともに、再生環境（スピーカ配置）への適応方法の違い（Egocentric：極座標ベース、Allocentric：直交座標ベース）に対する音声品質の影響ついても評価実験を実施した。

その結果、音源位置の再現性能については、一部で方式間の有意差が認められたものの、どちらか一方の音声符号化方式が優れた結果とはなっていないとの結論となった。また、再生環境への適応については、音声符号化方式による差があるとは言えないとの結論であった。

(3)技術的条件^[5]

以上の比較評価の結果、地デジ高度化方式に相応しい高効率な符号化方式であり、オブジェクトベース音響にも対応可能なMPEG-H 3DAudio、AC-4の2方式に絞り、音声符号化方式の技術的条件の検討を実施した。

検討にあたっては、2方式間で方式選定の可否に関わる明確な差が認められなかったことから、2方式ともに地デジ高度化方式の音声符号化方式として選定し技術的条件の詳細検討を進めた。2023年3月の情通審作業班、同年4月の放送システム委員会への報告^[5]を経て、同年7月に情報通信審議会に諮問・答申が行われた。

地デジ高度化方式に係わる音声符号化方式の技術的条件を表2に示す。

表2　音声符号化方式の技術的条件^[5]

音声入力フォーマット
項目	値
標本化周波数	48kHz
入力量子化ビット数	16ビット以上
対応する音声信号	オブジェクトベースチャンネルベース
最大入力チャンネル数	56ch

音声符号化方式
	MPEG-H 3DAudio	AC-4
準拠規格	ISO/IEC 23008-3	ETSI TS 103 190-2
プロファイル	Baseline	規定なし
ビットストリーム形式	MHAS形式※	Raw_ac4_frame形式

※MHAS: MPEG-H Audio Stream

2024年4月現在、答申を受けた制度整備（省令・告示化）が進められ、併せてARIBにて音声符号化方式他の標準規格の策定作業が進められている。

国外の放送規格の状況

国外でもオブジェクトベース音響に対応した符号化方式を採用している。参考情報として、ここでは代表的な国外の放送規格での採用状況について概要を紹介する。

①DVB

DVB（Digital Video Broadcasting:デジタルビデオ放送）は欧州を中心に採用されている国際的なデジタルテレビ放送のための公開標準規格である。DVBでは放送やIPベースでの配信などを目的として映像・音声の符号化方式を利用する際のガイドライン（DVB Document A001）が規定されている。音声符号化方式についてはMPEG-4 AAC、MPEG-H 3DAudio、Enhanced AC-3、AC-4などが採用されており、各方式に対して制約事項が規定されている。

②ATSC

ATSC（Advanced Television Systems Committee：米国高度化テレビジョンシステム委員会）は米国のデジタルテレビ規格を検討している組織であり、北中米と韓国がこの方式を採用している。ATSCは地上デジタル放送規格ATSC1.0と互換性を考慮しない次世代地上デジタル放送規格ATSC 3.0の標準化を2017年6月に完了し、2017年2月にATSC A/342 part 2 “AC-4 System”、2017年10月にATSC A/300 “ATSC 3.0 System” 標準規格が承認された。ATSC 3.0では音声符号化方式にAC-4またはMPEG-H 3DAudioを採用し、サービス提供地域により符号化方式を選択可能としている。北米（米国、カナダ、メキシコ）ではAC-4を採用し、米国において商用放送が行われ、対応受信機が販売されている。また、2017年ATSC 3.0による放送を開始した韓国の4Kテレビ放送では、音声符号化方式としてMPEG-H 3DAudioを採用し、対応した受信機が販売されている。

③SBTVD Forum

SBTVD Forum（Sistema Brasileiro de Televisão Digital Forum）はブラジルのデジタル放送規格を開発する機関であり、ブラジル以外に、ペルーやアルゼンチンをはじめとする南米諸国で採用されている。
2006年にＴV2.0によるデジタル放送を開始し、音声符号化方式としてMPEG-4 AACを採用している。2020年5月にHDR、Immersive AudioやDTV Play（VODサービス）の拡張を目的にTV 2.5を開始し、地上波放送規格ABNT NBR 15602-2:2020にMPEG-H 3DAudio、Enhanced AC-3、AC-4を採用した。TV 2.5はTV 2.0との後方互換性を担保するため、MPEG-4 AACとともに追加された音声符号化方式をサイマルで放送することとしている。サッカー中継などでEnhanced AC-3を使用した5.1.2ch（7.1ch）によるサービスを実施している。

TV 2.0に代わる新しいオープンTVシステムであるTV 3.0の標準化について、2020年7月に国際公募（Call for Proposals）が行われ、音声符号化方式として、MPEG-H 3DAudio、AC-4、AVSA（Audio and Video coding Standard Audio codec：中華人民共和国のオーディオ符号化規格）が提案され技術評価がすすめられていた。その結果、2022年に放送用の必須音声符号化技術としてMPEG-H 3DAudioの採用が決まった。

参考文献

[1] 情報通信審議会　情報通信技術分科会　放送システム委員会（第68回、令和元年7月8日開催）↑
https://www.soumu.go.jp/main_sosiki/joho_tsusin/policyreports/joho_tsusin/housou_system/02ryutsu08_04000358.html
[2] 音声符号化方式検討中間報告【電波産業会】
情報通信審議会　情報通信技術分科会　放送システム委員会　地上デジタル放送方式高度化作業班（第8回、令和3年2月9日開催）配布資料 ↑ ↑ ↑ ↑ ↑
https://www.soumu.go.jp/main_content/000733115.pdf
[3] 音声符号化方式に関する主観評価実験報告（中間報告）【電波産業会】
情報通信審議会　情報通信技術分科会　放送システム委員会　地上デジタル放送方式高度化作業班（第12回、令和3年10月7日開催）配布資料 ↑ ↑
https://www.soumu.go.jp/main_content/000772672.pdf
[4] 地上デジタル放送方式高度化に関わる適用技術検討作業音声符号化方式の比較検討　最終報告（概要）【電波産業会】
情報通信審議会　情報通信技術分科会　放送システム委員会　地上デジタル放送方式高度化作業班（第13回、令和4年2月18日開催）配布資料 ↑ ↑ ↑ ↑
https://www.soumu.go.jp/main_content/000795464.pdf
[5] 地上デジタル放送方式高度化作業班報告　概要　情報通信審議会　情報通信技術分科会　放送システム委員会（第77回、令和5年4月28日開催）配布資料 ↑ ↑ ↑
https://www.soumu.go.jp/main_content/000879769.pdf

執筆者プロフィール

: 浦野丈治（うらのじょうじ）
1961年生まれ。1986年、東京工業大学理工学研究科情報工学専攻修士課程修了。同年、日本テレビ放送網（株）入社後、高画質テレビジョンやデジタル放送規格化など技術開発業務、制作技術業務（調整）、技術渉外業務などに従事。また、電波産業会（ARIB）ではデジタル放送システム開発部会副委員長、音声符号化方式作業班主任などを務める。趣味はバンド演奏とテニス。

: 中山靖茂（なかやまやすしげ）
1968年生まれ。1994年、岩手大大学院工学研究科電子工学専攻修士課程修了。同年、日本放送協会入局。放送技術研究所にて立体音響、音声符号化技術などの研究開発業務、技術局にてテレビスタジオなどの音声制作設備の整備を担当。現在、放送技術研究所にてコンテンツ制作に関する研究プロジェクトリーダーを務める。ARIB音声符号化方式作業班委員。趣味は、登山、ウルトラウォーキング、美術鑑賞、ライブ参戦。