『音による故障予知の教科書たたき台：3.3 量子化とビット深度』LLMと一緒に書いてみた—AIが導く研究メモ

2025年8月28日 2025年9月1日

3. 基本的な信号処理手法

3.3 量子化とビット深度

デジタル化では、連続的に変化する音の大きさを、一定の時間ごとに数値として記録する必要がある。このとき、時間方向の区切り方がサンプリング周波数で、縦方向の「大きさ」を何段階で表すかが量子化である。量子化で使う段階の細かさを決める設定がビット深度（量子化ビット数）で、1サンプルあたりの情報量が何ビットかを示す。例えば16bitなら65,536段階、24bitなら16,777,216段階で振幅を表せるため、ビット数が大きいほど細かな差を区別できる。[1]

ビット深度が音質に効く最も基本的な理由は、ダイナミックレンジ（扱える最小音から最大音までの幅）を左右するからである。リニアPCMでは、理論的に1bitあたり約6dBずつダイナミックレンジが広がるため、16bitで約96dB、24bitで約144dBとなる。この6dB/bitという経験則は広く用いられており、16bitの「約96dB」、24bitの「約144dB」という指標は多くの解説で一致している。一般に、人の聴覚のダイナミックレンジはおよそ120dB程度とされるため、24bit音声は非常に静かな音から大きな音までを余裕をもって扱えることになる。[2][3][1]

量子化では、連続値を離散段階に丸めるため、どうしても「本当の値」と「記録値」のわずかなずれが生じる。これが量子化誤差で、信号上は小さなノイズ（量子化雑音）として現れる。ビット深度を増やせば段階が細かくなり、この雑音は低く抑えられる。直感的に言えば、16bitより24bitの方が「底のノイズ」が下がるため、微小信号の再現や後段での増幅に強くなる。なお、量子化雑音は理想化した条件では白色ノイズとしてモデル化され、そのときのS/Nは6.02×Nbit+定数で近似されることが、教科書的説明として用いられる。[3][1]

実務上重要な技法がディザである。ビット深度を下げる（例えば24bitから16bitに書き出す）際、微小なランダムノイズ（ディザ）を意図的に加えることで、量子化誤差が生む耳につく歪みを目立ちにくいノイズへと「散らす」ことができる。さらにノイズシェーピングを併用すると、人が感じにくい帯域側にそのノイズ成分を追いやり、聴感上の違和感をさらに減らせる。ディザは音声に限らずデジタル全般で使われる誤差拡散の考え方であり、最終段のビット深度低減時に適用するのが定石である。[4][5]

ここで、16bitと24bitの使い分けを整理する。配布・再生を主目的とした完成音源では16bitで十分な場面が多く（約96dBレンジ）、CD規格もこれに基づく。一方、録音・編集・解析の素材や、後で大きなレベル調整を伴う作業では24bitが有利である（約144dBレンジ）。理由は二つある。第一に、小音の階調が細かく、後で増幅しても粗さが出にくい。第二に、ピークに余裕を持った安全な録音レベル設定（クリップ回避）がしやすい。こうした「実務上の余裕」は、理論レンジをすべて使い切れない環境でも確かな価値を持つ。[2][3]

量子化とdBの関係を補う。デジタルの世界では、最大値（フルスケール）を基準とするdBFSが用いられ、0dBFSが上限である。−6dBFSは振幅1/2に相当し、−20dBFSは約1/10に相当する。16bitでも24bitでも、0dBFSを超えるとクリップして波形が削げるため、入力ゲインはクリップ回避を最優先に調整する必要がある。ビット深度が大きいと、−12〜−18dBFS程度の安全マージンを確保しても、後段の持ち上げで階調不足が目立ちにくいという利点が働く。[3]

もう一つの実務的ポイントは、量子化雑音だけではなく、機材のアナログ段ノイズ（マイク・プリアンプ・A/Dの自己雑音）が「底」を決めることが多いという点である。機材や環境ノイズが支配的なら、理論上の144dBレンジを使い切る機会は少ない。それでも24bitが意味を持つのは、録音レベルの自由度と編集時の耐性（繰り返しの処理での劣化回避）に貢献するからである。[2][3]

ビット深度の理解を定量直感でまとめる。- 表現段階数は2^N（Nはbit）、16bitは65,536段階、24bitは16,777,216段階。- ダイナミックレンジは約6dB/bitで増えるため、16bit≒96dB、24bit≒144dB。- ディザは量子化誤差の歪みをランダム化して聴感上目立たなくし、ノイズシェーピングでその周波数分布を調整できる。[5][4][1]

最後に、現場での手順を簡潔に示す。1) 録音・編集・解析の素材は24bit（あるいは32bit float）で収録・作業する。2) 入力ゲインはクリップ回避を優先し、ピークに十分な余裕を持たせる。3) 最終配布で16bit等へ変換する際は、必ずディザを適用し、必要に応じてノイズシェーピングを使う。4) 解析用途では非可逆圧縮を避け、可逆または非圧縮で保管して微小差の判別力を確保する。これらを守ることで、量子化に起因する劣化を抑えつつ、信頼できるデータを継続的に扱える。

[1] https://www.phileweb.com/sp/review/column/201302/07/272.html

[2] https://av.watch.impress.co.jp/docs/topic/1068831.html

[3] https://av.watch.impress.co.jp/docs/series/dal/624971.html

[4] https://kensukeinage.com/dither/

[5] https://qiita.com/yukunC/items/9d4d742765ad3a2408ea

[6] https://note.com/prismaton/n/n2d8f9f648c22

[7] https://ocw.u-tokyo.ac.jp/lecture_files/11472/sp17/notes/ja/lecture%20note02_yamakata.pdf

[8] https://note.com/moonwhite/n/nec4cecb64be6

[9] https://natuch.com/2014/12/26/decibel/

[10] https://www.e-earphone.jp/blogs/feature/hires

[11] https://note.com/godspeed_vivix/n/nd39852d97b5e

[12] http://www.ns.kogakuin.ac.jp/~ct13050/johogaku/1-7.Sine_wave_synthesis_and_dithering.pdf

[13] https://note.com/kadenz/n/n625101f16788

[14] https://achapi.cloudfree.jp/sound/physics/db_bit.html

[15] https://www.jstage.jst.go.jp/article/isciesci/61/2/61_76/_pdf/-char/ja

[16] https://eleki-labo.com/tech/bit-depth/

[17] https://ja.wikipedia.org/wiki/%E3%83%93%E3%83%83%E3%83%88%E6%B7%B1%E5%BA%A6_(%E9%9F%B3%E9%9F%BF%E6%A9%9F%E5%99%A8)

[18] https://kobaweb.ei.st.gunma-u.ac.jp/lecture/AD2005-12.pdf

[19] https://www.cradle.co.jp/media/column/a269

[20] https://www.is.cn.tcu.ac.jp/lectures/ADC2017.pdf

※本ページは、AIの活用や研究に関連する原理・機器・デバイスについて学ぶために、個人的に整理・記述しているものです。内容には誤りや見落としが含まれている可能性もありますので、もしお気づきの点やご助言等ございましたら、ご連絡いただけますと幸いです。

※本ページの内容は、個人的な学習および情報整理を目的として提供しているものであり、その正確性、完全性、有用性等についていかなる保証も行いません。本ページの情報を利用したこと、または利用できなかったことによって発生した損害（直接的・間接的・特別・偶発的・結果的損害を含みますが、これらに限りません）について、当方は一切責任を負いません。ご利用は利用者ご自身の責任でお願いいたします。