
2. 音データの基礎知識
2.5 サンプリング周波数と記録精度
音の波は連続的に変化するが、コンピュータで扱うには一定の間隔ごとに値を記録して数字の列に置き換える必要がある。この「一定時間ごとに音の大きさを測る回数」をサンプリング周波数と呼び、単位はHz(ヘルツ)で表す。たとえば44.1kHzは1秒に44,100回測って記録することを意味する。回数が多いほど時間方向の刻みが細かくなり、より高い周波数成分まで情報を失わずに扱える一方、データ量は増える。[1][2][3][4][5][6][7][8]
サンプリング周波数を決める最も重要な考え方が、サンプリング定理(標本化定理)である。この定理は「信号に含まれる最高周波数の少なくとも2倍の速さでサンプリングすれば、元の信号を失わずに再構成できる」と述べる。サンプリング周波数の半分の値はナイキスト周波数と呼ばれ、ここまでが理論的に再現可能な上限帯域となる。もしナイキスト周波数を超える成分をそのままサンプリングすると、エイリアシング(折り返し)と呼ばれる誤りが生じ、高い周波数が低い周波数に化けてしまう。この問題を防ぐため、実務ではサンプリング前にローパスフィルタでナイキスト周波数以上の成分を除去する(アンチエイリアス処理)。[6][9][10][11][12][1]
身近な基準で考えると、CDのサンプリング周波数は44.1kHzで、ナイキスト周波数は22.05kHzとなる。人の可聴上限は一般に約20kHzとされるため、CDは理論上、人が聞く範囲をカバーできる設計だと説明できる。放送や制作でよく用いられる48kHzでも同様に可聴域を十分に含み、さらに96kHzや192kHzといったより高い設定は、処理の余裕やフィルタ設計の容易さ、超高域成分の取り扱いのために選ばれることがある。一方、電話は音声帯域を狭めて8kHz(ナイキスト4kHz)などの設定が古くから使われ、言葉の明瞭性に必要な範囲だけを伝えることでデータ量を抑えてきた。[2][5][7][1]
サンプリングは時間方向の刻みだが、記録精度はもう一つ、縦方向(音の大きさの段階)の刻みで決まる。これを量子化といい、細かさを表すのが量子化ビット数(ビット深度)である。16bitなら2の16乗=65,536段階で音の大きさを離散化し、24bitなら約1,677万段階まで細かく表現できる。ビット数が大きいほど小さな音の差まで記録でき、ダイナミックレンジ(記録できる最小音から最大音までの幅)が広がる。代表例として、16bitの理論的ダイナミックレンジは約96dB、24bitは約144dBと説明される。録音・編集では余裕を持てる24bitが選ばれやすく、最終配布で16bitに整える運用も一般的である。[7][13][14][15][2]
サンプリング周波数とビット数の組み合わせは、データ量に直結する。たとえばステレオのリニアPCMで44.1kHz/16bitは基準として、96kHz/24bitでは約3倍、192kHz/24bitでは約6.5倍のデータ量になるといった目安が示される。高いサンプリング周波数は時間軸の再現性を高め、高いビット深度は小さなレベル差の精密さと編集時の耐性を高めるが、保存・伝送・解析の負荷も増えるため、用途と機材に合わせたバランス設計が必要である。[1][6][7]
異常検知や故障予知に使う音計測では、観たい現象の最高周波数がいくつかをまず見積もる。例えばベアリングの微小衝撃やエア漏れの笛吹き音は高周波に成分が乗りやすいため、対象帯域が可聴域上限付近やそれ以上に及ぶ場合、十分に高いサンプリング周波数が不可欠となる。設計の基本は次の通りである。1) 対象の最高周波数fmaxを仮定し、サンプリング周波数fsは少なくとも2fmaxより高くする(現場では余裕を見て2.5〜4倍を選ぶことが多い)。2) アンチエイリアスフィルタでfs/2を超える成分を確実に抑える。3) 量子化ビット数は、対象のダイナミックレンジと解析の目的に合わせて選ぶ(細かな変化を捉えたい、後処理の演算余裕を確保したい場合は24bitが有利)。[9][13][16][12][15][6][7][1]
サンプリング定理は理論上の下限を示すに過ぎず、実装ではいくつかの理由で余裕が必要になる。第一に、アンチエイリアスフィルタには遷移帯域があり、理想的に「ここから上を完全遮断」とはいかないため、fs/2に対して十分なマージンがないと漏れ込みや位相歪みが増える。第二に、対象の「最高周波数」が事前にきっちり分からないことが多く、運転状態や故障進展で高域成分が増える可能性を見込む必要がある。第三に、衝撃的なイベントは広帯域で、包絡解析などの手法でも原信号を高めにサンプリングしておく方が前処理の自由度が増す。したがって、設計では「必要帯域の2倍」を最低条件としつつ、フィルタ設計や将来の解析まで見越した“実用レート”を選ぶのが現実的である。[16][12][6][9]
サンプリング周波数が不足した場合に起きるエイリアシングは、単に「高域が削れる」だけでなく「偽の低周波」に見える点が厄介で、誤診断の原因になる。これは、例えば5MHzの正弦波を6MS/sで取り込むと1MHzの波に見えてしまう、といった典型例で確認できる現象である。音の計測でも同様で、想定外に低い成分が現れたときは、まずサンプリング設計と前段フィルタを疑うのが良い。[10][6][9]
サンプリング周波数と量子化ビット数を決める具体的な手順は次のようにまとめられる。1) 目的の故障モードから有効帯域を推定する(例:可聴域内の異音なら〜20kHz、超音波リーク検知なら数十kHz以上)。2) 仮のfmaxに対してfs≥2fmax(推奨は>2.5〜4倍)を設定し、対応するアンチエイリアスフィルタ仕様を確認する。3) 期待する最小信号と最大信号から必要ダイナミックレンジを見積もり、16bitで足りるか24bitが必要かを判断する(小信号の識別や編集耐性が要る場合は24bit)。4) データ量(チャンネル数×fs×ビット数)と記録・通信・保存の能力を照合し、必要なら帯域制限や圧縮、トリガ計測を組み合わせる。[13][12][15][6][7][9][16][1]
音のデータ表記では「44.1kHz/16bit」「48kHz/24bit」のように、横(時間刻み)と縦(レベル刻み)の二つの解像度を並べて示す。前者が「どこまで高い周波数を扱えるか」、後者が「どれだけ細かな大きさの違いを区別できるか」を意味するため、用途に応じて両方を最適化することが、記録精度と実用性を両立させる鍵になる。[14][2][7][13]
最後に、典型的なサンプリング周波数の使い分けを整理する。電話の音声処理では8kHzや16kHzが用いられ、人の会話に必要な帯域を効率よく伝える。音楽配信やCDでは44.1kHz/16bitが標準で、可聴帯域をカバーしつつデータ量を抑える。放送・映像制作では48kHzが広く使われ、プロ制作や解析では96kHzや192kHzが選ばれる場面がある。故障予知や実験計測では、観測対象の帯域に応じてさらに高いサンプリングを選ぶことがあり、同時にアンチエイリアスと量子化の設計をセットで考えるのが正道である。[5][12][2][6][7][9][1] [1] https://www.freshvoice.net/knowledge/word/6703/
[2] https://www.fullten.jp/blog/contents/sampling/ [3] https://www.amei.or.jp/report/DR_Div/base.htm [4] https://www.keyence.co.jp/ss/products/recorder/lab/voltage/point.jsp [5] https://eleki-labo.com/guide/sampling-rate/ [6] https://www.techeyesonline.com/glossary/detail/%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0%E5%AE%9A%E7%90%86/ [7] https://www.phileweb.com/sp/review/column/201302/07/272.html [8] https://www.shinkawa.co.jp/times/2014_01column_glossary6 [9] https://www.ni.com/docs/ja-JP/bundle/ni-fgen/page/nyquist-and-shannons-sampling-theorems.html [10] https://ja.wikipedia.org/wiki/%E3%83%8A%E3%82%A4%E3%82%AD%E3%82%B9%E3%83%88%E5%91%A8%E6%B3%A2%E6%95%B0 [11] https://ja.wikipedia.org/wiki/%E6%A8%99%E6%9C%AC%E5%8C%96%E5%AE%9A%E7%90%86 [12] https://qiita.com/panda11/items/e28ae434c0dd64a2dbb7 [13] https://eleki-labo.com/tech/bit-depth/ [14] https://videosalon.jp/series/sound/ [15] https://simplestudio.jp/the-techniques/16bit-vs-24bit/ [16] https://www.aps-web.jp/blog/85040/ [17] https://www.youtube.com/watch?v=quwLO7TuDnI [18] https://www.seplus.jp/dokushuzemi/ec/fe/fenavi/easy_calc/sampling_voices/ [19] https://note.com/prismaton/n/n2d8f9f648c22 [20] https://www.skillupai.com/blog/tech/as-tips-1/※本ページは、AIの活用や研究に関連する原理・機器・デバイスについて学ぶために、個人的に整理・記述しているものです。内容には誤りや見落としが含まれている可能性もありますので、もしお気づきの点やご助言等ございましたら、ご連絡いただけますと幸いです。
※本ページの内容は、個人的な学習および情報整理を目的として提供しているものであり、その正確性、完全性、有用性等についていかなる保証も行いません。本ページの情報を利用したこと、または利用できなかったことによって発生した損害(直接的・間接的・特別・偶発的・結果的損害を含みますが、これらに限りません)について、当方は一切責任を負いません。ご利用は利用者ご自身の責任でお願いいたします。