『音による故障予知の教科書たたき台:3.1 アナログ音声をデジタル化する流れ(A/D変換)』LLMと一緒に書いてみた—AIが導く研究メモ

3. 基本的な信号処理手法  

3.1 アナログ音声をデジタル化する流れ(A/D変換)

アナログ音声は連続的に変化する空気の圧力の揺れであり、これをコンピュータで扱うには「時間ごとに数値として測る」「測った値を段階化して記録する」という二段階の作業が必要になる。この全体の流れをA/D変換(アナログ-デジタル変換)と呼び、要点は次の通りである。1) 事前の帯域制限(アンチエイリアス)で高すぎる周波数を除く、2) 一定の速さでサンプリング(標本化)する、3) 各サンプルを有限の段階に丸める量子化(ビット深度の選択)、4) 必要に応じてディザ(微小なノイズ)で量子化ゆらぎを目立たなくする、である。[1][2][3]

まず最初に行うのが「アンチエイリアス・フィルタ」である。サンプリングでは、取り込み速度(サンプリング周波数)の半分より高い周波数成分が混ざると、低い周波数に化けてしまう「エイリアシング」という誤りが起こるため、取り込み前にアナログのローパスフィルタで高域をあらかじめ削る。このフィルタはアンチエイリアス・フィルタと呼ばれ、ナイキスト周波数(サンプリング周波数の半分)を越える成分を抑えて、折り返し誤差を防ぐ役割を担う。例えば44.1kHzで取り込むなら、22.05kHz付近より上の成分が入らないように帯域を制限する設計が基本となる。[4][5][3][1]

次に「サンプリング(標本化)」である。これはアナログ信号を一定の時間間隔ごとに測って、1秒間あたり何回測るかをサンプリング周波数(例: 44.1kHzなら毎秒44,100回)で表す。ナイキスト–シャノンの標本化定理は、「信号に含めたい最高周波数の少なくとも2倍以上の速さでサンプリングすれば、情報を失わず再現できる」と述べる原理であり、可聴上限20kHzを扱うには40kHz超のサンプリングが必要、という直感的な指針を与える。実務では44.1kHzや48kHzが一般的で、96kHz・192kHzのような高レートは処理の余裕やフィルタ設計の利便性、超音波成分の扱いのために選ばれることがある。なお、サンプル時には入力値を一定時間保つ必要があるため、サンプル&ホールド回路で瞬間の電圧を保持してからA/D変換に渡すのが標準的である。[6][5][3][7]

続いて「量子化」である。サンプリングで得た各時刻の値は連続量だが、デジタルでは有限個の段階に丸めて表現する必要がある。これが量子化で、段階の細かさはビット深度(bit数)で決まり、16bitなら65,536段階、24bitなら約1,677万段階で音の大きさを表せる。ビットが多いほど1ステップが細かくなり、小さな音の差もなめらかに記録できる一方、データ量は増える。量子化では「丸め誤差(量子化誤差)」が必ず生じ、その結果として量子化ノイズやひずみが現れるが、ビット深度を増やすと信号対雑音比(SNR)は概ね1bitあたり約6dB改善するという経験則が広く用いられる。[8][9][10][6]

量子化に伴う歪みを目立たなくする実務的な工夫が「ディザ」である。ディザは、量子化前にごく小さなランダムノイズを加えることで、量子化誤差による耳につく高調波歪みを、なめらかなノイズへと散らして知覚上の違和感を低減する手法である。特に24bitから16bitへ等、ビット深度を下げる書き出し時に有効で、ノイズシェーピング(人の耳が感じにくい帯域へノイズを追いやる処理)と組み合わせると、聴感上のダイナミックレンジを拡張できる場合がある。[2][11][12]

ここまでを工程としてつなぐと、アナログ音声のデジタル化は次のように流れる。1) マイクや回路で得たアナログ信号をアナログ低域フィルタに通し、ナイキスト周波数を超える高域成分を除去する(アンチエイリアス)。2) サンプル&ホールドで瞬時値を保持し、所定のサンプリング周波数で連続的に標本化する(例えば44.1kHz)。3) 標本化された各サンプル値を、選んだビット深度(例: 24bit)に従って最も近い段階に丸めて数値化する(量子化)。4) 必要に応じてビット深度を下げる際などに、ディザやノイズシェーピングを適用して量子化歪みを低減する。こうして得られたサンプル列が、WAV(PCM)等のフォーマットで保存されるデジタル音声データの中身になる。[3][10][12][1][8][6][2]

なぜアンチエイリアスが必須なのかを直感で補足する。サンプリング速度の半分を越える成分が残っていると、高域が低域に化けてしまい、元に戻せない誤りが入る(折り返し)。例えば1.5kHzでサンプリングして2kHzの正弦波を測ると、500Hzの別の波に見えてしまう、という教科書的な例がある。この偽の低周波は後処理で取り除けないため、入り口で確実に遮断しておくことが要点である。[1][4][3]

サンプリング周波数の選び方には、対象帯域と処理目的が関わる。人の聴覚帯域を忠実に収録する目的なら44.1kHzや48kHzが成立する一方、デジタル処理を重ねる、あるいは対象に超音波領域が含まれる場合には96kHz以上を選ぶ判断もある。高いサンプリング周波数はアンチエイリアス・フィルタの設計を緩和し、量子化ノイズや処理アーチファクトの抑制に寄与する場合があるが、データ量や計算資源の増加とトレードオフである。[9][6]

ビット深度の選び方は、録音現場と最終用途で異なる。録音・編集や解析の素材では24bitが一般的で、これは広いダイナミックレンジと量子化ノイズの低さにより、後段のレベル調整やエフェクト処理での劣化を抑えやすいからである。一方、最終配布(CD等)では16bitが標準的で、その変換時にディザを適用するのが定石である。なお、ビット深度の増加は「音量が大きくなる」ことを意味せず、あくまで「縦方向の分解能が細かくなる」ことで小さな差を滑らかに表せるという性質である。[12][8][6][2]

A/D変換の実装面の補足として、サンプル&ホールドや内部の変換方式(逐次比較SAR、ΔΣ(デルタシグマ)など)は装置設計に関わるが、ユーザ目線では「帯域制限→サンプリング→量子化→必要ならディザ」という流れが守られていれば本質を押さえられる。また、オーバーサンプリング(ナイキストの2倍を大きく上回るサンプリング)を行うと、量子化ノイズが広帯域に分散し、SNRや有効ビット数の向上、アンチエイリアス・フィルタの緩和などの利点が得られることが知られている。[9][3][1]

最後に、よくある不具合と回避策をまとめる。1) エイリアシング対策: 入力前のアナログ低域フィルタを適切に設計・設定し、対象帯域に見合う充分なサンプリング周波数を選ぶ。2) クリップ回避: A/Dの入力レンジを超えると歪むため、入力ゲインを適正化し、ピークが上限に当たらないよう監視する(ビット深度に関わらず重要)。3) 量子化歪み低減: ビット深度を下げる際にはディザを適用し、必要ならノイズシェーピングで聴感に配慮する。4) 処理余裕の確保: 重いデジタル処理を行う場合は、適度な高サンプリング・高ビットでの取り込みを検討する。この一連の配慮によって、アナログの滑らかな波を、デジタルの数列として破綻なく、再利用しやすい品質で保存できる。[6][2][4][3][12][9] [1] http://www.monolithicpower.com/en/learning/mpscholar/analog-to-digital-converters/introduction-to-adcs/fundamental-concepts

[2] https://www.izotope.com/en/learn/what-is-dithering-in-audio

[3] https://en.wikipedia.org/wiki/Analog-to-digital_converter

[4] https://www.electronics-lab.com/article/analog-to-digital-conversion-part-1/

[5] https://xiengineering.com/sampling-frequency-audio-aliasing/

[6] https://www.masteringbox.com/learn/ad-and-da-converters

[7] https://en.wikipedia.org/wiki/Nyquist%E2%80%93Shannon_sampling_theorem

[8] https://www.dpamicrophones.com/mic-university/background-knowledge/getting-from-a-to-d-and-back-on-digital-conversion/

[9] https://www.analog.com/en/resources/analog-dialogue/articles/ac-and-dc-data-acquisition-signal-chains-made-easy.html

[10] https://www.arrow.com/en/research-and-events/articles/engineering-resource-basics-of-analog-to-digital-converters

[11] https://www.sageaudio.com/articles/what-is-dithering

[12] https://en.wikipedia.org/wiki/Noise_shaping

[13] https://www.ti.com/lit/an/snoa232/snoa232.pdf

[14] https://www.geeksforgeeks.org/electronics-engineering/nyquist-sampling-theorem/

[15] https://mixingmonster.com/what-is-dithering-in-audio/

[16] https://www.youtube.com/watch?v=IZJQXlbm2dU

[17] https://www.youtube.com/watch?v=yWqrx08UeUs

[18] http://recherche.ircam.fr/anasyn/schwarz/da/specenv/3_1Digital_Signal_Processin.html

[19] https://www.youtube.com/watch?v=U2mwXiJqAgA

[20] https://ph.yamaha.com/en/business/audio/resources/self-training/audio-quality/05-audio-quality.html

※本ページは、AIの活用や研究に関連する原理・機器・デバイスについて学ぶために、個人的に整理・記述しているものです。内容には誤りや見落としが含まれている可能性もありますので、もしお気づきの点やご助言等ございましたら、ご連絡いただけますと幸いです。

※本ページの内容は、個人的な学習および情報整理を目的として提供しているものであり、その正確性、完全性、有用性等についていかなる保証も行いません。本ページの情報を利用したこと、または利用できなかったことによって発生した損害(直接的・間接的・特別・偶発的・結果的損害を含みますが、これらに限りません)について、当方は一切責任を負いません。ご利用は利用者ご自身の責任でお願いいたします。

おすすめの記事