
2. 音データの基礎知識
2.6 データ形式(WAV, MP3, PCM等)と特徴
音のデータ形式は、大きく「圧縮しない形」と「圧縮する形」に分けられる。まずは仕組みを直感的に押さえ、その上で代表的な形式の得意・不得意を整理する。圧縮しない形の代表はPCM(ピーシーエム)で、波の形を一定間隔で測った数値列としてそのまま持つ方法である。PCM自体は「音の持ち方(符号化方法)」であり、実際のファイルではWAVやAIFFといった入れ物(コンテナ)に収められることが多い。WAVはIBMとMicrosoftが定めた形式で、中身としてリニアPCM(LPCM)が広く使われ、非圧縮のため録音・編集の基準として扱いやすいのが特徴である。一方、WAVは「コンテナ」として圧縮データを入れられる拡張もあるが、現場では非圧縮PCMを指す意味で用いられることが多い。[1][2][3]
圧縮する形には2種類ある。1つは「可逆圧縮」で、ファイルを小さくしても元の波形を1ビットも失わずに完全に戻せる方式である。代表はFLAC(フラック)やALACで、非圧縮PCMの約半分程度までサイズを減らしつつ、復元時はビット単位で一致する(MD5などによる整合性検証を備える)という性質を持つ。もう1つは「非可逆圧縮」で、耳で感じにくい部分を省くなどの工夫でさらに大幅に小さくする代わりに、完全には元に戻らない方式である。代表はMP3やAACで、人の聴こえの性質(マスキングなど)を利用してデータを削り、ビットレート(1秒あたりのデータ量)を大きく下げる。[2][4][5][6][7]
ここからは主要形式の要点を順に見る。WAVは非圧縮で、録音時の波形をそのまま保持するため、編集の自由度が高く、劣化の心配がない「原本」に向く。一方でサイズが大きいのが弱点である。PCMという言葉は「波を一定間隔で数値化する方法」自体を指し、非圧縮の基盤概念だと理解すると整理しやすい。FLACは可逆圧縮の代表で、音質劣化なく容量を大きく減らせ、デコードも軽く、オープンかつ広く実装が整っているのが強みである。可逆圧縮は「無音はほとんど場所を取らない」など内容に応じて効率が上がるため、非圧縮より合理的に保存できる。ALACはApple系での互換性に優れた可逆圧縮で、Apple環境に最適化されている一方、圧縮効率はFLACよりやや劣ることがあると整理される。[8][9][4][10][6][11][1][2]
MP3は非可逆圧縮の代表で、心理音響モデルを使って「聞こえにくい要素」を優先的に削る。フーリエ変換などの周波数分析、量子化、可変/固定ビットレートの制御、ハフマン符号化などの工程を経て、128kbps〜320kbpsなどの範囲でサイズと音質の折り合いを付けるのが一般的である。一般に128kbps付近から圧縮由来の違和感が現れやすく、192〜320kbpsで多くの用途に十分という実務的な目安が語られる。非可逆圧縮は「完全には戻らない」が、可逆圧縮や非圧縮より格段に小さくでき、配信や持ち運びに向く。[12][5][13][7][2]
これらの違いを実務観点でまとめると次の通りである。非圧縮(WAV/LPCM)は加工耐性が高く、録音・編集・解析の母体に適するが、サイズは最大になる。可逆圧縮(FLAC/ALAC)は音質そのままで容量を約1/2にでき、アーカイブや配布のバランスがよい。非可逆圧縮(MP3/AACなど)はさらに小さくできるが、不可逆の情報削減を伴うため、解析や再編集の母材には向きにくい。また、FLACはオープンで復号が軽く機器対応も広いという点が現場メリットになりやすい。[9][4][5][6][7][1][2]
ビットレートとサンプリング/ビット深度の関係も押さえておくと理解が深まる。非圧縮PCMのビットレートは「サンプリング周波数×量子化ビット数×チャンネル数」で決まり、CD規格だと44.1kHz×16bit×2ch≒1,411kbpsとなる。一方、MP3は同じ音源から128〜320kbpsなどへ大幅に縮小するため、サイズは1/10程度まで下がりうる。可逆圧縮(FLACなど)は内容依存でおおむね1/2前後に圧縮される、というのが典型的な目安である。[4][14][7][2]
コンテナとコーデックの区別も重要だ。WAVは主にPCMを入れる器として知られるが、規格上は圧縮音声を入れられる場合もあるため、「WAV=必ず非圧縮」とは限らない(実務では非圧縮LPCMが多数派)。FLACやMP3は「コーデック(圧縮の方式)」であり、ファイル拡張子としてそのまま使われることが多い。ALACはAppleの可逆方式で、拡張子.m4aコンテナに入ることがある。こうした「器」と「中身」を分けて考えると、仕様や互換性の整理がしやすい。[3][2]
用途別の選び方は次の指針が実用的である。録音・編集・解析の母材には非圧縮WAV(LPCM)を基本にし、長期保存や配布には可逆のFLAC/ALACに変換してサイズを抑える。配信やストレージ節約を重視する再生用にはMP3/AACの高ビットレートを用いるが、将来の再編集や機械学習解析に回す可能性がある素材は可逆以上で保持する、という運用が合理的である。また、FLACは整合性検査(CRC/MD5)などでアーカイブ用途に向く点も強みになる。[1][2][9][4]
最後に、誤解しがちなポイントを補う。可逆圧縮(FLAC等)から復号したPCMは、元のPCMとビット単位で一致するため、音質的差異は生じない(設計上そうあるべき)。非可逆圧縮(MP3等)は完全一致には戻らないが、十分なビットレートと適切なエンコード条件では、多くの一般用途で知覚差が小さくなるよう設計されている。一方、解析・診断の素材としては、帯域外の切り落としや微小成分の変質が影響しうるため、可逆以上での保存が望ましいという判断が成り立つ。[5][7][2][9][4] [1] https://www.izotope.com/en/learn/whats-the-difference-between-file-formats
[2] https://en.wikipedia.org/wiki/Audio_file_format [3] https://hydrogenaud.io/index.php/topic,48525.0.html [4] https://xiph.org/flac/features.html [5] https://www.numberanalytics.com/blog/mp3-compression-psychoacoustics-guide [6] https://en.wikipedia.org/wiki/FLAC [7] https://www.uaudio.com/blogs/ua/understanding-audio-data-compression [8] https://www.videoproc.com/resource/wav-file.htm [9] https://wiki.hydrogenaudio.org/index.php?title=Free_Lossless_Audio_Codec [10] https://www.gumlet.com/learn/lossless-audio-formats/ [11] https://xiph.org/flac/ [12] https://pibox.com/resources/glossary/what-is-lossy-audio/ [13] https://www.numberanalytics.com/blog/ultimate-guide-to-mp3-in-data-compression [14] https://www.reddit.com/r/headphones/comments/ntnqra/undertanding_mp3_bitrate_320kbps_and_what_is_lost/ [15] https://www.reddit.com/r/audiophile/comments/sxedok/can_somebody_please_explain_the_difference/ [16] https://community.roonlabs.com/t/why-do-wav-and-flac-files-sound-different/12487 [17] https://www.tonestack.net/articles/digital-audio-compression/lossy-audio-compression-primer.html [18] https://www.head-fi.org/threads/is-pcm-wave-wav.89783/ [19] https://riverside.com/blog/lossless-audio-formats [20] https://www.movavi.io/what-audio-format-is-the-best-2/※本ページは、AIの活用や研究に関連する原理・機器・デバイスについて学ぶために、個人的に整理・記述しているものです。内容には誤りや見落としが含まれている可能性もありますので、もしお気づきの点やご助言等ございましたら、ご連絡いただけますと幸いです。
※本ページの内容は、個人的な学習および情報整理を目的として提供しているものであり、その正確性、完全性、有用性等についていかなる保証も行いません。本ページの情報を利用したこと、または利用できなかったことによって発生した損害(直接的・間接的・特別・偶発的・結果的損害を含みますが、これらに限りません)について、当方は一切責任を負いません。ご利用は利用者ご自身の責任でお願いいたします。