Есть ли разница между аудио форматами MP3, AAC, FLAC и какой нужно использовать? Рисуем волну.wav-файла.

Данные, имеющие отношение к мультимедиа (звук, видео и т. п.) хранятся в файлах в так называемом RIFF-формате (Resource Interchange File Format - формат файла для обмена ресурсами). Как wav-файлы, содержащие звук, так и avi-файлы, содержащие видеоинформацию, имеют формат RIFF.
Файл в формате RIFF содержит вложенные фрагменты (chunk"s). Внешний фрагмент состоит из заголовка и области данных (рис. 1).

Рис. 1. Фрагмент "RIFF"

Первое двойное слово заголовка содержит четырехбуквенный код FOURCC, который идентифицирует данные, хранящиеся во фрагменте. Второе двойное слово заголовка - размер области данных в байтах (без учета размера самого заголовка).
Область данных имеет переменную длину, однако она должна быть выравнена на границу слова и при необходимости дополнена в конце нулевым байтом до целого числа слов.
Заметим, что формат RIFF не описывает формат данных. Практически файл в формате RIFF может содержать любые данные для мультимедиа, причем формат данных зависит от типа данных.
Область, обозначенная на рис. 1 как "Данные", может содержать внутри себя другие фрагменты. Для файла, в котором хранятся звуковые данные (wav-файл), эта область содержит идентификатор данных "WAVE", фрагмент формата звуковых данных "fmt " (три символа "fmt" и пробел на конце), а также фрагмент звуковых данных (рис. 2). Файл может дополнительно содержать фрагменты других типов, поэтому не следует думать, что заголовок wav-файла имеет фиксированный формат. Например, в файле может присутствовать фрагмент "LIST" или "INFO", содержащий информацию о правах копирования и другую дополнительную информацию. Мы не будем рассматривать форматы других фрагментов, при необходимости вы можете узнать их из документации, которая поставляется в составе Microsoft SDK for Windows.

DWORD	DWORD
"RIFF"	Размер	Данные
		"WAVE"	"fmt "	Размер	Формат данных	Фрагмент "data"
						"data"	Размер	Звуковые данные

Рис. 2. Формат wav-файла

Область, обозначенная на рис. 2 как "Формат данных", описывает звуковые данные. Формат этой области для файлов РСМ (записанных с использованием импульсно-кодовой модуляции) соответствует структуре PCMWAVEFORMAT, определенной в файле mmsystem.h следующим образом:

Typedef struct pcinwaveformat_tag {
WAVEFORMAT wf;
WORD vBitsPerSample;
} PCMWAVEFORMAT;

Typedef PCMWAVEFORMAT *PPCMWAVEFORMAT;

Структура WAVEFORMAT также описана в файле mmsystem.h:

Typedef struct waveformat_tag {
WORD wFormatTag; // тип формата
WORD nChannels; // количество каналов (моно или стeрео)
DWORD nSamplesPerSec; // частота дискретизации
DWORD nAvgBytesPerSec; // скорость потока данных
WORD nBlockAlign; // выравнивание блока данных
} WAVEFORMAT;

Typedef WAVEFORMAT *PWAVEFORMAT;

Поле wFormatTag описывает тип формата звуковых данных. Для импульсно-кодовой модуляции РСМ, которая поддерживается стандартной библиотекой mmsystem.dll, в этом поле должно находиться значение WAVE_FORMAT_PCM, определенное в файле mmsystem.h:

#define WAVE_FORMAT_PCM 1

Поле nChannels содержит количество каналов. В нем могут находиться значение 1 (моно) или 2 (стерео).
В поле nSamplesPerSec записана частота дискретизации, то есть количество выборок сигнала в секунду. В этом поле могут находиться стандартные значения (11025 кГц, 22 050 кГц или 44100 кГц) либо нестандартные значения, такие, как 5000 кГц или 4400 кГц. Учтите, что не все драйверы звуковых адаптеров могут
работать с нестандартными частотами дискретизации.
Поле nAvgBytesPerSec содержит среднюю скорость потока данных, то есть количество байт в секунду, передаваемых драйверу устройства или получаемых от него. Эта информация может быть использована приложением для оценки размера буфера, необходимого для размещения звуковых данных. Для монофонического сигнала с дискретностью 8 бит численное значение скорости совпадает со значением частоты дискретизации. Для стереофонического сигнала с дискретностью 8 бит она в два раза выше. Точное значение вы можете подсчитать по формуле

NAvgBytesPerSec = (nChannels * nSamplesPerSec * wBitsPerSanipIe) / 8

В поле nBlockAlign находится выравнивание блока в байтах, которое подсчитывается по формуле

NBlockAlign = (nChannels * wBitsPerSample) / 8

Поле wBitsPerSainple находится в структуре PCMWAVEFORMAT и содержит дискретность сигнала, то есть количество бит, используемых для представления одной выборки сигнала. Обычно используются значение 8 или 16.
Что же касается формата самих звуковых данных, то он зависит от количества каналов и от дискретности.
Для монофонического сигнала с дискретностью 8 бит звуковые данные пред ставляют собой массив однобайтовых значений, каждое из которых является выбор-кой сигнала.
Для стереофонического сигнала с дискретностью 8 бит звуковые данных имеют формат массива двухбайтовых слов, причем младший байт слова соответствует левому каналу, а старший - правому.
Формат звуковых данных с дискретностью 16 бит выглядит аналогично. Для монофонического сигнала данные хранятся в массиве 16-битовых слов. Для стерео-фонического используется массив двойных слов, причем младшему слову соот-ветствует левый канал, а старшему - правый.
Диапазон изменения значений выборок сигнала определяется дискретизацией. Для 8-битовых данных он составляет от 0 до 255 (Охff), причем отсутствию сигнала (полной тишине) соответствует значение 128 (0х80). Для 16-битовых данных диапа-зон изменения составляет от -32768 (-0х8000) до 32767, (Ox7fff), отсутствию сигнала соответствует значение 0.

В первую очередь, говоря об этом формате, нужно отметить, что он является подразделением другого формата - RIFF (Resource Interchange File Format - Формат Файлов Обмена Ресурсами). По сути RIFF - это общая спецификация, под которой может быть объединено много разныx форматов файлов. Главное преимущество RIFF - расширяемость. Форматы файлов, базирующиеся на RIFF, могут быть впоследствии усовершенствованы, в то время, как "старое" программное обеспечение будет благополучно игнорировать все изменения формата.

Все RIFF-базированные файлы делятся на секции, каждая из которыx идентифицируется определенным "словом". На настоящий момент в WAV-файле такиx секций может быть до шести. Разрабатываемые программы должны ожидать (и игнорировать) все неизвестные (разработчику) секции данныx, используя только то, что необxодимо. Однако есть две обязательные для любого WAV-файла секции: "Формат" и "Данные", причем "Формат" должен быть объявлен до появления "Данныx".

Теперь покончим с лирическими отступлениями и займемся непосредственно битами и байтами.

Немного объясню семантику последующиx идентификаторов: здесь используется так называемая Венгерская нотация, которая состоит в том, что в начале имени каждой переменной ставятся буквы, поясняющие ее тип:

b - byte (1 байт);

w - word (2 байта);

dw - double word (4 байта), и т.п.

Итак, заголовок файла выглядит следующим образом:

"RIFF" - сигнатура RIFF.

dwFileLength - длина всего файла, без учета восьми уже прочитанныx байт.

Секция формата данныx:

"fmt " - 4 байта сигнатуры "format" (после "fmt" следует пробел).

dwFormatLength - длина секции формата данныx без учета этиx 4 байт.

wFormatTag - определяет категорию формата звуковыx данныx.

0101h - IBM mu-law;

0102h - IBM a-law;

0103h - IBM AVC ADPCM.

wChannels - число каналов: 1 (моно) или 2 (стерео).

dwSamplesPerSec - частота дискретизации (количество сэмплов, воспроизводимыx в секунду).

dwAvgBytesPerSec - число байт данныx,передаваемыx в секунду.

(Используя это значение, воспроизводящее ПО может рассчитывать размер буфера данныx)

wBlockAlign - длина блока данныx, выравненная на границу байта

(Может быть использовано для выравнивания буфера данныx.)

В случае wFormatTag=1 (данные в формате PCM), добавляется одно поле:

wBitsPerSample - число бит для представления одного сэмпла.

При нестандартныx значенияx длины сэмпла следует иметь в виду правило: каждый сэмпл содержится в некотором целом числе байт, наименее значащий из которыx пишется первым. Если представить все байты сэмпла как единое число, то сама амплитуда содержится в старшиx битаx числа и длина ее определяется wBitsPerSample. Для пущей ясности приведу пример: длина сэмпла - 12 бит, тогда значение амплитуды сигнала содержится в двуx байтаx, причем младшие 4 бита младшего (первого по счету) байта равны нулю.

Секция представления данныx:

"data" - сигнатура секции.

dwDataLength - длина данныx, представляющиx форму сигнала

(фактически, длина оставшейся части секции "data").

Секция "FACT" (необязательная):

dwFactLength - длина данной секции.

dwSamples - число сэмплов в файле.

Секция "FACT" в принципе актуальна для форматов представления звука, использующиx сжатие. В обычныx PCM-кодированныx файлаx она, в описанном виде, не привносит никакой дополнительной информации. Другое дело, что со временем в секцию могут быть внесены дополнения, которые на сегодняшний день тоже должны быть учтены разработчиками ПО.

Описанные три секции представляют, конечно, далеко не исчерпывающее описание формата WAVE. Копаясь в WAV"аx, можно найти кучу другиx сигнатур. Например, "slnt" (описание тишины), "cue" (разбиение файла на части), "plst" (установление порядка проигрывания частей, определенныx в "cue") и т.п. В эти и другие секции, равно как и в саму структуру WAVЕ-файла, могут вноситься разные дополнения и модификации. В такой расширяемости и состоит суть RIFF. Но, повторюсь еще раз, мыслящий программист учитывает и игнорирует неизвестные ему места формата.

И в заключение предлагаю рассмотреть реальный файл. Возьмем, к примеру, стандартный звук Windows - "chimes.wav". Вот его структура.

Несжатые звуковые файлы в формате RAW (PCM) и в форматах WAV и Apple AIFF. Контейнер RIFF и структура файла WAV.

Читайте также:

II. Структура Системы сертификации ГОСТ Р и функции ее участников
PR в государственных структурах и ведомствах. PR в финансовой сфере. PR в коммерческих организациях социальной сферы (культуры, спорта, образования, здравоохранения)
Активы таможенных органов: понятие, структура и особенности
Анализ финансового положения предприятия. Структура и порядок формирования финансового результата.
Анимационный сервис, его структура и роль в социально-культурном сервисе и туризме.
Апарат вищого спеціалізованого суду: структура і повноваження.

RAW - формат данных, содержащий необработанные данные. В таких файлах содержится полная информация о хранимом сигнале. В случае обработки звука под RAW понимаются звуковые данные без сжатия и заголовков.

PCM расшифровывается как импульсно-кодовая модуляция (pulse code modulation) и обеспечивает цифровое представление аналогового сигнала, который дискретизируется (оцифровывается) через равные промежутки времени (с заданной в герцах частотой) и представляется в двоичном виде (с заданной точностью - разрядностью в битах). Помимо использования PCM для цифрового звука в компьютере и на аудио компакт-дисках, данный формат применяется также в некоторых цифровых телефонных системах и в ряде форматов цифрового видео.

В формате PCM значения амплитуды звука представлены с помощью разного числа битов (разрядности); звуковая дорожка, как правило, оцифровывается с разрядностью от 12 до 24 бит, но чаще всего при студийном кодировании PCM-аудио для записи на диски Blu-ray используются 16 бит.

WAV (WAVE) - формат файла-контейнера для хранения записи оцифрованного аудио-потока. Под Windows этот формат чаще всего используется в качестве оболочки для несжатого звука (PCM). В контейнер WAV можно поместить звук, сжатый почти любым кодеком (но с воспроизведением таких файлов могут возникать проблемы).

Структура: состоит из трёх заголовков, за которыми следуют данные самого звукового файла, т.е. последовательность байт самого звукового сигнала.

Первый - RIFF заголовок. Он занимает 8 байт с самого начала файла и содержит информацию о длине файла

Второй заголовок - WAV заголовок, содержит информацию о кол-ве каналов (моно или стерео)

Третий заголовок – информацию о кол-ве байт, отводящихся под сами WAV данные

Apple AIFF. Это стандартный формат файлов для сохранения аудиоданных на платформе Macintosh. Его особенностью является то, что он позволяет размещать вместе со звуковой волной дополнительную информацию, в частности, самплы WaveTable (примеры звучания инструментов вместе с параметрами синтезатора), что улучшает качество итогового результата.

Звуковые данные в стандартном файле формата AIFF представляют собой несжатую импульсно-кодовую модуляцию. Также существует и сжатая версия формата AIFF, которую называют AIFC (изредка AIFF-C), в которой для сжатия могут быть использованы различные кодеки.

AIFF, наряду с SDII и WAV, является одним из форматов используемых в профессиональных аудио и видео приложениях, так как в отличие от более популярного формата mp3 в нём звук не имеет потерь в качестве.

RIFF - один из форматов файлов-контейнеров для хранения потоковых мультимедиа-данных (видео, аудио, возможно текст). Наиболее известными форматами, использующими RIFF в качестве контейнера, являются: AVI (видео), WAV (аудио), RMI (MIDI-треки).

RIFF имеет ограничение размера данных в 2 ГБ.

Файл формата RIFF содержит вложенные фрагменты (chunk’и) с данными одного типа; внешний фрагмент состоит из заголовка и области данных.

Структура: Первое двойное слово заголовка идентифицирует хранящиеся во фрагменте данные. Второе двойное слово заголовка представляет собой размер области данных в байтах (без учета размера самого заголовка).

Область данных имеет переменную длину, однако она должна быть выравнена на границу слова (при необходимости дополняется в конце нулевым байтом до целого числа слов).

Недавно я получил следующее письмо:

Привет, сайт, MP3 является самым популярным аудиоформатом, но есть так много других, таких как AAC, FLAC, OGG и WMA, что я не совсем уверен, какой из них я должен использовать. В чем разница между ними, и какой из них мне следует использовать, чтобы хранить мою музыку?

Вопрос достаточно популярный, попробую ответить на него просто, но понятно.

Мы уже говорили о различии между lossless и lossy, но если кратко, есть два типа качества звука:

без потерь: FLAC, ALAC, WAV;
с потерями: MP3, AAC, OGG, WMA.

Lossless формат сохраняет полное качество звука, в большинстве случаев, это уровень CD, в то время как формат с потерями сжимает файлы для экономии места (конечно, качество звука ухудшается).

Форматы хранения данных без сжатия: FLAC, ALAC, WAV и другие

WAV и AIFF : Оба WAV и AIFF хранят звук без сжатия, что означает, что они являются точными копиями исходного аудио. Эти два формата по существу имеют одинаковое качество; Они просто хранят данные немного по-другому. AIFF сделан Apple, поэтому вы можете увидеть его чаще в продуктах Apple, а WAV в значительной степени универсален. Однако, поскольку они несжаты, они занимают много ненужного пространства. Если вы не редактируете аудио, вам не нужно хранить аудио в этих форматах.
FLAC : Free Lossless Audio Codec (FLAC) — самый популярный формат хранения звука без потерь, что делает его хорошим выбором. В отличие от WAV и AIFF, он немного сжимает данные, поэтому занимает меньше места. Тем не менее, он считается форматом, который хранит звук без потерь, качество музыки остается таким же, как и у оригинального источника, поэтому эффективнее использовать его, чем WAV и AIFF. Он бесплатный, с открытым исходным кодом.
Apple Lossless : Также известный как ALAC, Apple Lossless похож на FLAC. Это формат с лёгкой компрессией, тем не менее, музыка сохраниться без потерь качества. Его сжатие не так эффективно, как FLAC, поэтому ваши файлы могут быть немного больше, но они полностью поддерживаются iTunes и iOS (в то время как FLAC — нет). Таким образом, если вы используете iTunes и iOS в качестве основного программного обеспечения для прослушивания музыки, вам придется использовать именно этот формат.
APE : APE — имеет самый агрессивный алгоритм сжатия, для хранения музыки без потерь, то есть вы получите максимальную экономию места. Его качество звука такое же, как у FLAC, ALAC, однако часто возникают проблемы с совместимостью. Кроме того, проигрывание этого формата гораздо сильнее нагружает процессор для его декодирования, так как данные сильно сжаты. Вообще, я бы не рекомендовал использовать этот формат, если только вы не ограничены в свободной памяти и не имеете проблем совместимости с программным обеспечением.

Форматы хранения звука с сжатием: MP3, AAC, OGG и другие

Если вы просто хотите послушать музыку здесь и сейчас, скорее всего, вы будете использовать формат с потерями. Они экономят массу памяти, оставляя вам больше места для песен на вашем портативном плеере, и, если будет достаточно высоким, они будут неотличимы от исходного источника. Вот форматы, с которыми вы, вероятно, столкнетесь:

MP3 : MPEG Audio Layer III, или MP3, является наиболее распространенным форматом хранения звука с потерями. Настолько, что он стал синонимом загружаемой музыки. MP3 — не самый эффективный формат из всех, но, безусловно, наиболее хорошо поддерживаемый, что делает его лучшим выбором для хранения аудио с сжатием.
AAC : Advanced Audio Coding, также известный как AAC, похож на MP3, хотя он немного эффективнее. Это означает, что вы можете иметь файлы, занимающие меньше места, но с тем же качеством звука, что и MP3. Лучшим евангелистом этого формата сегодня является iTunes от Apple, сделавший AAC настолько популярным, что он стал почти так же широко известен, как MP3. За очень долгое время у меня было только одно устройство, которое не могло играть AAC, и это было несколько лет назад, так что вы можете смело использовать этот формат для хранения своей музыки.
Ogg Vorbis : формат Vorbis, известный как Ogg Vorbis из-за использования контейнера Ogg, является бесплатной альтернативой MP3 и AAC. Его главная черта состоит в том, что он не ограничен патентами, но на вас, как на конечного пользователя, это совершенно не влияет. Фактически, несмотря на его открытость и сходное качество, он гораздо менее популярен, чем MP3 и AAC, это значит, что меньшее количество программ его поддерживают. Таким образом, мы не рекомендуем его использовать, чтобы избежать проблем с совместимостью программного обеспечения.
WMA : Windows Media Audio — собственный фирменный формат Microsoft, похожий на MP3 или AAC. Он не дает никаких преимуществ перед другими форматами, и также не очень хорошо поддерживается за пределами платформы Windows. Мы не рекомендуем вам копировать компакт-диски в этот формат, если только вы не будете точно знать, что всю музыку будут слушать на платформе Windows, или на совместимых с этим форматом проигрывателях.

Так что вы должны использовать?

Теперь, когда вы понимаете разницу между каждым форматом, что вы должны использовать для копирования или загрузки музыки? В общем, мы рекомендуем использовать MP3 или AAC. Они совместимы почти с каждым проигрывателем, и оба они неотличимы от исходного, если . Если у вас нет особых потребностей, которые предполагают иное, MP3 и AAC — это лучший выбор.

Однако есть кое-что, что можно сказать о том, чтобы хранить свою музыку в формате без потерь, таком как FLAC. В то время как вы, вероятно, не заметите более высокого качества, lossless отлично подходит для хранения музыки, если вы планируете впоследствии ее преобразовывать в другие форматы , поскольку преобразование формата с потерями в другой формат с потерями (например, AAC в MP3) приведет к появлению файлов заметно более низкое качество. Поэтому для архивных целей мы рекомендуем FLAC . Однако вы можете использовать любой формат без потерь, так как вы можете конвертировать между форматами без потерь, не изменяя качество файла.

Некоторое время назад я решил посвятить себя решению экзотической задачи - нарисовать волну wave-файла, как это делают аудио- и видеоредакторы, используя для этого Питон. В результате у меня получился небольшой скрипт, который вполне с этим справляется. Так, картинка выше сгенерирована им из песни «Under Pressure» группы Queen. Для сравнения - вид волны в аудиоредакторе:

Для разбора звука я использовал библиотеку numpy , а для построения графика - . Под катом я изложу основы работы с wav-файлами и алгоритм скрипта.

UPD1: коэффициент прореживания k лучше брать примерно k = nframes/w/32, подобрал эмпирически. Обновил картинки с новым коэффициентом.

WAV - это формат для хранения несжатого аудиопотока, широко используемый в медиаиндустрии. Его особенность в том, что для кодирования амплитуды выделяется фиксированное число бит. Это сказывается на размере выходного файла, но делает его очень удобным для чтения. Типичный wave-файл состоит из заголовочной части, тела с аудиопотоком и хвоста для дополнительной информации, куда аудиоредакторы могут записывать собственные метаданные.

Из заголовочной части извлекаются основные параметры - число каналов, битрейт, число фреймов - на основании которых осуществляется разбор аудиопотока. Wave-файл хранит в себе 1 или 2 канала, каждый из которых кодируется 8, 16, 24 или 32 битами. Последовательность бит, описывающая амплитуду волны в момент времени, называется сэмплом. Последовательность сэмплов для всех каналов в определенный момент называется фреймом.

Например, \xe2\xff\xe3\xfа - это фрейм 16-битного wav-файла. Значит, \xe2\xff - сэмпл первого (левого) канала, а \xe3\xfа - второго (правого). Сэмплы представляют собой целые знаковые числа (исключение - файлы с сэмплами в 8 бит, беззнаковые числа).

В богатой питоновской библиотеке есть модуль wave , предназначенный для парсинга wav-файлов. Он позволяет получить основные характеристики звука и читать его по отдельным фреймам. На этом его возможности кончаются и парсить аудиопоток придется самостоятельно.

Import wave wav = wave.open("music.wav", mode="r") (nchannels, sampwidth, framerate, nframes, comptype, compname) = wav.getparams() content = wav.readframes(nframes)
Этими строками мы создаем объект для чтения wav-файла (если параметр «r» опустить, то будет создан объект для записи, что нам не подходит). Метод getparams() возвращает кортеж основных параметров файла (по порядку): число каналов, число байт на сэмпл, число вреймов в секунду, общее число фреймов, тип сжатия, имя типа сжатия. Я вынес их всё в отдельные переменные, чтобы не обращаться каждый раз к полям объекта.

Метод readframes() считывает указанное число фреймов относительно внутреннего указателя объекта и инкрементирует его. В данном случае, мы за один раз считали все фреймы в одну байтовую строку в переменную content.

Теперь нужно разобрать эту строку. Параметр sampwidth определяет, сколько байт уходит на кодирование одного сэмпла:

1 = 8 бит, беззнаковое целое (0-255),
2 = 16 бит, знаковое целое (-32768-32767)
4 = 32 бит, знаковое длинное целое (-2147483648-2147483647)

Разбор осуществляется следующим образом:

Import numpy as np types = { 1: np.int8, 2: np.int16, 4: np.int32 } samples = np.fromstring(content, dtype=types)
Здесь задействуется библиотека numpy. Ее основное предназначение - математические действия с массивами и матрицами. Numpy оперирует своими собственными типами данных. Функция fromstring() создает одномерный массив из байтовой строки, при этом параметр dtype определяет, как будут интерпретированы элементы массива. В нашем примере, тип данных берется из словаря «types», в котором сопоставлены размеры сэмпла и типы данных numpy.

Теперь у нас есть массив сэмплов аудиопотока. Если в нем один канал, весь массив будет представлять его, если два (или несколько), то нужно «проредить» массив, выбрав для каждого канала каджый n-ый элемент:

For n in range(nchannels): channel = samples
В этом цикле в массив channel выбирается каждый аудиоканал при помощи среза вида , где offset - индекс первого элемента, а n - шаг выборки. Но массив канала содержит огромное количество точек, и вывод графика для 3-минутного файла потребует огромных затрат памяти и времени. Введем в код некоторые дополнительные переменные:
duration = nframes / framerate w, h = 800, 300 DPI = 72 peak = 256 ** sampwidth / 2 k = nframes/w/32

Duration - длительность потока в секундах, w и h - ширина и высота выходного изображения, DPI - произвольное значение, необходимое для перевода пикселей в дюймы, peak - пиковое значение амплитуды сэмпла, k - коэффициент прореживания канала, зависящий от ширины изображения; подобран эмпирически.

Скорректируем отображение графика:
plt.figure(1, figsize=(float(w)/DPI, float(h)/DPI), dpi=DPI) plt.subplots_adjust(wspace=0, hspace=0)
Теперь цикл с выводом каналов будет выглядеть так:
for n in range(nchannels): channel = samples channel = channel if nchannels == 1: channel = channel - peak axes = plt.subplot(2, 1, n+1, axisbg="k") axes.plot(channel, "g") axes.yaxis.set_major_formatter(ticker.FuncFormatter(format_db)) plt.grid(True, color="w") axes.xaxis.set_major_formatter(ticker.NullFormatter())
В цикле делается проверка на число каналов. Как я уже говорил, 8-битный звук хранится в беззнаковых целых, поэтому его необходимо нормализовать, отняв от каждого сэмпла половину амплитуды.

Напоследок, установим формат нижней оси
axes.xaxis.set_major_formatter(ticker.FuncFormatter(format_time))
Сохраним график в картинку и покажем его:
plt.savefig("wave", dpi=DPI) plt.show()

Format_time и format_db - это функции для форматирования значений шкал осей абсцисс и ординат.

Format_time форматирует время по номеру сэмпла:
def format_time(x, pos=None): global duration, nframes, k progress = int(x / float(nframes) * duration * k) mins, secs = divmod(progress, 60) hours, mins = divmod(mins, 60) out = "%d:%02d" % (mins, secs) if hours > 0: out = "%d:" % hours return out
Функция format_db форматирует громкость звука по его амплитуде:
def format_db(x, pos=None): if pos == 0: return "" global peak if x == 0: return "-inf" db = 20 * math.log10(abs(x) / float(peak)) return int(db)
Весь скрипт:
import wave import numpy as np import matplotlib.pyplot as plt import matplotlib.ticker as ticker import math types = { 1: np.int8, 2: np.int16, 4: np.int32 } def format_time(x, pos=None): global duration, nframes, k progress = int(x / float(nframes) * duration * k) mins, secs = divmod(progress, 60) hours, mins = divmod(mins, 60) out = "%d:%02d" % (mins, secs) if hours > 0: out = "%d:" % hours return out def format_db(x, pos=None): if pos == 0: return "" global peak if x == 0: return "-inf" db = 20 * math.log10(abs(x) / float(peak)) return int(db) wav = wave.open("music.wav", mode="r") (nchannels, sampwidth, framerate, nframes, comptype, compname) = wav.getparams() duration = nframes / framerate w, h = 800, 300 k = nframes/w/32 DPI = 72 peak = 256 ** sampwidth / 2 content = wav.readframes(nframes) samples = np.fromstring(content, dtype=types) plt.figure(1, figsize=(float(w)/DPI, float(h)/DPI), dpi=DPI) plt.subplots_adjust(wspace=0, hspace=0) for n in range(nchannels): channel = samples channel = channel if nchannels == 1: channel = channel - peak axes = plt.subplot(2, 1, n+1, axisbg="k") axes.plot(channel, "g") axes.yaxis.set_major_formatter(ticker.FuncFormatter(format_db)) plt.grid(True, color="w") axes.xaxis.set_major_formatter(ticker.NullFormatter()) axes.xaxis.set_major_formatter(ticker.FuncFormatter(format_time)) plt.savefig("wave", dpi=DPI) plt.show()
Еще примеры: