Использование FMOD в звуковых играх. Как самостоятельно извлечь музыку из игры

Культура модификации игр зародилась ещё в древние времена. Самое раннее, что я помню, это Wolfenstein 3D (1992 год). Если не ошибаюсь, можно было рисовать свои карты, а потом и новых врагов, заменять текстуры и звуки. Главным препятствием в моддинге является разбор неизвестных форматов данных. Оставим моральные аспекты этого явления для других ресурсов, и остановимся на технических сложностях, которые могут возникнуть в этом нелегком деле.

У меня накопилось довольно много историй такого рода, от самых простых, типа разбора простейшего архива, где в одном файле хранятся много тысяч файлов игры, до замены 3D-моделей, исследования и написания нестандартных кодеков звука. Расскажу одну из них, средней сложности.

Допустим, у вас появилось желание заменить определённые фразы в игре, или вообще замахнуться на полную озвучку на каком-нибудь языке, для которого у разработчиков не хватило сил или ресурсов. Казалось бы, надо только записать звук, найти где он находится в игре, и заменить нужные файлы. Но не всегда это бывает просто, например, в последних играх из серии Batman: Arkham используется звуковой движок wwise, который уже довольно давно интегрирован в Unreal Engine.

Я уже не раз сталкивался с UE, но, как известно, коммерческие разработчики имеют возможность полностью менять любую часть кода движка, поэтому почти все игры получаются уникальными с точки зрения структур данных, и это всегда интересно поисследовать.

Для начала посмотрим звуковые файлы. Они как обычно лежат в папке audio и собраны в один большой пакет, с неожиданным расширением.WAD (привет DOOM). При желании даже можно извлечь из него все звуки, но это будет несколько тысяч безымянных файлов, и найти среди них что-то будет весьма проблематично, разве что «вручную» переслушивать их все. Надо сказать, что чаще всего бывает проще. Разработчики, для своего же удобства, оставляют где-нибудь файл со списком фраз. Но это не тот случай.

Логично предположить, что раз сама игра как-то находит нужные звуки и субтитры к ним, значит, эта информация где-то содержится в файлах, надо только её найти. Нигде в папках для локализации тексты не обнаруживаются, значит они разбросаны по отдельным уровням игры, как это часто бывает. Возьмем для примера один из.upk файлов с названием, похожим на уровень, и распакуем его. Благо, инструменты для этого имеются, даже с исходными текстами.

Внутри довольно быстро обнаруживаются файлы типа.RDialogueEvent, в которых невооруженным глазом видны тексты фраз на 11 языках.

Имена файлов похожи на имена исходных звуков. Замечательно, теперь осталось только найти соответствие между ними и звуковыми файлами. Вот только тут и начинаются проблемы. В звуковом пакете конечно есть идентификаторы. Это 30-битный хеш, который всегда используются в wwise для звуков, но к сожалению нигде среди файлов диалога их найти не удаётся. Везде одни непонятные цифры, ничего похожего на ID звука нет, они сразу были бы заметны. С другой стороны, это и понятно, ведь движок не так прост, и нельзя просто так взять и проиграть звуковой файл в игре. Он содержится в аудио-банке, у него множество свойств, накладывающих различные эффекты и т.д.

И тут оказывается, что в каждой папке с диалогом есть файл.akbank - видимо это и есть аудио банк wwise.

Вот у него внутри как раз очень много идентификаторов, перепробовав которые наугад, мы обнаруживаем, что один из них (выделен зеленым) имеется в звуковом пакете. Если мы извлечем оттуда данные по этому идентификатору, то получим некий сегмент из слепленных вместе нескольких звуков. Сконвертируем эти звуки из внутреннего формата wwise в обычные ogg. Да, действительно, в одном из них Бэтмен говорит: «I don"t have time for this», а в другом файле ему отвечают. И фразы как раз соответствуют текстам именно этого диалога.

Уже неплохо! В принципе, на этом можно было бы и остановиться: все диалоги разложены по папкам, для каждого из них есть банк со ссылкой на звуковой сегмент. Мы конечно не знаем, где какой файл, но разрезать сегмент на части, послушать и расставить по местам несколько фраз (а их в диалогах обычно бывает всего 3-4 штуки) можно и вручную.

Но мы не ищем легких путей. Разбираться, так до конца. Проверим на всякий случай, вдруг звуки идут прямо по порядку? Конечно же нет, они перепутаны. Как ни крути, где-то должна быть информация о связи звуков в сегменте с текстом диалога. Я довольно долго копался в разных файлах, в надежде что-то обнаружить, но всё бесполезно. Хорошо. Раз такое дело, распакуем все пакеты игры. Это несколько гигабайт, ну ничего, первый раз что-ли? Вот только полный поиск по всем данным игры также ничего не дал. Единственное место, где есть идентификаторы звуков, это аудио банк. Выходит, связь идёт только через него. Ничего не поделаешь, придется лезть внутрь и разбираться, как он устроен.

Теперь, для верности, найдём в игре какой-нибудь диалог, который можно быстро проверять. После эффектного вступления с очаровательной девушкой-репортёршей и маски-шоу, Бэтмена захватывает Hugo Strange. Он говорит пару фраз, начинающихся с «I feel I should thank you», потом уходит, и начинается игра. Именно здесь происходит первое сохранение. Этот момент нам подойдёт.

Найдём фразу злодея в файлах. Она оказывается в пакете OW_E8_Ch1z_Anim. Так сразу и не догадаешься. Внутри всего один диалог, в котором содержится всё начало игры. Это целых 24 фразы, но возможно это даже хорошо, в мешанине кодов легче найти число 24, чем 1 или 2. Итак, мы собирались изучить содержимое.akBank

Формат банков wwise оказывается уже частично исследован. Будем надеяться что этой информации хватит для нашей цели. Судя по началу файла.akbank, в нем находятся сразу 5 аудио банков для 5 языков, первым идёт банк INT (английский) - его мы и посмотрим.

Сначала там имеется непонятная таблица после заголовка ВКРК, потом довольно много нулей (это видно на прошлой картинке), потом сегмент BKHD, и потом сегмент HIRC, в котором, по всей видимости, находится описание всех аудио-объектов. В данном случае у нас их 79 штук (0x4F выделено зеленым). Как утверждает описание, объекты в сегменте идут один за другим, для каждого указан тип (1 байт), потом 32-битная длина, и ID. Длина и содержимое объекта отличается в зависимости от типа.

Объекты тип 2 - это собственно звуки. Тип выделен красным, длина - желтым. У каждого из них указан ID самого объекта (зеленым) и ID звукового файла (фиолетовым), где он содержится. Ниже видно начало следующего объекта такого же типа.

Объекты 3 - звуковые действия, похоже каждое из них это «проиграть звук», с какими-то неизвестными нам параметрами, но в каждом из них есть свой ID (серым) и ID звука, который собственно нужно проиграть (зеленым).

Объекты 4 - звуковые события. Очень короткие записи, в которых только и есть, что ID события (голубым), а также указано, что оно содержит только одно действие, и ID этого самого действия (серым).

Ну вот, похоже у нас имеется 24 цепочки событий следующего вида:

Событие -> действие -> звук

Они связаны идентификаторами, и в итоге заканчиваются ссылками на звуковые файлы. Как же найти нужные файлы? Поискав эти коды, мы обнаруживаем их как раз в той самой таблице в начале банка. Видимо это таблица, в которой записано, где внутри звукового сегмента находятся отдельные звуки. И действительно, в ней как раз 24 элемента, и для каждого файла указан тот самый ID, который у нас был в звуковом объекте, смещение относительно начала, и длина. Поздравляем! Теперь у нас полностью прослеживается связь от аудио-событий в банках до отдельных звуковых файлов:

To есть как исходные данные у нас есть ID нескольких событий, по одному для каждой фразы диалога, и для каждого из них мы можем найти звуковой файл. Но как связать их теперь с самим диалогом?

Попробуем поискать где-нибудь эти идентификаторы. В файлах диалогов их опять нет. В папке есть еще какие-то очень короткие файлы.akevent - их тоже 24 штуки. Очевидно, это файлы аудио-событий. Внутри какие-то небольшие числа, у всех одинаковые, от них никакого толку. Единственное, что там есть разного, это как раз id аудио-событий, которые мы нашли в банке.

Опять тупик: есть идентификаторы для всех событий, но связи между ними и текстом диалога нет! На всякий случай сделаем тест: поменяем в нужном файле ID и запустим игру. Да, действительно, Хьюго открывает рот, но ничего не говорит. Значит это именно те данные, по которым игра находит нужный звук. Заодно отмечаем, что субтитр всё равно показывается. Значит тексты диалогов в нашем случае первичны, а от них уже идёт звук.

И тут я вспоминаю, что у движка UE3 есть привычка ссылаться на объекты пакета через их порядковый номер внутри пакета, то есть прямо как они упакованы внутри него. Посмотрим файл экспорта, который образуется у нас при распаковке пакетов:

Номера здесь десятичные, и начинаются с нуля, в игре же они начинаются с 1, поэтому получается, что файлы событий в экспорте идут под номерами 0x35-0x4С. Посмотрим, нет ли их где-то среди диалогов. Начинаем смотреть - и надо же, прямо в начале файла есть этот номер!

Вот и последнее недостающее звено. Заодно рядом обнаруживаем 0x2С - это номер файла банка. В случае если в папке вдруг будет несколько диалогов, их тоже можно будет отличить. Теперь мы полностью знаем, как по тексту диалога найти соответствующий звук.

Такая вот получилась довольно сложная схема взаимодействия. Похоже разработчики решили не заботиться об удобстве, и просто положились на внутренние механизмы движка, что и привело к такому результату в данном случае. А случаи, как я уже сказал, бывают самые разные. Структура файлов и связи между ними могут быть совершенно другие. Здесь у нас от текста диалога шла ссылка на звук. А бывает наоборот, первичным является звук, а к нему по идентификатору находится текст. Или первично событие скрипта игры, а от него идут ссылки и на звук, и на текст. Бывает, что файлы находятся не по имени, а по хешу. Но в любом случае, каким-то образом они все связаны, остаётся только найти эту связь.

В качестве последнего штриха попробуем проверить наши результаты. Найдём файл диалога именно от нужной нам фразы «I feel I should thank you» и заменим в нём 4B на 4C. Запускаем игру, и наш друг Хьюго вместо этой фразы многозначительно произносит: «It will be my legacy, a monument to your failure and if you try to stop me, I guarantee everyone will know your secret.»

Оставим на этом Бэтмена, исследование можно считать законченным. В письменном виде процесс выглядит быстро, но на самом деле каждый этап может сопровождаться долгим созерцанием 16-ричных цифр, без всякой надежды на то, что в какой-то момент они сложатся в осмысленные цепочки, и вы поймёте, что они значат. Но иногда это всё-таки происходит.

Зачем извлекать звук с игры? Что мало музыкальных сайтов?

Да дело в том, что искать замучаешься мелодии с игр. А тут игры завалялись на компьютере с хорошей электронной музыкой. Мне, как раз в то время нужно было по срочному сделать и озвучить его звуковыми эффектами. Вот и задумался, а не стянуть ли звук с игры. Игра была в формате Java-для мобильного телефона и так просто не поддавалась открытию её директории, не через какую программу.

Теперь извлекать звук с игр для меня не проблема. Помогла мне в этом одна мощная программа UniExtractor (скачать) Она предназначена для извлечения повреждённых архивов, таких как-7zip, WinRAR и других сжатых файлов. Ну и сами инсталляторы программ распаковывает без проблем. А Java-игра, как раз и является инсталлятором. После распаковки простой игры, пробовал извлечь звук с более сложной. Программа UniExtractor справилась и с играми для операционной системы Android. На распаковку уходит совсем немного времени. Примерно одну минуту. За это время на вряд бы вы нашли в интернете подходящий звук. Приступаем к делу.

Извлекаем звук с игры

Для разархивирования, как я выше упоминал, воспользуемся специальным распаковщиком архивов-Uniextractor . Программа не нужно отдельно запускать, а лишь щёлкнуть правой клавишей мышки по инсталлятору игры. В контекстном меню выбрать пункт-Извлечь с помощью Uniextractor.

Процесс распаковки.

Теперь, мы можем видеть два файла с одинаковым названием. Первый, это сам инсталлятор игры, а второй, это распакованный инсталлятор, в виде папки с файлами. Открываем папку и ищем в ней ещё одну, с названием app.

В этой папке находятся еще две, c аудио файлами. Они могут называться по-разному. Но обычно, это Music и Sound. В общем если их нет, тогда придётся все папки пересмотреть.

Хочу вас обрадовать. Не со всеми играми такая заморочка. В некоторых распакованных играх содержится формат аудио, который сразу же, можно прослушать на плеере.

Это полезно знать:


У многих встает подобный вопрос, когда цепляет определенный трек или тема из игры. Может, хочется иметь его на плеере, а может — поставить на звонок. TrackID , Шазам или Sound Hound помогут распознать трек. Но нам – то нужно его материальное существование.

Если неисповедимые пути гугла, не привели к результату, и онлайн платформа Soundcloud отказала в нужном запросе, мы попытаемся вас направить.

Проблемы у нас обычно две. Как вытащить музыку, и как преобразовать специфические игровые форматы. , например, есть рецепты к конкретным играм, хотя сайт давно морально устарел, но вдруг пригодится (наблюдались Elder Scrolls, GTA, Half – Life, World of Tanks, Need for Speed и т.д.)

Special — утилиты.

Вообще, музыка храниться в корневых папках игры, и порой никуда не спрятана. Ищем. Не нашли? Тогда, для того чтобы извлечь музыку из одной конкретной игры, целесообразно воспользоваться специальной утилитой, тем более что от игры к игре (от серии к серии) разработчики могут менять формат звука, и тут универсальные программы не всегда помогут. Так что гуглим нужные утилиты. Вот, например, к Saints Row 3 — удобно.

В необходимый формат можно конвертировать бесплатной мультифункциональной Format Factory, например. Форматы iPOd/iPhone/PSP/BlackBerry она тоже поддерживает.

Универсальные программы.

А вот более-менее универсальных программ не так много. Разработка Game Audio Pleer (в описании есть список поддерживаемых игр) и WinRipper закончилась, тем не менее, они имеют свои плюсы.

Все, что музыкально GAP найдет, выдаст, воспроизведет и может конвертировать в WAV. Тем не менее, стоит упомянуть, что музыка из игр может быть как сжатым потоковым аудио – WMA, OGG (собственно «живой» звук), в Midi или же трекерных форматов — MOD, S3M, XM и IT (так называемая модульная музыка). Вот в этом — то последнем случае плеер GAP извлечет вам лишь отдельные инструменты, ведь модульная музыка это не непрерывно записанный саундтрек. А midiшки он вообще не поддерживает.

Слава богам — эти проблемы решает WinRipper , но это программа для извлечения, а не плеер. Она способна вырезать из ресурсных игровых архивов музыку следующих форматов:
WAV, VOC, AUD, AIFF, AU/SMD, 8SVX, RMI, HMP, HMI, XMI, MUS, CMF, MOD, S3M, IT, XM. Конвертация есть, неспецифичная – в WAVи MID. Но, всегда есть «но». И GAP , и WinRipper работают с известным форматом.

Часто бывает, формат музыки неизвестен заранее. Не играем в угадайку, скачиваем Total Recorder Pro или Total Recorder Video Pro и радуемся — он захватывает и оцифровывает звук в чуть ли не отовсюду в WAV или MP3 формат. Конечно, есть неудобство – запись идет в реальном времени, но программа огонь. Вот единственный обзор, что удалось найти (олд вёршн) <3 .

Тот же, кто хочет смахнуть ностальгическую слезу по былым временам, и послушать музыку с картриджей Sega Mega Drive… На ВК давно есть группа

Музыкальные форматы в играх
Shiru (A.Semenov) mailto:shiru at mail dot ru

В процессе разработки игры рано или поздно встаёт вопрос - какие форматы для хранения игровых данных использовать. Целью данного обзора является рассмотрение особенностей, преимуществ и недостатков популярных форматов музыкального сопровождения в играх, с тем, чтобы исходя из полученной информации, можно было сделать разумный выбор в рамках своего проекта. Технические нюансы воспроизведения (как, чем) упоминаемых здесь форматов выходят за рамки статьи, поэтому здесь не рассматриваются.

Условно можно разделить форматы, используемые для хранения музыки, на две группы: потоковое аудио, где содержится конечный аудиотрек (т.е. просто звук), возможно сжатый для уменьшения размера; и собственно музыкальные форматы, где хранится набор указаний о том, когда и какую ноту играть, плюс звуки (сэмплы), которыми эти ноты надо воспроизводить. Для начала рассмотрим особенности этих двух групп.

Потоковое аудио

Это не совсем музыкальный формат - это звук, как он есть, записанный в файл. Но этот звук вполне может быть музыкой, поэтому в контексте данной статьи потоковое аудио является также и музыкальным форматом. Потоковым оно называется потому, что файлу не требуется присутствовать в памяти целиком - достаточно подчитывать с носителя небольшие кусочки, декодировать (если требуется), и отправлять на воспроизведение. Потоковое аудио бывает со сжатием и без него.

Форматы потокового аудио без сжатия для хранения музыки в играх обычно не используются, из-за огромного размера: одна секунда стереозвука CD-качества (44100hz, 16bit) занимает 172 килобайта. Исключение ранее составлял CD-DA, формат аудио компакт-дисков. Но игр с музыкой в этом формате в последние годы не наблюдается - всегда находится, чем забить немногочисленные, по современным меркам, мегабайты CD/DVD-дисков.

Более подходящими для игрового применения являются аудиоформаты со сжатием. Существуют алгоритмы сжатия звука без каких-либо потерь качества (т.н. lossyless алгоритмы), но выигрыш в объёме у них крайне несерьёзный, поэтому наиболее распространены форматы сжатия с потерей качества (lossy алгоритмы). Популярные алгоритмы сжатия, дающие большой выигрыш в объёме конечного файла, используют идею "психоакустического кодирования" - динамического исключения из сигнала частот, плохо воспринимаемых человеческим слухом. Обычно выбирают такой уровень потерь, который малозаметен на слух. Алгоритмы сжатия звука обычно работают с фиксированным коэффициентом сжатия, для игр это обычно что-то около 11:1...7:1 (поток данных 128...192kb/s). Существует огромное количество форматов сжатия звука, но наиболее известными и используемыми из них являются MP3, WMA, OGG.

MP3 - наиболее старый, очень распространённый формат. Изначально появился, как формат сжатия звуковой дорожки для видеофильмов в формате VideoCD (полное название MP3 - MPEG Audio Layer III), но довольно быстро стал использоваться и сам по себе. Сейчас MP3 является промышленным стандартом. Использование звуковых файлов с MP3-сжатием в коммерческих игровых проектах, издающихся тиражом более 5000 копий, стоит денег - $2500 за один продукт (game license, подробнее о лицензировании смотрите ссылки в конце статьи). На сегодняшний день MP3 обеспечивает не лучшие показатели в соотношении размер/качество. Улучшенные варианты формата MP3 - MP3pro, например - при показателях, аналогичных WMA/OGG не завоевали особой популярности.

WMA - Windows Media Audio, формат, продвигаемый самой Microsoft как более совершенная альтернатива MP3, является примерно аналогичным по возможностям формату OGG. Его использование в программных продуктах для хранения звукового контента не требует лицензирования.

OGG - относительно новый формат сжатия звука, представляет наибольший интерес для разработчиков игр. Он не требует никакого лицензирования, его можно совершенно законно использовать бесплатно; при этом он обеспечивает более высокое качество звучания при одинаковом с MP3 размере, либо меньший размер при одинаковом качестве звука. Правда, декодирование OGG требует несколько больших вычислительных ресурсов, чем MP3/WMA. Программные кодеры и декодеры от создателя формата (Vorbis) распространяются с открытым исходным кодом.

Плюсы использования потокового аудио для хранения музыки:

  • Можно хранить музыку абсолютно любого технического уровня. В этом отношении данный формат универсален, и потенциально (особенно при сжатии с низким уровнем потерь) способен обеспечить наилучшее качество звучания
  • Ваши музыканты не ограничены возможностями формата, и могут использовать тот инструментарий для создания музыки, какой им удобен (т.е. подходящего музыканта будет легко найти)
  • Не требует большого количества оперативной памяти при проигрывании (поток данных читается с носителя небольшими порциями)
Минусы:
  • Для некоторых применений размер даже сжатого аудио может оказаться слишком большим - средней длины композиция в приличном качестве занимает 3-5 мегабайт (при использовании форматов со сжатием)
  • Уменьшить размер можно только за счёт существенного снижения качества (увеличения потерь при сжатии) и уменьшения длины композиций
  • Длительность звучания трека напрямую зависит от размера файла с ним
  • Декодирование сжатого аудио требует относительно больших ресурсов CPU, на маломощных платформах без аппаратного декодера оно может оказаться невозможным (в реальном времени)

Музыкальные форматы

Собственно музыкальными форматами являются форматы, содержащие не конечный звук, а только лишь информацию о том, как его получить. Т.е., информацию о том, когда и какие ноты какими звуками играть (и - необязательно - сами эти звуки). За счёт этого возможно достижение значительного выигрыша в объёме хранимой информации (размере файла). Получение окончательного звука (который услышит игрок) происходит непосредственно в процессе проигрывания музыки. Это отнимает некоторые вычислительные ресурсы, но в целом нагрузка не выше, чем при декодировании сжатого потокового аудио, а обычно даже меньше (проигрывание музыкальных форматов поддаётся аппаратному ускорению; на PC, к примеру, требуемая аппаратная поддержка встречается намного чаще, чем требуемая аппаратная поддержка для декодирования сжатого аудио).

Музыкальные форматы накладывают некоторые ограничения на свободу творчества музыканта - длинную вокальную или записанную вживую инструментальную партию, например, уже не вставить - точнее, это будет невыгодно, т.к. приведёт к увеличению размеров файла, и удобнее будет использовать потоковое аудио. Для "живой" музыки (симфонический оркестр, рок-группа, и т.п.) однозначно нужно использовать потоковое аудио. Музыкальные форматы подходят лишь для имитации живой музыки (для случаев, когда звучание имитации становится приемлемым за счёт существенного выигрыша в размерах файла), либо для электронной музыки. Достичь абсолютного сходства звучания композиции в музыкальном формате с живой музыкой практически невозможно, возможны лишь разные степени приближения. Как показывает практика, это ограничение не является серьёзным недостатком.

Используемые в играх музыкальные форматы можно разделить на две подгруппы: MIDI и семейство трекерных форматов (т.н. трекерные модули, иногда также называемые просто модулями). Главное различие между этими двумя подгруппами - стандартные MIDI-файлы содержат в себе только ноты, тогда как в трекерных модулях помимо нот хранятся сэмплы, которыми эти ноты озвучиваются. Остальные отличия касаются, в основном, некоторых ограничений, накладывающих свою специфику при написании музыки.

Важный момент: и MIDI, и трекерные форматы не требуют лицензирования для их использования в коммерческом продукте.

Музыкальные форматы: MIDI

MIDI (Musical Instruments Digital Interface) - аппаратный интерфейс, а также стандарт, описывающий процесс обмена музыкальными данными между электронными музыкальными инструментами. Музыкальные данные - это не звук, это, говоря очень упрощённо, только информация о нажимаемых/отпускаемых клавишах синтезатора. MIDI - также стандарты хранения этой информации в файлах (наиболее известные варианты - .mid, .midi). MIDI можно в некотором приближении назвать "потоковым музыкальным форматом", т.к. для его воспроизведения нет необходимости иметь весь файл в памяти - можно подчитывать его по кусочкам, как и в случае с потоковым аудио. Но это единственное сходство между этими форматами.

Многие пользователи PC, услышав слово "миди", презрительно говорят что-то вроде - "а, это такие маленькие файлики, с ужасно звучащей музыкой" (особенно те, у кого ещё сохранились раритетные звуковые карты без качественных WaveTable-синтезаторов). Важно понимать, что звучание записанной в MIDI-файл композиции - это звучание синтезатора в вашем компьютере, через который содержимое файл воспроизводится, качество звучания напрямую зависит от качества синтезатора. Мало кто знает, что MIDI повсеместно используется при создании профессиональной электронной музыки (в т.ч. и для создания музыки к играм, для последующей записи в аудиоформат).

В настоящий момент единственным используемым принципом работы MIDI-синтезаторов на PC является т.н. WaveTable-синтез. Т.е., есть набор (банк) звуков различных инструментов (описанный стандартом, минимум 128 инструментов и 64 звука ударных), синтезатор воспроизводит ноты этими звуками. В MIDI-файле звуки инструментов не хранятся, а банки инструментов от разных производителей звуковых карт могут различаться (не составом инструментов, но особенностями их звучания). Поэтому с разными банками инструментов звучание одного и того-же MIDI-файла несколько изменяется, что иногда составляет определённую проблему. Написанная под один банк композиция может плохо звучать с другим (из-за различающегося баланса громкостей инструментов, например). Это-же накладывает и ограничение на творческую свободу музыканта - он ограничен только теми тембрами (инструментами), которые описывает стандарт. С другой стороны, отсутствие сэмплов инструментов в MIDI-файле очень сильно уменьшает его размер - огромной длины композиция может весить всего 50-100 килобайт, и при этом отлично сжиматься обычным ZIP`ом в несколько раз.

Есть несколько обратно совместимых стандартов MIDI - основной, General Midi (GM); расширение от Roland (GS); более продвинутое расширение от Yamaha (XG). Расширенные форматы обладают большим количеством инструментов в стандарте (минимум 226 для GS, минимум 480 для XG - не считая ударных), и дополнительными возможностями управления синтезом звука, за счёт которых можно разнообразить и улучшить качество звучания.

Для воспроизведения MIDI нужен MIDI-синтезатор в системе - на PC это может быть звуковая карта с аппаратным WaveTable синтезатором (GM/GS/XG, со своим банком звуков), либо простейшая звуковая карта (типа AC"97) с программным синтезатором (который отъедает часть производительности системы; программный GS-синтезатор со стандартным звуковым банком есть в составе DirectX). На устройствах типа мобильных телефонов это может быть простой аппаратный синтезатор (для программного синтеза мощности пока не те), причём не WaveTable, а одного из альтернативных способов синтеза (обычно это FM-синтез), очень приблизительно имитирующих звучание инструментов.

Если аппаратного синтезатора в системе нет, а для программного синтеза недостаточно ресурсов процессора/памяти - воспроизводить MIDI на таком устройстве невозможно.

Плюсы:

  • Очень маленький размер файлов
  • При использовании хорошего синтезатора с хорошим банком сэмплов - высокое качество звучания
  • При наличии аппаратного синтезатора - очень маленькая нагрузка на CPU (плеер только пересылает команды на синтезатор)
  • Музыканта, умеющего работать c MIDI, нетрудно будет найти
Минусы:
  • Зависимость качества звучания от используемого синтезатора
  • Различное звучание инструментов на разных синтезаторах (музыка, хорошо звучащая на одном синтезаторе, может ужасно звучать на другом, даже если эти синтезаторы одинаково высокого качества)
  • Некоторая однообразность звучания любой музыки на одном и том-же синтезаторе (за счёт того, что банк сэмплов для разных композиций обычно не меняется)

Музыкальные форматы: трекерная музыка

Музыку в этом формате также называют "модулями". Как и в MIDI, в файле хранятся данные о нотах, но кроме них также и сэмплы, которыми ноты будут озвучиваться при проигрывании. На этом сходство заканчивается - технически между MIDI и трекерной музыкой больше различий, чем сходств. Несмотря на общую идею (хранить ноты, а не конечный звук), реализации этой идеи сильно различаются.

Трекер - это музыкальный редактор с определённым типом интерфейса (вертикальные столбцы цифр и букв вместо привычного для музыкантов нотного стана). Трекеры появились очень давно, ещё на первых домашних компьютерах, имевших простейшие устройства для синтеза звуков. Ноты озвучивались аппаратными средствами системы (например, через чип SID на C64, через чип AY на ZX128). Трекеры, использующие для озвучивания нот сэмплы, появились в конце 80-х на платформе AMIGA, а позже распространились и по всем остальным платформам, имеющим средства для воспроизведения цифрового звука.

Сам принцип работы трекеров накладывает определённые ограничения на возможности музыканта, с другой стороны, предоставляя не совсем обычные возможности управления звуком. В отличии от профессионального стандарта MIDI, это - любительский стандарт, разработанный любителями компьютерной музыки, а не производителями музыкального оборудования. Написание музыки в трекерах отличается от работы с профессиональными программными MIDI-секвенсорами. Основные особенности трекеров:

Жёсткая квантизация времени - ноты не могут начинать и прекращать звучать в произвольное время, а только на определённых позициях (это затрудняет исполнение некоторых эффектов, например, плавного взятия гитарного аккорда);
- Отсутствие полифонии на отдельно взятом канале (дорожке), одновременно может звучать ровно столько нот, сколько каналов в треке;
- Наличие "эффектов" - команд, влияющих на процесс воспроизведения каждой отдельно взятой ноты. Эффекты могут быть как вполне обычными (с музыкальной точки зрения) - вибрато, управление громкостью, портаменто; так и не вполне обычными - смещение начала сэмпла, управление фильтрами, и т.п.

Несмотря на некоторые ограничения (по сравнению c MIDI), хранение сэмплов в файле с композицией даёт очевидные преимущества - возможность использовать любые необходимые тембры, фрагменты исполненных "вживую" партий (гитарные рифы, барабанные лупы) - это позволяет поднять качество звучания, и сделать его более приближенным к "живому звучанию".

Существует большое количество трекерных форматов - как правило, каждый новый редактор помимо поддержки нескольких наиболее популярных форматов, имел и свой собственный формат. Форматы различаются возможностями и организацией данных внутри файла, но общая идея остаётся неизменной. Наиболее популярными являются четыре формата, ставшие стандартными (поддерживаются практически всеми редакторами): простые MOD (Sound Tracker/Pro Tracker) и S3M (Scream Tracker), и более совершенные XM (Fast Tracker) и IT (Impulse Tracker).

Самый первый трекерный формат - MOD (от слова module, поэтому трекерную музыку и называют модулями) - имел скромные возможности: 4 канала, максимум 15 инструментов (только 8-bit сэмплы, плюс возможность простейшей петли в сэмпле), скудный набор эффектов. Позднее появилась модификация MOD с возможностью использовать 31 инструмент и 8 каналов.

S3M несколько расширяет возможности MOD - в частности, можно использовать до 32-х каналов, увеличенное количество эффектов. Но формат сэмплов по-прежнему ограничен 8-bit.

XM и IT дают гораздо большие возможности для творчества, и заметно более высокое качество звучания. Большое количество каналов (зависит от редактора и поддержки со стороны плеера), большое количество эффектов, 16-битные сэмплы (они могут быть зациклены как прямой, так и двунаправленной петлёй), 64 инструмента. Инструменты в XM/IT не являются синонимом сэмплу - это описание, какие сэмплы использовать для определённых диапазонов нот инструмента (т.н. слои, это нужно для повышения качества имитации живых инструментов), громкостная и панорамная огибающая, и некоторые другие параметры.

Воспроизведение MOD/S3M требует несколько меньших ресурсов CPU, чем воспроизведение более сложных XM/IT. Нагрузка на CPU также зависит от количества каналов в модуле и от используемого алгоритма интерполяции при микшировании (от качества интерполяции сильно зависит качество звучания).

Файлы трекерной музыки могут занимать от сотен байт до нескольких мегабайт. Размер файла напрямую зависит от количества и качества используемых сэмплов. В среднем более-менее прилично звучащий модуль (причём любой длительности) занимает 200-500 килобайт.

Для уменьшения объёма, занимаемого музыкой в игре, можно хранить несколько композиций в одном файле, используя в них одни и те-же сэмплы инструментов. Возможности трекеров позволяют организовать несколько зацикленных фрагментов внутри композиции, в игре можно воспроизводить такой трек, начиная с разных позиций внутри него.

Существуют модификации стандартных трекерных форматов с использованием сжатия сэмплов посредством OGG/MP3. Это форматы MO3 (объединяет в себе форматы IT/XM/S3M/MTM/MOD) и OXM (стандартный XM, но с использованием OGG для упаковки сэмплов). Оба формата используют сжатие только для тех сэмплов, для которых оно даёт выгоду в размере. Сжатие сэмплов приводит к существенному уменьшению занимаемого на диске объёма при практически незаметном на слух снижении качества. Сэмплы хранятся сжатыми только в файле, при загрузке модуля они разворачиваются в памяти, поэтому само проигрывание таких модулей не даёт увеличения нагрузки на CPU, но модуль при воспроизведении будет занимать столько-же оперативной памяти, сколько и неупакованный. Использование сжатия сэмплов может позволить как просто уменьшить размер файла, так и повысить качество звучания без изменения размера (за счёт использования более качественных сэмплов). Данная технология может быть непригодной для использования на маломощных платформах - сэмплы могут слишком долго декодироваться (загружаться).

Плюсы:

  • Потенциально могут обеспечить лучшее соотношение размер/качество, когда размер файла с музыкой сильно ограничен (100-500кб)
  • Увеличение длительности композиции очень мало увеличивает объём файла
Минусы:
  • Трекерные форматы не настолько гибки, как потоковое аудио
  • Проигрываемый модуль занимает оперативную память (актуально для систем с ограниченным количеством RAM, например, некоторые КПК)
  • Довольно нестандартный подход к написанию музыки, отличающийся от обычной нотной записи, это осложняет освоение трекеров "обычными" музыкантами

Что выбрать?

Ознакомившись со спецификой различных музыкальных форматов, мы можем наконец перейти к собственно проблеме выбора наиболее подходящего из них, в рамках конкретного проекта. Для начала нужно определить критерии отбора: какие возможности имеет платформа, на которой работает ваша игра, какие технические ограничения имеются. В частности - критичен-ли объём занимаемой музыкой на носителе и, при проигрывании, оперативной памяти; критична-ли нагрузка на CPU; есть-ли аппаратные возможности для проигрывания музыки (декодер MP3, MIDI-синтезатор).

Потоковое аудио резонно использовать, когда нет жёстких ограничений по объёму, занимаемому на носителе, и достаточно мощности CPU для декодирования (либо есть аппаратный декодер). Также, если необходимо создать очень качественное музыкальное оформление (примеры: радиостанции в серии игр GTA; записанная вживую музыка), других вариантов, кроме потокового аудио, просто не остаётся. Большим плюсом этого формата является отсутствие проблем с навыками (или их отсутствием) использования различного оборудования и программ ваших музыкантов - они могут свободно использовать те средства, которые им наиболее удобны, т.к. результат всегда можно записать в аудиофайл.

Если имеются жёсткие ограничения по объёму занимаемой памяти, лучше задуматься о музыкальных форматах - MIDI или трекерной музыке. Выбирать между этими двумя направлениями нужно, исходя из возможности воспроизведения форматов на целевой платформе (MIDI на Palm или GBA, скажем, особо не поиграешь) и ограничений в размерах файлов. Также не последнюю роль играют возможности ваших музыкантов (т.к. создание качественной музыки в этих форматах требует определённых навыков).

Сейчас популярно использовать в условиях сильного ограничения объёма памяти на носителе (обычно это shareware игры на PC), отводимого под музыку, одно-двухминутных отрывков потокового аудио (обычно OGG) в очень низком качестве (от 56 kbps и ниже, в 22050hz моно - это около 500-600 килобайт). В таких случаях стоит задуматься о возможности использования трекерных форматов - мощности CPU в этом случае на воспроизведение хватит, зато при том-же или меньшем размере файла можно получить существенно более качественное, чистое звучание (возможно, менее живое - но здесь всё зависит от квалификации музыканта).

Если проект на PC, а место под музыку ограничено очень сильно (скажем, 500 килобайт на всё музыкальное оформление), можно задуматься об использовании вместо потокового аудио и трекерных модулей MIDI-файлов. Проблему с различием звучания при использовании разных звуковых банков можно решить, используя программный MIDI-синтезатор DirectX - Microsoft Software GS MIDI Synthezer. Он использует идущий в поставке DirectX трёхмегабайтный GS-банк, и, если писать MIDI-трек специально в расчёте на этот синтезатор, можно получить весьма приличный звук при минимальном расходе памяти на музыкальное оформление (в 500 килобайт свободно поместится десяток неупакованных 5-10 минутных MIDI-файлов). Также можно использовать свой программный MIDI-синтезатор, или свой DLS-банк - в этом случае вы получите все преимущества работы с музыкой посредством MIDI, и возможность использовать собственные тембры, свойственную трекерным форматам.

На КПК и ручных игровых приставках наиболее подходящим сейчас форматом является трекерная музыка (конкретный формат выбирается в зависимости от мощности CPU) - объёмы носителей, в отличии от мощности процессоров, там пока не доросли до возможности свободного использования потокового аудио в играх.

В заключение хочу сказать - выбор музыкального формата не должен ограничиваться вашими возможностями программной реализации проигрывателя. Существует огромное количество готовых библиотек (как платных, так и бесплатных) для воспроизведения всех перечисленных форматов для всех платформ, где это возможно реализовать аппаратно.

Культура модификации игр зародилась ещё в древние времена. Самое раннее, что я помню, это Wolfenstein 3D (1992 год). Если не ошибаюсь, можно было рисовать свои карты, а потом и новых врагов, заменять текстуры и звуки. Главным препятствием в моддинге является разбор неизвестных форматов данных. Оставим моральные аспекты этого явления для других ресурсов, и остановимся на технических сложностях, которые могут возникнуть в этом нелегком деле.

У меня накопилось довольно много историй такого рода, от самых простых, типа разбора простейшего архива, где в одном файле хранятся много тысяч файлов игры, до замены 3D-моделей, исследования и написания нестандартных кодеков звука. Расскажу одну из них, средней сложности.

Допустим, у вас появилось желание заменить определённые фразы в игре, или вообще замахнуться на полную озвучку на каком-нибудь языке, для которого у разработчиков не хватило сил или ресурсов. Казалось бы, надо только записать звук, найти где он находится в игре, и заменить нужные файлы. Но не всегда это бывает просто, например, в последних играх из серии Batman: Arkham используется звуковой движок wwise, который уже довольно давно интегрирован в Unreal Engine.

Я уже не раз сталкивался с UE, но, как известно, коммерческие разработчики имеют возможность полностью менять любую часть кода движка, поэтому почти все игры получаются уникальными с точки зрения структур данных, и это всегда интересно поисследовать.

Для начала посмотрим звуковые файлы. Они как обычно лежат в папке audio и собраны в один большой пакет, с неожиданным расширением.WAD (привет DOOM). При желании даже можно извлечь из него все звуки, но это будет несколько тысяч безымянных файлов, и найти среди них что-то будет весьма проблематично, разве что «вручную» переслушивать их все. Надо сказать, что чаще всего бывает проще. Разработчики, для своего же удобства, оставляют где-нибудь файл со списком фраз. Но это не тот случай.

Логично предположить, что раз сама игра как-то находит нужные звуки и субтитры к ним, значит, эта информация где-то содержится в файлах, надо только её найти. Нигде в папках для локализации тексты не обнаруживаются, значит они разбросаны по отдельным уровням игры, как это часто бывает. Возьмем для примера один из.upk файлов с названием, похожим на уровень, и распакуем его. Благо, инструменты для этого имеются, даже с исходными текстами.

Внутри довольно быстро обнаруживаются файлы типа.RDialogueEvent, в которых невооруженным глазом видны тексты фраз на 11 языках.

Имена файлов похожи на имена исходных звуков. Замечательно, теперь осталось только найти соответствие между ними и звуковыми файлами. Вот только тут и начинаются проблемы. В звуковом пакете конечно есть идентификаторы. Это 30-битный хеш, который всегда используются в wwise для звуков, но к сожалению нигде среди файлов диалога их найти не удаётся. Везде одни непонятные цифры, ничего похожего на ID звука нет, они сразу были бы заметны. С другой стороны, это и понятно, ведь движок не так прост, и нельзя просто так взять и проиграть звуковой файл в игре. Он содержится в аудио-банке, у него множество свойств, накладывающих различные эффекты и т.д.

И тут оказывается, что в каждой папке с диалогом есть файл.akbank - видимо это и есть аудио банк wwise.

Вот у него внутри как раз очень много идентификаторов, перепробовав которые наугад, мы обнаруживаем, что один из них (выделен зеленым) имеется в звуковом пакете. Если мы извлечем оттуда данные по этому идентификатору, то получим некий сегмент из слепленных вместе нескольких звуков. Сконвертируем эти звуки из внутреннего формата wwise в обычные ogg. Да, действительно, в одном из них Бэтмен говорит: «I don"t have time for this», а в другом файле ему отвечают. И фразы как раз соответствуют текстам именно этого диалога.

Уже неплохо! В принципе, на этом можно было бы и остановиться: все диалоги разложены по папкам, для каждого из них есть банк со ссылкой на звуковой сегмент. Мы конечно не знаем, где какой файл, но разрезать сегмент на части, послушать и расставить по местам несколько фраз (а их в диалогах обычно бывает всего 3-4 штуки) можно и вручную.

Но мы не ищем легких путей. Разбираться, так до конца. Проверим на всякий случай, вдруг звуки идут прямо по порядку? Конечно же нет, они перепутаны. Как ни крути, где-то должна быть информация о связи звуков в сегменте с текстом диалога. Я довольно долго копался в разных файлах, в надежде что-то обнаружить, но всё бесполезно. Хорошо. Раз такое дело, распакуем все пакеты игры. Это несколько гигабайт, ну ничего, первый раз что-ли? Вот только полный поиск по всем данным игры также ничего не дал. Единственное место, где есть идентификаторы звуков, это аудио банк. Выходит, связь идёт только через него. Ничего не поделаешь, придется лезть внутрь и разбираться, как он устроен.

Теперь, для верности, найдём в игре какой-нибудь диалог, который можно быстро проверять. После эффектного вступления с очаровательной девушкой-репортёршей и маски-шоу, Бэтмена захватывает Hugo Strange. Он говорит пару фраз, начинающихся с «I feel I should thank you», потом уходит, и начинается игра. Именно здесь происходит первое сохранение. Этот момент нам подойдёт.

Найдём фразу злодея в файлах. Она оказывается в пакете OW_E8_Ch1z_Anim. Так сразу и не догадаешься. Внутри всего один диалог, в котором содержится всё начало игры. Это целых 24 фразы, но возможно это даже хорошо, в мешанине кодов легче найти число 24, чем 1 или 2. Итак, мы собирались изучить содержимое.akBank

Формат банков wwise оказывается уже частично исследован. Будем надеяться что этой информации хватит для нашей цели. Судя по началу файла.akbank, в нем находятся сразу 5 аудио банков для 5 языков, первым идёт банк INT (английский) - его мы и посмотрим.

Сначала там имеется непонятная таблица после заголовка ВКРК, потом довольно много нулей (это видно на прошлой картинке), потом сегмент BKHD, и потом сегмент HIRC, в котором, по всей видимости, находится описание всех аудио-объектов. В данном случае у нас их 79 штук (0x4F выделено зеленым). Как утверждает описание, объекты в сегменте идут один за другим, для каждого указан тип (1 байт), потом 32-битная длина, и ID. Длина и содержимое объекта отличается в зависимости от типа.

Объекты тип 2 - это собственно звуки. Тип выделен красным, длина - желтым. У каждого из них указан ID самого объекта (зеленым) и ID звукового файла (фиолетовым), где он содержится. Ниже видно начало следующего объекта такого же типа.

Объекты 3 - звуковые действия, похоже каждое из них это «проиграть звук», с какими-то неизвестными нам параметрами, но в каждом из них есть свой ID (серым) и ID звука, который собственно нужно проиграть (зеленым).

Объекты 4 - звуковые события. Очень короткие записи, в которых только и есть, что ID события (голубым), а также указано, что оно содержит только одно действие, и ID этого самого действия (серым).

Ну вот, похоже у нас имеется 24 цепочки событий следующего вида:

Событие -> действие -> звук

Они связаны идентификаторами, и в итоге заканчиваются ссылками на звуковые файлы. Как же найти нужные файлы? Поискав эти коды, мы обнаруживаем их как раз в той самой таблице в начале банка. Видимо это таблица, в которой записано, где внутри звукового сегмента находятся отдельные звуки. И действительно, в ней как раз 24 элемента, и для каждого файла указан тот самый ID, который у нас был в звуковом объекте, смещение относительно начала, и длина. Поздравляем! Теперь у нас полностью прослеживается связь от аудио-событий в банках до отдельных звуковых файлов:

To есть как исходные данные у нас есть ID нескольких событий, по одному для каждой фразы диалога, и для каждого из них мы можем найти звуковой файл. Но как связать их теперь с самим диалогом?

Попробуем поискать где-нибудь эти идентификаторы. В файлах диалогов их опять нет. В папке есть еще какие-то очень короткие файлы.akevent - их тоже 24 штуки. Очевидно, это файлы аудио-событий. Внутри какие-то небольшие числа, у всех одинаковые, от них никакого толку. Единственное, что там есть разного, это как раз id аудио-событий, которые мы нашли в банке.

Опять тупик: есть идентификаторы для всех событий, но связи между ними и текстом диалога нет! На всякий случай сделаем тест: поменяем в нужном файле ID и запустим игру. Да, действительно, Хьюго открывает рот, но ничего не говорит. Значит это именно те данные, по которым игра находит нужный звук. Заодно отмечаем, что субтитр всё равно показывается. Значит тексты диалогов в нашем случае первичны, а от них уже идёт звук.

И тут я вспоминаю, что у движка UE3 есть привычка ссылаться на объекты пакета через их порядковый номер внутри пакета, то есть прямо как они упакованы внутри него. Посмотрим файл экспорта, который образуется у нас при распаковке пакетов:

Номера здесь десятичные, и начинаются с нуля, в игре же они начинаются с 1, поэтому получается, что файлы событий в экспорте идут под номерами 0x35-0x4С. Посмотрим, нет ли их где-то среди диалогов. Начинаем смотреть - и надо же, прямо в начале файла есть этот номер!

Вот и последнее недостающее звено. Заодно рядом обнаруживаем 0x2С - это номер файла банка. В случае если в папке вдруг будет несколько диалогов, их тоже можно будет отличить. Теперь мы полностью знаем, как по тексту диалога найти соответствующий звук.

Такая вот получилась довольно сложная схема взаимодействия. Похоже разработчики решили не заботиться об удобстве, и просто положились на внутренние механизмы движка, что и привело к такому результату в данном случае. А случаи, как я уже сказал, бывают самые разные. Структура файлов и связи между ними могут быть совершенно другие. Здесь у нас от текста диалога шла ссылка на звук. А бывает наоборот, первичным является звук, а к нему по идентификатору находится текст. Или первично событие скрипта игры, а от него идут ссылки и на звук, и на текст. Бывает, что файлы находятся не по имени, а по хешу. Но в любом случае, каким-то образом они все связаны, остаётся только найти эту связь.

В качестве последнего штриха попробуем проверить наши результаты. Найдём файл диалога именно от нужной нам фразы «I feel I should thank you» и заменим в нём 4B на 4C. Запускаем игру, и наш друг Хьюго вместо этой фразы многозначительно произносит: «It will be my legacy, a monument to your failure and if you try to stop me, I guarantee everyone will know your secret.»

Оставим на этом Бэтмена, исследование можно считать законченным. В письменном виде процесс выглядит быстро, но на самом деле каждый этап может сопровождаться долгим созерцанием 16-ричных цифр, без всякой надежды на то, что в какой-то момент они сложатся в осмысленные цепочки, и вы поймёте, что они значат. Но иногда это всё-таки происходит.