Как работает сжатие аудио. Сжатие звука MP3

От редактора

Мы публикуем второе издание этой статьи, дополненное и переработанное. Многим нашим читателям изложенный здесь материал покажется слишком очевидным, другим — весьма спорным. Однако, для людей, только что открывших для себя существование магического мира MP3 , данная статья должна принести неоценимую пользу и ответить на большинство возникших вопросов.

От автора

Как следует из названия, статья посвящена описанию некоторых тонкостей, которые возникают при использовании стандарта сжатия аудиоданных MPEG I/II Layer 3 (mp3). Данная работа не претендует на статус законченного исследования, включающего в себя тестирование кодеров или проигрывателей mp3. Это лишь попытка автора структурировать свои знания, а также отразить свой опыт знакомства с вышеупомянутым стандартом.

Способ подачи материала предполагает наличие у читателя базовых знаний по mp3, которые, впрочем, вы можете почерпнуть в любой момент из источников, указанных в разделе "Список ссылок".

Стратегические вопросы

Имеет ли смысл использовать сжатие с потерями вообще ?

Давайте попытаемся обозначить границы применения mp3. Везде, где качество звука не должно в точности соответствовать оригиналу и где в будущем наверняка не потребуется серьезная обработка хранимых данных, использование mp3 (или другого формата сжатия с потерями) вполне допустимо. Не всякому захочется каждый час вставлять в CD привод новый музыкальный диск, если объем винчестера составляет десятки гигабайт. Куда как проще записать музыку в mp3 на винчестер или CD-ROM и слушать оттуда. Или воспользоваться портативным mp3 плеером, mp3-CD плеером, автомагнитолой с поддержкой mp3. А можно просто скачать mp3 из интернета на выбор.

В этом и следующем подразделах будут описаны случаи, когда применение сжатия с потерями недопустимо, а также предпринята попытка разобраться — почему?

Не имеет смысла делать архивы звуковых данных для их дальнейшей обработки (библиотеки сэмплов, фонотеки и т.п.) в mp3. Это касается и MiniDisk (там тоже используется сжатие с потерями), и других форматов: многие виды цифровой обработки влекут за собой слышимые искажения. Данное правило не зависит от используемого битрейта. Говоря о дальнейшей обработке звука я имею в виду нечто более серьезное, чем просто микширование или fade in/out, например flange, distortion, dynamic compression, reverberation, фильтрация шумов и даже использование эквалайзера… Скажем, в mp3 нельзя хранить сэмплы (для их хранения используют специальные форматы сжатия без потерь , например sfArk). Так как в случае кодирования с потерями нельзя восстановить утраченные на этапе кодирования данные, то в mp3 желательно сохранять только окончательные варианты звукозаписей.

Еще один аргумент: вы знаете как аудиодиск, перегнанный в mp3, записать обратно на аудиокомпакт-диск так, чтобы между треками не было ни пауз лишних, ни щелчков? Не знаете? Почитайте, скажем, www.r3mix.net . Морока та еще… Если вы хотите сказать: "А я вот делал — все ОК!" — конкретизируем задачу: музыка должна переходить без пауз из трека в трек, причем паузой считается не только промежуток в 1-2 секунды, но и маленькие отрезки тишины в единицы-десятки миллисекунд. Теоретически и в этом случае можно все сделать идеально слитно, но может так оказаться, что "овчинка не будет стоить выделки".

Какие существуют способы хранения звука без потерь?

Я храню фонотеку в wav-файлах (в PCM формате). Можно также использовать CD-DA; для него характерны большая совместимость, но меньшая точность считывания при проигрывании. Есть и другие варианты — обычное архивирование (ZIP , RAR) или специальные программы типа WavPack , Monkey"s Audio , RK Audio , LPAC Archiver , Shorten . Однако работа с файлами, сжатыми подобным образом, чревата неприятными сюрпризами: wav (PCM) играют подавляющее большинство проигрывателей, а вот экзотику типа RKA… Известно о существовании плагина для RKA под WinAmp, но на WinAmp свет клином не сошелся: есть же люди, которые им не пользуются. Таким образом, один только WinAmp — это еще не совместимость (в широком смысле). А другие программы-проигрыватели? А аппаратные плееры? А mp3-CD плееры? Не знаю, как для вас, а для меня совместимость в указанном выше смысле очень важна. А использование только одной пары кодер/проигрыватель существенно ограничивает свободу. Например, для того чтобы дать послушать какой-то файл своим друзьям, нужно еще убеждать их в необходимости использовать новый проигрыватель.

Из каких соображений нужно исходить при выборе параметров сжатия?

По моему мнению, можно выделить два основных режима сжатия: "сохранение приемлемого уровня качества при достижении максимального сжатия" (например, для публикации в Сети) и "полное субъективное сохранение качества исходного материала при не самом большом сжатии" (для хранения и регулярного прослушивания). Стоит заметить, что пороговые битрейты для того и другого режимов индивидуальны. Для меня они составляют 128 и 256 кб/с соответственно. Безусловно, существует множество промежуточных вариантов: есть портативный плеер mp3 с плохонькими наушниками, которому достаточно 160 кб/с; в машине установлена магнитола с поддержкой mp3 и акустикой получше — тут потребуется, скажем, 192 кб/с. Таким образом, выбирая параметры сжатия, нужно прежде всего определить те задачи, для которых создаются mp3 файлы, и уже исходя из этого решить, какое соотношение между качеством звука и размером файла вас устроит. Следует также учитывать, что понятие качества звука у разных людей может сильно отличаться.

С точки зрения здравого смысла, не стоит беспокоить себя вопросами: "Какого же битрейта достаточно, чтобы никто не услышал разницу с CD-DA?" Ведь всё дело в том, что психоакустическая модель алгоритмов mp3 разрабатывалась под среднестатистического человека с его среднестатистическими ушами. Поэтому оценочные суждения по затронутому вопросу могут быть диаметрально противоположными. Для кого-то качество mp3@128 kbps, сделанного Xing"ом, ничуть не хуже Audio CD даже на отличной аппаратуре. Другой запросто отличает mp3@320 kbps от музыкального CD в любых слепых тестах. Отсюда просто нужно сделать правильные выводы. В первом случае человеку не нужно тратить много денег на качественную аудиотехнику, а во втором — можно только порадоваться за ее (его) тонкий слух. Таким образом, исходя из собственных потребностей Вам придется один раз поэкспериментировать, чтобы выяснить, каких параметров в дальнейшем стоит придерживаться.

Хранение wav-файлов позволит в случае изобретения некоего принципиально нового, усовершенствованного алгоритма (условно назовем его mp2000) перегнать в более качественный формат точные копии оригиналов, в то время как самих оригиналов может уже и не быть под рукой… Если помните, аналогичная ситуация возникла с началом победного шествия формата видеосжатия MPEG4.

Какой формат сжатия с потерями лучше использовать: mp3, LQT, WMA, MP+, ogg vorbis …

Следует отметить, что пока ни одна из перечисленных в заголовке альтернатив формату mp3 одновременно и по качеству, и совместимости к нему не приблизилась. Существуют форматы, которые уже сегодня обеспечивают качество сравнимое или даже лучшее, чем у mp3. Например LQT AAC, который часто называют mp4. Однако битрейт у него ограничен до 192 кб/с (за что его не любят ценители mp3 @ 256/320 kbps), и запросы к аппаратуре куда как серьезнее (последнее, правда, в век бурного развития вычислительной техники является проблемой временной). Тем не менее, думаю, вы согласитесь, что по совместимости с mp3 пока никому не сравниться.

Еще один реальный конкурент — ogg vorbis. Формат сейчас находится в стадии бета-тестирования, но, говорят, у него очень неплохие показатели и, следовательно, большой потенциал. В Сети уже обсуждают "плюсы" и "минусы" использования ogg и mp3, и сравнение часто оказывается не в пользу последнего.

По всей видимости, вытеснять mp3 будут долго: вспомните CD-DA, которому пророчили скорую смерть по появлении mp3, MiniDisk и пр. Многие замечания о mp3 справедливы и для других форматов сжатия с потерями.

Воспроизведение mp3

Этот раздел будет интересен даже тем, кто вовсе не собирается заниматься сжатием звуковых данных. Речь пойдёт о некоторых неочевидных моментах проигрывания уже готовых файлов.

Какой проигрыватель mp3 лучше?

Среди программных проигрывателей лучшими традиционно считаются сделанные на коде Fraunhofer: некоторые версии WinAmp "а, WinPlay , AudioActive , Microsoft Media Player … Код от Фраунгофера используется в WinAmp версий 1.5, 1.6, 2.13, 2.20, 2.21, 2.22, 2.666, 2.7 и более поздних; остальные версии оснащены собственным декодером от NullSoft, а копирайт Фраунгофера лишь соблюдение лицензионных требований. Также заслуживает упоминания X-Audio и все, что сделано на этом коде ( , CoolPlay , MusicMatch Jukebox). Еще есть множество проигрывателей, использующих код ISO, самые удачные — MPG123 , UltraPlayer и мой любимый Apollo (качество воспроизведения, конечно, не идеальное, но в целом он очень удобен). Существует даже плагин под WinAmp для декодирования mp3, построенный на основе MPG123. Широко известен проигрыватель NAD , базирующийся на коде ISO. Звук его считается одним из лучших, но беда в том, что он не понимает VBR. Все, что сделано на коде Xing (Xing player , FreeAmp), считается самым худшим вариантом: эти проигрыватели задирают высокие частоты, что сделано, по-видимому, для компенсации завала высоких частот кодерами Xing.

Что касается аппаратных проигрывателей mp3, то о их внутреннем устройстве по части применённых алгоритмов известно совсем мало. Но безусловно то, что алгоритмы в них используются те же, что и в программных проигрывателях. Некоторые содержат аппаратную реализацию алгоритма Fraunhofer в отдельном чипе. Другие проигрыватели имеют даже flash-микросхемы для обновления алгоритмов декодирования mp3. В любом случае нужно смотреть, на основе какого кода сделан проигрыватель. Считается, что Fraunhofer — это всегда хорошо, ISO и X-Audio — зависит от реализации, Xing — однозначно плохо.

Имеет ли смысл выбирать проигрыватель mp3 файлов в зависимости от используемого кодера?

Да. Как было написано выше, проигрыватели на базе Xing задирают высокие частоты, так как при сжатии кодеры на базе Xing эти частоты безбожно режут. В паре они компенсируют друг друга: mp3, сделанные Xing"ом, гораздо лучше звучат в исполнении Xing MPEG Player"а, чем Fraunhofer"a. Авторы LAME (см. следующий раздел) также советуют использовать именно LAME для декодирования сделанных ими mp3.

Безусловно, держать дома набор проигрывателей или даже декодеров (программ, которые могут только преобразовать mp3 в PCM wav файл) неудобно. Поэтому к таким крайним мерам я рекомендую прибегать только в особо ответственных случаях преобразования звука из mp3: запись на аудиокомпакт-диски, микширование, переупаковка другим кодером и т.п.

Как определить, каким кодером был создан mp3 файл?

Поскольку формат mp3 не предусматривает никаких подписей кодера в созданном файле, однозначно определить использовавшийся кодер очень сложно. Есть несколько примет, позволяющих с большей или меньшей степенью вероятности строить догадки: например, кодеры на основе Fraunhofer"а и ISO заполняют тишину разными значениями (акустически тишина не нарушается). Кодеры Xing первыми использовали технологию VBR. В такие файлы они вставляли свою подпись. Позже такую же подпись стал делать LAME (см. следующий раздел), чем, понятное дело, усложнил задачу определения использовавшегося кодера. Сегодня LAME ставит уже свою подпись.

Существуют программы, которые на основе известных признаков пытаются установить, каким кодером пользовались при создании mp3. Одна из таких программ — RenaTager . При ее использовании могут возникнуть проблемы: программа уже не модифицируется, в связи с чем неверно определяет новые версии кодеров. Возможно, такая функция скоро будет включена в альтернативный плагин под WinAmp для воспроизведения mp3 MAD . Я слышал еще о программе mp3GuessEnc , которая имеет интерфейс командной строки, и EncSpot , аналогичной программе с удобным оконным интерфейсом. Но со 100% вероятностью каким кодером был получен файл невозможно. Часто эти программы показывают, что один-два трека с компакт-диска сделаны другим кодером, хотя ведь диск был сжат одним кодером с одинаковыми параметрами.

К слову, стандарт id3v2 предусматривает поле, в котором указано название кодера.

Ламерам посвящается…

Чтобы читатель лучше понял, о чем пойдет речь, позволю себе привести выдержку из англо-русского словаря:

lame — — прил . 1) хромой, изувеченный; 2) неудачный, неправильный; 3) разг. простоватый, отсталый

Что такое лейм?

LAME (читается как "лейм") — это проект по созданию программного кодера mp3, основанный на принципах открытых исходных кодов. Название проекта расшифровывается как "Lame Ain"t a Mpeg Encoder", что означает "лейм — это не MPEG кодер".

Весь его код пишет группа програмистов-энтузиастов. За основу был взят свободно распространяемый в качестве приложения к стандарту MPEG демонстрационный код от ISO. Кодер динамично совершенствуется: новые версии выходят практически каждый день.

На мой взгляд, лейм заслуживает большего признания. Это отличный кодер, который имеет огромное количество настроек, позволяющих кодировать на любой вкус. Лейм поддерживает VBR, кодирование на битрейтах до 320 кб/с включительно, выбор режима кодирования стереосигнала, выбор частот среза фильтров ВЧ и НЧ и многое другое. Качество кодирования на высоких битрейтах всеми признано лучшим.

Чтобы обойти лицензионные ограничения автора стандарта MPEG Layer 3 и владельца патентов Fraunhofer IIS , лейм официально распространяют только в виде патча (исправление или замена нескольких файлов) для оригинального кода mp3 кодера от ISO. В соответствии с этими ограничениями автор или распространитель программ для работы с mp3 должен платить лицензионные отчисления вне зависимости от того, продается ли эта программа или распространяется свободно. Заявляя о нарушении своих прав, Fraunhofer добилась закрытия ряда интересных проектов в области mp3, например проигрывателя NAD , кодера mpegEnc .

Практически весь исходный код ISO подвергся доработке, поэтому для компиляции и сборки работающей версии лейма достаточно его исходных текстов. Учтите, на официальной странице нет готовых программ (чтобы Fraunhofer не могла придраться). О том, где их найти, вы узнаете в одном из следующих подразделов.

Лейм не имеет графической оболочки и управляется из командной строки. Где найти графические оболочки, созданные специально для этой программы, будет сказано ниже. Некоторые программы (например, для копирования музыки с аудиокомпакт-дисков) имеют возможность подключения внешнего mp3 кодера, в частности LAME. Список таких программ приведен на .

Какие версии лейма существуют? Какая версия новее, какая надежнее?

Самая последняя версия имеет типовое название alfa. Никто, включая авторов кодера, не может гарантировать отсутствие в ней ошибок. Поскольку обновление происходит очень часто, для однозначной идентификации версии кодера нужно указывать номер альфа-версии и дату внесения последних изменений в исходный код. Альфа-версии рекомендуется использовать только для тестирования новых возможностей лейма.

После того, как текущая версия пройдет стадию альфа-тестирования и исправления ошибок, появляется бета-версия. Иногда даже в ней встречаются серьезные огрехи (например — 3.67, если память не изменяет), и тогда выпускается новая, улучшенная бета-версия. Как правило, бета-версии работают много лучше и надежнее альфа-версий. Лично я предпочитаю подождать некоторое время (2 — 3 месяца), прежде чем начать использовать данную бета-версию.

В 1999 году координатор проекта лейм принял решение о регулярном выпуске stable (отлаженных) версий, отличающихся от текущих тем, что на протяжении длительного времени не подлежат содержательному обновлению (во избежание свежих ошибок, хотя исправление старых только приветствуется). Нынешняя stable — 3.70 (апрель 2000 года). Меня отговаривали от ее использования, потому что в 3.8х добавили ABR, улучшили качество (постоянная дилемма между надежностью и новыми возможностями).

Замечу, что последняя бета-версия — 3.87 — держится с сентября 2000 года. Это означает, что за все это время сколько-нибудь серьезных оплошностей не было замечено. И, для меня лично, этого достаточно, чтобы сделать свой выбор в пользу 3.87.

Лейм — это ISO код или нет?

Изначально лейм делался как патч именно для кода ISO. При модернизации кодера упор делался на исправление ошибок и совершенствование алгоритма. Но уже в 2000 году в версии, кажется, 3.6, было замечено, что весь код ISO изменен и лейм свободно компилируется без оригинальных исходников ISO. Так что сегодня лейм можно называть ISO-кодером только в историческом смысле, структура же его изменена настолько, что проще считать лейм самостоятельной разработкой. Причем разработкой качественной и перспективной: сейчас лейм уверенно конкурирует как по скорости, так и по качеству с аналогичными программами на основе кода от Fraunhofer.

Что лучше: LAME или Fraunhofer-based кодеры?

Одним нравится попадья, другим — свиной хрящик. Эта дискуссия сродни спорам о том, с какой стороны нужно разбивать яйцо. В августе 1999 года я в результате тестирования установил, что Fraunhofer-based кодеры имеют преимущество перед леймом на битрейтах в 160 кб/с и ниже. Лейм, соответственно, лучше при 192 кб/с и выше. Изменилось ли что-то с тех пор? Повсеместно наблюдаемая тенденция к использованию высоких битрейтов (от 160 и выше) и VBR может обеспечить LAME большое будущее.

ISO-based кодеры, а тем более кодеры на базе Xing использовать сегодня смысла не имеет. Лейм вобрал в себя все лучшее от ISO и ринулся догонять Fraunhofer. Кто-то считает, что уже догнал. А кто-то полагает, что лучше не спешить с выводами и использовать старый добрый Fraunhofer. Вспоминают о том, что во всех тестированиях на низких битрейтах (128 и ниже) Fraunhofer был лидером и уверенно обходил лейм, но забывают, что за прошедшее с тех пор время ситуация могла измениться.

Говорят, что версии лейма появляются чуть ли не каждый день потому, что в старых находят ошибки. Да, все так. У Фраунгофера тоже находят, но не исправляют годами — разве это лучше?

По крайней мере, VBR в лейме лучше, чем в Fraunhofer"е, хотя и тут он далек от идеала.

Где взять откомпилированный под Windows LAME?

На большинстве сайтов можно найти как stable-версии, так и последнюю beta, а иногда и alfa.

Есть ли для LAME оконные оболочки под Windows?

Подготовка материала перед сжатием

В этот раздел вошли советы по подготовке аудиоматериала в цифровом виде к процессу сжатия. Как вы получите этот материал — в этой статье я рассматривать не буду.

Постоянная составляющая

В некоторых случаях (практически никогда на CD и фактически всегда при записи с линейного или микрофонного входа) сигнал имеет так называемую постоянную составляющую: колебания уровня сигнала происходят не относительно условного нуля (середины диапазона уровней сигнала), а относительно некоторого другого уровня. Настоятельно рекомендуется эту составляющую убирать перед кодированием, благо это умеет практически любой звуковой редактор (remove DC offset). Некоторые кодеры (например лейм), кодируя такие файлы, сильно искажают звук, так как их психоакустическая модель рассчитана на исходный сигнал без постоянной составляющей.

Надо ли понижать уровень файла?

Да, надо, если пиковый уровень исходного сигнала около 0 дБ, иначе при кодировании может произойти искажение сигнала. Использование сжатия с потерями подразумевает, что исходный сигнал будет восстановлен не точно, а приблизительно. Из-за этого, на участке с пиковой амплитудой вы имеете шанс получить превышение пикового уровня сигнала (0 дБ), что и повлечет за собой искажения. Количество таких искажений зависит от кодера и битрейта (чем выше битрейт, тем меньше искажений). В общем, только заниженный перед сжатием уровень исходного сигнала гарантирует (в какой-то мере) защиту от искажений.

На сколько понижать? Вопрос спорный. Нужно учитывать то, что при понижении уровня и передискретизации также будут возникать искажения исходного сигнала. Естественно, что искажения будут меньше при понижении уровня ровно в 2 раза, но это достаточно большое понижение громкости. Можно попробовать выбрать что-то кратное этому "вдвое". Скажем, снизить уровень на 25%. А кто-то, может быть, предпочтет целые числа по децибелам, скажем — 3,00 дБ.

Поскольку наличие искажений от превышения пикового уровня сигнала зависит от битрейта и кодера, приведу здесь наблюдения одного из моих знакомых: "при 320 + лейм нормально — 98%, а при 128 — 85-88% от максимального уровня (100% = 0dB)". Сам я с файлами, уровень сигнала которых приближался к 0 дБ, не экспериментировал.

Надо ли использовать нормализацию?

Как правило, нет. Существует принцип невмешательства в работу исполнителя и звукорежиссера. Если что-то звучит тише, значит, так задумано. Это все равно, что читать книгу с главной героиней-брюнеткой, но представлять ее себе блондинкой, потому что вам так больше нравится. Это будет уже не авторский замысел, а ваша вольная обработка.

Тем более неразумно выглядит нормализация под очень высокий уровень (часто 98% или даже 100%) — см. предыдущий подраздел.

Таким образом, нормализация при работе с материалом, полученным с аудио компакт-дисков, практически не нужна, а при работе с другими записями — только в случае очень уж низкого уровня сигнала и только для альбома целиком.

Замечания по поводу увеличения уровня в целое число раз справедливы и в данном случае, так как нормализация — это передискретизация с новым уровнем сигнала.

Тонкости процесса сжатия

В этом разделе описаны некоторые особенности процесса сжатия, как-то: выбор параметров кодера, битрейта и прочего.

Надо ли (в лейме) выключать психоакустику?

Думаю, нет. Лейм очень быстро развивается. В августе 1999 года я тестировал версию 3.24, нынешняя версия — 3.87. В той, старой, версии я действительно слышал разницу в звучании между файлами, сделанными со включенной психоакустикой и с выключенной. Последний вариант мне нравился больше. Но, с точки зрения теории кодирования mp3, это неверно. Психоакустика составляет неотъемлемую и достаточно важную часть алгоритма сжатия. Так что плохо реализованные алгоритмы психоакустики были ошибкой старых версий лейма. И ее, кстати, исправили. Попробуйте сравнить сами.

Есть, правда, одно "но".

Тонкая настройка психоакустики при сжатии

Как я уже говорил выше, психоакустика рассчитана на среднего человека и соответствует настройкам "по умолчанию" для проигрывателя. Из-за этого, подняв высокие частоты в эквалайзере, мы можем услышать искажение идеального, на первый взгляд, звучания мп3 файла. Вот что говорят по этому поводу на MP3 Forum "е:

Народ! Я, кажется, раз 20 писал про одно простое соображение. Повторюсь еще раз.

Иногда некоторые моменты психоакустики отключать надо. Вот, например, в лейме есть опция понижения ATH (Absolute threshold of hearing), т.е. абсолютный порог слышимости. Зачем кодировать звуки, которые мы не слышим, скажете вы? А вот зачем. Если человек будет слушать эту музыку через эквалайзер, то данные параметры (параметры психоакустической модели с стандартным ATH — АГ) можно считать неприменимыми. Т.е. стоит чуток поднять высоких частот, все огрехи mp3 как на ладони.

Ну почему об этом до сих пор никто не написал, а?

Только вот понижение ATH слишком уж "больно" отражается на битрейте в виде его сильного увеличения.

Какой режим кодирования стереосигнала лучше: stereo, joint stereo или dual channel?

Выбор режима кодирования стерео зависит от конкретной ситуации. С одной стороны, при использовании joint stereo на кодирование среднего канала выпадает больше половины битрейта при почти одинаковых правом и левом каналах, с другой стороны, кодер может оставить слишком мало места для кодирования разницы каналов и смазать стереоэффекты. В таком случае, казалось бы, предпочтительнее режим stereo, когда кодер кодирует каналы раздельно, но пропорция, в которой он делит битрейт для правого и левого каналов, может изменяться. А если на каком-то ответственном отрезке кодер сделает поток в одном из каналов чересчур маленьким? Словом, у каждого метода есть преимущества и недостатки — оптимальный выбор будет зависеть от типа записи.

Следует учесть, что некоторые записи содержат сдвиг фаз между каналами, что практически исключает возможность использования joint stereo. Правда, есть специальное ПО , которое находит и корректирует такой сдвиг, однако использование еще одной программы в процессе сжатия не делает этот самый процесс проще. Где взять такую программу, сказано в разделе "Список ссылок".

Лейм автоматически выбирает для каждого фрейма stereo или joint stereo (при желании вы можете запретить ему делать это: "-m s" — только stereo, "-m f" — только joint stereo). Я использую режим с автоматическим выбором "-m j".

Существует мнение, что кодеру нужно запрещать перераспределение потока между каналами стереозаписи, для того чтобы на каком-то ответственном отрезке кодер не сделал поток в одном из каналов чересчур маленьким. Режим, когда каждому каналу отдается ровно половина потока битов, называют dual channel. В лейме этот режим активируется ключом "-m d". Рекомендую использовать такой режим только при заведомо большом размере потока — битрейт в 256 кб/с и больше.

Использовать ли переменный битрейт (VBR)?

Проблема в том, что под VBR (Variable BitRate — переменный битрейт) нужна своя психоакустическая модель, которая и будет управлять изменением битрейта. Раньше кодеры использовали CBR (Constant BitRate — постоянный битрейт) и принцип "обеспечить максимальное качество, упаковывая данные в поток заранее заданной ширины". Переменный битрейт требует совершенно другого подхода: "обеспечить заданный уровень качества, используя поток минимальной ширины", поэтому алгоритмы сжатия для VBR нужно создавать практически с нуля. Более или менее приемлемым прообразом такого алгоритма обладает только лейм, как самый быстроразвивающийся кодер. Ни Ксинг, ни Фраунгофер качественной разработки VBR пока не представили. Их алгоритмы варьируют средний битрейт в пределах 10-15% от основного, что, по-видимому, является результатом попытки адаптировать алгоритмы CBR для использования с VBR (а ведь в старых алгоритмах вообще не было возможности изменить битрейт).

Проблема также состоит в том, что до сих пор не существует сколько-нибудь точной математической модели человеческого слуха. Поэтому разработка психоакустических алгоритмов ведется опытным путем — методом проб и ошибок. Сложность построения алгоритма, получающего на входе некий "уровень качества", заключается в том, что не до конца ясно, как этот уровень качества связан с прочими параметрами алгоритма, в частности с битрейтом. Хотя человеку, далекому от этой технологии, куда как проще оперировать с параметром, непосредственно задающим уровень качества сжатия, чем с некими внутренними параметрами алгоритма.

На этом фоне вполне логичным выглядит появление компромиссного варианта — ABR (Average BitRate — средний битрейт), реализованного в LAME. По сути, это VBR с элементами доработанного старого алгоритма кодирования CBR. Когда качество падает ниже некоторого порога, битрейт увеличивается, если кодируемый сигнал достаточно прост, битрейт уменьшается. В итоге мы получаем обычный файл с VBR потоком, где параметром является не некий абстрактный уровень качества, а заданный битрейт.

Следует отметить, что некоторые проигрыватели не умеют корректно воспроизводить VBR. Например, очень качественный проигрыватель NAD сильнейшим образом искажает звук таких файлов. Объясняется это тем, что, когда этот проигрыватель был создан, ни один из кодеров не использовал VBR. С аналогичной проблемой можно столкнуться при использовании некоторых аппаратных проигрывателей mp3.

И все-таки будущее за принципом, положенным в основу VBR. Осталось только дождаться достойной программной реализации алгоритмов, создающих VBR файлы.

Следует подробнее остановиться на следующей ситуации: при переключении битрейта между фреймами один фрагмент сложного участка может быть закодирован с большим битрейтом, другой — с меньшим, полученный в результате скачок — слышимый дефект звучания. Случай во многом напоминает рассмотренный выше с режимом стерео — вот поэтому-то любители dual channel всегда используют CBR.

Список ссылок

В этом разделе приведен список ссылок на тематически связанные с mp3 ресурсы интернета, которые, на мой взгляд, больше других заслуживают внимания. Некоторые из них содержат свои богатые списки ссылок, дублировать которые не имеет смысла.

Ставший уже классикой и использующийся как ФАК в ФИДО эхоконференции RU.MPEG "Обзор MP3" (в двух частях: часть 1 , часть 2). В обзоре много ссылок на различные, связанные с mp3 сайты. Очень советую новичкам.

Техническая документация по стандарту сжатия mp3 — www.mp3-tech.org .

Официальный сайт проекта LAME — .

Намечается ли новое тестирование?

Честно говоря, сейчас я не считаю это необходимым. Я теперь не испытатель, а скорее аналитик: собираю информацию о чужих тестах, анализирую, делаю выводы.

Как ты сам кодируешь музыку?

При помощи лейма, версии 3.87. На 128 CBR психоакустика включена, для того чтобы показать друзьям-товарищам. То есть это режим "сохранения приемлемого уровня качества при достижении максимального сжатия". При VBR -V2 психоакустика включена для временного хранения качественных записей в mp3. Весь материал, достойный долговременного хранения в моей фонотеке, записывается в формате wav.

Как со мной связаться?

Мой e-mail: [email protected] . Если есть вопросы, не стесняйтесь, задавайте. Я отвечаю на все письма. Если вы участвуете в обсуждении этой статьи в каком-то форуме, сообщите, пожалуйста, мне об этом.

Вместо заключения

Я признателен всем, кто присылал критические замечания, предложения, пожелания. Особо хочу выделить постоянных участников MP3 Forum и автора этого проекта Михаила Федотова..com), при участии которых был подготовлен данный материал.

Спасибо за внимание. Надеюсь, хотя бы часть из приведенной выше информации окажется полезной.

Вконтакте

Одноклассники

Сжатие звуковых данных (сжатие аудио ) - тип сжатия данных, кодирования, применяемая для уменьшения объема аудиофайлов или для возможности уменьшения полосы пропускания для потокового аудио. Алгоритмы сжатия звуковых файлов реализуются в компьютерных программах, называемых аудиокодеками. Изобретение специальных алгоритмов сжатия звуковых данных мотивировано тем, что общие алгоритмы сжатия неэффективны для работы со звуком и делают невозможным работу в реальном времени.

Как и в общем случае, различают сжатия звука без потерь, что делает возможным восстановление исходных данных без искажений, и сжатие с потерями, при котором такое восстановление невозможно. Алгоритмы сжатия с потерями дают большую степень сжатия, например audio CD может вместить не более часа «несжатой» музыки, при сжатии без потерь CD вместит почти 2 часа музыки, а при сжатии с потерями при среднем битрейте - 7-10 часов.

Сжатие без потерь

Сложность сжатия звука без потерь заключается в том, что записи звука являются чрезвычайно сложными в своей структуре. Одним из методов сжатия является поиск образцов и их повторений, однако этот метод не эффективен для более хаотических данных, которыми являются, например оцифрованный звук или фотографии. Интересно, что если сгенерированная компьютером графика значительно легче поддается сжатию без потерь, то синтезированный звук в этом отношении не имеет преимуществ. Это объясняется тем, что даже сгенерированный компьютером звук обычно имеет очень сложную форму, которая представляет сложную задачу для изобретения алгоритма.

Другая сложность заключается в том, что звучание обычно меняется очень быстро и это также является причиной того, что упорядоченные последовательности байтов появляются очень редко.

Наиболее распространенными форматами сжатия без потерь являются:
Free Lossless Audio Codec (FLAC), Apple Lossless , MPEG-4 ALS , Monkey"s Audio , и TTA .

Сжатие с потерями

Сжатие с потерями имеет чрезвычайно широкое применение. Кроме компьютерных программ, сжатие с потерями используется в потоковом аудио в DVD, цифровом телевидении и радио и потоковому медиа в интернете.

Новацией этого метода сжатия было использование психоакустики для обнаружения компонентов звучания, которые не воспринимаются слухом человека. Примером могут служить или высокие частоты, которые воспринимаются только при достаточной их мощности, или тихие звуки, возникающие одновременно или сразу после громких звуков и поэтому маскируются ними - такие компоненты звучания могут быть переданы менее точно, или и вообще не переданы.

Для осуществления маскировки сигнал из временной последовательности отсчетов амплитуды превращается в последовательность спектров звуков, в которых каждый компонент спектра кодируется отдельно. Для осуществления такого преобразования используются методы быстрого преобразования Фурье, МДКП, квадратурной-зеркальных фильтров или другие. Общий объем информации при таком перекодировании остается неизменным. Сжатие в определенной частотной области может заключаться в том, что замаскированные или нулевые компоненты не запоминаются вообще, или кодируются с меньшим разрешением. Например, частотные компоненты в до 200 Гц и более 14 кГц могут быть закодированы с 4-битной разрядностью, тогда как компоненты в среднем диапазоне - с 16 битной. Результатом такой операции станет кодирования со средней разрядностью 8-бит, однако результат будет значительно лучше, чем при кодировании всего диапазона частот с 8-битной разрядностью. Однако очевидно, что перекодированные с низким разрешением фрагменты спектра уже не могут быть восстановлены в точности, и, таким образом, теряются безвозвратно.
Главным параметром сжатия с потерями является битрейт, определяющий степень сжатия файла и, соответственно, качество. Различают сжатия с постоянным битрейтом (англ. Constant BitRate - CBR), переменным битрейтом (англ. Variable BitRate - VBR) и усереденим битрейтом (англ. Average BitRate - ABR).

Наиболее распространенными форматами сжатия с потерями являются: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA и другие.

Наиболее известны Audio MPEG, PASC и ATRAC. Все они используют так называемое "кодирование для восприятия" (perceptual coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму. Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей. Каждый из описанных методов кодирования характеризуется скоростью битового потока (bitrate), с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму.

Audio MPEG - группа методов сжатия звука, стандартизованная MPEG (Moving Pictures Experts Group - экспертной группой по обработке движущихся изображений). Методы Audio MPEG существуют в виде нескольких типов - MPEG-1, MPEG-2 и т.д.; в настоящее время наиболее распространен тип MPEG-1. Существует три уровня (layers) Audio MPEG-1 для сжатия стереофонических сигналов: 1 - коэффициент сжатия 1:4 при потоке данных 384 кбит/с; 2 - 1:6..1:8 при 256..192 кбит/с; 3 - 1:10..1:12 при 128..112 кбит/с. Минимальная скорость потока данных в каждом уровне определяется в 32 кбит/с; указанные скорости потока позволяют сохранить качество сигнала примерно на уровне компакт-диска. Все три уровня используют входное спектральное преобразование с разбиением кадра на 32 частотные полосы. Наиболее оптимальным в отношении объема данных и качества звука признан уровень 3 со скоростью потока 128 кбит/с и плотностью данных около 1 Мб/мин. При сжатии с более низкими скоростями начинается принудительное ограничение полосы частот до 15-16 кГц, а также возникают фазовые искажения каналов (эффект типа фэйзера или фленжера). Audio MPEG используется в компьютерных звуковых системах, CD-i/DVD, "звуковых" дисках CD-ROM, цифровом радио/телевидении и других системах массовой передачи звука. комплект MPEG-1 предусмотрен для кодирования сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Как было указано выше, комплект MPEG-1 имеет три уровня (Layer I, II и III). Эти уровни имеют различия в обеспечиваемом коэффициенте сжатия и качестве звучания получаемых потоков. Layer I позволяет сигналы 44.1 КГц / 16 бит хранить без ощутимых потерь качества при скорости потока 384 Кбит/с, что составляет 4-х кратный выигрыш в занимаемом объеме; Layer II обеспечивает такое же качество при 194 Кбит/с, а Layer III - при 128 (или 112). Выигрыш Layer III очевиден, но скорость компрессии при его использовании самая низкая (надо отметить, что при современных скоростях процессоров это ограничение уже не заметно). Фактически, Layer III позволяет сжимать информацию в 10-12 раз без ощутимых потерь в качестве. - Стандарт MPEG-2 был специально разработан для кодирования ТВ сигналов вещательного телевидения. В апреле 1997 этот комплект получил «продолжение» в виде алгоритма MPEG-2 AAC (MPEG-2 Advanced Audio Coding - продвинутое аудио кодирование).

Стандарт MPEG-4 - это особая статья. MPEG-4 не является просто алгоритмом сжатия, хранения и передачи видео или аудио информации. MPEG-4 - это новый способ представления информации, это - объектно-ориентированное представление мультимедиа данных. Стандарт оперирует объектами, организует из них иерархии, классы и прочее, выстраивает сцены и управляет их передачей. Объектами могут служить как обычные аудио или видео потоки, так и синтезированные аудио и графические данные (речь, текст, эффекты, звуки...). Такие сцены описываются на специальном языке.

Стандарт MPEG-7 вообще в корне отличается от всех иных стандартов MPEG. Стандарт разрабатывается не для установления каких-то рамок для передачи данных или типизации и описания данных какого-то конкретно рода. Стандарт предусмотрен как описательный, предназначенный для регламентации характеристик данных любого типа, вплоть до аналоговых. Использование MPEG-7 предполагается в тесной связи с MPEG-4.

Для удобства обращения со сжатыми потоками, все алгоритмы MPEG разработаны таким образом, что позволяют осуществлять декомпрессию (восстановление) и воспроизведение потока одновременно с его получением (download ) - потоковая декомпрессия «на лету» (stream playback ). Эта возможность очень широко используются в интернете, где скорость передачи информации ограничена, а с использованием подобных алгоритмов появляется возможность обрабатывать информацию прямо во время ее получения не дожидаясь окончания передачи.

PASC Precision Adaptive Sub-band Coding - точное адаптивное внутриполосное кодирование) - частный случай Audio MPEG-1 Layer 1 со скоростью потока 384 кбит/с (сжатие 1:4). Применяется в системе DCC.

ATRAC Adaptive TRansform Acoustic Coding - акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц. ATRAC (Adaptive TRansform Acoustic Coding) разделяет 16-битный 44,1 кГц цифровой аудио сигнал на 52 частотных диапазона (после быстрого преобразования Фурье). Диапазоны с низкими частотами передаются более точно, чем с высокими. Алгоритм использует психо-акустическое кодирование, где применяется эффект маскировки и порог слышимости звука, в результате чего часть информации может быть отброшена и выходящий поток данных имеет размер в 1/5 оригинального. Каждый канал обрабатывается независимо (портативный MD привод Sony MZ-1 использует один чип ATRAC кодера/декодера на канал). Другой алгоритм кодирования, PASC (Precision Adaptive Sub-band Coding - сейчас используется Philips в DCC ) разделяет цифровой сигнал на промежутки равного размера и удаляет часть информации (уменьшая поток до 1/4 оригинального). PASC является алгоритмом MPEG Layer 1 (его можно распаковать проигрывателями MPEG Layer 1 после небольшой предварительной коррекции).
Оба алгоритма выполняют сжатие данных, обеспечивая хранение 16-битного звукового потока. Цель алгоритма - сжать поток для уменьшения занимаемого им пространства на диске. Существует огромного множество алгоритмов сжатия. Некоторые алгоритмы сжимают данные без потерь (они используются, к примеру, в архиваторах), при этом информация после декомпрессии не отличается от оригинала. PASC и ATRAC относятся к алгоритмам с потерей части информации, они не пытаются сохранить каждый бит входящих данных, они просто стараются выделить и сохранить акустически "важные" биты. Поэтому важно найти звуки, которые будут замаскированы человеческой слуховой системой, которые человек не сможет услышать даже при их воспроизведении. Оба алгоритма сжатия звука прекрасно справляются с этой задачей. Какой звуковой поток записывается на минидиск после сжатия ATRAC? Для стерео сигнала - 292162,5 бит/с. ATRAC сжимает 512 входящих 16-битовых семплов (1024 байта) в "звуковые группы" ATRAC (212 байт), в результате получается коэффициент сжатия 4,83:1. - 44100 семплов/с (входящий поток одного канала) - 512 семплов на звуковую группу (получаем 86,133 звуковых групп/с/канал) - 2 канала (получаем 172,266 звуковых групп/с)
- 212 байт/звуковую группу (получаем 36,5 кбайт/с в стерео) - 8 бит/байт (получаем кбит/с) - 292162,5 бит/с ATRAC (используется в MDLP) работает на 132 кбит/с (LP2) и 66 кбит/с (LP4).

Основы принципа аналого-цифрового преобразования, метод конверсии и сжатия звука, существующие форматы хранения звука. Программы для конвертации и обработки звука и аудио-файлов. Применение этих программ в лингвистических исследованиях.

Битрейт - это объем информации в единицу времени. Вообще битрейт - это сколько битов мы тратим на кодирование звука длительностью 1 сек.

Аналого-цифровой преобразователь (АЦП, англ. Analog-to-digital converter, ADC) - устройство, преобразующее входной аналоговый сигнал в дискретный код (цифровой сигнал). Обратное преобразование осуществляется при помощи ЦАП (цифро-аналогового преобразователя, DAC). Как правило, АЦП - электронное устройство, преобразующее напряжение в двоичный цифровой код. Тем не менее, некоторые неэлектронные устройства с цифровым выходом, следует также относить к АЦП, например, некоторые типы преобразователей угол-код. Простейшим одноразрядным двоичным АЦП является компаратор.

Схема преобразования звукового сигнала из аналогового в цифровой:

Дискретизация - это преобразование непрерывных изображений и звука в набор дискретных значений в форме кодов.

Квантование - это процесс выравнивания набора музыкальных нот под сетку.

Сжатие (компрессия ) аудиоданных представляет собой процесс уменьшения скорости цифрового потока за счет сокращения статистической и психоакустической избыточности цифрового звукового сигнала

Основанная идея, на которой основаны все методики сжатия аудио сигнала с потерями, – пренебрежение тонкими деталями звучания оригинала, лежащие вне пределов которые воспринимает человеческое ухо.

Кодек (CoDec) - это сокращение слов «компрессор и декомпрессор». По сути, кодек - это набор файлов, драйверов и библиотек, необходимых для упаковки видео или звукового файла в сжатый формат и воспроизведения сжатого файла.

Форматы:

AAC (англ. Advanced Audio Coding) - формат аудио-файла с меньшей потерей качества при кодировании, чем MP3 при одинаковых размерах. Формат также позволяет сжимать без потери качества исходника (профиль ALAC AAC).

AAC (Advanced Audio Coding) изначально создавался как преемник MP3 с улучшенным качеством кодирования. Формат AAC, официально известный как ISO/IEC 13818-7, вышел в свет в 1997 как новая, седьмая, часть семьи MPEG-2. Существует также формат AAC, известный как MPEG-4 Часть 3.

Apple AIFF - Этот тип файлов является стандартным для систем Apple Macintosh и систем обработки звука, построенных на его основе. Apple AIFF расшифровывается как Audio Interchange File Format - формат файла обмена звуком, он в чем-то схож с WAV. Его особенностью является то, что он позволяет размещать вместе со звуковой волной дополнительную информацию, в частности, самплы WaveTable (примеры звучания инструментов вместе с параметрами синтезатора), что улучшает качество итогового результата. Хотя в настоящее время компьютеры Apple способны воспроизводить файлы практически любых форматов, в том числе и МР3.

FLAC (англ. Free Lossless Audio Codec - свободный аудиокодек без потерь) - популярный свободный кодек для сжатия аудио. В отличие от кодеков с потерями Ogg Vorbis, MP3 и AAC, не удаляет никакой информации из аудиопотока и подходит как для ежедневного прослушивания, так и для архивирования аудиоколлекции. На сегодня формат FLAC поддерживается многими аудиоприложениями.

FLAC является членом семейства кодеков, разрабатываемых Xiph.Org. К слову, в него же входит известный ogg vorbis – один из лучших lossy-алгоритмов сжатия музыки. В качестве контейнера для аудиоданных используется, разумеется, OGG (файлы с расширением.ogg) и ещё один open-source контейнер – Matroska (файлы с расширением.mka).

Сразу стоит отметить полную открытость как формата, так и алгоритма FLAC. Они не патентованы, поэтому могут совершенно безвозмездно использоваться в любых программах. Именно этим обусловлена широкая поддержка FLAC в проигрывателях – любой серьёзный плеер имеет плагин для FLAC. Кроме этого существуют аппаратные mp3-плееры с поддержкой кодека FLAC.

Программа-кодировщик FLAC скомпилирована для большинства используемых платформ, так что проблем с совместимостью на альтернативных Windows операционных системах возникнуть не должно.

FLAC поддерживает теги собственного формата “FlacTags”. Есть возможность кодирования многоканального звука – серьёзное преимущество по сравнению с Monkey’s Audio. Формат поддерживает любые частоты семплирования в диапазоне от 1 Гц (!) до 65,535 Гц. Разрядность аудио от 4-х (!) до 32-х бит.

Считается, что в сравнении с остальными lossless-кодеками FLAC наиболее эффективно расходует ресурсы системы при раскодировании (воспроизведении) аудио. К сожалению, это достигается за счёт значительного повышения времени кодирования (сжатия).

Сайт FLAC регулярно обновляется, выходят новые версии кодека. Вообще, по активности развития FLAC безусловно лидирует. Вполне возможно, что в будущем это сделает его основным форматом. Что ж, посмотрим…

FLAC является оптимальным выбором для хранения музыки в высоком качестве.

MIDI (англ. Musical Instrument Digital Interface - цифровой интерфейс музыкальных инструментов) - стандарт на аппаратуру и программное обеспечение, позволяющее воспроизводить (и записывать) музыку путем выполнения/записи специальных команд, а также формат файлов, содержащих такие команды. Воспроизводящее устройство или программа называется синтезатором (секвенсором) MIDI и фактически является автоматическим музыкальным инструментом.

В отличие от других форматов, хранит не оцифрованный звук, а наборы команд (проигрываемые ноты, ссылки на проигрываемые инструменты, значения изменяемых параметров звука), которые могут воспроизводиться по-разному в зависимости от устройства воспроизведения. Удобство формата MIDI как формата представления данных позволяет реализовывать устройства, производящие автоматическую аранжировку по заданным аккордам, а также приложения 3D-визуализации звука. Кроме того, такие файлы, как правило, имеют на несколько порядков меньший размер, чем оцифрованный звук сравнимого качества.

Monkey’s Audio - популярный формат кодирования цифрового звука без потерь. Распространяется бесплатно вместе с открытым исходным кодом и набором программного обеспечения для кодирования и воспроизведения, а также плагинами к популярным плеерам. Файлы Monkey’s Audio используют следующие расширения: .ape для хранения аудио и.apl для хранения метаданных. Несмотря на открытый исходный код, Monkey"s Audio не является свободным, так как его лицензия накладывает значительные ограничения на использование.

Аудиофайлы, сжатые кодеком Monkey’s Audio, имеют расширение ‘APE’ – как видите, обезьяны присутствуют не только в логотипе или названии (от английского ape - обезьяна, примат).

Средний битрейт в аудиофайле составляет 600-700 кбит/с; сравните с 128 кбит/с в Mp3. Среднее сжатие составляет 40-50 % в зависимости от жанра музыки: если классические или джазовые произведения сжимаются самым лучшим образом, то композиции в стиле trash-metal или что-то подобное «электронно шумовое» покажет наихудший результат. Для кодеков с потерями при приемлемом качестве сжатие составляет около 80 %.

Существуют четыре степени сжатия. Максимальная компрессия может показаться единственно верным решением, даже несмотря на довольно большое время сжатия. Однако нужно учитывать ещё и расход ресурсов системы, воспроизводящей файл, – для максимально сжатого файла он относительно высок.

Формат.APE обеспечивает поддержку тегов для поиска композиций в музыкальной коллекции. Ещё одним плюсом является проверка целостности файла при раскодировании. Поддерживается восстановление оригинального wav-файла из сжатого.APE.

Monkey’s Audio имеет графический фронтэнд под Windows, иначе говоря удобную оконную программу для управления процессом кодирования. Остальные кодеки требуют использования командной строки или фронтэндов сторонних разработчиков. Самое приятное, что фронтэнд Monkey’s Audio можно использовать и с другими кодеками – Rkau, Wavpack, Shorten и даже lossy-кодеками mp3 и ogg vorbis.

Немного о недостатках. Кодек Monkey’s Audio существует только под Windows. Однако на сайте написано, что «версии под Mac и Linux уже разрабатываются». К слову сказать, сам сайт не обновлялся достаточно давно, что не является хорошим признаком. Также отсутствует какая-либо поддержка среди производителей аппаратных плееров.

Отсутствие кросплатформенности кодека для многих является самым серьёзным минусом Monkey’s Audio. Но шаги по исправлению этого недостатка уже делаются. Стоит упомянуть проект JMAC (http://sourceforge.net/projects/jmac/) по переработке исходных кодов Monkey’s Audio под язык Java. Это позволит использовать кодек на любой ОС без необходимости внесения изменений в исходники и перекомпиляции.

MP3 - (формат кодирования звуковой дорожки MPEG) - лицензируемый формат файла для хранения аудио-информации.

Самый популярный формат сжатия на сегодняшний день – это МР3. Формат МР3 (MPEG Layer 3) был разработан, после ряда промежуточных форматов, институтом Фраунхофера в Германии. Вообще то, формат.МР3 основан на обмане человеческого уха. После некоторых исследований выяснилось, что человеческому слуху свойственно адаптироваться к появлению новых звуков, что выражается в повышении порога слышимости. Поэтому одни звуки способны маскировать (то есть, делать субъективно неслышимыми) другие. Вот и в этом формате часть звуков, которые, как считает соответствующая теория, делаются неслышимыми, просто убираются из общего звучания. После чего получившийся «полуфабрикат» кодируется по методу Хоффмана. Обязательно следует учитывать то, что в формате МР3 программы, сжимающие звук из оригинального, не являются стандартизированными, то есть каждый грамотный программист может реализовать свою схему сжатия. А стандартам подчиняются только декодеры, что приводит к тому, что качество воспроизведения формата МР3 далеко не всегда зависит от плеера, проигрывающего этот файл. В связи с разными способностями и пристрастиями реализаторов различных кодеров, одни из них лучше справляются с симфонической музыкой, другие - с роком и металлом, третьи - с рэпом и рэйвом и так далее.

JointStereo, являющийся одной из особенностей МР3, означает, что вместо кодирования стерео как двух независимых каналов производится кодирование т.н. центрального канала и разницы, отличающей его от исходных стереоканалов. Довольно много составляющих звука в стереоканалах одинаковы, и их кодирование в общем канале позволяет высвободить дополнительную полосу для более подробного кодирования разницы, что приводит к некоторому улучшению качества.

Обязательно следует упомянуть и о Variable Bit Rate, или VBR. Это означает, что кодер изменяет степень сжатия «на лету», в зависимости от характера звука. Такой подход приводит к уменьшению итогового размера файла или, при увеличении требований к качеству, при том же размере файла позволяет добиться лучшего звучания.

MP3 Pro - Появившийся в 2001 году кодек MP3 Pro был создан компанией Coding Technologies совместно с Thomson Multimedia. В его основе лежит МР3, и в результате он получился полностью совместимым с MP3 назад и лишь частично вперед. В нем используется технология SBR (Spectral Band Replication), за счет чего кодек обеспечивает хорошее качество на низких битрейтах. Однако качество кодирования на средних и высоких скоростях передачи данных уступает качеству почти всех других кодеков. В итоге MP3 Pro применяется больше для трансляций в интернете и демонстраций фрагментов новых музыкальных композиций.

Аудио стандарт MPEG-4 не требует единственного или малого набора высокоэффективных схем компрессии, а скорее сложный набор для выполнения широкого круга операций от кодирования низкокачественной речи до высококачественного аудио и синтезирования музыки.

Семейство алгоритмов аудио кодирования MPEG-4 охватывает диапазон от кодирования низкокачественной речи (до 2 кБит/с) до высококачественного аудио (от 64 кБит/с на канал и выше).

RAW - Да, это не только формат изображения, в котором пишут фотографии некоторые цифровые камеры. На самом деле, RAW является т.н. «чистой оцифровкой», в которой не содержится заголовка и находится лишь последовательность отсчетов звуковой волны. Обычно оцифровка хранится в 16-разрядном формате.

Shorten – один из первых появившихся lossless-кодеков. Долгое время проект "спал сладким сном". Однако, в 2007 году, он снова начал развиваться.

TTA (True Audio) - Напоследок о самом интересном. TTA разрабатывается командой наших соотечественников. И, надо сказать, результат их работы впечатляет. Обо всём по порядку.

Кодек является ещё довольно молодым, но несмотря на это содержит все необходимые возможности. Не будем в очередной раз перечислять их, отметим лишь, что формату не хватает лишь поддержки трансляции аудио через сеть.

Формат открыт, равно как и исходные коды программы-кодировщика. Существуют скомпилированные версии под Mac и Linux. Проблем с совместимостью при воспроизведении также возникнуть не должно, ибо уже существуют плагины для всех популярных проигрывателей, а также DirectShow фильтры для Windows Media Player. Есть плагин для Adobe Audition, что немаловажно для музыкантов. За последние 4 года даже появилась аппаратная поддержка в плеерах!

WAV - Он является основным аудио форматом для многих и многих систем воспроизведения цифрового звука и используется как стандартный формат звуковых файлов в персональных компьютерах. К тому же, он имеет солидный набор спецификаций, изрядно пополнившийся за последнее время. Его полное название - Microsoft RIFF/WAVE - Resource Interchange File Format/Wave - формат файлов передачи ресурсов/волновая форма, и создан он был инженерами Microsoft и Intel. В свою очередь, WAV расшифровывается как Waveform Audio File Format.

Windows Media Audio (WMA) - лицензируемый формат файла, разработанный компанией Microsoft для хранения и трансляции аудио-информации.

Номинально формат WMA характеризуется хорошей способностью сжатия, что позволяет ему «обходить» формат MP3 и конкурировать по параметрам с форматами Ogg Vorbis и AAC. Но как было показано независимыми тестами, а также при субъективной оценке качество форматов все таки не является однозначно эквивалетным, а преимущество даже перед MP3 однозначным, как это утверждается компанией Microsoft.

Программы:

DVDVideoSoft Free Studio 6.1.1.426

Пакет бесплатных программ обработки мультимедиа. Конвертирование видео, аудио. Поддержка многих медиаформатов, включая форматы мобильных устройств. Возможность записи CD/DVD/BlueRay-дисков. Работы с медиафайлами сервиса YouTube, других сервисов....

Format Factory 3.0.1.1

Универсальный конвертер видео, аудио, графических файлов. Поддержка большого количества мультимедиа форматов, возможность создания DVDRip....

Русский, Украинский

Free MP3 Cutter and Editor 2.6.0.1654

Очень простая, маленькая, удобная программа редактирования звуковых файлов формата mp3, wav. Free MP3 Cutter and Editor удобен как простой редактор звуковых MP3, WAV-файлов. Может использоваться любым, даже неопытным пользователем....

MediaCoder 0.8.20.5380 Full

Программа обработки медиафайлов: сжатие, конвертер видео-, аудио-, извлечение аудио из видео, создание CD/DVDRip. Непростой, но довольно мощный медиаконвертер. Предоставляет полный спектр настроек при обработке, сжатии, конвертации форматов....

MP3 Quality Modifier 2.51

Основная задача программы - пакетное уменьшение размера MP3 файлов путем изменения его битрейта простым и интуитивно понятным способом, так чтобы размер файла значительно уменьшился, а качество звука осталось прежним. Изменять характеристики MP3 файлов можно при помощи предлагаемых настроек или выставить свои собственные расширенные настройки. Доступны настройки частот и звуковых каналов....

Power Sound Editor Free 7.8.1

Бесплатная версия звукового редактора и средства записи. Богатые возможности обработки звука. Простое понятное управление операциями и различными эффектами над аудио данными....

Nero - многофункциональный мультимедийный пакет для работы с CD и DVD дисками, звуком и видео, включающий в себя также утилиту резервного копирования, вёрстки обложек дисков, поддержку виртуальных дисков. Начиная с версии 6.6.0.13, Nero может также записывать диски форматов HD DVD и Blu-ray. Поддерживает технологии нанесения изображений LabelFlash, DiscT@2, LightScribe. Существуют версии для операционных систем Microsoft Windows и Linux (только программа для записи дисков, без дополнительных утилит).

[править]Состав пакета

Nero Burning ROM - мощная программа для высококачественного копирования и прожига дисков CD, DVD и Blu-ray. Кроме этого в Nero Burning ROM содержатся множество полезных инструментов, которые значительно превосходят функции простого копирования. Это единственная программа, которая необходима пользователю для сохранения данных и предоставления к ним доступа.

Среди основных возможностей Nero Burning ROM можно выделить следующие: высококачественный прожиг и копирование дисков; компоновка дисков CD, DVD и Blu-ray простым перетягиванием файлов; разделение больших файлов для их записи на нескольких физических дисках; надежность чтения данных, несмотря на царапины, возраст и изношенность дисков; улучшенный уровень безопасности с использованием паролей и шифрования...

Nero StartSmart - программа-меню для запуска нижеперечисленных приложений.

Nero Express - Nero Burning Rom с упрощённым пользовательским интерфейсом.

Nero BackItUp - утилита для резервного копирования данных.

Nero Cover Designer - редактор обложек для CD и DVD и их прожиг на диски LightScribe / Label Flash.

Nero Wave Editor - редактор звуковых файлов.

Nero SoundTrax - программа для создания собственных аудиодисков.

Nero ImageDrive - приложение для работы с виртуальными компакт-дисками. Отсутствует в версии 9 и выше. Разработка приложения прекращена.

Nero Vision - программа для записи видеодисков CD/DVD и видеозахвата. Начиная с 5-й версии (Nero 8) может записывать HDTV на HD-DVD/Blu-Ray.

[править]Варианты поставки

Nero поставляется во множестве разных вариантов. Самые частые поставки осуществляются в виде OEM пакетов, которые, обычно, прилагают к большинству CD и DVD рекордеров. Так же Nero продаётся в полном варианте, называемом Premium для европейских продавцов и Ultra Edition для американских. По непонятным причинам для Северной Америки в полный пакет Nero 7 (Ultra Edition) не были включены две технологии: LabelFlash и DiscT@2. В Европейской же версии Nero 7 Premium обе они присутствуют в полном объёме. В остальных функциях они полностью идентичны.

[править]Варианты поставки 10-й версии пакета

Начиная с 10-й версии пакета, некоторые компоненты пакета можно покупать отдельно. Варианты сборок:

Nero Multimedia Suite 10 - самый полный пакет, содержащий все компоненты Nero;

Nero Vision Xtra - содержит только программы: Nero Vision Xtra, Nero MediaHub и Nero Control Center;

Nero Burning ROM - содержит только программы: Nero BackItUp и Nero Express.

[править]Дополнительные утилиты

Nero CD-DVD Speed - тестирование CD или DVD привода.

Nero DriveSpeed - утилита для регулирования скорости вращения CD или DVD привода Отсутствует в версии 10 и выше. Разработка приложения прекращена.

Nero InfoTool - приложение для выдачи подробной информации о возможностях CD или DVD привода, также выдает информацию о системе.

[править]Старые версии программы

На официальном сайте можно приобрести диски с обновлением для предыдущих версий Nero по цене в $10.

[править]Название программы

Программа получила своё название в честь императора Нерона (англ. Nero), предавшего Рим огню (по одной из версий). Благодаря игре слов, название программы Nero Burning ROM(E) может переводиться как «Нерон, сжигающий Рим» или как «Nero, прожигающий (CD-)ROM» . В отличие от Нерона, Nero ничего не уничтожает, а «прожиг», или «выжигание» означает процесс записи оптического носителя.

Значок программы содержит исторический казус: на нём изображён горящий Колизей, который Нерон не мог сжечь - он был построен через несколько лет после смерти Нерона при Веспасиане.

Какими возможностями обладают архиваторы

Какие существуют методы архивирования

Все используемые методы сжатия информации можно разделить на два класса:

· упаковка без потерь - исходную информацию можно точно восстановить по имеющейся упакованной информации;

· упаковка с потерей информации - распакованное сообщение будет отличаться от исходного сообщения.

В настоящее время разработано много алгоритмов архивации без потерь. Однако все они используют, в основном, две простые идеи.

Первая идея основана на учете частот символов, она разработана Д. А. Хаффманом а 1952 году. Эта идея базируется на том факте, что в обычном тексте частоты появления различных символов неодинаковы. Часто встречающиеся символы кодируются короткими последовательностями битов, а более редкие - длинными. К каждому сжатому архиву прикладывается таблица соответствия символов и кодов.

Вторая идея упаковки состоит в использовании того факта, что в сообщениях часто встречаются несколько подряд идущих одинаковых байтов, а некоторые последовательности байтов повторяются многократно. При упаковке такие места можно заменить командами вида "повторить данный байт n раз" (при упаковке графической информации) или "взять часть текста длиной k байтов, которая встречалась m байтов назад" (при упаковке текстовой информации). Такой алгоритм архивации называется RLE (кодирование путем учета повторений).

Средства архивации-разархивации, как правило, обеспечивают:

· создание архива;

· обслуживание архива (добавление файлов, удаление файлов из архива, замену файлов в архиве и т.п.);

· извлечение файлов из архива;

· автоматическую архивацию и разархивацию поддерева файловой структуры;

· тестирование целостности архивов;

· создание многотомных архивов с возможностью задания произвольного размера тома;

· создание самораспаковывающихся архивов;

· создание пароля для доступа к архиву;

· работу с частично разрушенными архивами.

Каждый архиватор обычно реализует свой собственный уникальный алгоритм сжатия.

Для у меньшения размеров мультимедийных файлов используют процедуру сжатия.

Компрессия без потерь используется, например, архиваторами ZIP, RAR, ARJ. Применение подобных алгоритмов для сжатия файлов, содержащих оцифрованный звук, не позволяет получить сжатие более чем в 2 раза.

Звуковой сигнал, преобразованный с помощью АЦП, обычно не повторяет сам себя и по этой причине плохо сжимается с помощью алгоритмов сжатия без потерь. Многие приемы сжатия аудиоинформации основываются на обмане органов чувств человека путем исключения избыточной информации, которую человек не способен воспринять (в силу своих физиологических особенностей).



Такие методы относятся к классу компрессии с потерями . Они не ставят цель абсолютно точного восстановления формы исходных колебаний. Их главная задача - достижение максимального сжатия звукового сигнала при минимальных слышимых искажениях восстановленного после с жатия сигнала.

Звуковой файл можно сжать с помощью компадирования, которое заключается в сжатии по амплитуде исходного звукового сигнала и последующем его восстановлении с помощью расширителя. Значение амплитуды звука заменяется логарифмом этого значения. Полученные числа округляются, и для их записи требуется меньшее число разрядов. Для воспроизведения сжатого сигнала, его подвергают потенцированию (преобразование, обратное логарифмированию).

Еще один способ сжатия звукового сигнала заключается в том, что исходный звуковой сигнал очищается с помощью фильтров от неслышимых компонент (например, низкие басовые шумы). Затем производится более сложный анализ сигнала: вычисляются и удаляются замаскированные частоты, заглушенные другими мощными сигналами. Таким образом можно исключить до 70% информации из сигнала, практически не изменив качество его звучания.

Есть и другие способы, так же основанные на свойствах человеческого слуха.

Если звуковой сигнал представляет собой однотонные звуки с постоянным уровнем громкости, то биоакустические свойства слуха не позволяют его сжать. В этом случае дают эффект традиционные методы архивации информации, например, алгоритм Хаффмана.