Меню

Как найти битовую глубину кодирования звука



Разбор 7 задания ЕГЭ по информатике

Объяснение заданий 7 ЕГЭ по информатике

7-е задание: «Кодирование графической и звуковой информации, объем и передача информации»
Уровень сложности — базовый,
Требуется использование специализированного программного обеспечения — нет,
Максимальный балл — 1,
Примерное время выполнения — 5 минут.

Проверяемые элементы содержания: Умение определять объём памяти, необходимый для хранения графической и звуковой информации

«Если вычисления получаются слишком громоздкими, значит, Вы неправильно решаете задачу. Удобно выделить во всех множителях степени двойки, тогда умножение сведётся к сложению
показателей степеней, а деление – к вычитанию»

Кодирование текстовой информации

  • n — количество символов
  • i — количество бит на 1 символ (кодировка)

    Кодирование графической информации

    Рассмотрим некоторые понятия и формулы, необходимые для решения ЕГЭ по информатике данной темы.

    • Пиксель – это наименьший элемент растрового изображения, который имеет определенный цвет.
    • Разрешение – это количество пикселей на дюйм размера изображения.
    • Глубина цвета — это количество битов, необходимое для кодирования цвета пикселя.
    • Если глубина кодирования составляет i битов на пиксель, код каждого пикселя выбирается из 2 i возможных вариантов, поэтому можно использовать не более 2 i различных цветов.

  • I — объем памяти, требуемый для хранения изображения
  • M — ширина изображения в пикселях
  • N — высота изображения в пикселях
  • i — глубина кодирования цвета или разрешение

    Или можно формулу записать так:

    * для указания объема выделенной памяти встречаются разные обозначения (V или I).

    Следует также помнить формулы преобразования:

    Кодирование звуковой информации

    Познакомимся с понятиями и формулами, необходимыми для решения заданий 7 ЕГЭ по информатике.

      Оцифровка или дискретизация – это преобразование аналогового сигнала в цифровой код.

    Дискретизация, объяснение задания 7 ЕГЭ

  • Частота дискретизации определяет количество отсчетов, т.е. отдельных значений сигнала, запоминаемых за 1 секунду. Измеряется в герцах, 1 Гц (один герц) – это один отсчет в секунду, а, например, 7 кГц – это 7000 отсчетов в секунду.
  • Разрядность кодирования (глубина, разрешение) — это число битов, используемое для хранения одного отсчёта.

    Получим формулу объема звукового файла:

    Для хранения информации о звуке длительностью t секунд, закодированном с частотой дискретизации ƒ Гц и глубиной кодирования β бит требуется бит памяти:

    S для моно = 1, для стерео = 2, для квадро = 4

    Определение скорости передачи информации

    • Канал связи всегда имеет ограниченную пропускную способность (скорость передачи информации), которая зависит от свойств аппаратуры и самой линии связи(кабеля)

    * Вместо обозначения скорости V иногда используется q
    * Вместо обозначения объема сообщения I иногда используется Q

    и измеряется в бит/с

    Решение заданий 7 ЕГЭ по информатике

    Плейлист видеоразборов задания на YouTube:
    Задание демонстрационного варианта 2022 года ФИПИ

    Тема: Кодирование изображений

    Какой минимальный объем памяти (в Кбайт) нужно зарезервировать, чтобы можно было сохранить любое растровое изображение размером 160 х 160 пикселей при условии, что в изображении могут использоваться 256 различных цветов? В ответе запишите только целое число, единицу измерения писать не нужно.

    Результат: 25

    Детальный разбор задания 7 ЕГЭ по информатике предлагаем посмотреть в видео:

    Тема: Кодирование изображений:

    ЕГЭ по информатике задание 7.2:

    Рисунок размером 128 на 256 пикселей занимает в памяти 24 Кбайт (без учёта сжатия). Найдите максимально возможное количество цветов в палитре изображения.

  • Учтем, что 24 Кбайт необходимо перевести в биты. Получим:
  • Теперь найдем количество цветов в палитре:
  • Результат: 64

    Смотрите видеоразбор задания:

    Тема: Кодирование изображений:

    ЕГЭ по информатике задание 7.3:

    После преобразования растрового 256-цветного графического файла в 4-цветный формат его размер уменьшился на 18 Кбайт. Каков был размер исходного файла в Кбайтах?

    где N — общее количество пикселей,
    а i — глубина кодирования цвета (количество бит, выделенное на 1 пиксель)

    i можно найти, зная количество цветов в палитре:

    Результат: 24

    Подробный разбор 7 задания ЕГЭ смотрите на видео:

    Тема: Кодирование изображений:

    ЕГЭ по информатике задание 7.4:

    Цветное изображение было оцифровано и сохранено в виде файла без использования сжатия данных. Размер полученного файла – 42 Мбайт. Затем то же изображение было оцифровано повторно с разрешением в 2 раза меньше и глубиной кодирования цвета увеличили в 4 раза больше по сравнению с первоначальными параметрами. Сжатие данных не производилось. Укажите размер файла в Мбайт, полученного при повторной оцифровке.

    где N — общее количество пикселей или разрешение,
    а i — глубина цвета (количество бит, выделенное на 1 пиксель)

  • В такого рода задачах необходимо учесть, что уменьшение разрешения в 2 раза, подразумевает уменьшение в 2 раза пикселей отдельно по ширине и по высоте. Т.е. в целом N уменьшается в 4 раза!
  • Составим систему уравнений на основе имеющихся сведений, в которой первое уравнение будет соответствовать данным до преобразования файла, а второе уравнение — после:
  • Выразим i в первом уравнении:
  • Подставим во второе уравнение и найдем I (объем файла):

    Результат: 42

    Тема: Кодирование изображений:

    ЕГЭ по информатике задание 7.5:

    Изображение было оцифровано и сохранено в виде растрового файла. Получившийся файл был передан в город А по каналу связи за 72 секунды. Затем то же изображение было оцифровано повторно с разрешением в 2 раза больше и глубиной кодирования цвета в 3 раза меньше, чем в первый раз. Сжатие данных не производилось. Полученный файл был передан в город Б, пропускная способность канала связи с городом Б в 3 раза выше, чем канала связи с городом А.
    Сколько секунд длилась передача файла в город Б?

    где I — объем файла, а t — время

    По формуле объема файла изображения имеем:

    где N — общее количество пикселей или разрешение,
    а i — глубина цвета (количество бит, выделенное на 1 пиксель)

  • Для данной задачи, необходимо уточнить, что разрешение на самом деле имеет два сомножителя (пикселей по ширине * пикселей по высоте). Поэтому при увеличении разрешения в два раза, увеличатся оба числа, т.е. N увеличится в 4 раза вместо двух.
  • Изменим формулу получения объема файла для города Б:

    Для города А и Б заменим значения объема в формуле для получения скорости:

    Подставим значение скорости из формулы для города А в формулу для города Б:

    Результат: 32

    Другой способ решения смотрите в видеоуроке:

    Тема: Кодирование изображений:

    ЕГЭ по информатике задание 7.6:

    Камера делает фотоснимки размером 1024 х 768 пикселей. На хранение одного кадра отводится 900 Кбайт.
    Найдите максимально возможное количество цветов в палитре изображения.

    • Количество цветов зависит от глубины кодирования цвета, которая измеряется в битах. Для хранения кадра, т.е. общего количества пикселей выделено 900 Кбайт. Переведем в биты:
    • Посчитаем общее количество пикселей (из заданного размера):
    • Определим объем памяти, необходимый для хранения не общего количества пикселей, а одного пикселя ([память для кадра]/[кол-во пикселей]):
  • 9 бит — это i — глубина кодирования цвета. Количество цветов = 2 i :
  • Результат: 512

    Смотрите подробное решение на видео:

    Тема: Кодирование изображений:

    Автоматическая фотокамера производит растровые изображения размером 640×480 пикселей. При этом объём файла с изображением не может превышать 320 Кбайт, упаковка данных не производится.
    Какое максимальное количество цветов можно использовать в палитре?

    где N — общее количество пикселей или разрешение, а i — глубина кодирования цвета (количество бит, выделенное на 1 пиксель)

  • Посмотрим, что из формулы нам уже дано:
  • Количество цветов в изображении зависит от параметра i, который неизвестен. Вспомним формулу:

    Результат: 256

    Подробное решение данного 7 (9) задания из демоверсии ЕГЭ 2018 года смотрите на видео:

    7_21: : ЕГЭ по информатике задание 7.21:

    Для хранения в информационной системе документы сканируются с разрешением 300 ppi. Методы сжатия изображений не используются. Средний размер отсканированного документа составляет 5 Мбайт. В целях экономии было решено перейти на разрешение 150 ppi и цветовую систему, содержащую 16 цветов. Средний размер документа, отсканированного с изменёнными параметрами, составляет 512 Кбайт.

    Определите количество цветов в палитре до оптимизации.

    где N — общее количество пикселей или разрешение, а i — глубина кодирования цвета (количество бит, выделенное на 1 пиксель).

    Так как по заданию имеем разрешение, выраженное в пикселях на дюйм, то фактически это означает:

    Результат: 1024

    Тема: Кодирование звука

    На студии при четырехканальной (квадро) звукозаписи с 32-битным разрешением за 30 секунд был записан звуковой файл. Сжатие данных не производилось. Известно, что размер файла оказался 7500 Кбайт.

    С какой частотой дискретизации (в кГц) велась запись? В качестве ответа укажите только число, единицы измерения указывать не нужно.

    2 4 = 16 КГц

    Результат: 16

    Для более детального разбора предлагаем посмотреть видео решения данного 7 задания ЕГЭ по информатике:

    ЕГЭ по информатике задание 7_9:

    Музыкальный фрагмент был оцифрован и записан в виде файла без использования сжатия данных. Получившийся файл был передан в город А по каналу связи. Затем тот же музыкальный фрагмент был оцифрован повторно с разрешением в 2 раза выше и частотой дискретизации в 3 раза меньше, чем в первый раз. Сжатие данных не производилось. Полученный файл был передан в город Б за 15 секунд; пропускная способность канала связи с городом Б в 4 раза выше, чем канала связи с городом А.

    Сколько секунд длилась передача файла в город A? В ответе запишите только целое число, единицу измерения писать не нужно.

    где:
    I — объем
    β — глубина кодирования
    ƒ — частота дискретизации
    t — время
    S — кол-во каналов (если не указывается, то моно)

  • Выпишем отдельно, все данные, касающиеся города Б (про А практически ничего не известно):
  • Исходя из предыдущего пункта, для города А получаем обратные значения:
  • Дадим объяснения полученным данным:
  • так как глубина кодирования (β) для города Б выше в 2 раза, то для города А она будет ниже в 2 раза, соответственно, и t уменьшится в 2 раза:
  • так как частота дискретизации (ƒ) для города Б меньше в 3 раза, то для города А она будет выше в 3 раза; I и t изменяются пропорционально, значит, при увеличении частоты дискретизации увеличится не только объем, но и время:
  • скорость (V)(пропускная способность) для города Б выше в 4 раза, значит, для города А она будет ниже в 4 раза; раз скорость ниже, то время выше в 4 раза (t и V — обратно пропорциональная зависимость из формулы V = I/t):
  • Таким образом, с учетом всех показателей, время для города А меняется так:

    Результат: 90

    Подробное решение смотрите на видео:

    ЕГЭ по информатике задание 7.10:

    Музыкальный фрагмент был записан в формате стерео (двухканальная запись), оцифрован и сохранён в виде файла без использования сжатия данных. Размер полученного файла – 30 Мбайт. Затем тот же музыкальный фрагмент был записан повторно в формате моно и оцифрован с разрешением в 2 раза выше и частотой дискретизации в 1,5 раза меньше, чем в первый раз. Сжатие данных не производилось.

    Укажите размер файла в Мбайт, полученного при повторной записи. В ответе запишите только целое число, единицу измерения писать не нужно.

    I — объем
    β — глубина кодирования
    ƒ — частота дискретизации
    t — время
    S -количество каналов

  • Выпишем отдельно, все данные, касающиеся первого состояния файла, затем второго состояния — после преобразования:
  • Так как изначально было 2 канала связи (S), а стал использоваться один канал связи, то файл уменьшился в 2 раза:
  • Глубина кодирования (β) увеличилась в 2 раза, то и объем (I) увеличится в 2 раза (пропорциональная зависимость):
  • Частота дискретизации (ƒ) уменьшилась в 1,5 раза, значит, объем (I) тоже уменьшится в 1,5 раза:

  • Рассмотрим все изменения объема преобразованного файла:
  • Результат: 20

    Смотрите видеоразбор данной задачи:

    Тема: Кодирование звуковых файлов:

    ЕГЭ по информатике задание 7_11:

    Музыкальный фрагмент был оцифрован и записан в виде файла без использования сжатия данных. Получившийся файл был передан в город А по каналу связи за 100 секунд. Затем тот же музыкальный фрагмент был оцифрован повторно с разрешением в 3 раза выше и частотой дискретизации в 4 раз меньше, чем в первый раз. Сжатие данных не производилось. Полученный файл был передан в город Б за 15 секунд.

    Во сколько раз скорость (пропускная способность канала) в город Б больше пропускной способности канала в город А?

    I — объем
    β — глубина кодирования
    ƒ — частота дискретизации
    t — время

    Выпишем отдельно, все данные, касающиеся файла, переданного в город А, затем преобразованного файла, переданного в город Б:

  • Скорость передачи данных (пропускная способность) зависит от времени передачи файла: чем больше время, тем ниже скорость. Т.е. во сколько раз увеличится время передачи, во столько раз уменьшится скорость и наоборот.
  • Из предыдущего пункта видим, что если мы вычислим, во сколько раз уменьшится или увеличится время передачи файла в город Б (по сравнению с городом А), то мы поймем, во сколько раз увеличится или уменьшится скорость передачи данных в город Б (обратная зависимость).
  • Соответственно, представим, что преобразованный файл передается в город А. Объем файла изменился в 3/4 раза (глубина кодирования (β) в 3 раза выше, частота дискретизации (ƒ) в 4 раза ниже). Объем и время изменяются пропорционально. Значит и время изменится в 3/4 раза:
  • Т.е. преобразованный файл передавался бы в город А75 секунд, а в город Б15 секунд. Вычислим, во сколько раз снизилось время передачи:
  • Раз время передачи в город Б снизилось в 5 раз, соответственно, скорость увеличилась в 5 раз.

  • Выпишем отдельно все данные, касающиеся файла, переданного в город А:
  • Поскольку увеличение или уменьшение во сколько-то раз разрешения и частоты дискретизации приводит к соответствующему увеличению или уменьшению объема файла (пропорциональная зависимость), то запишем известные данные для преобразованного файла, переданного в город Б:
  • Теперь найдем соотношение VБ к VА:

    Результат: 5

    Подробный видеоразбор задания:

    ЕГЭ по информатике задание 7_12:

    Производится четырёхканальная (квадро) звукозапись с частотой дискретизации 32 кГц и 32-битным разрешением. Запись длится 2 минуты, её результаты записываются в файл, сжатие данных не производится.

    Определите приблизительно размер полученного файла (в Мбайт). В качестве ответа укажите ближайшее к размеру файла целое число, кратное 10.

    I — объем
    β — глубина кодирования
    ƒ — частота дискретизации
    t — время
    S — количество каналов

  • Для простоты расчетов пока не будем брать во внимание количество каналов. Рассмотрим, какие данные у нас есть, и какие из них необходимо перевести в другие единицы измерения:
  • Подставим данные в формулу; учтем, что результат необходимо получить в Мбайтах, соответственно, произведение будем делить на 2 23 (2 3 (байт) * 2 10 (Кбайт) * 2 10 (Мбайт)):
  • Полученный результат значения объема умножим на 4 с учетом количества каналов связи:
  • Ближайшее число, кратное 10 — это 60 .
  • Результат: 60

    Смотрите подробное решение:

    Производится двухканальная (стерео) цифровая звукозапись. Значение сигнала фиксируется 48 000 раз в секунду, для записи каждого значения используется 32 бит. Запись длится 5 минут, её результаты записываются в файл, сжатие данных не производится.

    Какая из приведённых ниже величин наиболее близка к размеру полученного файла?

    1) 14 Мбайт
    2) 28 Мбайт
    3) 55 Мбайт
    4) 110 Мбайт

    Результат: 4

    Подробное решение ГВЭ задания 7 2018 года смотрите на видео:

    Производится двухканальная (стерео) звукозапись с частотой дискретизации 4 кГц и 64-битным разрешением. Запись длится 1 минуту, ее результаты записываются в файл, сжатие данных не производится.

    Определите приблизительно размер получившегося файла (в Мбайтах). В качестве ответа укажите ближайшее к размеру файла целое число, кратное 2.

    Результат: 4

    Тема: Кодирование видео

    Камера снимает видео без звука с частотой 120 кадров в секунду, при этом изображения используют палитру, содержащую 2 24 = 16 777 216 цветов. При записи файла на сервер полученное видео преобразуют так, что частота кадров уменьшается до 20, а изображения преобразуют в формат, использующий палитру из 256 цветов. Другие преобразования и иные методы сжатия не используются. 10 секунд преобразованного видео в среднем занимают 512 Кбайт.

    Сколько Мбайт в среднем занимает 1 минута исходного видео?

    • Посмотрим, как изменялись параметры файла до преобразования и после:
    • Поскольку после преобразования количество кадров в секунду уменьшилось в 6 раз (120 / 20 = 6), а количество бит на пиксель уменьшилось в 3 раза (24 / 8 = 3), то и объем уменьшился в целом в 18 раз (6 * 3 = 18).
    • Вычислим объем файла, передаваемого за 10 секунд, до его преобразования:
    • Чтобы получить объем, переданный за 1 минуту, необходимо полученное значение умножить на 6:

    Результат: 54

    Тема: Скорость передачи данных

    ЕГЭ по информатике задание 7_13:

    Скорость передачи данных через ADSL-соединение равна 128000 бит/с. Передача текстового файла через это соединение заняла 1 минуту.

    Определите, сколько символов содержал переданный текст, если известно, что он был представлен в 16-битной кодировке Unicode.

    Результат: 480000

    Тема: Скорость передачи информации:

    ЕГЭ по информатике задание 7_14:

    У Васи есть доступ к Интернет по высокоскоростному одностороннему радиоканалу, обеспечивающему скорость получения им информации 2 17 бит в секунду. У Пети нет скоростного доступа в Интернет, но есть возможность получать информацию от Васи по низкоскоростному телефонному каналу со средней скоростью 2 16 бит в секунду. Петя договорился с Васей, что тот будет скачивать для него данные объемом 8 Мбайт по высокоскоростному каналу и ретранслировать их Пете по низкоскоростному каналу. Компьютер Васи может начать ретрансляцию данных не раньше, чем им будут получены первые 1024 Кбайт этих данных.

    Каков минимально возможный промежуток времени (в секундах), с момента начала скачивания Васей данных, до полного их получения Петей?

    Результат: 1088

    Подробный разбор смотрите на видео:

    Тема: Скорость передачи информации:

    ЕГЭ по информатике задание 7_15:

    Сколько секунд потребуется модему, передающему сообщения со скоростью 32000 бит/с, чтобы передать 16-цветное растровое изображение размером 800 x 600 пикселей, при условии, что в каждом байте закодировано максимально возможное число пикселей?

    Источник статьи: http://labs-org.ru/ege-7/

    Кодирования звука.

    Звук – это звуковая волна, у которой непрерывно меняется амплитуда и частота. При этом амплитуда определяет громкость звука, а частота — его тон. Чем больше амплитуда звуковых колебаний, тем он громче. А частота писка комара больше частоты сигнала автомобиля. Частоту измеряют в Герцах. 1Гц — это одно колебание в секунду.

    Кодирование звука.

    Компьютер является мощнейшим устройством для обработки различных типов информации, в том числе и звуковой. Но аналоговый звук непригоден для обработки на компьютере, его необходимо преобразовать в цифровой. Для этого используются специальные устройства — аналого-цифровые преобразователи или АЦП. В компьютере роль АЦП выполняет звуковая карта. Каким же образом АЦП преобразует сигнал из аналогового в цифровой вид? Давайте разберемся.

    Пусть у нас есть источник звука с частотой 440Гц, пусть это будет гитара. Сначала звук нужно превратить в электрический сигнал. Для этого используем микрофон. На выходе микрофона мы получим электрический сигнал с частотой 440Гц. Графически он выглядит таким образом:

    Следующая задача — преобразовать этот сигнал в цифровой вид, то есть в последовательность цифр. Для этого используется временная дискретизация — аналоговый звуковой сигнал разбивается на отдельные маленькие временные участки и для каждого такого участка устанавливается определенная величина интенсивности звука, которая зависит от амплитуды. Другими словами через какие-то промежутки времени мы измеряем уровень аналогового сигнала. Количество таких измерений за одну секунду называется частотой дискретизации. Частота дискретизации измеряется в Герцах. Соответственно, если мы будет измерять наш сигнал 100 раз в секунду, то частота дискретизации будет равна 100Гц.

    Вот примеры некоторых используемых частот дискретизации звука:

    • 8 000 Гц — телефон, достаточно для речи;
    • 11 025 Гц;
    • 16 000 Гц;
    • 22 050 Гц — радио;
    • 32 000 Гц;
    • 44 100 Гц — используется в Audio CD;
    • 48 000 Гц — DVD, DAT;
    • 96 000 Гц — DVD-Audio (MLP 5.1);
    • 192 000 Гц — DVD-Audio (MLP 2.0);
    • 2 822 400 Гц — SACD, процесс однобитной дельта-сигма модуляции, известный как DSD — Direct Stream Digital, совместно разработан компаниями Sony и Philips;
    • 5,644,800 Гц — DSD с удвоенной частотой дискретизации, однобитный Direct Stream Digital с частотой дискретизации вдвое больше, чем у SACD. Используется в некоторых профессиональных устройствах записи DSD.

    В итоге наш аналоговый сигнал превратится в цифровой, а график станет уже не гладким, а ступенчатым, дискретным:

    Глубина кодирования звука — это количество возможных уровней сигнала. Другими словами глубина кодирования это точность измерения сигнала. Глубина кодирования измеряется в битах. Например, если количество возможных уровней сигнала равно 255, то глубина кодирования такого звука 8 бит. 16-битный звук уже позволяет работать с 65536 уровнями сигнала. Современные звуковые карты обеспечивают глубину кодирования в 16 и даже 24 бита, а это возможность кодирования 65536 и 16 777 216 различных уровней громкости соответственно.

    Зная глубину кодирования, можно легко узнать количество уровней сигнала цифрового звука. Для этого используем формулу:

    где N — количество уровней сигнала, а i — глубина кодирования.

    Например, мы знаем, что глубина кодирования звука 16 бит. Значит количество уровней цифрового сигнала равно 2 16 =65536.

    Чтобы определить глубину кодирования если известно количество возможных уровней применяют эту же формулу. Например, если известно, что сигнал имеет 256 уровней сигнала, то глубина кодирования составит 8 бит, так как 2 8 =256.

    Как понятно из данного вышеприведенного рисунка, чем чаще мы будем измерять уровень сигнала, т.е. чем выше частота дискретизации и чем точнее мы будем его измерять, тем более график цифрового сигнала будет похож на аналоговый график, соответственно, тем выше качество цифрового звука мы получим. И тем больший объем будет иметь файл.

    Кроме того, мы рассматривали монофонический (одноканальный) звук, если же звук стереофонический, то размер файла увеличивается в 2 раза, так как он содержит 2 канала.

    Рассмотрим пример задачи.

    Какой объем будет иметь звуковой монофонический файл содержащий звук, если длительность звука 1 минута, глубина кодирования 8 бит, а частота дискретизации 22050Гц?

    Зная частоту дискретизации и длительность звука легко установить количество измерений уровня сигнала за все время. Если частота дискретизации 22050Гц — значит за 1 секунду происходит 22050 измерений, а за минуту таких измерений будет 22050*60=1 323 000.

    На одно измерение требуется 8 бит памяти, следовательно на 1 323 000 измерений потребуется 1 323 000*8 = 10 584 000 бит памяти. Разделив полученное число на 8 получим объем файла в байтах — 10584000/8=1 323 000 байт. Далее, разделив полученное число на 1024 получим объем файла в килобайтах — 1 291,9921875 Кбайт. А разделив полученное число еще раз на 1024 и округлив до сотых получим размер файла в мегабайтах — 1 291,9921875/1024=1,26Мбайт.

    Источник статьи: http://easyinformatics.ru/uroki/kodirovaniya-zvuka

    Кодирование звука

    На этой странице вы узнаете:

    • Чем звуковая “лесенка” удобнее звуковой волны?
    • От чего зависит качество вашей любимой музыки и звук при звонке?
    • Для чего нужны каналы записи?

    Дискретизация по времени и уровни громкости

    Звук — это волна, высота которой непрерывно изменяется во времени.

    В случае с радугой — если взять на ней две разные точки, они будут иметь разные оттенки, пусть и неразличимые человеческим глазом. В случае со звуком — две любые точки на волне будут разной высоты, пусть человеческое ухо и не почувствует разницы.

    Поэтому для кодирования звукового файла также необходимо применять дискретизацию (подробнее о которой можно прочитать в статье «Дискретное представление информации»), причем не одну.

    • Дискретизация по громкости превратит волну звука в “лесенку” — вместо постоянно меняющейся высоты волны мы будем иметь конкретные уровни громкости, которые будут приближенно равны высоте волны в разные моменты времени.

    Каждый уровень кодируется определенным количеством бит, которое определяется глубиной кодирования (битовой глубиной/разрешением). Чем она больше, тем больше у нас будет уровней громкости.

    Зависимость количества уровней громкости N от глубины кодирования i будет
    N = 2 ^ i.
    • Дискретизация по времени определяет, сколько именно раз в секунду будет производиться измерение текущего уровня громкости. Количество измерений в одной секунде — частота дискретизации, измеряется в Гц, а в реальности, когда ее значение становится очень большим — в кГц (1 кГц = 1000 Гц).
    Чем звуковая “лесенка” удобнее звуковой волны?

    После проведения дискретизации по времени и по громкости вся звуковая волна превратится в “лесенку”:
    — каждая “ступенька” определяет громкость звука в каждый отдельный момент времени (возможная высота ступеньки определяется глубиной кодирования звука);
    — каждая секунда аудиозаписи будет разбита на конкретное число ступенек, определяемое частотой дискретизации.

    И в таком формате кодирование звука не представляет собой никаких проблем, так как мы можем кодировать отдельные “ступеньки”.

    Например, следующая звуковая волна была разбита с глубиной кодирования, равной 3 битам (поэтому уровней громкости ровно 2 ^ 3 = 8 и каждый закодирован кодом, длиной в 3 символа) и частотой дискретизации 4 Гц.

    Чем больше будут значения глубины кодирования и частоты дискретизации, тем больше “лесенка” будет похожа на оригинальную волну.

    Если поднять значения из примера выше всего в несколько раз, результат уже будет гораздо более похожим на оригинальную волну:

    В реальности эти параметры могут достигать еще больших значений:

    • минимальным значением частоты дискретизации для передачи человеческой речи считается 8000 Гц, оно используется в телефонной связи, а в студиях звукозаписи может принимать значение 192 000 Гц и даже больше;
    • достаточной глубиной кодирования звука считается значение 16 бит, при котором появляется уже 2 ^ 16 = 65536 уровней громкости, но для профессиональных работ это значение может доходить и до 32 бит.

    Количество каналов. Формула объема звука

    Нельзя также забывать про такую характеристику звука, как объемность:

    • при прослушивании музыки в наушниках иногда можно услышать, что какие-то музыкальные инструменты громче звучат с одной стороны, а другие — с другой;
    • в кинотеатре в масштабных сценах с большим количеством событий можно услышать, что действия, происходящие на экране справа, звучат громче справа, а происходящие слева — громче слева. А иногда и сзади что-нибудь произойдет.
    Для чего нужны каналы записи?

    Объемность звуку придает количество каналов записи, когда в одном файле находится несколько звуковых волн, которые воспроизводятся одновременно. Программы воспроизведения обрабатывают их и выдают звук там, где он должен был быть.

    Например, чтобы озвучить падение двух камней с двух разных сторон, нужно иметь оба звука и воспроизводить их вместе, но с разных колонок или через разные наушники.

    Так как каждый новый канал добавляет в аудиофайл буквально новые звуковые волны, каждую из них также придется закодировать по тем же параметрам, поэтому количество каналов прямо пропорционально будет увеличивать объем файла.

    Количество каналов обозначается специальными словами:

    • моно — 1 канал;
    • стерео — 2 канала;
    • квадро — 4 канала.

    Осталось вспомнить, что у записи звука есть еще и продолжительность, и мы имеем все данные, чтобы найти вес звукового файла:

    • глубина кодированияi — вес одного уровня звука;
    • частота дискретизации F — количество кодируемых уровней громкости в 1 секунде;
    • продолжительность t;
    • количество каналов записи N.

    Полный вес аудиофайла V будет равен произведению всех этих параметров: V = F * B * t * N.

    Фактчек

    • Глубина кодирования определяет количество бит, выделяемое на хранение одного уровня громкости, на которые будет разделена звуковая волна по высоте;
    • Частота дискретизации обозначает дискретизацию звука по времени — сколько уровней громкости будет закодировано в 1 секунде;
    • Количество каналов определяет объемность звука, добавляя в 1 файл несколько звуковых волн, поэтому прямо пропорционально увеличивает вес всего файла.

    Проверь себя

    Задание 1.
    Количество уровней громкости зависит от…

    1. дискретизации по времени
    2. глубины кодирования
    3. количества каналов
    4. частоты дискретизации

    Задание 2.
    Что означает формулировка “запись в формате квадро”?

    1. При записи использовалась глубина кодирования 4 бит
    2. Частота дискретизации равна 2 Гц
    3. Количество каналов записи равно 2
    4. Количество каналов записи равно 4

    Задание 3.
    В студии звукозаписи производится одноканальная (моно) запись длиной 3 минуты 25 секунд и с частотой дискретизации 35 кГц. Определите и запишите в ответ максимальную битовую глубину, которая может быть использована при записи музыкального фрагмента, если объём файла не превышает 30 Мбайт.

    Задание 4.
    Для записи песни использовалась четырехканальная (квадро) аудиодорожка. Ее сохранили на компьютер, с объемом 10 Мбайт. Тот же файл был записан еще раз в формате двухканальной (стерео) записи с разрешением в 3 раза выше и частотой дискретизации в 1,5 раза меньше, чем в первый раз. Определите количество мегабайт, которое занимает файл при повторной записи.

    Ответы: 1. — 2; 2. — 4; 3. — 1; 4. — 4.

    Источник статьи: http://umschool.net/library/informatika/kodirovanie-zvuka/

    Глубина кодирования звука — это что такое? Определение, формула

    Кодирование звука относится к способам сохранения и передачи аудиоданных. В приведенной ниже статье описывается, как работают такие кодировки.

    Заметим, что это довольно сложная тема — «Глубина кодирования звука». Определение данного понятия также будет дано в нашей статье. Представленные в статье концепции предназначены только для общего обзора. Раскроем понятия глубины кодирования звука. Некоторые из этих справочных данных могут быть полезны для понимания того, как работает API, а также как формулировать и обрабатывать аудио в ваших приложениях.

    Как найти глубину кодирования звука

    Аудиоформат не эквивалентен аудиокодированию. Например, популярный формат файла, такой как WAV, определяет формат заголовка аудиофайла, но сам по себе не является кодировкой звука. WAV-аудиофайлы часто, но не всегда используют линейную кодировку PCM.

    В свою очередь, FLAC является как форматом файла, так и кодировкой, что иногда приводит к некоторой путанице. В пределах Speech API FLAC глубина кодирования звука — это единственная кодировка, которая требует, чтобы аудиоданные включали заголовок. Все другие кодировки указывают беззвучные аудиоданные. Когда мы ссылаемся на FLAC в Speech API, мы всегда ссылаемся на кодек. Когда мы ссылаемся на формат файла FLAC, мы будем использовать формат «.FLAC».

    Вы не обязаны указывать кодировку и частоту дискретизации для файлов WAV или FLAC. Если этот параметр опущен, API облачной речи автоматически определяет кодировку и частоту дискретизации для файлов WAV или FLAC на основе заголовка файла. Если вы укажете значение кодировки или частоты дискретизации, которое не соответствует значению в заголовке файла, API облачной речи вернет ошибку.

    Глубина кодирования звука — это что такое?

    Аудио состоит из осциллограмм, состоящих из интерполяции волн разных частот и амплитуд. Чтобы представить эти формы сигналов в цифровых средах, сигналы должны быть отбракованы со скоростью, которая может представлять звуки самой высокой частоты, которые вы хотите воспроизвести. Для них также необходимо хранить достаточную глубину бит для представления правильной амплитуды (громкость и мягкость) осциллограмм по образцу звука.

    Способность устройства звуковой обработки воссоздавать частоты известна как его частотная характеристика, а способность создавать надлежащую громкость и мягкость известна как динамический диапазон. Вместе эти термины часто называют верностью звукового устройства. Глубина кодирования звука — это средство, с помощью которого можно восстановить звук, используя эти два основных принципа, а также возможность эффективно хранить и передавать такие данные.

    Частота выборки

    Звук существует как аналоговая волновая форма. Сегмент цифрового звука аппроксимирует эту аналоговую волну и сэмплирует ее амплитуду с достаточно высокой скоростью, чтобы имитировать собственные частоты волны. Частота дискретизации цифрового аудиосигнала определяет количество выборок, взятых из исходного материала аудио (в секунду). Высокая частота дискретизации увеличивает способность цифрового звука точно представлять высокие частоты.

    Как следствие теоремы Найквиста-Шеннона, обычно нужно пробовать хотя бы вдвое большую частоту любой звуковой волны, которую необходимо записать в цифровом виде. Например, для представления звука в диапазоне человеческого слуха (20-20000 Гц), цифровой аудиоформат должен отображать не менее 40000 раз в секунду (что является причиной того, что звук CD использует частоту дискретизации 44100 Гц).

    Бит глубины

    Глубина кодирования звука — это влияние на динамический диапазон заданного образца звука. Более высокая битовая глубина позволяет представлять более точные амплитуды. Если у вас много громких и мягких звуков в одном и том же звуковом образце, вам понадобится больше бит, чтобы правильно передавать эти звуки.

    Более высокие битовые глубины также уменьшают соотношение «сигнал/шум» в образцах аудио. Если глубина кодирования звука составляет 16 битов, музыкальный звук CD передается с использованием данных величин. Некоторые методы сжатия могут компенсировать меньшие битовые глубины, но они, как правило, являются потерями. DVD Audio использует 24 бит глубины, в то время как в большинстве телефонов глубина кодирования звука составляет 8 бит.

    Несжатый звук

    Большая часть обработки цифрового звука использует эти два метода (частоту дискретизации и глубину бит) для простого хранения аудиоданных. Одна из самых популярных технологий цифрового звука (популяризированная при использовании компакт-диска) известна как модуляция импульсного кода (или PCM). Аудио выбирается с установленными интервалами, и амплитуда дискретизированной волны в этой точке сохраняется как цифровое значение с использованием битовой глубины образца.

    Линейный PCM (который указывает, что амплитудный отклик является линейно однородным по выборке) является стандартом, используемым на компакт-дисках и в кодировке LINEAR16 Speech API. Оба кодирования создают несжатый поток байтов, соответствующий непосредственно аудиоданным, и оба стандарта содержат 16 бит глубины. Линейный PCM использует частоту дискретизации 44 100 Гц на компакт-дисках, что подходит для перекомпоновки музыки. Однако частота дискретизации 16000 Гц более подходит для рекомпозиции речи.

    Линейный PCM (LINEAR16) является примером несжатого звука, поскольку цифровые данные хранятся аналогичным образом. При чтении одноканального потока байтов, закодированного с использованием Linear PCM, вы можете подсчитать каждые 16 бит (2 байта) для получения другого значения амплитуды сигнала. Практически все устройства могут манипулировать такими цифровыми данными изначально — можно обрезать аудиофайлы Linear PCM с помощью текстового редактора, но несжатый звук — не самый эффективный способ транспортировки или хранения цифрового звука. По этой причине большинство аудио использует цифровые методы сжатия.

    Сжатый звук

    Аудиоданные, как и все данные, часто сжимаются, что облегчает их хранение и транспортировку. Сжатие в аудиокодировании может происходить либо без потерь, либо с потерями. Сжатие без потерь можно распаковать, чтобы восстановить цифровые данные в исходную форму. Сжатие обязательно удаляет некоторую ​​информацию во время процедуры декомпрессии и параметризуется, чтобы указать степень толерантности к технике сжатия для удаления данных.

    Без потерь

    Без потерь сжимаются цифровые аудиозаписи, используя сложные перестановки сохраненных данных, что не приводит к ухудшению качества исходного цифрового образца. При сжатии без потерь при распаковке данных в исходную цифровую форму информация не будет потеряна.

    Итак, почему методы сжатия без потерь иногда имеют параметры оптимизации? Эти параметры часто обрабатывают размер файла для времени декомпрессии. Например, FLAC использует параметр уровня сжатия от 0 (самый быстрый) до 8 (наименьший размер файла). Сжатие FLAC более высокого уровня не потеряет никакой информации по сравнению со сжатием более низкого уровня. Вместо этого алгоритму сжатия просто нужно будет затрачивать больше вычислительной энергии при построении или деконструировании оригинального цифрового звука.

    API Speech поддерживает два кодирования без потерь: FLAC и LINEAR16. Технически LINEAR16 не является «сжатием без потерь», поскольку в первую очередь не задействовано сжатие. Если размер файла или передача данных важны для вас, выберите FLAC как ваш вариант кодирования звука.

    Потеря компрессии

    Сжатие аудиоданных устраняет или уменьшает некоторые типы информации при построении сжатых данных. Speech API поддерживает несколько форматов с потерями, хотя их следует избегать, поскольку потеря данных может повлиять на точность распознавания.

    Популярный MP3-кодек является примером метода кодирования с потерями. Все методы сжатия MP3 удаляют звук извне обычного аудиодиапазона человека и регулируют уровень сжатия, регулируя эффективную скорость передачи данных кодека MP3 или количество бит в секунду для сохранения даты звука.

    Например, стерео CD с использованием линейного PCM из 16 бит имеет эффективную скорость передачи битов. Формула глубины кодирования звука:

    441000 * 2 канала * 16 бит = 1411200 бит в секунду (бит/с) = 1411 Кбит/с

    Например, сжатие MP3 удаляет такие цифровые данные, используя скорость передачи данных, такие как 320 кбит/с, 128 кбит/с или 96 кбит/с, что приводит к ухудшению качества звука. MP3 также поддерживает переменные скорости передачи битов, которые могут дополнительно сжать аудио. Оба метода теряют информацию и могут влиять на качество. С уверенностью можно сказать, что большинство людей могут определить разницу между кодированной MP3-музыкой 96 кбит/с или 128 Кбит/с.

    Другие формы сжатия

    MULAW — это 8-битное кодирование PCM, где амплитуда выборки модулируется логарифмически, а не линейно. В результате uLaw уменьшает эффективный динамический диапазон сжатого звука. Хотя uLaw был введен специально для оптимизации кодирования речи в отличие от других типов аудио, 16-битный LINEAR16 (несжатый PCM) по-прежнему намного превосходит 8-битный сжатый звук uLaw.

    AMR и AMR_WB модулируют кодированный аудиокасс, вводя переменную скорость передачи битов в исходный звуковой образец.

    Хотя Speech API поддерживает несколько форматов с потерями, вам следует избегать их, если у вас есть контроль над исходным аудио. Хотя удаление таких данных посредством сжатия с потерями может не оказывать заметного влияния на звук, слышимый человеческим ухом, потеря таких данных для механизма распознавания речи может значительно ухудшить точность.

    Источник статьи: http://fb.ru/article/359128/glubina-kodirovaniya-zvuka—eto-chto-takoe-opredelenie-formula

    Обработка звука

    Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:

    1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

    2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.

    3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.

    4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.

    Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .

    Аналоговый и дискретный способы представления звука

    Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.

    При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.

    При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.

    Примером аналогового хранения звуковой информации является виниловая пластин­ка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).

    Восприятие звука человеком

    Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.

    Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.

    В аналоговой форме звук представляет собой волну, которая характеризуется:

    • Высота звука определяется частотой колебаний вибрирующего тела.
    • Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
    • Длительность звука — продолжительность колебаний.
    • Тембром звука называется окраска звука.

    Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с

    Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).

    • Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.
    • Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон.

    Кодирование звуковой информации

    Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).

    • В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
    • Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.

    Качество кодирования звуковой информации зависит от :

    1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

    2)глубиной кодирования, т.е. количества уровней сигнала.

    Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.

    Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.

    Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.

    Форматы звуковых файлов

    РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.

    WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали — это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.

    RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.

    IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga — одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.

    MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.

    AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.

    MID. Файл, хранящий в себе сообщения MIDI-системе, установленной на Вашем компьютере или в устройстве.

    МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для «обычных немузыкальных» людей потери не ощутимы явно.

    VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF — процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.

    RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.

    Источник статьи: http://www.sites.google.com/site/ivanovsinform/teoreticeskij-material/kodirovanie-informacii/kodirovanie-zvukovoj

    Глубина кодирования звука — что это? Отвечаем на вопрос. Определение, формула расчета

    Кодирование звука относится к способам сохранения и передачи аудиоданных. В приведенной ниже статье описывается, как работают такие кодировки.

    Заметим, что это довольно сложная тема — «Глубина кодирования звука». Определение данного понятия также будет дано в нашей статье. Представленные в статье концепции предназначены только для общего обзора. Раскроем понятия глубины кодирования звука. Некоторые из этих справочных данных могут быть полезны для понимания того, как работает API, а также как формулировать и обрабатывать аудио в ваших приложениях.

    Как найти глубину кодирования звука

    Аудиоформат не эквивалентен аудиокодированию. Например, популярный формат файла, такой как WAV, определяет формат заголовка аудиофайла, но сам по себе не является кодировкой звука. WAV-аудиофайлы часто, но не всегда используют линейную кодировку PCM.

    В свою очередь, FLAC является как форматом файла, так и кодировкой, что иногда приводит к некоторой путанице. В пределах Speech API FLAC глубина кодирования звука — это единственная кодировка, которая требует, чтобы аудиоданные включали заголовок. Все другие кодировки указывают беззвучные аудиоданные. Когда мы ссылаемся на FLAC в Speech API, мы всегда ссылаемся на кодек. Когда мы ссылаемся на формат файла FLAC, мы будем использовать формат «.FLAC».

    Вы не обязаны указывать кодировку и частоту дискретизации для файлов WAV или FLAC. Если этот параметр опущен, API облачной речи автоматически определяет кодировку и частоту дискретизации для файлов WAV или FLAC на основе заголовка файла. Если вы укажете значение кодировки или частоты дискретизации, которое не соответствует значению в заголовке файла, API облачной речи вернет ошибку.

    Глубина кодирования звука — это что такое?

    Аудио состоит из осциллограмм, состоящих из интерполяции волн разных частот и амплитуд. Чтобы представить эти формы сигналов в цифровых средах, сигналы должны быть отбракованы со скоростью, которая может представлять звуки самой высокой частоты, которые вы хотите воспроизвести. Для них также необходимо хранить достаточную глубину бит для представления правильной амплитуды (громкость и мягкость) осциллограмм по образцу звука.

    Способность устройства звуковой обработки воссоздавать частоты известна как его частотная характеристика, а способность создавать надлежащую громкость и мягкость известна как динамический диапазон. Вместе эти термины часто называют верностью звукового устройства. Глубина кодирования звука — это средство, с помощью которого можно восстановить звук, используя эти два основных принципа, а также возможность эффективно хранить и передавать такие данные.

    Частота выборки

    Звук существует как аналоговая волновая форма. Сегмент цифрового звука аппроксимирует эту аналоговую волну и сэмплирует ее амплитуду с достаточно высокой скоростью, чтобы имитировать собственные частоты волны. Частота дискретизации цифрового аудиосигнала определяет количество выборок, взятых из исходного материала аудио (в секунду). Высокая частота дискретизации увеличивает способность цифрового звука точно представлять высокие частоты.

    Как следствие теоремы Найквиста-Шеннона, обычно нужно пробовать хотя бы вдвое большую частоту любой звуковой волны, которую необходимо записать в цифровом виде. Например, для представления звука в диапазоне человеческого слуха (20-20000 Гц), цифровой аудиоформат должен отображать не менее 40000 раз в секунду (что является причиной того, что звук CD использует частоту дискретизации 44100 Гц).

    Бит глубины

    Глубина кодирования звука — это влияние на динамический диапазон заданного образца звука. Более высокая битовая глубина позволяет представлять более точные амплитуды. Если у вас много громких и мягких звуков в одном и том же звуковом образце, вам понадобится больше бит, чтобы правильно передавать эти звуки.

    Более высокие битовые глубины также уменьшают соотношение «сигнал/шум» в образцах аудио. Если глубина кодирования звука составляет 16 битов, музыкальный звук CD передается с использованием данных величин. Некоторые методы сжатия могут компенсировать меньшие битовые глубины, но они, как правило, являются потерями. DVD Audio использует 24 бит глубины, в то время как в большинстве телефонов глубина кодирования звука составляет 8 бит.

    Несжатый звук

    Большая часть обработки цифрового звука использует эти два метода (частоту дискретизации и глубину бит) для простого хранения аудиоданных. Одна из самых популярных технологий цифрового звука (популяризированная при использовании компакт-диска) известна как модуляция импульсного кода (или PCM). Аудио выбирается с установленными интервалами, и амплитуда дискретизированной волны в этой точке сохраняется как цифровое значение с использованием битовой глубины образца.

    Линейный PCM (который указывает, что амплитудный отклик является линейно однородным по выборке) является стандартом, используемым на компакт-дисках и в кодировке LINEAR16 Speech API. Оба кодирования создают несжатый поток байтов, соответствующий непосредственно аудиоданным, и оба стандарта содержат 16 бит глубины. Линейный PCM использует частоту дискретизации 44 100 Гц на компакт-дисках, что подходит для перекомпоновки музыки. Однако частота дискретизации 16000 Гц более подходит для рекомпозиции речи.

    Линейный PCM (LINEAR16) является примером несжатого звука, поскольку цифровые данные хранятся аналогичным образом. При чтении одноканального потока байтов, закодированного с использованием Linear PCM, вы можете подсчитать каждые 16 бит (2 байта) для получения другого значения амплитуды сигнала. Практически все устройства могут манипулировать такими цифровыми данными изначально — можно обрезать аудиофайлы Linear PCM с помощью текстового редактора, но несжатый звук — не самый эффективный способ транспортировки или хранения цифрового звука. По этой причине большинство аудио использует цифровые методы сжатия.

    Сжатый звук

    Аудиоданные, как и все данные, часто сжимаются, что облегчает их хранение и транспортировку. Сжатие в аудиокодировании может происходить либо без потерь, либо с потерями. Сжатие без потерь можно распаковать, чтобы восстановить цифровые данные в исходную форму. Сжатие обязательно удаляет некоторую ​​информацию во время процедуры декомпрессии и параметризуется, чтобы указать степень толерантности к технике сжатия для удаления данных.

    Без потерь

    Без потерь сжимаются цифровые аудиозаписи, используя сложные перестановки сохраненных данных, что не приводит к ухудшению качества исходного цифрового образца. При сжатии без потерь при распаковке данных в исходную цифровую форму информация не будет потеряна.

    Итак, почему методы сжатия без потерь иногда имеют параметры оптимизации? Эти параметры часто обрабатывают размер файла для времени декомпрессии. Например, FLAC использует параметр уровня сжатия от 0 (самый быстрый) до 8 (наименьший размер файла). Сжатие FLAC более высокого уровня не потеряет никакой информации по сравнению со сжатием более низкого уровня. Вместо этого алгоритму сжатия просто нужно будет затрачивать больше вычислительной энергии при построении или деконструировании оригинального цифрового звука.

    API Speech поддерживает два кодирования без потерь: FLAC и LINEAR16. Технически LINEAR16 не является «сжатием без потерь», поскольку в первую очередь не задействовано сжатие. Если размер файла или передача данных важны для вас, выберите FLAC как ваш вариант кодирования звука.

    Потеря компрессии

    Сжатие аудиоданных устраняет или уменьшает некоторые типы информации при построении сжатых данных. Speech API поддерживает несколько форматов с потерями, хотя их следует избегать, поскольку потеря данных может повлиять на точность распознавания.

    Популярный MP3-кодек является примером метода кодирования с потерями. Все методы сжатия MP3 удаляют звук извне обычного аудиодиапазона человека и регулируют уровень сжатия, регулируя эффективную скорость передачи данных кодека MP3 или количество бит в секунду для сохранения даты звука.

    Например, стерео CD с использованием линейного PCM из 16 бит имеет эффективную скорость передачи битов. Формула глубины кодирования звука:

    441000 * 2 канала * 16 бит = 1411200 бит в секунду (бит/с) = 1411 Кбит/с

    Например, сжатие MP3 удаляет такие цифровые данные, используя скорость передачи данных, такие как 320 кбит/с, 128 кбит/с или 96 кбит/с, что приводит к ухудшению качества звука. MP3 также поддерживает переменные скорости передачи битов, которые могут дополнительно сжать аудио. Оба метода теряют информацию и могут влиять на качество. С уверенностью можно сказать, что большинство людей могут определить разницу между кодированной MP3-музыкой 96 кбит/с или 128 Кбит/с.

    Другие формы сжатия

    MULAW — это 8-битное кодирование PCM, где амплитуда выборки модулируется логарифмически, а не линейно. В результате uLaw уменьшает эффективный динамический диапазон сжатого звука. Хотя uLaw был введен специально для оптимизации кодирования речи в отличие от других типов аудио, 16-битный LINEAR16 (несжатый PCM) по-прежнему намного превосходит 8-битный сжатый звук uLaw.

    AMR и AMR_WB модулируют кодированный аудиокасс, вводя переменную скорость передачи битов в исходный звуковой образец.

    Хотя Speech API поддерживает несколько форматов с потерями, вам следует избегать их, если у вас есть контроль над исходным аудио. Хотя удаление таких данных посредством сжатия с потерями может не оказывать заметного влияния на звук, слышимый человеческим ухом, потеря таких данных для механизма распознавания речи может значительно ухудшить точность.

    Источник статьи: http://autogear.ru/article/359/128/glubina-kodirovaniya-zvuka—eto-chto-takoe-opredelenie-formula/

    793c6317f811408c88bf200ee564274a

    Кодирование звуковой информации

    С начала 90-х годов персональные компьютеры получили возможность работать со звуковой информацией. Звуковая волна — это непрерывная волна с меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц). Звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого участка устанавливается определенная величина амплитуды. Каждому участку присваивается определенный код. Этот процесс называется временной дискретизацией. Естественно, чем меньше «размер» участка, тем выше качество звукозаписи. Представление непрерывного звукового сигнала в виде дискретных цифровых сигналов выполняют специальные устройства – аналогово-цифровые преобразователи (АЦП). Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). АЦП и ЦАП являются компонентами звуковых карт. Современные звуковые карты могут обеспечить 16, 32, 64- битную глубину кодирования, т.е. производят кодирование 2 16 ,2 32 , 2 64 различных уровней сигнала. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 I , где I — глубина звука. Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, то есть частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования. И так, качество двоичного кодирования звука определяется глубиной кодирования и частотой дискретизации. Количество измерений в секунду может лежать в диапазоне от 8000 до 48000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц – качеству звучания аудио-CD. Возможны как моно-, так и стереорежимы. при решении задач используются следующие понятия: ^ Временная дискретизация – процесс, при котором, во время кодирования непрерывного звукового сигнала, звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды. Чем больше амплитуда сигнала, тем громче звук. Глубина звука (глубина кодирования) — количество бит на кодировку звука. Уровни громкости (уровни сигнала) — звук может иметь различные уровни громкости. Количество различных уровней громкости рассчитываем по формуле N= 2 I где I – глубина звука. ^ Частота дискретизации – количество измерений уровня входного сигнала в единицу времени (за 1 сек). Чем больше частота дискретизации, тем точнее процедура двоичного кодирования. Частота измеряется в герцах (Гц). 1 измерение за 1 секунду -1 ГЦ. 1000 измерений за 1 секунду 1 кГц. Обозначим частоту дискретизации буквой d. Качество двоичного кодирования – величина, которая определяется глубиной кодирования и частотой дискретизации. ^ Аудиоадаптер (звуковая плата) – устройство, преобразующее электрические колебания звуковой частоты в числовой двоичный код при вводе звука и обратно (из числового кода в электрические колебания) при воспроизведении звука. Характеристики аудиоадаптера: частота дискретизации и разрядность регистра. Разрядность регистра -число бит в регистре аудиоадаптера. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического тока в число и обратно. Если разрядность равна I, то при измерении входного сигнала может быть получено 2 I =N различных значений. решение задач

    Производится одноканальная (моно) звукозапись с частотой дискретизации 48 кГц и глубиной кодирования 16 бит. Запись длится 2 минуты, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?

    Так как звукозапись одноканальная (моно), значение величины оцифрованного канала умножается на 1.

    Частота дискретизации 48 кГц, следовательно, за одну секунду запоминается 48 000 значений сигнала. Так как глубина кодирования – 16 бит = 2 байта, для хранения 1 секунды записи требуется:

    48 000 * 2 байта = 96 000 байт

    Запись длиться 2 минуты = 120 секунд, следовательно, для хранения 2 минут записи требуется :

    120 * 96 000 байт = 11 520 000 байт,

    11 520 000 байт наиболее близко к объему файла 11 мегабайт.

    2. Определить размер (в байтах) цифрового аудиофайла, время звучания которого составляет 10 секунд при частоте дискретизации 22,05 кГц и разрешении 8 бит. Файл сжатию не подвержен. ([1], стр. 156, пример 1) Решение: Формула для расчета размера (в байтах) цифрового аудио-файла: A=D*T*I/8. Для перевода в байты полученную величину надо разделить на 8 бит. 22,05 кГц =22,05 * 1000 Гц =22050 Гц A=D*T*I/8 = 22050 х 10 х 8 / 8 = 220500 байт. ^ Ответ: размер файла 220500 байт.

    3.. Определить объем памяти для хранения цифрового аудиофайла, время звучания которого составляет две минуты при частоте дискретизации 44,1 кГц и разрешении 16 бит. ([1], стр. 157, №88) Решение: A=D*T*I/8. – объем памяти для хранения цифрового аудиофайла. 44100 (Гц) х 120 (с) х 16 (бит) /8 (бит) = 10584000 байт= 10335,9375 Кбайт= 10,094 Мбайт. Ответ: ≈ 10 Мб

    4.. В распоряжении пользователя имеется память объемом 2,6 Мб. Необходимо записать цифровой аудиофайл с длительностью звучания 1 минута. Какой должна быть частота дискретизации и разрядность? ([1], стр. 157, №89) Решение: Формула для расчета частоты дискретизации и разрядности: D* I =А/Т (объем памяти в байтах) : (время звучания в секундах): 2, 6 Мбайт= 2726297,6 байт D* I =А/Т= 2726297,6 байт: 60 = 45438,3 байт D=45438,3 байт : I Разрядность адаптера может быть 8 или 16 бит. (1 байт или 2 байта). Поэтому частота дискретизации может быть либо 45438,3 Гц = 45,4 кГц ≈ 44,1 кГц –стандартная характерная частота дискретизации, либо 22719,15 Гц = 22,7 кГц ≈ 22,05 кГц — стандартная характерная частота дискретизации Ответ:

    Источник статьи: http://studfile.net/preview/4496603/

    Двоичное кодирование звуковой информации

    Компьютерные способы хранения и обработки звуковой информации получают в последнее время все большее распространение. Переход к записи звука в компьютерном виде потребовал принципиально новых подходов: в процессе сохранения звуковой информации она должна быть “оцифрована”, т.е. из аналоговой непрерывной формы переведена в цифровую дискретную. Дискретизация звука – это преобразование непрерывного звука в набор дискретных значений в форме кодов.

    За воспроизведение и запись звука в компьютерах отвечают специальные звуковые адаптеры. Звуковой адаптер содержит еще один специализированный процессор, тем самым, освобождая основной процессор от функций по управлению воспроизведением звука. С помощью звукового адаптера можно записывать звуковую информацию, воспроизводить речь и музыку.

    Современные звуковые платы позволяют производить обработку звука, монтаж музыкальных композиций. Основным направлением развития современных звуковых плат является поддержка объемного звука. В этом случае появляется возможность позиционирования источников звука в пространстве.

    В процессе записи звукового сигнала происходит дискретизация записываемого звукового сигнала по времени.

    Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче, чем больше частота, тем выше тон. Для того, чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).

    В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. При этом звуковая волна разбивается на мелкие временные участки, для каждого из которых устанавливается значение амплитуды. На графике это выглядит как замена гладкой кривой на последовательность ”ступенек”, каждой из которых присваивается значение уровня громкости. Чем большее количество уровней громкости будет выделено в процессе кодирования, тем более качественным будет звучание.

    ременная дискретизация звука

    Рис. 1. Временная дискретизация звука

    Каждой «ступеньке» присваивается значение уровня громкости звука, его код (1, 2, 3 и так далее). Уровни громкости звука можно рассматривать как набор возможных состояний, поэтому, чем большее количество уровней громкости будет выделено в процессе кодирования, тем большее количество информации будет нести значение каждого уровня и тем боле качественным будет звучание.

    При двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала. Качество кодирования зависит от частоты дискретизации, т.е. количества измерений уровня сигнала в единицу времени,

    Чем большее количество измерений проводится в 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

    Частота дискретизации аналогового звукового сигнала может принимать значения от 8 кГц до 48 кГц (1 кГц = 1000 Гц). При частоте 8 кГц качество дискретизованного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц – качеству звучания аудио-CD. Следует также учитывать, что возможны как моно-, так и стереорежимы. Чаще при цифровой звукозаписи используется частота дискретизации 44100 Гц и 48000 Гц. Это означает, что за каждую секунду звукозаписи в цифровом виде записывается более 44000 единиц информации, последовательность которых моделирует звук длительностью в одну секунду.

    В процессе записи звукового сигнала происходит дискретизация амплитуды звукового сигнала. Уровни громкости звука можно рассматривать как набор возможных состояний, поэтому количество различных уровней сигнала можно рассчитать по формуле: N= 2 I . Минимально для кодирования амплитуды сигнала отводятся 8 бит – 1 байт, N= 2 I = 2 8 = 256, что позволяет описать двести пятьдесят шесть уровней громкости. Качество звука при этом получается не слишком высокое. Если и частота дискретизации невелика, то при воспроизведении будут присутствовать сильные искажения. Значительно лучшее качество получается при использовании 2 байт, N= 2 I = 2 16 =65536, столько уровней громкости можно описать, числа 8 или 16 — характеризует глубину кодирования звука.

    Современные звуковые карты обеспечивают 16-битную глубину кодировки звука. Т.о., современные звуковые карты обеспечивают кодирование 65536 уровней сигнала. Каждому значению амплитуды присваивается 16-ти битный код.

    Для того чтобы записать стереозвук, следует одновременно кодировать два независимых канала звука. При этом чтобы получить хорошее качество, нужно использовать 2 байта для кодирования и частоту дискретизации 44100 Гц для каждого из каналов. Именно так кодируется звук на компакт-дисках. При этом одна минута закодированного звука займет более 10 Мб.

    ! Качество двоичного кодирования звука определяется глубиной кодирования и частотой дискретизации.

    Результаты дискретизации звуковой информации, как и все остальные компьютерные данные, сохраняются на внешних носителях в виде файлов. Звуковые файлы могут иметь различные форматы, рассмотрим наиболее распространенные из них.

    Формат AU. Этот простой и распространенный формат на системах Sun и NeXT (в последнем случае, правда, файл будет иметь расширение SND). Файл состоит из короткого служебного заголовка (минимум 28 байт), за которым непосредственно следуют звуковые данные. Широко используется в Unix-подобных системах и служит базовым для Java-машины.

    Формат WAVE (WAV). Стандартный формат файлов для хранения звука в системе Windows является специальным типом другого, более общего формата RIFF (Resource Interchange File Format), другой разновидностью RIFF служат видеофайлы AVI. Звуковые файлы формата WAV чаще всего используются для хранения произвольных звуковых данных. В этом формате может храниться моно- или стереозвук, закодированный одним или двумя байтами и с различной частотой дискретизации. Файлы этого формата могут быть сжаты разными способами для достижения меньшего размера, а могут оставаться и несжатыми.

    Формат MP3 (MPEG Layer3). Это один из форматов хранения аудиосигнала, позднее утвержденный как часть стандартов сжатого видео. Природа получения данного формата во многом аналогична сжатию графических данных по технологии JPEG. Успехи технологии MP3 привели к тому, что ее применяют сейчас и во многих бытовых звуковых устройствах, например, плеерах и сотовых телефонах. Наряду с МР3 применяется формат сжатия по стандарту WMA (Windows Media Audio), поддерживаемый последними версиями операционных систем Windows.

    Формат MIDI. Название MIDI есть сокращение от Musical Instrument Digital Interface, т.е. цифровой интерфейс для музыкальных инструментов. Это довольно старый (1983 г.) стандарт, объединяющий разнообразное музыкальное оборудование (синтезаторы, ударные, освещение). Главным преимуществом файлов MIDI является их очень небольшой размер, поскольку это не детальная запись звука, а фактически некоторый расширенный электронный эквивалент традиционной нотной записи. В последнее время стало модным караоке, и в компьютере стали кодировать музыку вместе с текстом. Фактически караоке является вариантом MIDI. Музыка закодирована обычным способом, но дополнительно добавлен текст, заменивший описание одного из инструментов.

    Формат MOD. Представляет собой дальнейшее развитие идеологии MIDI-файлов. Известные как “модули программ воспроизведения”, они хранят в себе не только “электронные ноты”, но и образцы оцифрованного звука, которые используются как шаблоны индивидуальных нот. Таким способом достигается однозначность воспроизведения звука. К недостаткам формата следует отнести большие затраты времени при наложении друг на друга шаблонов одновременно звучащих нот.

    Музыкальные файлы используют формат mid, так как цифровой музыкальный интерфейс и способ кодирования музыкальной информации называется MIDI. Сжатые файлы могут иметь расширение wav, а могут расширением указывать на используемый способ сжатия – mp3 или wma. Есть и несколько других форматов звуковых файлов, но они применяются значительно реже

    Источник статьи: http://studfile.net/preview/9576026/page:2/

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *