Разбор 7 задания ЕГЭ по информатике
Объяснение заданий 7 ЕГЭ по информатике
7-е задание: «Кодирование графической и звуковой информации, объем и передача информации»
Уровень сложности — базовый,
Требуется использование специализированного программного обеспечения — нет,
Максимальный балл — 1,
Примерное время выполнения — 5 минут.
Проверяемые элементы содержания: Умение определять объём памяти, необходимый для хранения графической и звуковой информации
«Если вычисления получаются слишком громоздкими, значит, Вы неправильно решаете задачу. Удобно выделить во всех множителях степени двойки, тогда умножение сведётся к сложению
показателей степеней, а деление – к вычитанию»
Кодирование текстовой информации
Кодирование графической информации
Рассмотрим некоторые понятия и формулы, необходимые для решения ЕГЭ по информатике данной темы.
- Пиксель – это наименьший элемент растрового изображения, который имеет определенный цвет.
- Разрешение – это количество пикселей на дюйм размера изображения.
- Глубина цвета — это количество битов, необходимое для кодирования цвета пикселя.
- Если глубина кодирования составляет i битов на пиксель, код каждого пикселя выбирается из 2 i возможных вариантов, поэтому можно использовать не более 2 i различных цветов.
Или можно формулу записать так:
* для указания объема выделенной памяти встречаются разные обозначения (V или I).
Следует также помнить формулы преобразования:
Кодирование звуковой информации
Познакомимся с понятиями и формулами, необходимыми для решения заданий 7 ЕГЭ по информатике.
-
Оцифровка или дискретизация – это преобразование аналогового сигнала в цифровой код.
Дискретизация, объяснение задания 7 ЕГЭ
Получим формулу объема звукового файла:
Для хранения информации о звуке длительностью t секунд, закодированном с частотой дискретизации ƒ Гц и глубиной кодирования β бит требуется бит памяти:
S для моно = 1, для стерео = 2, для квадро = 4
Определение скорости передачи информации
- Канал связи всегда имеет ограниченную пропускную способность (скорость передачи информации), которая зависит от свойств аппаратуры и самой линии связи(кабеля)
* Вместо обозначения скорости V иногда используется q
* Вместо обозначения объема сообщения I иногда используется Q
и измеряется в бит/с
Решение заданий 7 ЕГЭ по информатике
Плейлист видеоразборов задания на YouTube:
Задание демонстрационного варианта 2022 года ФИПИ
Тема: Кодирование изображений
Какой минимальный объем памяти (в Кбайт) нужно зарезервировать, чтобы можно было сохранить любое растровое изображение размером 160 х 160 пикселей при условии, что в изображении могут использоваться 256 различных цветов? В ответе запишите только целое число, единицу измерения писать не нужно.
Результат: 25
Детальный разбор задания 7 ЕГЭ по информатике предлагаем посмотреть в видео:
Тема: Кодирование изображений:
ЕГЭ по информатике задание 7.2:
Рисунок размером 128 на 256 пикселей занимает в памяти 24 Кбайт (без учёта сжатия). Найдите максимально возможное количество цветов в палитре изображения.
Результат: 64
Смотрите видеоразбор задания:
Тема: Кодирование изображений:
ЕГЭ по информатике задание 7.3:
После преобразования растрового 256-цветного графического файла в 4-цветный формат его размер уменьшился на 18 Кбайт. Каков был размер исходного файла в Кбайтах?
где N — общее количество пикселей,
а i — глубина кодирования цвета (количество бит, выделенное на 1 пиксель)
i можно найти, зная количество цветов в палитре:
Результат: 24
Подробный разбор 7 задания ЕГЭ смотрите на видео:
Тема: Кодирование изображений:
ЕГЭ по информатике задание 7.4:
Цветное изображение было оцифровано и сохранено в виде файла без использования сжатия данных. Размер полученного файла – 42 Мбайт. Затем то же изображение было оцифровано повторно с разрешением в 2 раза меньше и глубиной кодирования цвета увеличили в 4 раза больше по сравнению с первоначальными параметрами. Сжатие данных не производилось. Укажите размер файла в Мбайт, полученного при повторной оцифровке.
где N — общее количество пикселей или разрешение,
а i — глубина цвета (количество бит, выделенное на 1 пиксель)
Результат: 42
Тема: Кодирование изображений:
ЕГЭ по информатике задание 7.5:
Изображение было оцифровано и сохранено в виде растрового файла. Получившийся файл был передан в город А по каналу связи за 72 секунды. Затем то же изображение было оцифровано повторно с разрешением в 2 раза больше и глубиной кодирования цвета в 3 раза меньше, чем в первый раз. Сжатие данных не производилось. Полученный файл был передан в город Б, пропускная способность канала связи с городом Б в 3 раза выше, чем канала связи с городом А.
Сколько секунд длилась передача файла в город Б?
где I — объем файла, а t — время
По формуле объема файла изображения имеем:
где N — общее количество пикселей или разрешение,
а i — глубина цвета (количество бит, выделенное на 1 пиксель)
Для города А и Б заменим значения объема в формуле для получения скорости:
Подставим значение скорости из формулы для города А в формулу для города Б:
Результат: 32
Другой способ решения смотрите в видеоуроке:
Тема: Кодирование изображений:
ЕГЭ по информатике задание 7.6:
Камера делает фотоснимки размером 1024 х 768 пикселей. На хранение одного кадра отводится 900 Кбайт.
Найдите максимально возможное количество цветов в палитре изображения.
- Количество цветов зависит от глубины кодирования цвета, которая измеряется в битах. Для хранения кадра, т.е. общего количества пикселей выделено 900 Кбайт. Переведем в биты:
- Посчитаем общее количество пикселей (из заданного размера):
- Определим объем памяти, необходимый для хранения не общего количества пикселей, а одного пикселя ([память для кадра]/[кол-во пикселей]):
Результат: 512
Смотрите подробное решение на видео:
Тема: Кодирование изображений:
Автоматическая фотокамера производит растровые изображения размером 640×480 пикселей. При этом объём файла с изображением не может превышать 320 Кбайт, упаковка данных не производится.
Какое максимальное количество цветов можно использовать в палитре?
где N — общее количество пикселей или разрешение, а i — глубина кодирования цвета (количество бит, выделенное на 1 пиксель)
Результат: 256
Подробное решение данного 7 (9) задания из демоверсии ЕГЭ 2018 года смотрите на видео:
7_21: : ЕГЭ по информатике задание 7.21:
Для хранения в информационной системе документы сканируются с разрешением 300 ppi. Методы сжатия изображений не используются. Средний размер отсканированного документа составляет 5 Мбайт. В целях экономии было решено перейти на разрешение 150 ppi и цветовую систему, содержащую 16 цветов. Средний размер документа, отсканированного с изменёнными параметрами, составляет 512 Кбайт.
Определите количество цветов в палитре до оптимизации.
где N — общее количество пикселей или разрешение, а i — глубина кодирования цвета (количество бит, выделенное на 1 пиксель).
Так как по заданию имеем разрешение, выраженное в пикселях на дюйм, то фактически это означает:
Результат: 1024
Тема: Кодирование звука
На студии при четырехканальной (квадро) звукозаписи с 32-битным разрешением за 30 секунд был записан звуковой файл. Сжатие данных не производилось. Известно, что размер файла оказался 7500 Кбайт.
С какой частотой дискретизации (в кГц) велась запись? В качестве ответа укажите только число, единицы измерения указывать не нужно.
2 4 = 16 КГц
Результат: 16
Для более детального разбора предлагаем посмотреть видео решения данного 7 задания ЕГЭ по информатике:
ЕГЭ по информатике задание 7_9:
Музыкальный фрагмент был оцифрован и записан в виде файла без использования сжатия данных. Получившийся файл был передан в город А по каналу связи. Затем тот же музыкальный фрагмент был оцифрован повторно с разрешением в 2 раза выше и частотой дискретизации в 3 раза меньше, чем в первый раз. Сжатие данных не производилось. Полученный файл был передан в город Б за 15 секунд; пропускная способность канала связи с городом Б в 4 раза выше, чем канала связи с городом А.
Сколько секунд длилась передача файла в город A? В ответе запишите только целое число, единицу измерения писать не нужно.
где:
I — объем
β — глубина кодирования
ƒ — частота дискретизации
t — время
S — кол-во каналов (если не указывается, то моно)
Результат: 90
Подробное решение смотрите на видео:
ЕГЭ по информатике задание 7.10:
Музыкальный фрагмент был записан в формате стерео (двухканальная запись), оцифрован и сохранён в виде файла без использования сжатия данных. Размер полученного файла – 30 Мбайт. Затем тот же музыкальный фрагмент был записан повторно в формате моно и оцифрован с разрешением в 2 раза выше и частотой дискретизации в 1,5 раза меньше, чем в первый раз. Сжатие данных не производилось.
Укажите размер файла в Мбайт, полученного при повторной записи. В ответе запишите только целое число, единицу измерения писать не нужно.
I — объем
β — глубина кодирования
ƒ — частота дискретизации
t — время
S -количество каналов
Результат: 20
Смотрите видеоразбор данной задачи:
Тема: Кодирование звуковых файлов:
ЕГЭ по информатике задание 7_11:
Музыкальный фрагмент был оцифрован и записан в виде файла без использования сжатия данных. Получившийся файл был передан в город А по каналу связи за 100 секунд. Затем тот же музыкальный фрагмент был оцифрован повторно с разрешением в 3 раза выше и частотой дискретизации в 4 раз меньше, чем в первый раз. Сжатие данных не производилось. Полученный файл был передан в город Б за 15 секунд.
Во сколько раз скорость (пропускная способность канала) в город Б больше пропускной способности канала в город А?
I — объем
β — глубина кодирования
ƒ — частота дискретизации
t — время
Выпишем отдельно, все данные, касающиеся файла, переданного в город А, затем преобразованного файла, переданного в город Б:
Результат: 5
Подробный видеоразбор задания:
ЕГЭ по информатике задание 7_12:
Производится четырёхканальная (квадро) звукозапись с частотой дискретизации 32 кГц и 32-битным разрешением. Запись длится 2 минуты, её результаты записываются в файл, сжатие данных не производится.
Определите приблизительно размер полученного файла (в Мбайт). В качестве ответа укажите ближайшее к размеру файла целое число, кратное 10.
I — объем
β — глубина кодирования
ƒ — частота дискретизации
t — время
S — количество каналов
Результат: 60
Смотрите подробное решение:
Производится двухканальная (стерео) цифровая звукозапись. Значение сигнала фиксируется 48 000 раз в секунду, для записи каждого значения используется 32 бит. Запись длится 5 минут, её результаты записываются в файл, сжатие данных не производится.
Какая из приведённых ниже величин наиболее близка к размеру полученного файла?
1) 14 Мбайт
2) 28 Мбайт
3) 55 Мбайт
4) 110 Мбайт
Результат: 4
Подробное решение ГВЭ задания 7 2018 года смотрите на видео:
Производится двухканальная (стерео) звукозапись с частотой дискретизации 4 кГц и 64-битным разрешением. Запись длится 1 минуту, ее результаты записываются в файл, сжатие данных не производится.
Определите приблизительно размер получившегося файла (в Мбайтах). В качестве ответа укажите ближайшее к размеру файла целое число, кратное 2.
Результат: 4
Тема: Кодирование видео
Камера снимает видео без звука с частотой 120 кадров в секунду, при этом изображения используют палитру, содержащую 2 24 = 16 777 216 цветов. При записи файла на сервер полученное видео преобразуют так, что частота кадров уменьшается до 20, а изображения преобразуют в формат, использующий палитру из 256 цветов. Другие преобразования и иные методы сжатия не используются. 10 секунд преобразованного видео в среднем занимают 512 Кбайт.
Сколько Мбайт в среднем занимает 1 минута исходного видео?
- Посмотрим, как изменялись параметры файла до преобразования и после:
- Поскольку после преобразования количество кадров в секунду уменьшилось в 6 раз (120 / 20 = 6), а количество бит на пиксель уменьшилось в 3 раза (24 / 8 = 3), то и объем уменьшился в целом в 18 раз (6 * 3 = 18).
- Вычислим объем файла, передаваемого за 10 секунд, до его преобразования:
- Чтобы получить объем, переданный за 1 минуту, необходимо полученное значение умножить на 6:
Результат: 54
Тема: Скорость передачи данных
ЕГЭ по информатике задание 7_13:
Скорость передачи данных через ADSL-соединение равна 128000 бит/с. Передача текстового файла через это соединение заняла 1 минуту.
Определите, сколько символов содержал переданный текст, если известно, что он был представлен в 16-битной кодировке Unicode.
Результат: 480000
Тема: Скорость передачи информации:
ЕГЭ по информатике задание 7_14:
У Васи есть доступ к Интернет по высокоскоростному одностороннему радиоканалу, обеспечивающему скорость получения им информации 2 17 бит в секунду. У Пети нет скоростного доступа в Интернет, но есть возможность получать информацию от Васи по низкоскоростному телефонному каналу со средней скоростью 2 16 бит в секунду. Петя договорился с Васей, что тот будет скачивать для него данные объемом 8 Мбайт по высокоскоростному каналу и ретранслировать их Пете по низкоскоростному каналу. Компьютер Васи может начать ретрансляцию данных не раньше, чем им будут получены первые 1024 Кбайт этих данных.
Каков минимально возможный промежуток времени (в секундах), с момента начала скачивания Васей данных, до полного их получения Петей?
Результат: 1088
Подробный разбор смотрите на видео:
Тема: Скорость передачи информации:
ЕГЭ по информатике задание 7_15:
Сколько секунд потребуется модему, передающему сообщения со скоростью 32000 бит/с, чтобы передать 16-цветное растровое изображение размером 800 x 600 пикселей, при условии, что в каждом байте закодировано максимально возможное число пикселей?
Источник статьи: http://labs-org.ru/ege-7/
Кодирования звука.
Звук – это звуковая волна, у которой непрерывно меняется амплитуда и частота. При этом амплитуда определяет громкость звука, а частота — его тон. Чем больше амплитуда звуковых колебаний, тем он громче. А частота писка комара больше частоты сигнала автомобиля. Частоту измеряют в Герцах. 1Гц — это одно колебание в секунду.
Кодирование звука.
Компьютер является мощнейшим устройством для обработки различных типов информации, в том числе и звуковой. Но аналоговый звук непригоден для обработки на компьютере, его необходимо преобразовать в цифровой. Для этого используются специальные устройства — аналого-цифровые преобразователи или АЦП. В компьютере роль АЦП выполняет звуковая карта. Каким же образом АЦП преобразует сигнал из аналогового в цифровой вид? Давайте разберемся.
Пусть у нас есть источник звука с частотой 440Гц, пусть это будет гитара. Сначала звук нужно превратить в электрический сигнал. Для этого используем микрофон. На выходе микрофона мы получим электрический сигнал с частотой 440Гц. Графически он выглядит таким образом:
Следующая задача — преобразовать этот сигнал в цифровой вид, то есть в последовательность цифр. Для этого используется временная дискретизация — аналоговый звуковой сигнал разбивается на отдельные маленькие временные участки и для каждого такого участка устанавливается определенная величина интенсивности звука, которая зависит от амплитуды. Другими словами через какие-то промежутки времени мы измеряем уровень аналогового сигнала. Количество таких измерений за одну секунду называется частотой дискретизации. Частота дискретизации измеряется в Герцах. Соответственно, если мы будет измерять наш сигнал 100 раз в секунду, то частота дискретизации будет равна 100Гц.
Вот примеры некоторых используемых частот дискретизации звука:
- 8 000 Гц — телефон, достаточно для речи;
- 11 025 Гц;
- 16 000 Гц;
- 22 050 Гц — радио;
- 32 000 Гц;
- 44 100 Гц — используется в Audio CD;
- 48 000 Гц — DVD, DAT;
- 96 000 Гц — DVD-Audio (MLP 5.1);
- 192 000 Гц — DVD-Audio (MLP 2.0);
- 2 822 400 Гц — SACD, процесс однобитной дельта-сигма модуляции, известный как DSD — Direct Stream Digital, совместно разработан компаниями Sony и Philips;
- 5,644,800 Гц — DSD с удвоенной частотой дискретизации, однобитный Direct Stream Digital с частотой дискретизации вдвое больше, чем у SACD. Используется в некоторых профессиональных устройствах записи DSD.
В итоге наш аналоговый сигнал превратится в цифровой, а график станет уже не гладким, а ступенчатым, дискретным:
Глубина кодирования звука — это количество возможных уровней сигнала. Другими словами глубина кодирования это точность измерения сигнала. Глубина кодирования измеряется в битах. Например, если количество возможных уровней сигнала равно 255, то глубина кодирования такого звука 8 бит. 16-битный звук уже позволяет работать с 65536 уровнями сигнала. Современные звуковые карты обеспечивают глубину кодирования в 16 и даже 24 бита, а это возможность кодирования 65536 и 16 777 216 различных уровней громкости соответственно.
Зная глубину кодирования, можно легко узнать количество уровней сигнала цифрового звука. Для этого используем формулу:
где N — количество уровней сигнала, а i — глубина кодирования.
Например, мы знаем, что глубина кодирования звука 16 бит. Значит количество уровней цифрового сигнала равно 2 16 =65536.
Чтобы определить глубину кодирования если известно количество возможных уровней применяют эту же формулу. Например, если известно, что сигнал имеет 256 уровней сигнала, то глубина кодирования составит 8 бит, так как 2 8 =256.
Как понятно из данного вышеприведенного рисунка, чем чаще мы будем измерять уровень сигнала, т.е. чем выше частота дискретизации и чем точнее мы будем его измерять, тем более график цифрового сигнала будет похож на аналоговый график, соответственно, тем выше качество цифрового звука мы получим. И тем больший объем будет иметь файл.
Кроме того, мы рассматривали монофонический (одноканальный) звук, если же звук стереофонический, то размер файла увеличивается в 2 раза, так как он содержит 2 канала.
Рассмотрим пример задачи.
Какой объем будет иметь звуковой монофонический файл содержащий звук, если длительность звука 1 минута, глубина кодирования 8 бит, а частота дискретизации 22050Гц?
Зная частоту дискретизации и длительность звука легко установить количество измерений уровня сигнала за все время. Если частота дискретизации 22050Гц — значит за 1 секунду происходит 22050 измерений, а за минуту таких измерений будет 22050*60=1 323 000.
На одно измерение требуется 8 бит памяти, следовательно на 1 323 000 измерений потребуется 1 323 000*8 = 10 584 000 бит памяти. Разделив полученное число на 8 получим объем файла в байтах — 10584000/8=1 323 000 байт. Далее, разделив полученное число на 1024 получим объем файла в килобайтах — 1 291,9921875 Кбайт. А разделив полученное число еще раз на 1024 и округлив до сотых получим размер файла в мегабайтах — 1 291,9921875/1024=1,26Мбайт.
Источник статьи: http://easyinformatics.ru/uroki/kodirovaniya-zvuka
Кодирование звука
На этой странице вы узнаете:
- Чем звуковая “лесенка” удобнее звуковой волны?
- От чего зависит качество вашей любимой музыки и звук при звонке?
- Для чего нужны каналы записи?
Дискретизация по времени и уровни громкости
Звук — это волна, высота которой непрерывно изменяется во времени.
В случае с радугой — если взять на ней две разные точки, они будут иметь разные оттенки, пусть и неразличимые человеческим глазом. В случае со звуком — две любые точки на волне будут разной высоты, пусть человеческое ухо и не почувствует разницы.
Поэтому для кодирования звукового файла также необходимо применять дискретизацию (подробнее о которой можно прочитать в статье «Дискретное представление информации»), причем не одну.
- Дискретизация по громкости превратит волну звука в “лесенку” — вместо постоянно меняющейся высоты волны мы будем иметь конкретные уровни громкости, которые будут приближенно равны высоте волны в разные моменты времени.
Каждый уровень кодируется определенным количеством бит, которое определяется глубиной кодирования (битовой глубиной/разрешением). Чем она больше, тем больше у нас будет уровней громкости.
Зависимость количества уровней громкости N от глубины кодирования i будет N = 2 ^ i. |
- Дискретизация по времени определяет, сколько именно раз в секунду будет производиться измерение текущего уровня громкости. Количество измерений в одной секунде — частота дискретизации, измеряется в Гц, а в реальности, когда ее значение становится очень большим — в кГц (1 кГц = 1000 Гц).
Чем звуковая “лесенка” удобнее звуковой волны?
После проведения дискретизации по времени и по громкости вся звуковая волна превратится в “лесенку”: И в таком формате кодирование звука не представляет собой никаких проблем, так как мы можем кодировать отдельные “ступеньки”. |
Например, следующая звуковая волна была разбита с глубиной кодирования, равной 3 битам (поэтому уровней громкости ровно 2 ^ 3 = 8 и каждый закодирован кодом, длиной в 3 символа) и частотой дискретизации 4 Гц.
Чем больше будут значения глубины кодирования и частоты дискретизации, тем больше “лесенка” будет похожа на оригинальную волну.
Если поднять значения из примера выше всего в несколько раз, результат уже будет гораздо более похожим на оригинальную волну:
В реальности эти параметры могут достигать еще больших значений:
- минимальным значением частоты дискретизации для передачи человеческой речи считается 8000 Гц, оно используется в телефонной связи, а в студиях звукозаписи может принимать значение 192 000 Гц и даже больше;
- достаточной глубиной кодирования звука считается значение 16 бит, при котором появляется уже 2 ^ 16 = 65536 уровней громкости, но для профессиональных работ это значение может доходить и до 32 бит.
Количество каналов. Формула объема звука
Нельзя также забывать про такую характеристику звука, как объемность:
- при прослушивании музыки в наушниках иногда можно услышать, что какие-то музыкальные инструменты громче звучат с одной стороны, а другие — с другой;
- в кинотеатре в масштабных сценах с большим количеством событий можно услышать, что действия, происходящие на экране справа, звучат громче справа, а происходящие слева — громче слева. А иногда и сзади что-нибудь произойдет.
Для чего нужны каналы записи?
Объемность звуку придает количество каналов записи, когда в одном файле находится несколько звуковых волн, которые воспроизводятся одновременно. Программы воспроизведения обрабатывают их и выдают звук там, где он должен был быть. |
Например, чтобы озвучить падение двух камней с двух разных сторон, нужно иметь оба звука и воспроизводить их вместе, но с разных колонок или через разные наушники.
Так как каждый новый канал добавляет в аудиофайл буквально новые звуковые волны, каждую из них также придется закодировать по тем же параметрам, поэтому количество каналов прямо пропорционально будет увеличивать объем файла.
Количество каналов обозначается специальными словами:
- моно — 1 канал;
- стерео — 2 канала;
- квадро — 4 канала.
Осталось вспомнить, что у записи звука есть еще и продолжительность, и мы имеем все данные, чтобы найти вес звукового файла:
- глубина кодированияi — вес одного уровня звука;
- частота дискретизации F — количество кодируемых уровней громкости в 1 секунде;
- продолжительность t;
- количество каналов записи N.
Полный вес аудиофайла V будет равен произведению всех этих параметров: V = F * B * t * N.
Фактчек
- Глубина кодирования определяет количество бит, выделяемое на хранение одного уровня громкости, на которые будет разделена звуковая волна по высоте;
- Частота дискретизации обозначает дискретизацию звука по времени — сколько уровней громкости будет закодировано в 1 секунде;
- Количество каналов определяет объемность звука, добавляя в 1 файл несколько звуковых волн, поэтому прямо пропорционально увеличивает вес всего файла.
Проверь себя
Задание 1.
Количество уровней громкости зависит от…
- дискретизации по времени
- глубины кодирования
- количества каналов
- частоты дискретизации
Задание 2.
Что означает формулировка “запись в формате квадро”?
- При записи использовалась глубина кодирования 4 бит
- Частота дискретизации равна 2 Гц
- Количество каналов записи равно 2
- Количество каналов записи равно 4
Задание 3.
В студии звукозаписи производится одноканальная (моно) запись длиной 3 минуты 25 секунд и с частотой дискретизации 35 кГц. Определите и запишите в ответ максимальную битовую глубину, которая может быть использована при записи музыкального фрагмента, если объём файла не превышает 30 Мбайт.
Задание 4.
Для записи песни использовалась четырехканальная (квадро) аудиодорожка. Ее сохранили на компьютер, с объемом 10 Мбайт. Тот же файл был записан еще раз в формате двухканальной (стерео) записи с разрешением в 3 раза выше и частотой дискретизации в 1,5 раза меньше, чем в первый раз. Определите количество мегабайт, которое занимает файл при повторной записи.
Ответы: 1. — 2; 2. — 4; 3. — 1; 4. — 4.
Источник статьи: http://umschool.net/library/informatika/kodirovanie-zvuka/
Глубина кодирования звука — это что такое? Определение, формула
Кодирование звука относится к способам сохранения и передачи аудиоданных. В приведенной ниже статье описывается, как работают такие кодировки.
Заметим, что это довольно сложная тема — «Глубина кодирования звука». Определение данного понятия также будет дано в нашей статье. Представленные в статье концепции предназначены только для общего обзора. Раскроем понятия глубины кодирования звука. Некоторые из этих справочных данных могут быть полезны для понимания того, как работает API, а также как формулировать и обрабатывать аудио в ваших приложениях.
Как найти глубину кодирования звука
Аудиоформат не эквивалентен аудиокодированию. Например, популярный формат файла, такой как WAV, определяет формат заголовка аудиофайла, но сам по себе не является кодировкой звука. WAV-аудиофайлы часто, но не всегда используют линейную кодировку PCM.
В свою очередь, FLAC является как форматом файла, так и кодировкой, что иногда приводит к некоторой путанице. В пределах Speech API FLAC глубина кодирования звука — это единственная кодировка, которая требует, чтобы аудиоданные включали заголовок. Все другие кодировки указывают беззвучные аудиоданные. Когда мы ссылаемся на FLAC в Speech API, мы всегда ссылаемся на кодек. Когда мы ссылаемся на формат файла FLAC, мы будем использовать формат «.FLAC».
Вы не обязаны указывать кодировку и частоту дискретизации для файлов WAV или FLAC. Если этот параметр опущен, API облачной речи автоматически определяет кодировку и частоту дискретизации для файлов WAV или FLAC на основе заголовка файла. Если вы укажете значение кодировки или частоты дискретизации, которое не соответствует значению в заголовке файла, API облачной речи вернет ошибку.
Глубина кодирования звука — это что такое?
Аудио состоит из осциллограмм, состоящих из интерполяции волн разных частот и амплитуд. Чтобы представить эти формы сигналов в цифровых средах, сигналы должны быть отбракованы со скоростью, которая может представлять звуки самой высокой частоты, которые вы хотите воспроизвести. Для них также необходимо хранить достаточную глубину бит для представления правильной амплитуды (громкость и мягкость) осциллограмм по образцу звука.
Способность устройства звуковой обработки воссоздавать частоты известна как его частотная характеристика, а способность создавать надлежащую громкость и мягкость известна как динамический диапазон. Вместе эти термины часто называют верностью звукового устройства. Глубина кодирования звука — это средство, с помощью которого можно восстановить звук, используя эти два основных принципа, а также возможность эффективно хранить и передавать такие данные.
Частота выборки
Звук существует как аналоговая волновая форма. Сегмент цифрового звука аппроксимирует эту аналоговую волну и сэмплирует ее амплитуду с достаточно высокой скоростью, чтобы имитировать собственные частоты волны. Частота дискретизации цифрового аудиосигнала определяет количество выборок, взятых из исходного материала аудио (в секунду). Высокая частота дискретизации увеличивает способность цифрового звука точно представлять высокие частоты.
Как следствие теоремы Найквиста-Шеннона, обычно нужно пробовать хотя бы вдвое большую частоту любой звуковой волны, которую необходимо записать в цифровом виде. Например, для представления звука в диапазоне человеческого слуха (20-20000 Гц), цифровой аудиоформат должен отображать не менее 40000 раз в секунду (что является причиной того, что звук CD использует частоту дискретизации 44100 Гц).
Бит глубины
Глубина кодирования звука — это влияние на динамический диапазон заданного образца звука. Более высокая битовая глубина позволяет представлять более точные амплитуды. Если у вас много громких и мягких звуков в одном и том же звуковом образце, вам понадобится больше бит, чтобы правильно передавать эти звуки.
Более высокие битовые глубины также уменьшают соотношение «сигнал/шум» в образцах аудио. Если глубина кодирования звука составляет 16 битов, музыкальный звук CD передается с использованием данных величин. Некоторые методы сжатия могут компенсировать меньшие битовые глубины, но они, как правило, являются потерями. DVD Audio использует 24 бит глубины, в то время как в большинстве телефонов глубина кодирования звука составляет 8 бит.
Несжатый звук
Большая часть обработки цифрового звука использует эти два метода (частоту дискретизации и глубину бит) для простого хранения аудиоданных. Одна из самых популярных технологий цифрового звука (популяризированная при использовании компакт-диска) известна как модуляция импульсного кода (или PCM). Аудио выбирается с установленными интервалами, и амплитуда дискретизированной волны в этой точке сохраняется как цифровое значение с использованием битовой глубины образца.
Линейный PCM (который указывает, что амплитудный отклик является линейно однородным по выборке) является стандартом, используемым на компакт-дисках и в кодировке LINEAR16 Speech API. Оба кодирования создают несжатый поток байтов, соответствующий непосредственно аудиоданным, и оба стандарта содержат 16 бит глубины. Линейный PCM использует частоту дискретизации 44 100 Гц на компакт-дисках, что подходит для перекомпоновки музыки. Однако частота дискретизации 16000 Гц более подходит для рекомпозиции речи.
Линейный PCM (LINEAR16) является примером несжатого звука, поскольку цифровые данные хранятся аналогичным образом. При чтении одноканального потока байтов, закодированного с использованием Linear PCM, вы можете подсчитать каждые 16 бит (2 байта) для получения другого значения амплитуды сигнала. Практически все устройства могут манипулировать такими цифровыми данными изначально — можно обрезать аудиофайлы Linear PCM с помощью текстового редактора, но несжатый звук — не самый эффективный способ транспортировки или хранения цифрового звука. По этой причине большинство аудио использует цифровые методы сжатия.
Сжатый звук
Аудиоданные, как и все данные, часто сжимаются, что облегчает их хранение и транспортировку. Сжатие в аудиокодировании может происходить либо без потерь, либо с потерями. Сжатие без потерь можно распаковать, чтобы восстановить цифровые данные в исходную форму. Сжатие обязательно удаляет некоторую информацию во время процедуры декомпрессии и параметризуется, чтобы указать степень толерантности к технике сжатия для удаления данных.
Без потерь
Без потерь сжимаются цифровые аудиозаписи, используя сложные перестановки сохраненных данных, что не приводит к ухудшению качества исходного цифрового образца. При сжатии без потерь при распаковке данных в исходную цифровую форму информация не будет потеряна.
Итак, почему методы сжатия без потерь иногда имеют параметры оптимизации? Эти параметры часто обрабатывают размер файла для времени декомпрессии. Например, FLAC использует параметр уровня сжатия от 0 (самый быстрый) до 8 (наименьший размер файла). Сжатие FLAC более высокого уровня не потеряет никакой информации по сравнению со сжатием более низкого уровня. Вместо этого алгоритму сжатия просто нужно будет затрачивать больше вычислительной энергии при построении или деконструировании оригинального цифрового звука.
API Speech поддерживает два кодирования без потерь: FLAC и LINEAR16. Технически LINEAR16 не является «сжатием без потерь», поскольку в первую очередь не задействовано сжатие. Если размер файла или передача данных важны для вас, выберите FLAC как ваш вариант кодирования звука.
Потеря компрессии
Сжатие аудиоданных устраняет или уменьшает некоторые типы информации при построении сжатых данных. Speech API поддерживает несколько форматов с потерями, хотя их следует избегать, поскольку потеря данных может повлиять на точность распознавания.
Популярный MP3-кодек является примером метода кодирования с потерями. Все методы сжатия MP3 удаляют звук извне обычного аудиодиапазона человека и регулируют уровень сжатия, регулируя эффективную скорость передачи данных кодека MP3 или количество бит в секунду для сохранения даты звука.
Например, стерео CD с использованием линейного PCM из 16 бит имеет эффективную скорость передачи битов. Формула глубины кодирования звука:
441000 * 2 канала * 16 бит = 1411200 бит в секунду (бит/с) = 1411 Кбит/с
Например, сжатие MP3 удаляет такие цифровые данные, используя скорость передачи данных, такие как 320 кбит/с, 128 кбит/с или 96 кбит/с, что приводит к ухудшению качества звука. MP3 также поддерживает переменные скорости передачи битов, которые могут дополнительно сжать аудио. Оба метода теряют информацию и могут влиять на качество. С уверенностью можно сказать, что большинство людей могут определить разницу между кодированной MP3-музыкой 96 кбит/с или 128 Кбит/с.
Другие формы сжатия
MULAW — это 8-битное кодирование PCM, где амплитуда выборки модулируется логарифмически, а не линейно. В результате uLaw уменьшает эффективный динамический диапазон сжатого звука. Хотя uLaw был введен специально для оптимизации кодирования речи в отличие от других типов аудио, 16-битный LINEAR16 (несжатый PCM) по-прежнему намного превосходит 8-битный сжатый звук uLaw.
AMR и AMR_WB модулируют кодированный аудиокасс, вводя переменную скорость передачи битов в исходный звуковой образец.
Хотя Speech API поддерживает несколько форматов с потерями, вам следует избегать их, если у вас есть контроль над исходным аудио. Хотя удаление таких данных посредством сжатия с потерями может не оказывать заметного влияния на звук, слышимый человеческим ухом, потеря таких данных для механизма распознавания речи может значительно ухудшить точность.
Источник статьи: http://fb.ru/article/359128/glubina-kodirovaniya-zvuka—eto-chto-takoe-opredelenie-formula
Обработка звука
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.
4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.
Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .
Аналоговый и дискретный способы представления звука
Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.
При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.
При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.
Примером аналогового хранения звуковой информации является виниловая пластинка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).
Восприятие звука человеком
Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.
Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.
В аналоговой форме звук представляет собой волну, которая характеризуется:
- Высота звука определяется частотой колебаний вибрирующего тела.
- Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
- Длительность звука — продолжительность колебаний.
- Тембром звука называется окраска звука.
Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с
Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).
- Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.
- Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон.
Кодирование звуковой информации
Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
- В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
- Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.