Основні знання та принципи кодування аудіо

1. Основні поняття

1) Бітрейт: вказує, скільки бітів на секунду потрібно представити закодовані (стиснуті) аудіодані, і одиниця, як правило, становить Кбіт / с.

2) Голосність та інтенсивність: суб’єктивні властивості звуку. Гучність вказує на те, наскільки голосно звучить звук. Гучність в основному змінюється залежно від інтенсивності звуку, але на це також впливає частота. Взагалі кажучи, чисті середньочастотні звуки кращі за чисті низькочастотні та високочастотні звуки.

3) дискретизація та частота дискретизації: дискретизація полягає у перетворенні сигналу безперервного часу в дискретний цифровий сигнал. Частота дискретизації відноситься до того, скільки зразків збирається за секунду.

Закон дискретизації Найквіста: Коли частота дискретизації більша або дорівнює 2-кратному компоненту найвищої частоти безперервного сигналу, дискретизований сигнал може бути використаний для ідеальної реконструкції вихідного безперервного сигналу.

2. поширені аудіоформати

1) Формат WAV - це формат звукового файлу, розроблений корпорацією Майкрософт, який також називається файлом звукового сигналу. Це найдавніший цифровий аудіоформат, широко підтримуваний платформою Windows та його програмами, і має низький рівень стиснення.

2) MIDI - це абревіатура Цифровий інтерфейс музичних інструментів, також відомий як Цифровий інтерфейс музичних інструментів, що є уніфікованим міжнародним стандартом цифрової музики / електронних синтетичних музичних інструментів. Він визначає спосіб обміну комп'ютерними музичними програмами, цифровими синтезаторами та іншими електронними пристроями музичних сигналів, а також визначає протокол передачі даних між кабелями та апаратними засобами та пристроями, що з'єднують електронні музичні інструменти різних виробників з комп'ютерами, і може імітувати звук декількох музичних інструменти. Файл MIDI - це файл у форматі MIDI, і деякі команди зберігаються у файлі MIDI. Надішліть ці інструкції на звукову карту, і звукова карта синтезуватиме звук відповідно до інструкцій.

3) Повна назва MP3 - MPEG-1 Audio Layer 3, який був об'єднаний у специфікацію MPEG у 1992 році. MP3 може стискати цифрові аудіофайли з високою якістю звуку та низькою частотою дискретизації. Найпоширеніший додаток.

4) MP3Pro був розроблений шведською компанією Coding Technology, яка містить дві основні технології: одна - це унікальна технологія декодування від Coding Technology Company, а інша - інтеграція власника патенту MP3 французької компанії Thomson Multimedia та німецької технології декодування Fraunhofer A, спільно дослідженої Асоціацією ланцюгів. MP3Pro може покращити оригінальну якість звучання музики MP3, не змінюючи принципово розмір файлу. Він може максимально підтримувати якість звуку перед стисненням, стискаючи аудіофайли з меншою швидкістю передачі даних.

5) MP3Pro був розроблений шведською компанією Coding Technology, яка містить дві основні технології: одна - це унікальна технологія декодування від Coding Technology Company, а інша - інтеграція власника патенту MP3 французької компанії Thomson Multimedia та німецької технології декодування Fraunhofer A, спільно дослідженої Асоціацією ланцюгів. MP3Pro може покращити оригінальну якість звучання музики MP3, не змінюючи принципово розмір файлу. Він може максимально підтримувати якість звуку перед стисненням, стискаючи аудіофайли з меншою швидкістю передачі даних.

6) WMA (Windows Media Audio) - це шедевр Microsoft у галузі Інтернет-аудіо та відео. Формат WMA досягає вищої швидкості стиснення за рахунок зменшення трафіку даних, але при цьому підтримуючи якість звуку. Швидкість стиснення зазвичай може досягати 1:18. Крім того, WMA може також захищати авторські права за допомогою DRM (Digital Rights Management).

7) RealAudio - це формат файлу, запущений Real Networks. Найбільша особливість полягає в тому, що він може передавати аудіоінформацію в режимі реального часу, особливо коли швидкість мережі повільна, він все одно може передавати дані плавно, тому RealAudio в основному підходить для мережевого відтворення в Інтернеті. Поточні формати файлів RealAudio в основному включають RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured) тощо. Спільність цих файлів полягає в тому, що якість звуку змінюється з різницею в пропускній здатності мережі. За умови, що більшість людей чує плавний звук, слухачі з ширшою смугою пропускання можуть отримати кращу якість звуку.

8) Audible має чотири різні формати: Audible1, 2, 3, 4. Веб-сайт Audible.com в основному продає аудіокниги в Інтернеті та забезпечує захист товарів та файлів, які вони продають, через один із чотирьох виділених аудіоформатів Audible.com . Кожен формат переважно враховує джерело звуку та використовуваний пристрій прослуховування. Формати 1, 2 та 3 використовують різні рівні стиснення голосу, тоді як формат 4 використовує нижчу частоту дискретизації та той самий метод декодування, що і MP3. Отриманий голос стає чіткішим і його можна ефективніше завантажити з Інтернету. Audible використовує власний інструмент відтворення на робочому столі, який є Audible Manager. За допомогою цього програвача ви можете відтворювати файли формату звукового сигналу, що зберігаються на ПК або передаються на портативний програвач.

9) AAC насправді є абревіатурою від Advanced Audio Coding. AAC - це аудіоформат, спільно розроблений Fraunhofer IIS-A, Dolby та AT&T. Він є частиною специфікації MPEG-2. Алгоритм, що використовується AAC, відрізняється від алгоритму MP3. AAC поєднує інші функції для підвищення ефективності кодування. Звуковий алгоритм AAC значно перевершує деякі попередні алгоритми стиснення (наприклад, MP3 тощо) за можливостями стиснення. Він також підтримує до 48 звукових доріжок, 15 низькочастотних звукових доріжок, більше частот дискретизації та бітрейтів, багатомовна сумісність та вищу ефективність декодування. Коротше кажучи, AAC може забезпечити кращу якість звуку за умови, що він на 30% менше, ніж файли MP3.

10) Ogg Vorbis - це новий формат стиснення звуку, подібний до існуючих музичних форматів, таких як MP3. Але одна відмінність полягає в тому, що він повністю безкоштовний, відкритий і без патентних обмежень. Vorbis - назва цього механізму стиснення звуку, а Ogg - назва проекту, який має на меті розробити повністю відкриту мультимедійну систему. VORBIS також стискає з втратами, але використовує більш вдосконалені акустичні моделі для зменшення втрат. Тому OGG, кодований з однаковою швидкістю передачі даних, звучить краще, ніж MP3.

11) APE - це стислий аудіоформат без втрат, за умови, що якість звуку не знижується, розмір стискається до половини традиційного файлу WAV у форматі без втрат.

12) FLAC - це абревіатура від Free Lossless Audio Codec, набору відомих кодів стиснення без втрат звуку, який характеризується стисненням без втрат.

3. основний принцип аудіокодування

Кодування мови призначене для зменшення смуги пропускання каналу, необхідної для передачі, зберігаючи при цьому високу якість вхідної мови.

Метою кодування мови є розробка кодера низької складності для досягнення високоякісної передачі даних із мінімально можливою швидкістю передачі даних.

1) Крива відключення звуку: поріг, при якому людське вухо може чути звук на різних частотах лише в тихому середовищі.

2) Критична смуга частот

Оскільки людське вухо має різну роздільну здатність для різних частот, MPEG1 / Audio ділить відчутний діапазон частот в межах 22 кГц на 23 ~ 26 критичних діапазонів частот відповідно до різних шарів кодування та різних частот дискретизації. На наступному малюнку наведено центральну частоту та смугу пропускання ідеального критичного діапазону частот. Як видно на малюнку, людське вухо має кращу роздільну здатність низьких частот

3) Ефект маскування в частотній області: Сигнал з більшою амплітудою замаскує сигнал з подібною частотою і меншою амплітудою, як показано на малюнку нижче:

4) Ефект маскування у часовій області: Через короткий проміжок часу, якщо з’являються два звуки, звук із більшим SPL (рівнем звукового тиску) замаскує звук з меншим SPL. Ефект маскування в часовій області поділяється на пряме маскування (попереднє маскування) та зворотне маскування (постмаскування). Час після маскування буде довшим, приблизно в 10 разів більше, ніж перед маскуванням.

Ефект маскування часової області допомагає усунути попереднє відлуння.

4. основні засоби кодування

1) Квантор і квантор

Квантування та квантування: Квантування перетворює безперервний сигнал за дискретний час у дискретний сигнал за дискретний час. Поширеними кванторами є: рівномірний квантування, логарифмічний квантування та нерівномірний квантування. Метою, яку переслідує процес квантування, є мінімізація помилки квантування та мінімізація складності квантування (ці два самі по собі є суперечливістю).

(A) Уніфікований квантор: найпростіший, найгірший показник, придатний лише для телефонного голосу.

(Б) Логарифмічний квантор: Він складніший за рівномірний квантор і простий у реалізації, а його ефективність краща за рівномірний квантор.

(C) Нерівномірний квантор: Відповідно до розподілу сигналу, спроектуйте квантор. Детальна кількісна оцінка виконується там, де сигнал щільний, а груба кількісна - там, де сигнал розріджений.

2) Голосовий кодер

Існує три типи кодерів мовлення: (а) кодер сигналу; (b) вокодер; (c) Гібридний кодер.

Кодер сигналу спрямований на побудову аналогового сигналу, включаючи фоновий шумовий лист. Діючи на всі вхідні сигнали, він буде виробляти високоякісні зразки і споживати високу швидкість передачі даних. Вокодер не відновить вихідну форму хвилі. Цей набір кодерів витягне набір параметрів, які надсилаються на приймаючий кінець для отримання моделі генерації голосу. Якість голосу вокодера недостатньо хороша. Гібридний кодер, який включає в себе переваги кодування сигналу та ехолота.

2.1 Кодер сигналу

Конструкція кодера сигналу часто не залежить від сигналу. Отже, він підходить для кодування різних сигналів і не обмежується лише мовою.

1) Кодування часової області

а) PCM: імпульсна модуляція коду - це найпростіший метод кодування. Це лише дискретизація та квантування сигналу, і часто використовується логарифмізація.

b) DPCM: диференціальна імпульсна кодова модуляція, яка кодує лише різницю між вибірками. Попередній один або кілька зразків використовуються для прогнозування поточного значення вибірки. Чим більше зразків використовується для прогнозування, тим точніше прогнозоване значення. Різниця між справжнім значенням та передбачуваним значенням називається залишком, який є об’єктом кодування.

в) ADPCM: адаптивна диференціальна імпульсна кодова модуляція, адаптивна диференціальна імпульсна кодова. Тобто, на основі DPCM квантор і предиктор належним чином регулюються відповідно до змін сигналу, так що передбачуване значення ближче до реального сигналу, залишкове менше і ефективність стиснення вища.

(2) Кодування частотної області

Кодування в частотній області полягає в розкладанні сигналу на ряд різних частотних елементів та виконанні незалежного кодування.

а) Піддіапазонне кодування: Піддіапазонне кодування є найпростішим методом кодування в частотній області. Це технологія, яка перетворює вихідний сигнал з часової області в частотну область, потім ділить його на кілька піддіапазонів і виконує цифрове кодування на них відповідно. Він використовує груповий фільтр (BPF), щоб розділити вихідний сигнал на кілька (наприклад, m) піддіапазонів (іменованих піддіапазонами). Пропустіть кожну піддіапазон через характеристики модуляції, еквівалентні однобічній амплітудній модуляції, перемістіть кожну піддіапазон до майже нульової частоти, відповідно пройдіть через BPF (загалом м), а потім перенесіть кожну піддіапазон із встановленою швидкістю ( Частота Найквіста) Вихідний сигнал піддіапазону відбирається, і значення вибірки зазвичай кодується цифровим способом, і встановлюються m цифрових кодерів. Надішліть кожен цифровий кодований сигнал мультиплексору і, нарешті, виведіть потік кодованих даних піддіапазону.

Для різних піддіапазонів можуть використовуватися різні методи квантування, і різна кількість бітів може бути виділена піддіапазонам відповідно до моделі сприйняття людського вуха.

б) кодування перетворення: кодування DCT.

5. Вокодер

Вокодер каналу: використовує нечутливість людського вуха до фази.

гомоморфний вокодер: може ефективно обробляти синтетичні сигнали.

Формант-вокодер: Більша частина інформації голосового сигналу розташована на позиції та смузі пропускання форманта.

лінійний передбачувальний вокодер: найбільш часто використовуваний вокодер.

6. Гібридний кодер

Кодер сигналу намагається зберегти форму сигналу кодованого сигналу і може забезпечувати високоякісну мову із середньою швидкістю передачі даних (32 кбіт / с), але її не можна застосовувати до випадків з низькою швидкістю передачі даних. Вокодер намагається генерувати сигнал, який на слух схожий із закодованим сигналом, і може забезпечити зрозумілу мову з низькою швидкістю передачі, але отримана мова звучить неприродно. Гібридний кодер поєднує в собі переваги обох.

ВІДПОВІДЬ: На основі лінійного прогнозування залишок кодується. Механізм такий: передавати лише невелику частину залишків та реконструювати всі залишки на приймальному кінці (скопіювати залишки базової смуги).

MPC: багатоімпульсне кодування, яке усуває кореляцію залишків, і використовується для компенсації простої класифікації голосів вокодера на голосові та голосові без дефектів проміжних станів.

CELP: лінійне передбачення збудженої книги, яке використовує передбачення голосового тракту та каскад високого току для кращого наближення вихідного сигналу.

MBE: багатосмугове збудження, метою є уникнути великої кількості розрахунків CELP, отримати більш високу якість, ніж вокодер.