พื้นฐานเกี่ยวกับเสียง (1)

เสียงภาษาอังกฤษคือ AUDIO บางทีคุณอาจเคยเห็นเอาต์พุต AUDIO หรือพอร์ตอินพุตที่แผงด้านหลังของเครื่องบันทึกวิดีโอหรือ VCD ด้วยวิธีนี้เราสามารถอธิบายเสียงในรูปแบบที่นิยมมากตราบใดที่เป็นเสียงที่เราได้ยินก็สามารถส่งเป็นสัญญาณเสียงได้ คุณสมบัติทางกายภาพของเสียงมีความเป็นมืออาชีพเกินไปดังนั้นโปรดอ้างอิงถึงวัสดุอื่น ๆ เสียงในธรรมชาติมีความซับซ้อนมากและรูปคลื่นนั้นซับซ้อนมาก โดยปกติเราใช้การเข้ารหัสการมอดูเลตโค้ดพัลส์นั่นคือการเข้ารหัส PCM PCM แปลงสัญญาณแอนะล็อกที่เปลี่ยนไปเป็นรหัสดิจิทัลอย่างต่อเนื่องผ่านสามขั้นตอนของการสุ่มตัวอย่างการหาปริมาณและการเข้ารหัส

1. แนวคิดพื้นฐานเกี่ยวกับเสียง

(1) อัตราการสุ่มตัวอย่างและขนาดการสุ่มตัวอย่าง (บิต / บิต) คืออะไร

เสียงเป็นคลื่นพลังงานชนิดหนึ่งดังนั้นจึงมีลักษณะของความถี่และแอมพลิจูด ความถี่สอดคล้องกับแกนเวลาและแอมพลิจูดสอดคล้องกับแกนระดับ คลื่นเรียบไม่มีที่สิ้นสุดและสตริงสามารถถือได้ว่าประกอบด้วยจุดนับไม่ถ้วน เนื่องจากพื้นที่จัดเก็บค่อนข้าง จำกัด จุดของสตริงจึงต้องถูกสุ่มตัวอย่างในระหว่างกระบวนการเข้ารหัสดิจิทัล ขั้นตอนการสุ่มตัวอย่างคือการดึงค่าความถี่ของจุดหนึ่ง ๆ เห็นได้ชัดว่ายิ่งดึงคะแนนออกมามากขึ้นในหนึ่งวินาทีก็จะยิ่งได้รับข้อมูลความถี่มากขึ้น ในการเรียกคืนรูปคลื่นต้องมีจุดสุ่มตัวอย่างสองจุดในการสั่นสะเทือนครั้งเดียว ความถี่สูงสุดที่สัมผัสได้คือ 20kHz ดังนั้นเพื่อให้เป็นไปตามข้อกำหนดการได้ยินของหูมนุษย์จึงจำเป็นต้องสุ่มตัวอย่างอย่างน้อย 40k ครั้งต่อวินาทีโดยแสดงเป็น 40kHz และ 40kHz นี้เป็นอัตราการสุ่มตัวอย่าง ซีดีทั่วไปของเรามีอัตราการสุ่มตัวอย่าง 44.1kHz ยังไม่เพียงพอที่จะมีข้อมูลความถี่ เราต้องได้รับค่าพลังงานของความถี่นี้และหาปริมาณเพื่อแสดงความแรงของสัญญาณ จำนวนระดับควอนไทเซชันเป็นเลขกำลังจำนวนเต็ม 2 ขนาดการสุ่มตัวอย่างบิตซีดี 16 บิตทั่วไปของเรานั่นคือ 2 ถึง 16 พาวเวอร์ ขนาดการสุ่มตัวอย่างยากที่จะเข้าใจเมื่อเทียบกับอัตราการสุ่มตัวอย่างเนื่องจากเป็นจุดนามธรรมดังตัวอย่างง่ายๆสมมติว่าคลื่นถูกสุ่มตัวอย่าง 8 ครั้งและค่าพลังงานที่สอดคล้องกับจุดสุ่มตัวอย่างคือ A1-A8 แต่ เราใช้ขนาดการสุ่มตัวอย่าง 2 บิตเท่านั้นดังนั้นเราจึงสามารถเก็บค่า 4 พอยต์ใน A1-A8 และทิ้งอีก 4 พอยต์ หากเราใช้ขนาดตัวอย่าง 3 บิตข้อมูลทั้งหมดเพียง 8 จุดจะถูกบันทึก ยิ่งค่าของอัตราการสุ่มตัวอย่างและขนาดการสุ่มตัวอย่างมากเท่าใดรูปคลื่นที่บันทึกไว้จะอยู่ใกล้สัญญาณต้นฉบับมากขึ้นเท่านั้น

2. การสูญเสียและไม่สูญเสีย

ตามอัตราการสุ่มตัวอย่างและขนาดตัวอย่างสามารถทราบได้ว่าเมื่อเทียบกับสัญญาณธรรมชาติการเข้ารหัสเสียงสามารถปิดได้ดีที่สุดเท่านั้น อย่างน้อยเทคโนโลยีในปัจจุบันก็ทำได้แค่นี้ เมื่อเทียบกับสัญญาณธรรมชาติรูปแบบการเข้ารหัสเสียงดิจิทัลใด ๆ จะสูญเสีย เพราะไม่สามารถฟื้นฟูได้อย่างสมบูรณ์. ในการใช้งานคอมพิวเตอร์ระดับความเที่ยงตรงสูงสุดคือการเข้ารหัส PCM ซึ่งใช้กันอย่างแพร่หลายในการเก็บรักษาวัสดุและการชื่นชมดนตรี ซีดีดีวีดีและไฟล์ WAV ทั่วไปของเราถูกนำมาใช้ทั้งหมด ดังนั้น PCM จึงกลายเป็นการเข้ารหัสแบบไม่สูญเสียตามแบบแผนเนื่องจาก PCM แสดงถึงระดับความเที่ยงตรงที่ดีที่สุดในเสียงดิจิทัล ไม่ได้หมายความว่า PCM สามารถรับประกันความเที่ยงตรงของสัญญาณได้อย่างสมบูรณ์ PCM สามารถบรรลุระดับสูงสุดของความใกล้เคียงที่ไม่มีที่สิ้นสุดเท่านั้น เราได้รวม MP3 ไว้ในหมวดหมู่ของการเข้ารหัสเสียงที่สูญหายซึ่งสัมพันธ์กับการเข้ารหัส PCM การเน้นย้ำถึงความสูญเสียและความไม่สูญเสียของการเข้ารหัสคือการบอกทุกคนว่าเป็นเรื่องยากที่จะบรรลุการสูญเสียที่แท้จริง มันเหมือนกับการใช้ตัวเลขในการแสดงปี่ ไม่ว่าความแม่นยำจะสูงแค่ไหนมันก็แค่ปิดไม่สิ้นสุดเท่านั้นไม่เท่ากับ pi มูลค่า.

3. ทำไมต้องใช้เทคโนโลยีการบีบอัดเสียง

ในการคำนวณอัตราบิตของสตรีมเสียง PCM เป็นเรื่องง่ายมากค่าอัตราการสุ่มตัวอย่าง×ค่าขนาดการสุ่มตัวอย่าง×หมายเลขช่อง bps ไฟล์ WAV ที่มีอัตราการสุ่มตัวอย่าง 44.1KHz ขนาดการสุ่มตัวอย่าง 16 บิตและการเข้ารหัส PCM แบบดูอัลแชนแนลอัตราข้อมูลคือ 44.1K × 16 × 2 = 1411.2 Kbps เรามักพูดว่า 128K MP3 ซึ่งเป็นพารามิเตอร์ WAV ที่สอดคล้องกันคือ 1411.2 Kbps พารามิเตอร์นี้เรียกอีกอย่างว่าแบนด์วิดท์ข้อมูลเป็นแนวคิดที่มีแบนด์วิดท์ใน ADSL หารอัตรารหัสด้วย 8 และคุณจะได้รับอัตราข้อมูลของ WAV นี้ซึ่งเท่ากับ 176.4KB / s ซึ่งหมายความว่าอัตราการสุ่มตัวอย่างสำหรับการจัดเก็บหนึ่งวินาทีคือ 44.1KHz ขนาดการสุ่มตัวอย่างคือ 16 บิตและสัญญาณเสียงที่เข้ารหัส PCM แบบสองแชนเนลต้องใช้พื้นที่ 176.4KB และ 1 นาทีมีค่าประมาณ 10.34M ซึ่งเป็นที่ยอมรับไม่ได้สำหรับผู้ใช้ส่วนใหญ่ . โดยเฉพาะผู้ที่ชอบฟังเพลงบนคอมพิวเตอร์เพื่อลดการใช้ดิสก์มีเพียงสองวิธีในการลดดัชนีการสุ่มตัวอย่างหรือการบีบอัด ไม่แนะนำให้ลดดัชนีดังนั้นผู้เชี่ยวชาญจึงพัฒนารูปแบบการบีบอัดต่างๆ เนื่องจากการใช้งานและตลาดเป้าหมายที่แตกต่างกันคุณภาพเสียงและอัตราส่วนการบีบอัดที่ได้จากการเข้ารหัสการบีบอัดเสียงต่างๆจึงแตกต่างกันและเราจะกล่าวถึงทีละรายการในบทความต่อไปนี้ สิ่งหนึ่งที่แน่นอนคือพวกมันถูกบีบอัด

4. ความสัมพันธ์ระหว่างความถี่และอัตราการสุ่มตัวอย่าง

อัตราการสุ่มตัวอย่างระบุจำนวนครั้งที่สัญญาณต้นฉบับถูกสุ่มตัวอย่างต่อวินาที อัตราการสุ่มตัวอย่างของไฟล์เสียงที่เรามักเห็นคือ 44.1KHz สิ่งนี้หมายความว่า? สมมติว่าเรามีสัญญาณคลื่นไซน์ 2 ส่วนคือ 20Hz และ 20KHz แต่ละส่วนมีความยาว 40 วินาทีเพื่อให้สอดคล้องกับความถี่ต่ำสุดและความถี่สูงสุดที่เราได้ยินตัวอย่างสัญญาณทั้งสองนี้ที่ 20KHz เราจะได้ผลลัพธ์แบบใด ผลลัพธ์คือสัญญาณ 40Hz จะสุ่มตัวอย่าง 20K / 2000 = 20 ครั้งต่อการสั่นสะเทือนในขณะที่สัญญาณ 44.1K จะสุ่มตัวอย่างเพียงสองครั้งต่อการสั่นสะเทือน เห็นได้ชัดว่าในอัตราการสุ่มตัวอย่างเดียวกันข้อมูลความถี่ต่ำมีรายละเอียดมากกว่าข้อมูลความถี่สูง นี่คือเหตุผลที่ผู้ที่ชื่นชอบเสียงบางคนกล่าวโทษซีดีว่าเสียงดิจิทัลไม่ดีพอและการสุ่มตัวอย่างของซีดี 48KHz ไม่สามารถรับประกันได้ว่าสัญญาณความถี่สูงจะได้รับการบันทึกอย่างดี เพื่อให้บันทึกสัญญาณความถี่สูงได้ดีขึ้นดูเหมือนว่าจะต้องใช้อัตราการสุ่มตัวอย่างที่สูงขึ้นเพื่อน ๆ บางคนจึงใช้อัตราการสุ่มตัวอย่าง 44.1KHz เมื่อจับภาพแทร็กเสียงซีดีซึ่งไม่แนะนำให้ใช้! สิ่งนี้ไม่ดีต่อคุณภาพเสียงจริงๆ สำหรับซอฟต์แวร์ริปการคงอัตราการสุ่มตัวอย่างเช่นเดียวกับ XNUMXKHz ที่มาจากซีดีเป็นหนึ่งในการรับประกันคุณภาพเสียงที่ดีที่สุดแทนที่จะปรับปรุงให้ดีขึ้น อัตราการสุ่มตัวอย่างที่สูงขึ้นมีประโยชน์เมื่อเทียบกับสัญญาณอนาล็อกเท่านั้น หากสัญญาณที่สุ่มตัวอย่างเป็นสัญญาณดิจิทัลโปรดอย่าพยายามเพิ่มอัตราการสุ่มตัวอย่าง

5. ลักษณะการไหล

ด้วยการพัฒนาของอินเทอร์เน็ตผู้คนได้หยิบยกข้อกำหนดสำหรับการฟังเพลงออนไลน์ ดังนั้นคุณจึงจำเป็นต้องอ่านและเล่นไฟล์เสียงในเวลาเดียวกันแทนที่จะอ่านไฟล์ทั้งหมดแล้วเล่นซ้ำเพื่อที่คุณจะสามารถฟังไฟล์เหล่านั้นได้โดยไม่ต้องดาวน์โหลด ขึ้น. นอกจากนี้ยังสามารถเข้ารหัสและออกอากาศได้ในเวลาเดียวกัน เป็นคุณสมบัตินี้ที่เปิดใช้งานการถ่ายทอดสดออนไลน์และกลายเป็นความจริงในการตั้งค่าสถานีวิทยุดิจิทัลของคุณเอง

แนวคิดเสริมหลายประการ:

ตัวแบ่งคืออะไร?
ตัวแบ่งความถี่คือการแยกแยะสัญญาณเสียงของย่านความถี่ต่างๆขยายสัญญาณแยกกันจากนั้นส่งไปยังลำโพงของย่านความถี่ที่เกี่ยวข้องเพื่อเล่นซ้ำ เมื่อสร้างเสียงคุณภาพสูงจำเป็นต้องมีการประมวลผลการแบ่งความถี่แบบอิเล็กทรอนิกส์ แบ่งออกได้เป็นสองประเภท: (1) ตัวแบ่งกำลัง: อยู่หลังเพาเวอร์แอมป์, ติดตั้งในลำโพง, ผ่านเครือข่ายฟิลเตอร์ LC, เอาต์พุตสัญญาณเสียงกำลังโดยเพาเวอร์แอมป์แบ่งออกเป็นเบส, เสียงกลางและเสียงแหลมและ ส่งไปยังวิทยากรส่วนบุคคล การเชื่อมต่อนั้นเรียบง่ายและใช้งานง่าย แต่สิ้นเปลืองพลังงานมีหุบเขาเสียงปรากฏขึ้นและเกิดความผิดเพี้ยนข้าม * พารามิเตอร์ของมันเกี่ยวข้องโดยตรงกับอิมพีแดนซ์ของลำโพงและอิมพีแดนซ์ของลำโพงเป็นฟังก์ชันของความถี่ซึ่งเบี่ยงเบนไปจากค่าเล็กน้อยอย่างมาก ข้อผิดพลาดยังมีขนาดใหญ่ซึ่งไม่เอื้อต่อการปรับเปลี่ยน (2) ตัวแบ่งความถี่อิเล็กทรอนิกส์: อุปกรณ์ที่แบ่งสัญญาณเสียงที่อ่อนแอออกเป็นความถี่ อยู่ด้านหน้าของเพาเวอร์แอมป์ หลังจากแบ่งความถี่แล้วจะใช้เพาเวอร์แอมป์แยกต่างหากเพื่อขยายสัญญาณย่านความถี่เสียงแต่ละตัวจากนั้นส่งไปยังลำโพงที่เกี่ยวข้อง หน่วย เนื่องจากกระแสไฟฟ้ามีขนาดเล็กจึงสามารถรับรู้ได้ด้วยตัวกรองแอคทีฟอิเล็กทรอนิกส์กำลังไฟฟ้าที่เล็กกว่าซึ่งปรับได้ง่ายกว่าลดการสูญเสียพลังงานและการรบกวนระหว่างชุดลำโพง การสูญเสียสัญญาณมีขนาดเล็กและคุณภาพเสียงดี อย่างไรก็ตามวิธีนี้ต้องใช้เครื่องขยายเสียงอิสระสำหรับแต่ละช่องสัญญาณซึ่งมีต้นทุนสูงและโครงสร้างวงจรที่ซับซ้อนและใช้ในระบบเสริมแรงเสียงระดับมืออาชีพ (จาก av_world)

Exciter คืออะไร?
Exciter เป็นเครื่องกำเนิดฮาร์มอนิกซึ่งเป็นอุปกรณ์ประมวลผลเสียงที่ใช้ลักษณะทางจิตอะคูสติกของผู้คนเพื่อปรับเปลี่ยนและตกแต่งสัญญาณเสียงให้สวยงาม ด้วยการเพิ่มส่วนประกอบฮาร์มอนิกความถี่สูงลงในเสียงและวิธีการอื่น ๆ คุณสามารถปรับปรุงคุณภาพเสียงโทนสีเพิ่มการแทรกซึมของเสียงและเพิ่มความรู้สึกของพื้นที่ของเสียง แอคซิเตอร์สมัยใหม่ไม่เพียง แต่สร้างฮาร์โมนิกความถี่สูงเท่านั้น แต่ยังมีฟังก์ชั่นขยายความถี่ต่ำและสไตล์ดนตรีอีกด้วยทำให้เอฟเฟกต์เสียงเบสสมบูรณ์แบบยิ่งขึ้นและให้เสียงดนตรีที่ชัดเจน ใช้ Exciters เพื่อปรับปรุงความชัดเจนของเสียงความเข้าใจและการแสดงออกของเสียง ให้เสียงที่ฟังสบายหูมากขึ้นลดความเมื่อยล้าในการฟังและเพิ่มความดัง แม้ว่าตัวกระตุ้นจะเพิ่มส่วนประกอบฮาร์มอนิกเพียง 0.5dB ให้กับเสียง แต่ก็ดูเหมือนว่าระดับเสียงจะเพิ่มขึ้นประมาณ 10dB ความดังของเสียงเพิ่มขึ้นอย่างเห็นได้ชัดความรู้สึกสามมิติของภาพเสียงและการแยกเสียงที่เพิ่มขึ้น การวางตำแหน่งและการแบ่งชั้นของเสียงได้รับการปรับปรุงและสามารถปรับปรุงคุณภาพเสียงของเสียงที่สร้างขึ้นใหม่และอัตราการสร้างเทปได้ เนื่องจากสัญญาณอะคูสติกสูญเสียส่วนประกอบฮาร์มอนิกความถี่สูงระหว่างการส่งและบันทึกเสียงความถี่สูงจึงปรากฏขึ้น ในเวลานี้อดีตใช้ Exciter เพื่อชดเชยสัญญาณก่อนและตัวหลังใช้ฟิลเตอร์เพื่อกรองสัญญาณรบกวนความถี่สูงจากนั้นจึงสร้างส่วนประกอบเสียงสูงเพื่อให้แน่ใจว่าคุณภาพของเสียงที่เล่น การปรับ Exciter จำเป็นต้องให้ซาวด์เอ็นจิเนียร์ตัดสินคุณภาพเสียงและโทนเสียงของระบบจากนั้นทำการปรับเปลี่ยนตามการประเมินการฟังแบบอัตนัย

อีควอไลเซอร์คืออะไร?
อีควอไลเซอร์เป็นอุปกรณ์อิเล็กทรอนิกส์ที่สามารถปรับขยายสัญญาณไฟฟ้าของส่วนประกอบความถี่ต่างๆแยกกัน ชดเชยข้อบกพร่องของลำโพงและสนามเสียงโดยการปรับสัญญาณไฟฟ้าที่มีความถี่ต่างกันชดเชยและปรับเปลี่ยนแหล่งกำเนิดเสียงต่างๆและเอฟเฟกต์พิเศษอื่น ๆ , อีควอไลเซอร์บนมิกเซอร์ทั่วไปสามารถปรับสัญญาณไฟฟ้าความถี่สูงความถี่กลางและความถี่ต่ำแยกกันเท่านั้น อีควอไลเซอร์มีสามประเภท ได้แก่ อีควอไลเซอร์กราฟิกอีควอไลเซอร์พาราเมตริกและอีควอไลเซอร์ห้อง 1. กราฟฟิคอีควอไลเซอร์: หรือที่เรียกว่าอีควอไลเซอร์แผนภูมิผ่านการกระจายของปุ่มกด - ดึงบนแผงควบคุมสามารถสะท้อนเส้นโค้งการชดเชยการปรับแต่งเสียงที่เรียกขึ้นมาได้อย่างสังหรณ์ใจและการเพิ่มและการลดทอนของแต่ละความถี่นั้นชัดเจนในพริบตา ใช้เทคโนโลยี Q คงที่แต่ละความถี่จุดนี้มีโพเทนชิออมิเตอร์แบบกดดึงไม่ว่าความถี่จะเพิ่มขึ้นหรือลดทอนแบนด์วิดท์ความถี่ของตัวกรองจะเท่ากันเสมอ อีควอไลเซอร์กราฟิกระดับมืออาชีพที่ใช้กันทั่วไปจะแบ่งสัญญาณ 20Hz ~ 20kHz ออกเป็น 10 ส่วน 15 ส่วน 27 ส่วนและ 31 ส่วนสำหรับการปรับแต่ง ด้วยวิธีนี้ผู้คนเลือกอีควอไลเซอร์ความถี่ที่มีจำนวนกลุ่มต่างกันตามข้อกำหนดที่แตกต่างกัน โดยทั่วไปแล้วจุดความถี่ของอีควอไลเซอร์ 10 แบนด์จะกระจายเป็นช่วงคู่ โดยทั่วไปอีควอไลเซอร์ 15 แบนด์คืออีควอไลเซอร์ 2/3 อ็อกเทฟและเมื่อใช้ในการเสริมกำลังเสียงแบบมืออาชีพอีควอไลเซอร์ 31 แบนด์คือ 1 อีควอไลเซอร์ / 3 อ็อกเทฟส่วนใหญ่จะใช้ในโอกาสที่สำคัญกว่าซึ่งจำเป็นต้องมีการชดเชยที่ดี . อีควอไลเซอร์กราฟิกมีโครงสร้างที่เรียบง่ายและใช้งานง่ายและชัดเจนดังนั้นจึงใช้กันอย่างแพร่หลายในระบบเสียงระดับมืออาชีพ 2. พาราเมตริกอีควอไลเซอร์: หรือที่เรียกว่าพาราเมตริกอีควอไลเซอร์ซึ่งเป็นอีควอไลเซอร์ที่สามารถปรับพารามิเตอร์ต่างๆของการปรับอีควอไลเซอร์ได้อย่างละเอียด ส่วนใหญ่ติดอยู่กับมิกเซอร์ แต่ยังมีอีควอไลเซอร์พาราเมตริกอิสระ พารามิเตอร์ที่ปรับ ได้แก่ คลื่นความถี่และจุดความถี่ ค่า Q ของตัวคูณที่ได้รับและคุณภาพ ฯลฯ สามารถทำให้สวยงาม (รวมถึงน่าเกลียด) และปรับเปลี่ยนเสียงทำให้สไตล์เสียง (หรือดนตรี) มีความโดดเด่นและมีสีสันมากขึ้นและได้เอฟเฟกต์ทางศิลปะที่ต้องการ 3. อีควอไลเซอร์ห้องเป็นอีควอไลเซอร์ที่ใช้ในการปรับเส้นโค้งลักษณะการตอบสนองความถี่ในห้อง เนื่องจากการดูดกลืน (หรือการสะท้อน) ที่แตกต่างกันของความถี่ที่แตกต่างกันโดยวัสดุตกแต่งและอิทธิพลของเสียงสะท้อนปกติจึงจำเป็นต้องใช้อีควอไลเซอร์ของห้องเพื่อความบกพร่องด้านความถี่ในการสร้างเสียงควรได้รับการชดเชยและปรับเปลี่ยนอย่างเป็นกลาง ยิ่งย่านความถี่ละเอียดมากเท่าใดค่าสูงสุดที่ปรับแล้วก็ยิ่งคมชัดมากขึ้นนั่นคือค่า Q (ปัจจัยด้านคุณภาพ) ที่สูงขึ้นการชดเชยในระหว่างการปรับก็จะยิ่งมากขึ้นเท่านั้น ยิ่งแถบความถี่หนาเท่าไหร่ค่าสูงสุดที่ปรับก็จะกว้างขึ้นเท่านั้น

ตัว จำกัด การบีบอัดคืออะไร?
ตัว จำกัด การบีบอัดเป็นคำรวมสำหรับคอมเพรสเซอร์และตัว จำกัด เป็นอุปกรณ์ประมวลผลสัญญาณเสียงซึ่งสามารถบีบอัดหรือ จำกัด การเปลี่ยนแปลงของสัญญาณไฟฟ้าเสียง คอมเพรสเซอร์เป็นแอมพลิฟายเออร์อัตราขยายตัวแปรและปัจจัยการขยาย (อัตราขยาย) สามารถเปลี่ยนแปลงโดยอัตโนมัติตามความแรงของสัญญาณอินพุตซึ่งเป็นสัดส่วนผกผัน เมื่อสัญญาณอินพุตถึงระดับหนึ่ง (เกณฑ์เรียกอีกอย่างว่าค่าวิกฤต) สัญญาณเอาต์พุตจะเพิ่มขึ้นตามการเพิ่มขึ้นของสัญญาณอินพุต สถานการณ์นี้เรียกว่า Compressor; ถ้าไม่เพิ่มขึ้นเรียกว่า Limiter ในอดีตคอมเพรสเซอร์ใช้เทคโนโลยี Hard-knee และสัญญาณอินพุตถึงเกณฑ์ทันทีที่สัญญาณอินพุตถึงเกณฑ์ อัตราขยายจะลดลงทันทีดังนั้นจะมีการเปลี่ยนแปลงอย่างกะทันหันของสัญญาณที่จุดเปลี่ยนทิศทาง (จุดเปลี่ยนของการเปลี่ยนแปลงอัตราขยาย) ซึ่งทำให้หูของมนุษย์รู้สึกได้อย่างชัดเจนว่าสัญญาณที่แรงนั้นถูกบีบอัดอย่างกะทันหัน เพื่อแก้ไขข้อบกพร่องนี้คอมเพรสเซอร์รุ่นใหม่ที่ทันสมัยใช้เทคโนโลยีข้อเข่าที่อ่อนนุ่ม การเปลี่ยนแปลงอัตราส่วนการบีบอัดของคอมเพรสเซอร์นี้ก่อนและหลังเกณฑ์มีความสมดุลและค่อยเป็นค่อยไปทำให้การเปลี่ยนแปลงการบีบอัดตรวจจับได้ยากและคุณภาพเสียงจะดีขึ้นอีก . คอมเพรสเซอร์สามารถรักษาสมดุลระหว่างระดับเสียงของเครื่องดนตรีและนักร้องในระหว่างกระบวนการบันทึก ตรวจสอบความสมดุลของจุดแข็งต่างๆของสัญญาณ บางครั้งยังใช้เพื่อกำจัดเสียงของนักร้องหรือเปลี่ยนเวลาในการบีบอัดและปล่อยเพื่อสร้างเอฟเฟกต์พิเศษของ "เสียงกลับด้าน" ซึ่งเสียงจะเปลี่ยนจากเล็กไปใหญ่ ในระบบกระจายเสียงจะใช้ในการบีบอัดสัญญาณโปรแกรมด้วยช่วงไดนามิกที่ใหญ่ขึ้นเพื่อเพิ่มระดับการแผ่รังสีโดยเฉลี่ยภายใต้สมมติฐานในการป้องกันการบิดเบือนมอดูเลตและป้องกันการโอเวอร์โหลดของเครื่องส่งสัญญาณ ในระบบเสริมแรงเสียงของห้องเต้นรำคอมเพรสเซอร์จะบีบอัดสัญญาณในขณะที่ยังคงรูปแบบโปรแกรมดั้งเดิมลดพลวัตของดนตรีเพื่อให้เป็นไปตามข้อกำหนดของระบบเสริมแรงเสียงและกิจกรรมทางศิลปะ แม้ว่าคอมเพรสเซอร์จะมีประโยชน์มากมาย แต่โดยทั่วไปแล้วคอมเพรสเซอร์สมัยใหม่จะนำเทคโนโลยีใหม่ ๆ มาใช้เช่นหัวเข่าที่อ่อนนุ่มซึ่งสามารถลดผลข้างเคียงของการบีบอัดของคอมเพรสเซอร์ได้มากขึ้น แต่ก็ไม่ได้หมายความว่าคอมเพรสเซอร์จะไม่ทำลายคุณภาพเสียง มีอยู่อีกครั้ง ดังนั้นในระบบเสริมกำลังเสียงอย่าใช้ลิมิตเตอร์ในทางที่ผิดแม้ว่าคุณจะต้องการใช้ก็ตามคุณควรใช้ตัวลดเพื่อประมวลผลสัญญาณด้วยความระมัดระวัง นี่ไม่ใช่แค่ความจำเป็นในการปกป้องเครื่องขยายเสียงและลำโพงเท่านั้น แต่ยังต้องปรับปรุงคุณภาพเสียงด้วย

อัตราส่วนสัญญาณต่อเสียงรบกวน (S / N) คืออะไร?
อัตราส่วนสัญญาณต่อเสียงรบกวนหมายถึงกำลังสัญญาณที่จุดอ้างอิงในสายและกำลังสัญญาณรบกวนโดยธรรมชาติเมื่อไม่มีสัญญาณ
อัตราส่วนจะแสดงเป็นเดซิเบล (dB) ค่ายิ่งสูงยิ่งดีซึ่งหมายถึงเสียงรบกวนน้อยลง
เดซิเบลคืออะไร
เดซิเบล (dB) เป็นหน่วยมาตรฐานที่แสดงกำลังสัมพัทธ์หรือระดับแอมพลิจูด แสดงเป็น dB ยิ่งจำนวนเดซิเบลใหญ่เท่าไหร่เสียงก็จะดังมากขึ้นเท่านั้น ในการคำนวณเดซิเบลเพิ่มขึ้นทุกๆ 10 เดซิเบลระดับเสียงจะอยู่ที่ประมาณสิบเท่าของต้นฉบับ
dB: เดซิเบลเดซิเบล ใช้เพื่อแสดงระดับสัมพัทธ์ของแรงดันไฟฟ้ากำลังหรือเสียงสองระดับ
dBm: เดซิเบลที่แตกต่างกัน 0dB = 1mW เป็น 600 โอห์ม
dBv: เดซิเบลที่แตกต่างกัน 0dB = 0.775 โวลต์
dBV: เดซิเบลที่แตกต่างกัน 0dB = 1 โวลต์
dB / อ็อกเทฟ: เดซิเบล / อ็อกเทฟ การแสดงออกของความชันของตัวกรองยิ่งจำนวนเดซิเบลต่ออ็อกเทฟมากเท่าใดความชันก็จะยิ่งสูงขึ้นเท่านั้น

แนวคิดนี้ค่อนข้างซับซ้อนเราใช้การคำนวณทางฟิสิกส์เพื่อแสดง:

เพื่อแสดงความแข็งแกร่งของเสียงผู้คนจึงนำแนวคิดเรื่อง "ความเข้มของเสียง" มาใช้และวัดขนาดของมันด้วยปริมาณพลังงานเสียงที่ไหลผ่านพื้นที่หน่วยในแนวตั้งใน 1 วินาที ความเข้มของเสียงแสดงด้วยตัวอักษร "I" และหน่วยคือ "วัตต์ / ตร.ม. " ตามข้อบังคับหากพลังงานเสียงที่ตั้งฉากกับพื้นที่หน่วยเพิ่มขึ้นเป็นสองเท่าภายใน 2 วินาทีความเข้มของเสียงก็จะเพิ่มขึ้นเป็นสองเท่าเช่นกัน ดังนั้นความเข้มของเสียงจึงเป็นปริมาณทางกายภาพที่ไม่เปลี่ยนแปลงตามความรู้สึกของผู้คน

　　 แม้ว่าความเข้มของเสียงจะเป็นปริมาณทางกายภาพที่เป็นเป้าหมาย แต่ก็มีความแตกต่างอย่างมากระหว่างขนาดของความเข้มเสียงและความเข้มของเสียงที่ผู้คนรู้สึกได้เองเพื่อให้สอดคล้องกับการรับรู้ของผู้คนเกี่ยวกับความเข้มของเสียงแนวคิดของ "ระดับความเข้มเสียง" ได้รับการแนะนำในวิชาฟิสิกส์ เดซิเบลเป็นหน่วยของระดับความเข้มของเสียงซึ่งเป็นหนึ่งในสิบของกระดิ่ง

　　 ระดับความเข้มของเสียงได้รับการควบคุมอย่างไร? ความเข้มของเสียงต้องทำอย่างไร?
　　การวัดดังกล่าวพิสูจน์ได้ว่าหูของมนุษย์มีความไวต่อคลื่นเสียงที่มีความถี่ต่างกัน มีความไวต่อคลื่นเสียง 3000 Hz มากที่สุด ตราบใดที่ความเข้มเสียงของความถี่นี้ถึง I0 = 10-12 วัตต์ / ตร.ม. อาจทำให้เกิดการได้ยินในหูของมนุษย์ได้ ระดับความเข้มของเสียงถูกระบุตามความเข้มเสียงขั้นต่ำ I2 ที่หูของมนุษย์สามารถได้ยินและความเข้มเสียงของ I0 = 0-10 วัตต์ / ตร.ม. ถูกระบุเป็นความเข้มเสียงระดับศูนย์กล่าวคือ ความเข้มของเสียงในขณะนี้ระดับคือศูนย์เบล (เช่นศูนย์เดซิเบล) เมื่อความเข้มของเสียงเพิ่มขึ้นเป็นสองเท่าจาก I12 เป็น 2I0 ความเข้มของเสียงที่สัมผัสได้จากหูของมนุษย์จะไม่เพิ่มขึ้นเป็นสองเท่า เฉพาะเมื่อความเข้มของเสียงถึง 2I0 หูของมนุษย์จะรู้สึกได้ถึงความเข้มของเสียงที่เพิ่มขึ้นเป็นสองเท่า ระดับความเข้มของเสียงที่สอดคล้องกับความเข้มของเสียงนี้คือ 10 beel = 0 เดซิเบล เมื่อความเข้มของเสียงกลายเป็น 1I10 หูของมนุษย์จะรู้สึกว่าเสียงที่หนักแน่นอ่อนแอเพิ่มขึ้น 100 เท่าระดับความเข้มของเสียงที่สอดคล้องกันคือ 0 เบล = 2 เดซิเบล เมื่อความเข้มของเสียงกลายเป็น 2I20 ความเข้มเสียงที่หูของมนุษย์สัมผัสได้จะเพิ่มขึ้น 1000 เท่าและระดับความเข้มเสียงที่สอดคล้องกันคือ 0 เบล = 3 เดซิเบล ไปเรื่อย ๆ ความเข้มเสียงสูงสุดที่หูของมนุษย์สามารถทนได้คือ 3 วัตต์ / ตร.ม. = 30I1 และระดับความเข้มเสียงที่สอดคล้องกันคือ 2 เบล = 1012 เดซิเบล

สูตร: ระดับความดันเสียง (dB) = 20Lg (วัดความดันเสียง / ค่าความดันเสียงอ้างอิง)
หมายเหตุของปลาเก่า: เมื่อความดันเสียงที่วัดได้เท่ากับความดันเสียงอ้างอิงผลลัพธ์ที่คำนวณได้หลังจากใช้ลอการิทึมคือ 0dB สำหรับอุปกรณ์เสียงอนาล็อกอาจมีค่ามากกว่า 0dB แต่อุปกรณ์ดิจิทัลไม่สามารถใช้งานได้ การคำนวณแบบดิจิทัลต้องใช้การวัดและไม่มีค่าอนันต์ ดังนั้นในอุปกรณ์ดิจิทัลและซอฟต์แวร์ที่เราใช้ 0dB จึงกลายเป็นค่ามาตรฐานอ้างอิง

2. ข้อมูลเบื้องต้นเกี่ยวกับรูปแบบเสียงทั่วไปและเครื่องเล่น

ลักษณะและความสามารถในการปรับตัวของรูปแบบเสียงหลัก

การเข้ารหัสเสียงทุกประเภทมีลักษณะทางเทคนิคและการใช้งานในโอกาสที่แตกต่างกัน มาอธิบายคร่าวๆว่าจะใช้การเข้ารหัสเสียงเหล่านี้ได้อย่างไรอย่างยืดหยุ่น

4-1 PCM เข้ารหัส WAV

ดังที่ได้กล่าวไว้ก่อนหน้านี้ไฟล์ WAV ที่เข้ารหัส PCM เป็นรูปแบบที่มีคุณภาพเสียงที่ดีที่สุด ภายใต้แพลตฟอร์ม Windows ซอฟต์แวร์เสียงทั้งหมดสามารถให้การสนับสนุนเธอได้ มีฟังก์ชั่นมากมายใน WinAPI ที่จัดทำโดย Windows ที่สามารถเล่น wav ได้โดยตรง ดังนั้นเมื่อพัฒนาซอฟต์แวร์มัลติมีเดียจึงมักใช้ wav ในปริมาณมากสำหรับเอฟเฟกต์เสียงเหตุการณ์และเพลงประกอบ wav ที่เข้ารหัส PCM สามารถให้คุณภาพเสียงที่ดีที่สุดภายใต้อัตราการสุ่มตัวอย่างและขนาดตัวอย่างเดียวกันดังนั้นจึงใช้กันอย่างแพร่หลายในการแก้ไขเสียงการแก้ไขที่ไม่ใช่เชิงเส้นและสาขาอื่น ๆ

คุณสมบัติ: คุณภาพเสียงดีมากรองรับซอฟต์แวร์จำนวนมาก

ใช้ได้กับ: การพัฒนามัลติมีเดียการเก็บรักษาเพลงและวัสดุเอฟเฟกต์เสียง

4-2 เอ็มพี3

MP3 มีอัตราส่วนการบีบอัดที่ดี อัตราบิตระดับกลางถึงสูงที่เข้ารหัสโดย LAME นั้นใกล้เคียงกับไฟล์ WAV ดั้งเดิมมากในแง่ของเสียง การใช้พารามิเตอร์ที่เหมาะสม LAME เข้ารหัส MP3 เหมาะมากสำหรับการชื่นชมดนตรี เนื่องจาก MP3 ได้รับการแนะนำมาเป็นเวลานานควบคู่ไปกับคุณภาพเสียงและอัตราส่วนการบีบอัดที่ค่อนข้างดีเกมจำนวนมากจึงใช้ mp3 สำหรับเอฟเฟกต์เสียงของเหตุการณ์และเพลงประกอบ ซอฟต์แวร์ตัดต่อเสียงที่รู้จักกันดีเกือบทั้งหมดยังรองรับ MP3 คุณสามารถใช้ mp3 เช่น wav ได้ แต่เนื่องจากการเข้ารหัส mp3 สูญเสียคุณภาพเสียงจะลดลงอย่างรวดเร็วหลังจากการแก้ไขหลายครั้งและ mp3 ไม่เหมาะสำหรับการบันทึกวัสดุ แต่การสาธิตเป็นผลงานนั้นยอดเยี่ยมจริงๆ ประวัติอันยาวนานและคุณภาพเสียงที่ดีของ mp3 ทำให้เป็นหนึ่งในการเข้ารหัสแบบ lossy ที่ใช้กันอย่างแพร่หลาย แหล่งข้อมูล mp3 จำนวนมากสามารถพบได้บนอินเทอร์เน็ตและ mp3player กำลังกลายเป็นแฟชั่นในแต่ละวัน VCDPlayer, DVDPlayer และแม้แต่โทรศัพท์มือถือจำนวนมากก็สามารถเล่น mp3 ได้และ mp3 เป็นหนึ่งในการเข้ารหัสที่รองรับได้ดีที่สุด MP3 ยังไม่สมบูรณ์แบบและทำงานได้ไม่ดีในอัตราบิตที่ต่ำกว่า MP3 ยังมีคุณสมบัติพื้นฐานของสื่อสตรีมมิ่งและสามารถเล่นออนไลน์ได้

คุณสมบัติ: คุณภาพเสียงที่ดีอัตราส่วนการบีบอัดค่อนข้างสูงรองรับซอฟต์แวร์และฮาร์ดแวร์จำนวนมากและใช้กันอย่างแพร่หลาย

เหมาะสำหรับ: เหมาะสำหรับการชื่นชมดนตรีที่มีความต้องการสูงขึ้น

4-3 โอจีจี

Ogg เป็นรหัสที่มีแนวโน้มมากซึ่งมีประสิทธิภาพที่น่าทึ่งในอัตราบิตต่างๆโดยเฉพาะในอัตราบิตต่ำและปานกลาง นอกจากคุณภาพเสียงที่ดีแล้ว Ogg ยังเป็นตัวแปลงสัญญาณที่ไม่มีค่าใช้จ่ายใด ๆ ซึ่งวางรากฐานสำหรับการรองรับ Ogg มากขึ้น Ogg มีอัลกอริทึมที่ดีมากซึ่งสามารถให้คุณภาพเสียงที่ดีขึ้นด้วยอัตราบิตที่น้อยลง Ogg 128kbps นั้นดีกว่า 192kbps หรือบิตเรต mp3 ที่สูงกว่าด้วยซ้ำ เสียงแหลมของ Ogg มีรสชาติแบบโลหะดังนั้นข้อบกพร่องของ Ogg นี้จะถูกเปิดเผยเมื่อเขียนโค้ดเครื่องดนตรีเดี่ยวบางตัวที่มีความต้องการสูงสำหรับความถี่สูง OGG มีคุณสมบัติพื้นฐานของสื่อสตรีมมิ่ง แต่ไม่มีการสนับสนุนซอฟต์แวร์บริการสื่อดังนั้นการแพร่ภาพดิจิทัลที่ใช้ ogg จึงยังไม่สามารถทำได้ สถานะการรองรับปัจจุบันของ Ogg ยังไม่ดีพอไม่ว่าจะเป็นซอฟต์แวร์หรือฮาร์ดแวร์ก็ไม่สามารถเทียบกับ mp3 ได้

คุณสมบัติ: สามารถให้คุณภาพเสียงที่ดีกว่า mp3 ที่มีอัตราบิตน้อยกว่า mp3 และมีประสิทธิภาพที่ดีภายใต้อัตราบิตสูงปานกลางและต่ำ

นำไปใช้กับ: ใช้พื้นที่เก็บข้อมูลขนาดเล็กเพื่อให้ได้คุณภาพเสียงที่ดีขึ้น (เทียบกับ MP3)

4-4 กนป

เช่นเดียวกับ OGG คู่แข่งของ MPC ก็เป็น mp3 เช่นกัน ที่บิตเรตปานกลางและสูง MPC สามารถให้คุณภาพเสียงที่ดีกว่าคู่แข่ง ที่บิตเรตปานกลางประสิทธิภาพของ MPC ไม่ได้ด้อยไปกว่า Ogg ที่บิตเรตสูงประสิทธิภาพของ MPC ก็ยิ่งสิ้นหวัง ข้อได้เปรียบด้านคุณภาพเสียงของ MPC ส่วนใหญ่ปรากฏในส่วนความถี่สูง ความถี่สูงของ MPC นั้นละเอียดอ่อนกว่า MP3 มากและไม่มีรสชาติแบบโลหะของ Ogg ปัจจุบันเป็นการเข้ารหัสแบบ lossy ที่เหมาะสมที่สุดสำหรับการชื่นชมดนตรี เนื่องจากเป็นรหัสใหม่ทั้งหมดจึงคล้ายกับประสบการณ์ของ Ogg และขาดการสนับสนุนซอฟต์แวร์และฮาร์ดแวร์ที่กว้างขวาง MPC มีประสิทธิภาพในการเข้ารหัสที่ดีและเวลาในการเข้ารหัสสั้นกว่า OGG และ LAME มาก

คุณสมบัติ: ภายใต้อัตราบิตปานกลางและสูงจะมีคุณภาพเสียงที่ดีที่สุดในการเข้ารหัสแบบสูญเสียและภายใต้อัตราบิตสูงจะมีประสิทธิภาพความถี่สูงที่ยอดเยี่ยม

ใช้ได้กับ: การชื่นชมดนตรีด้วยคุณภาพเสียงที่ดีที่สุดภายใต้สมมติฐานที่ประหยัดพื้นที่ได้มาก

4-6 วมว

WMA ที่พัฒนาโดย Microsoft เป็นที่รักของเพื่อน ๆ หลายคน ที่อัตราบิตต่ำมีคุณภาพเสียงที่ดีกว่า mp3 มาก การเกิดขึ้นของ WMA ได้กำจัดการเข้ารหัส VQF ที่เคยเป็นที่นิยมในทันที WMA ที่มีพื้นหลังของ Microsoft ได้รับการสนับสนุนด้านซอฟต์แวร์และฮาร์ดแวร์ที่ดี Windows Media Player สามารถเล่น WMA และฟังสถานีวิทยุดิจิทัลโดยใช้เทคโนโลยีการเข้ารหัส WMA เนื่องจากผู้เล่นมีอยู่ในพีซีเกือบทุกเครื่องเว็บไซต์เพลงจำนวนมากจึงยินดีที่จะใช้ WMA เป็นตัวเลือกแรกสำหรับการออดิชั่นออนไลน์ นอกจากสภาพแวดล้อมการสนับสนุนที่ดีแล้ว WMA ยังมีประสิทธิภาพที่ดีมากที่อัตราบิต 64-128kbps แม้ว่าเพื่อนหลายคนที่มีความต้องการสูงกว่าจะไม่พอใจ แต่เพื่อน ๆ ที่มีความต้องการต่ำกว่าก็ยอมรับการเข้ารหัสนี้ WMA เป็นอย่างมากความนิยมกำลังจะมาเร็ว ๆ นี้

คุณสมบัติ: ประสิทธิภาพคุณภาพเสียงที่บิตเรตต่ำนั้นยากที่จะเอาชนะ

ใช้ได้กับ: การตั้งค่าวิทยุดิจิตอลการออดิชั่นออนไลน์การชื่นชมดนตรีภายใต้ข้อกำหนดที่ต่ำ

4-7 mp3PRO

ในฐานะที่เป็น mp3 เวอร์ชันปรับปรุง mp3PRO แสดงให้เห็นถึงคุณภาพที่ดีมากเต็มไปด้วยเสียงแหลมแม้ว่า mp3PRO จะถูกแทรกในกระบวนการเล่นผ่านเทคโนโลยี SBR แต่ประสบการณ์การฟังที่แท้จริงนั้นค่อนข้างดีแม้ว่ามันจะดูบางไปหน่อย แต่ก็มีอยู่แล้ว โลกของ 64kbps ไม่มีคู่แข่งแม้แต่ mp128 ที่มากกว่า 3kbps แต่น่าเสียดายที่ประสิทธิภาพความถี่ต่ำของ mp3PRO นั้นพังพอ ๆ กับ mp3 โชคดีที่การแก้ไขความถี่สูงของ SBR สามารถปกปิดข้อบกพร่องนี้ได้มากหรือน้อยดังนั้น mp3PRO ในทางตรงกันข้ามจุดอ่อนด้านความถี่ต่ำของ WMA นั้นไม่ชัดเจนเท่ากับ WMA คุณจะรู้สึกได้อย่างลึกซึ้งเมื่อใช้สวิตช์ PRO ของ RCA mp3PRO Audio Player เพื่อสลับระหว่างโหมด PRO และโหมดปกติ โดยรวมแล้ว mp64PRO 3kbps มาถึงระดับคุณภาพเสียงที่ 128kbps mp3 โดยมีการชนะเล็กน้อยในส่วนความถี่สูง

คุณสมบัติ: ราชาแห่งคุณภาพเสียงที่บิตเรตต่ำ

เหมาะสำหรับ: ชื่นชมดนตรีภายใต้ความต้องการต่ำ

4-8 เอพี

รูปแบบใหม่ของการเข้ารหัสเสียงแบบไม่สูญเสียที่สามารถให้อัตราส่วนการบีบอัด 50-70% แม้ว่าจะไม่คุ้มค่าที่จะกล่าวถึงเมื่อเทียบกับการเข้ารหัสที่สูญเสียไป แต่ก็เป็นประโยชน์อย่างยิ่งสำหรับเพื่อน ๆ ที่ใฝ่หาความสนใจอย่างเต็มที่ APE สามารถสูญเสียได้อย่างแท้จริงแทนที่จะเป็นแบบไม่สูญเสียเสียงและอัตราส่วนการบีบอัดจะดีกว่ารูปแบบที่ไม่สูญเสียที่คล้ายกัน

คุณสมบัติ: คุณภาพเสียงดีมาก

เหมาะสำหรับ: เพลงคุณภาพเยี่ยมและคอลเลกชัน

3, การประมวลผลการเข้ารหัสสัญญาณเสียง

(1) การเข้ารหัส PCM

PCM Pulse Code Modulation เป็นคำย่อของ Pulse Code Modulation ในข้อความก่อนหน้านี้เราได้กล่าวถึงขั้นตอนการทำงานทั่วไปของ PCM เราไม่จำเป็นต้องสนใจเกี่ยวกับวิธีการคำนวณที่ใช้ในการเข้ารหัสขั้นสุดท้ายของ PCM เราจำเป็นต้องทราบข้อดีและข้อเสียของสตรีมเสียงที่เข้ารหัส PCM เท่านั้น ข้อได้เปรียบที่ใหญ่ที่สุดของการเข้ารหัส PCM คือคุณภาพเสียงที่ดีและข้อเสียที่ใหญ่ที่สุดคือขนาดใหญ่ ซีดีเพลงทั่วไปของเราใช้การเข้ารหัส PCM และความจุของซีดีสามารถเก็บข้อมูลเพลงได้เพียง 72 นาที

อย่างที่เราทราบกันดีว่าไม่ว่าคอมพิวเตอร์มัลติมีเดียในปัจจุบันจะมีประสิทธิภาพเพียงใดก็สามารถประมวลผลข้อมูลดิจิทัลภายในได้เท่านั้น เสียงที่เราได้ยินล้วนเป็นสัญญาณอนาล็อก คอมพิวเตอร์จะประมวลผลข้อมูลเสียงเหล่านี้ได้อย่างไร? นอกจากนี้ความแตกต่างระหว่างเสียงอนาล็อกและเสียงดิจิทัลคืออะไร? ข้อดีของเสียงดิจิตอลคืออะไร? นี่คือสิ่งที่เราจะแนะนำด้านล่าง

การแปลงเสียงอะนาล็อกเป็นเสียงดิจิทัลเรียกว่าการสุ่มตัวอย่างในเพลงคอมพิวเตอร์ อุปกรณ์ฮาร์ดแวร์หลักที่ใช้ในกระบวนการนี้คือตัวแปลงอนาล็อกเป็นดิจิตอล (ADC) กระบวนการสุ่มตัวอย่างจะแปลงสัญญาณไฟฟ้าของสัญญาณเสียงอะนาล็อกตามปกติเป็นรหัสไบนารีจำนวนหนึ่งที่เรียกว่า "บิต" 0 และ 1 โดย 0 และ 1 เหล่านี้เป็นไฟล์เสียงดิจิทัล ดังแสดงในรูปด้านล่างเส้นโค้งไซน์ในรูปแสดงถึงเส้นโค้งเสียงต้นฉบับ สี่เหลี่ยมสีแสดงถึงผลลัพธ์ที่ได้รับหลังจากการสุ่มตัวอย่าง ยิ่งทั้งสองมีความสอดคล้องกันมากเท่าไหร่ผลการสุ่มตัวอย่างก็จะยิ่งดีขึ้นเท่านั้น

abscissa ในรูปด้านบนคือความถี่ในการสุ่มตัวอย่าง การกำหนดคือความละเอียดในการสุ่มตัวอย่าง กริดในภาพจะค่อยๆเข้ารหัสจากซ้ายไปขวาก่อนอื่นให้เพิ่มความหนาแน่นของ abscissa จากนั้นจึงเพิ่มความหนาแน่นของลำดับ เห็นได้ชัดว่าเมื่อหน่วยของ abscissa มีขนาดเล็กลงนั่นคือช่วงเวลาระหว่างช่วงเวลาการสุ่มตัวอย่างทั้งสองมีขนาดเล็กลงมันจะเอื้อต่อการรักษาสภาพที่แท้จริงของเสียงต้นฉบับมากขึ้น กล่าวอีกนัยหนึ่งคือยิ่งความถี่ในการสุ่มตัวอย่างสูงเท่าใดก็ยิ่งรับประกันคุณภาพเสียงได้มากขึ้นเท่านั้น ในทำนองเดียวกันเมื่ออยู่ในแนวตั้งยิ่งหน่วยพิกัดมีขนาดเล็กคุณภาพเสียงก็จะยิ่งดีขึ้นกล่าวคือยิ่งมีจำนวนบิตสุ่มตัวอย่างมากเท่าใดก็ยิ่งดีเท่านั้น

โปรดให้ความสนใจไปที่จุดหนึ่ง 8-bit (8Bit) ไม่ได้หมายความว่า ordinate แบ่งออกเป็น 8 ส่วน แต่ 2 ^ 8 = 256 ส่วน; ในทำนองเดียวกัน 16 บิตหมายความว่าการกำหนดแบ่งออกเป็น 2 ^ 16 = 65536 ส่วน ในขณะที่ 24 บิตถูกแบ่งออกเป็น 2 ^ 16 = 65536 ส่วน แบ่งเป็น 2 ^ 24 = 16777216 ส่วน ตอนนี้เรามาทำการคำนวณเพื่อดูว่าปริมาณข้อมูลของไฟล์เสียงดิจิทัลมีขนาดใหญ่เพียงใด สมมติว่าเราใช้ 44.1kHz, 16bit สำหรับสเตอริโอ (นั่นคือสองช่องสัญญาณ)

(2) คลื่น

นี่คือรูปแบบไฟล์เสียงโบราณที่พัฒนาโดย Microsoft WAV เป็นรูปแบบไฟล์ที่สอดคล้องกับข้อกำหนดรูปแบบไฟล์การแลกเปลี่ยนทรัพยากร PIFF WAV ทั้งหมดมีส่วนหัวของไฟล์ซึ่งเป็นพารามิเตอร์การเข้ารหัสของสตรีมเสียง WAV ไม่มีกฎที่ยากและรวดเร็วในการเข้ารหัสสตรีมเสียง นอกจาก PCM แล้วการเข้ารหัสเกือบทั้งหมดที่รองรับข้อกำหนด ACM สามารถเข้ารหัสสตรีมเสียง WAV ได้ เพื่อนหลายคนไม่มีแนวคิดนี้ ลองใช้ AVI เป็นการสาธิตเนื่องจาก AVI และ WAV มีโครงสร้างไฟล์คล้ายกันมาก แต่ AVI มีสตรีมวิดีโออีกหนึ่งรายการ มี AVI หลายประเภทที่เราสัมผัสด้วยดังนั้นเราจึงต้องติดตั้ง Decode บางตัวเพื่อดู AVI บางตัว DivX ที่เราสัมผัสคือการเข้ารหัสวิดีโอชนิดหนึ่ง AVI สามารถใช้การเข้ารหัส DivX เพื่อบีบอัดสตรีมวิดีโอ แน่นอนว่าคนอื่น ๆ ก็สามารถใช้ได้เช่นกัน การบีบอัดการเข้ารหัส ในทำนองเดียวกัน WAV ยังสามารถใช้การเข้ารหัสเสียงที่หลากหลายเพื่อบีบอัดสตรีมเสียงได้ แต่โดยปกติแล้วเราจะเป็น WAV ที่สตรีมเสียงเข้ารหัสโดย PCM แต่ไม่ได้หมายความว่า WAV สามารถใช้การเข้ารหัส PCM ได้เท่านั้น สามารถใช้การเข้ารหัส MP3 ใน WAV ได้ เช่นเดียวกับ AVI ตราบใดที่มีการติดตั้ง Decode ที่เกี่ยวข้องคุณก็สามารถเพลิดเพลินกับ WAV เหล่านี้ได้

ภายใต้แพลตฟอร์ม Windows WAV ที่ใช้การเข้ารหัส PCM เป็นรูปแบบเสียงที่รองรับได้ดีที่สุดและซอฟต์แวร์เสียงทั้งหมดสามารถรองรับได้อย่างสมบูรณ์แบบ เนื่องจากสามารถบรรลุข้อกำหนดด้านคุณภาพเสียงที่สูงขึ้น WAV จึงเป็นรูปแบบที่ต้องการสำหรับการแก้ไขและสร้างเพลง เหมาะสำหรับการบันทึกวัสดุเพลง ดังนั้น WAV ที่ใช้การเข้ารหัส PCM จึงถูกใช้เป็นรูปแบบตัวกลางและมักใช้ในการแปลงการเข้ารหัสอื่นร่วมกันเช่นการแปลง MP3 เป็น WMA

(3) การเข้ารหัส MP3

ในฐานะที่เป็นรูปแบบการบีบอัดเสียงที่ได้รับความนิยมมากที่สุด MP3 จึงได้รับการยอมรับอย่างกว้างขวางจากทุกคน ผลิตภัณฑ์ซอฟต์แวร์ต่างๆที่เกี่ยวข้องกับ MP3 กำลังเกิดขึ้นในสตรีมที่ไม่สิ้นสุดและผลิตภัณฑ์ฮาร์ดแวร์อื่น ๆ ก็เริ่มรองรับ MP3 มีเครื่องเล่น VCD / DVD มากมายที่เราสามารถซื้อได้ สามารถรองรับ MP3 มีเครื่องเล่น MP3 แบบพกพามากขึ้น ฯลฯ แม้ว่า บริษัท เพลงรายใหญ่หลายแห่งจะรังเกียจรูปแบบเปิดนี้มาก แต่ก็ไม่สามารถป้องกันการอยู่รอดและการแพร่กระจายของรูปแบบการบีบอัดเสียงนี้ได้ MP3 ได้รับการพัฒนามาเป็นเวลา 10 ปี เป็นตัวย่อของ MPEG (MPEG: Moving Picture Experts Group) Audio Layer-3 ซึ่งเป็นรูปแบบการเข้ารหัสอนุพันธ์ของ MPEG1 ได้รับการพัฒนาสำเร็จในปี 1993 โดยสถาบันวิจัย Fraunhofer IIS ในเยอรมนีและ Thomson MP3 สามารถบรรลุอัตราส่วนการบีบอัดที่น่าทึ่งที่ 12: 1 และรักษาคุณภาพเสียงพื้นฐานที่ได้ยิน ในสมัยที่ฮาร์ดดิสก์มีราคาแพงมากในปีนั้น MP3 ได้รับการยอมรับจากผู้ใช้อย่างรวดเร็ว ด้วยความนิยมของอินเทอร์เน็ต MP3 จึงได้รับการยอมรับจากผู้ใช้หลายร้อยล้านคน การเปิดตัวเทคโนโลยีการเข้ารหัส MP3 ครั้งแรกนั้นไม่สมบูรณ์แบบมาก เนื่องจากขาดการวิจัยเกี่ยวกับเสียงและการได้ยินของมนุษย์ตัวเข้ารหัส mp3 ในยุคแรก ๆ เกือบทั้งหมดได้รับการเข้ารหัสในลักษณะที่หยาบคายและคุณภาพของเสียงได้รับความเสียหายอย่างร้ายแรง ด้วยการนำเทคโนโลยีใหม่ ๆ มาใช้อย่างต่อเนื่องเทคโนโลยีการเข้ารหัส mp3 ได้รับการปรับปรุงทีละอย่างรวมถึงการปรับปรุงทางเทคนิคที่สำคัญสองประการ

VBR: ไฟล์รูปแบบ MP3 มีคุณสมบัติที่น่าสนใจนั่นคือสามารถอ่านได้ขณะเล่นซึ่งสอดคล้องกับลักษณะพื้นฐานที่สุดของสื่อสตรีมมิ่ง กล่าวคือผู้เล่นสามารถเล่นได้โดยไม่ต้องอ่านเนื้อหาทั้งหมดของไฟล์ล่วงหน้าซึ่งจะถูกอ่านแม้ว่าไฟล์จะเสียหายบางส่วนก็ตาม แม้ว่า mp3 จะมีส่วนหัวของไฟล์ได้ แต่ก็ไม่สำคัญมากสำหรับไฟล์รูปแบบ mp3 เนื่องจากคุณสมบัตินี้แต่ละส่วนและเฟรมของไฟล์ MP3 จึงสามารถมีอัตราข้อมูลเฉลี่ยแยกกันได้โดยไม่ต้องมีแผนการถอดรหัสพิเศษ ดังนั้นจึงมีเทคโนโลยีที่เรียกว่า VBR (Variable bitrate, dynamic data rate) ซึ่งช่วยให้แต่ละส่วนหรือแม้แต่แต่ละเฟรมของไฟล์ MP3 มีบิตเรตแยกกัน ข้อดีของสิ่งนี้คือเพื่อให้แน่ใจว่าคุณภาพเสียง