ความรู้พื้นฐานการประมวลผลเสียง -1

เสียง

หมายถึงคลื่นเสียงที่มีความถี่เสียงระหว่าง 20 Hz ถึง 20 kHz ที่หูของมนุษย์ได้ยิน

หากคุณเพิ่มการ์ดเสียงที่เกี่ยวข้องลงในคอมพิวเตอร์ - การ์ดเสียงที่เรามักพูดกันว่าเราสามารถบันทึกเสียงทั้งหมดได้และสามารถจัดเก็บลักษณะทางเสียงของเสียงเช่นระดับของเสียงเป็นไฟล์ในคอมพิวเตอร์ได้ยาก ดิสก์. ในทางกลับกันเรายังสามารถใช้โปรแกรมเสียงบางโปรแกรมเพื่อเล่นไฟล์เสียงที่จัดเก็บไว้เพื่อเรียกคืนเสียงที่บันทึกไว้ก่อนหน้านี้

1 รูปแบบไฟล์เสียง
รูปแบบไฟล์เสียงโดยเฉพาะหมายถึงรูปแบบของไฟล์ที่จัดเก็บข้อมูลเสียง มีหลายรูปแบบที่แตกต่างกัน

วิธีการทั่วไปในการรับข้อมูลเสียงคือการสุ่มตัวอย่าง (หาปริมาณ) แรงดันไฟฟ้าของเสียงในช่วงเวลาที่กำหนดและจัดเก็บผลลัพธ์ที่ความละเอียดที่กำหนด (ตัวอย่างเช่น CDDA แต่ละตัวอย่างคือ 16 บิตหรือ 2 ไบต์) ช่วงการสุ่มตัวอย่างอาจมีมาตรฐานที่แตกต่างกัน ตัวอย่างเช่น CDDA ใช้ 44,100 ครั้งต่อวินาที ดีวีดีใช้ 48,000 หรือ 96,000 ครั้งต่อวินาที ดังนั้น [อัตราการสุ่มตัวอย่าง] [ความละเอียด] และจำนวน [แชนเนล] (ตัวอย่างเช่น 2 แชนเนลสำหรับสเตอริโอ) จึงเป็นตัวแปรสำคัญของรูปแบบไฟล์เสียง

1.1 การสูญเสียและไม่สูญเสีย
ตามกระบวนการผลิตเสียงดิจิทัลการเข้ารหัสเสียงสามารถทำได้ใกล้เคียงกับสัญญาณธรรมชาติอย่างไร้ขีด จำกัด อย่างน้อยเทคโนโลยีในปัจจุบันก็ทำได้แค่นี้ รูปแบบการเข้ารหัสเสียงดิจิทัลใด ๆ จะสูญเสียเนื่องจากไม่สามารถกู้คืนได้อย่างสมบูรณ์ ในการใช้งานคอมพิวเตอร์ระดับความเที่ยงตรงสูงสุดคือการเข้ารหัส PCM ซึ่งใช้กันอย่างแพร่หลายในการเก็บรักษาวัสดุและการชื่นชมดนตรี ใช้ในซีดีดีวีดีและไฟล์ WAV ทั่วไปของเรา ดังนั้น PCM จึงกลายเป็นการเข้ารหัสแบบไม่สูญเสียตามแบบแผนเนื่องจาก PCM แสดงถึงระดับความเที่ยงตรงที่ดีที่สุดในเสียงดิจิทัล

รูปแบบไฟล์เสียงมีสองประเภทหลัก:

รูปแบบ Lossless เช่น WAV, PCM, TTA, FLAC, AU, APE, TAK, WavPack (WV)
รูปแบบ Lossy เช่น MP3, Windows Media Audio (WMA), Ogg Vorbis (OGG), AAC

แนะนำพารามิเตอร์ 2 ตัว

2.1 อัตราการสุ่มตัวอย่าง

หมายถึงจำนวนตัวอย่างเสียงที่ได้รับต่อวินาที เสียงเป็นคลื่นพลังงานชนิดหนึ่งดังนั้นจึงมีลักษณะของความถี่และแอมพลิจูด ความถี่สอดคล้องกับแกนเวลาและแอมพลิจูดสอดคล้องกับแกนระดับ คลื่นเรียบไม่มีที่สิ้นสุดและสตริงสามารถถือได้ว่าประกอบด้วยจุดนับไม่ถ้วน เนื่องจากพื้นที่จัดเก็บค่อนข้าง จำกัด จุดของสตริงจึงต้องถูกสุ่มตัวอย่างในระหว่างกระบวนการเข้ารหัสดิจิทัล

ขั้นตอนการสุ่มตัวอย่างคือการดึงค่าความถี่ของจุดหนึ่ง ๆ เห็นได้ชัดว่ายิ่งดึงคะแนนออกมามากขึ้นในหนึ่งวินาทีก็จะยิ่งได้รับข้อมูลความถี่มากขึ้น ในการเรียกคืนรูปคลื่นความถี่ในการสุ่มตัวอย่างที่สูงขึ้นคุณภาพเสียงก็จะยิ่งดีขึ้น ยิ่งการฟื้นฟูเป็นจริง แต่ในขณะเดียวกันก็ใช้ทรัพยากรมากขึ้น เนื่องจากความละเอียดที่ จำกัด ของหูมนุษย์จึงไม่สามารถแยกแยะความถี่ที่สูงเกินไปได้ มักใช้ความถี่ในการสุ่มตัวอย่าง 22050 44100 เป็นคุณภาพเสียงซีดีอยู่แล้วและการสุ่มตัวอย่างมากกว่า 48,000 หรือ 96,000 ไม่ได้มีความหมายต่อหูของมนุษย์ ซึ่งคล้ายกับ 24 เฟรมต่อวินาทีในภาพยนตร์ หากเป็นสเตอริโอตัวอย่างจะเพิ่มเป็นสองเท่าและไฟล์จะเพิ่มขึ้นเกือบสองเท่า

ตามทฤษฎีการสุ่มตัวอย่าง Nyquist เพื่อให้แน่ใจว่าเสียงจะไม่ผิดเพี้ยน ความถี่ในการสุ่มตัวอย่างควรอยู่ที่ประมาณ 40kHz เราไม่จำเป็นต้องรู้ว่าทฤษฎีบทนี้เกิดขึ้นได้อย่างไร เราเพียงแค่ต้องรู้ว่าทฤษฎีบทนี้บอกเราว่าถ้าเราต้องการบันทึกสัญญาณอย่างแม่นยำ ความถี่ในการสุ่มตัวอย่างของเราต้องมากกว่าหรือเท่ากับสองเท่าของความถี่สูงสุดของสัญญาณเสียง จำไว้ว่ามันเป็นความถี่สูงสุด

ในด้านเสียงดิจิตอลอัตราการสุ่มตัวอย่างที่ใช้กันทั่วไปคือ:

8000 Hz - อัตราการสุ่มตัวอย่างที่โทรศัพท์ใช้ซึ่งเพียงพอสำหรับการพูดของมนุษย์
อัตราการสุ่มตัวอย่าง 11025 Hz ที่โทรศัพท์ใช้
อัตราการสุ่มตัวอย่าง 22050 Hz ที่ใช้ในวิทยุกระจายเสียง
อัตราการสุ่มตัวอย่าง 32000 Hz สำหรับกล้องวิดีโอดิจิตอล miniDV, DAT (โหมด LP)
44100 Hz-Audio CD ซึ่งมักใช้เป็นอัตราการสุ่มตัวอย่างสำหรับเสียง MPEG-1 (VCD, SVCD, MP3)
อัตราการสุ่มตัวอย่าง 47250 Hz ที่ใช้โดยเครื่องบันทึก PCM เชิงพาณิชย์
อัตราการสุ่มตัวอย่าง 48000 Hz สำหรับเสียงดิจิตอลที่ใช้ใน miniDV, ทีวีดิจิตอล, DVD, DAT, ภาพยนตร์และเสียงระดับมืออาชีพ
อัตราการสุ่มตัวอย่าง 50000 Hz ที่ใช้โดยเครื่องบันทึกดิจิทัลเชิงพาณิชย์
96000 Hz หรือ 192000 Hz - อัตราการสุ่มตัวอย่างที่ใช้สำหรับ DVD-Audio แทร็กเสียง LPCM DVD บางแทร็กเสียง BD-ROM (Blu-ray Disc) และแทร็กเสียง HD-DVD (High Definition DVD)

2.2 จำนวนบิตการสุ่มตัวอย่าง
จำนวนบิตการสุ่มตัวอย่างเรียกอีกอย่างว่าขนาดการสุ่มตัวอย่างหรือจำนวนบิตการหาจำนวน เป็นพารามิเตอร์ที่ใช้ในการวัดความผันผวนของเสียงนั่นคือความละเอียดของการ์ดเสียงหรือสามารถเข้าใจได้ว่าเป็นความละเอียดของการ์ดเสียงที่ประมวลผลโดยการ์ดเสียง ค่ายิ่งมากความละเอียดก็จะยิ่งสูงขึ้นและเสียงที่บันทึกและเล่นจะสมจริงมากขึ้นเท่านั้น บิตของการ์ดเสียงหมายถึงเลขฐานสองของสัญญาณเสียงดิจิทัลที่การ์ดเสียงใช้ในการรวบรวมและเล่นไฟล์เสียง บิตของการ์ดเสียงสะท้อนถึงความถูกต้องของคำอธิบายสัญญาณเสียงดิจิทัลของสัญญาณเสียงอินพุต การ์ดเสียงทั่วไปส่วนใหญ่เป็นแบบ 8 บิตและ 16 บิต ปัจจุบันผลิตภัณฑ์หลักทั้งหมดในตลาดเป็นการ์ดเสียง 16 บิตขึ้นไป

ข้อมูลตัวอย่างแต่ละรายการจะบันทึกแอมพลิจูดและความแม่นยำในการสุ่มตัวอย่างขึ้นอยู่กับจำนวนบิตการสุ่มตัวอย่าง:

1 ไบต์ (นั่นคือ 8 บิต) สามารถบันทึกได้เพียง 256 ตัวเลขซึ่งหมายความว่าแอมพลิจูดสามารถแบ่งออกเป็น 256 ระดับเท่านั้น
2 ไบต์ (นั่นคือ 16 บิต) อาจมีขนาดเล็กถึง 65536 ซึ่งเป็นมาตรฐานซีดีอยู่แล้ว
4 ไบต์ (นั่นคือ 32 บิต) สามารถแบ่งความกว้างออกเป็น 4294967296 ระดับซึ่งไม่จำเป็นจริงๆ
2.3 จำนวนช่อง
นั่นคือจำนวนช่องเสียง โมโนและสเตอริโอทั่วไป (ดูอัลแชนเนล) ได้รับการพัฒนาเป็นสี่เสียงเซอร์ราวด์ (สี่แชนเนล) และ 5.1 แชนเนล

2.3.1 โมโน
โมโนเป็นรูปแบบการสร้างเสียงที่ค่อนข้างดั้งเดิมและการ์ดเสียงในยุคแรก ๆ นิยมใช้กันมากขึ้น เสียงโมโนสามารถส่งเสียงได้โดยใช้ลำโพงเพียงตัวเดียวและบางตัวยังถูกประมวลผลเป็นลำโพงสองตัวเพื่อให้ได้ช่องสัญญาณเสียงเดียวกัน เมื่อเล่นข้อมูลโมโนโฟนิกผ่านลำโพงสองตัวเราจะรู้สึกได้อย่างชัดเจนว่าเสียงนั้นมาจากลำโพงสองตัว เป็นไปไม่ได้ที่จะระบุตำแหน่งเฉพาะของแหล่งกำเนิดเสียงที่ส่งไปยังหูของเราจากตรงกลางของลำโพง

2.3.2 สเตอริโอ
ช่องสัญญาณสองช่องมีช่องเสียงสองช่อง หลักการคือเมื่อผู้คนได้ยินเสียงพวกเขาสามารถตัดสินตำแหน่งเฉพาะของแหล่งกำเนิดเสียงโดยพิจารณาจากความแตกต่างของเฟสระหว่างหูซ้ายและขวา เสียงจะถูกจัดสรรให้กับช่องสัญญาณอิสระสองช่องในระหว่างกระบวนการบันทึกเพื่อให้ได้เอฟเฟกต์การแปลเสียงที่ดี เทคนิคนี้มีประโยชน์อย่างยิ่งในการชื่นชมดนตรี ผู้ฟังสามารถแยกแยะทิศทางของเครื่องดนตรีต่างๆได้อย่างชัดเจนซึ่งทำให้เพลงมีจินตนาการและใกล้เคียงกับประสบการณ์ในสถานที่มากขึ้น

ปัจจุบันสองเสียงเป็นเสียงที่ใช้กันมากที่สุด ในคาราโอเกะเพลงหนึ่งใช้สำหรับเล่นดนตรีและอีกอันใช้สำหรับเสียงของนักร้อง ใน VCD รายการหนึ่งพากย์เป็นภาษาจีนกลางและอีกรายการหนึ่งพากย์เป็นภาษาจีนกวางตุ้ง

2.3.3 เสียงรอบทิศทางสี่โทน
สี่ช่องสัญญาณรอบทิศทางกำหนดจุดเสียงสี่จุดด้านหน้าซ้ายด้านหน้าขวาด้านหลังซ้ายและด้านหลังขวาและผู้ชมจะล้อมรอบด้วยสิ่งเหล่านี้ ขอแนะนำให้เพิ่มซับวูฟเฟอร์เพื่อเสริมสร้างการประมวลผลการเล่นของสัญญาณความถี่ต่ำ (นี่คือเหตุผลที่ระบบลำโพง 4.1 แชนเนลเป็นที่นิยมอย่างกว้างขวางในปัจจุบัน) เท่าที่เกี่ยวข้องกับเอฟเฟกต์โดยรวมระบบสี่ช่องสัญญาณสามารถนำเสียงเซอร์ราวด์ของผู้ฟังจากหลายทิศทางที่แตกต่างกันสามารถรับประสบการณ์การได้ยินของการอยู่ในสภาพแวดล้อมที่แตกต่างกันและให้ประสบการณ์ใหม่แก่ผู้ใช้ ปัจจุบันเทคโนโลยีสี่ช่องสัญญาณได้รับการผสมผสานอย่างกว้างขวางในการออกแบบการ์ดเสียงระดับกลางถึงระดับสูงซึ่งเป็นแนวโน้มหลักของการพัฒนาในอนาคต

2.3.4 5.1 ช่อง
5.1 ช่องถูกใช้กันอย่างแพร่หลายในโรงภาพยนตร์แบบดั้งเดิมและโฮมเธียเตอร์ต่างๆ รูปแบบการบีบอัดการบันทึกเสียงที่รู้จักกันดีบางรูปแบบเช่น Dolby AC-3 (Dolby Digital), DTS เป็นต้นใช้ระบบเสียง 5.1 แชนเนล ".1" เป็นแชนเนลซับวูฟเฟอร์ที่ออกแบบมาเป็นพิเศษซึ่งสามารถผลิตซับวูฟเฟอร์ที่มีช่วงตอบสนองความถี่ 20 ถึง 120 เฮิรตซ์ ในความเป็นจริงระบบเสียง 5.1 มาจาก 4.1 เซอร์ราวด์ความแตกต่างคือเพิ่มหน่วยกลาง ยูนิตกลางนี้มีหน้าที่ในการส่งสัญญาณเสียงที่ต่ำกว่า 80Hz ซึ่งจะเป็นประโยชน์ในการเพิ่มความแข็งแกร่งให้กับเสียงของมนุษย์เมื่อรับชมภาพยนตร์และตั้งสมาธิบทสนทนาที่อยู่ตรงกลางของสนามเสียงทั้งหมดเพื่อเพิ่มเอฟเฟกต์โดยรวม

ในปัจจุบันเครื่องเล่นเพลงออนไลน์มากมายเช่น QQ Music ได้ให้บริการเพลง 5.1 แชนเนลสำหรับทดลองฟังและดาวน์โหลด

กรอบ 2.4
แนวคิดของเฟรมเสียงไม่ชัดเจนเท่าเฟรมวิดีโอ รูปแบบการเข้ารหัสวิดีโอเกือบทั้งหมดสามารถคิดว่าเฟรมเป็นภาพที่เข้ารหัส อย่างไรก็ตามกรอบเสียงนั้นเกี่ยวข้องกับรูปแบบการเข้ารหัสซึ่งดำเนินการโดยมาตรฐานการเข้ารหัสแต่ละรายการ

ตัวอย่างเช่นในกรณีของ PCM (ข้อมูลเสียงที่ไม่ได้เข้ารหัส) ไม่จำเป็นต้องมีแนวคิดเรื่องเฟรมเลยและสามารถเล่นได้ตามอัตราการสุ่มตัวอย่างและความแม่นยำในการสุ่มตัวอย่าง ตัวอย่างเช่นสำหรับเสียงคู่ที่มีอัตราการสุ่มตัวอย่าง 44.1kHZ และความแม่นยำในการสุ่มตัวอย่าง 16 บิตคุณสามารถคำนวณได้ว่าอัตราบิตคือ 44100162bps และข้อมูลเสียงต่อวินาทีมีค่าคงที่ 44100162/8 ไบต์

เฟรม amr ค่อนข้างเรียบง่าย กำหนดว่าทุก ๆ 20 มิลลิวินาทีของเสียงเป็นเฟรมและแต่ละเฟรมของเสียงจะเป็นอิสระและสามารถใช้อัลกอริทึมการเข้ารหัสที่แตกต่างกันและพารามิเตอร์การเข้ารหัสที่แตกต่างกัน

เฟรม mp3 มีความซับซ้อนกว่าเล็กน้อยและมีข้อมูลเพิ่มเติมเช่นอัตราการสุ่มตัวอย่างอัตราบิตและพารามิเตอร์ต่างๆ

2.5 รอบ
จำนวนเฟรมที่อุปกรณ์เสียงต้องใช้ในการประมวลผลในแต่ละครั้งและการเข้าถึงข้อมูลของอุปกรณ์เสียงและการจัดเก็บข้อมูลเสียงล้วนขึ้นอยู่กับอุปกรณ์นี้

2.6 โหมด Interleaved
วิธีการจัดเก็บสัญญาณเสียงดิจิตอล ข้อมูลจะถูกจัดเก็บในเฟรมต่อเนื่องนั่นคือตัวอย่างช่องทางซ้ายและตัวอย่างช่องทางขวาของเฟรม 1 จะถูกบันทึกก่อนจากนั้นการบันทึกของเฟรม 2 จะเริ่มขึ้น

2.7 โหมดไม่สอดประสาน
ขั้นแรกให้บันทึกตัวอย่างช่องสัญญาณด้านซ้ายของเฟรมทั้งหมดในช่วงเวลาหนึ่งจากนั้นบันทึกตัวอย่างช่องสัญญาณด้านขวาทั้งหมด

2.8 อัตราบิต (อัตราบิต)
อัตราบิตเรียกอีกอย่างว่าอัตราบิตซึ่งหมายถึงจำนวนข้อมูลที่เล่นโดยเพลงต่อวินาที หน่วยแสดงเป็นบิตซึ่งเป็นบิตไบนารี bps คืออัตราบิต b คือบิต (บิต), s คือวินาที (วินาที), p คือทุกๆ (ต่อ) หนึ่งไบต์เท่ากับ 8 บิตไบนารี กล่าวคือขนาดไฟล์ของเพลง 4 นาทีที่ 128bps จะถูกคำนวณเช่นนี้ (128/8) 460 = 3840kB = 3.8MB, 1B (Byte) = 8b (bit) โดยทั่วไป mp3 จะมีประโยชน์ที่ประมาณ 128 บิต อัตราและน่าจะเป็นขนาดประมาณ 3-4 BM

ในการใช้งานคอมพิวเตอร์ ระดับความเที่ยงตรงสูงสุดคือการเข้ารหัส PCM ซึ่งใช้กันอย่างแพร่หลาย เพื่อการถนอมวัสดุและการชื่นชมดนตรี มีการใช้ซีดี ดีวีดี และไฟล์ WAV ทั่วไปของเราทั้งหมด ดังนั้น PCM จึงกลายเป็นการเข้ารหัสแบบไม่สูญเสียตามแบบแผน เนื่องจาก PCM แสดงถึงระดับความเที่ยงตรงที่ดีที่สุดในเสียงดิจิตอล ไม่ได้หมายความว่า PCM สามารถรับรองความเที่ยงตรงของสัญญาณได้ PCM สามารถบรรลุความใกล้ชิดที่ไม่มีที่สิ้นสุดสูงสุดเท่านั้น

ในการคำนวณอัตราบิตของสตรีมเสียง PCM เป็นเรื่องง่ายมากค่าอัตราการสุ่มตัวอย่าง×ค่าขนาดการสุ่มตัวอย่าง×หมายเลขช่อง bps ไฟล์ WAV ที่มีอัตราการสุ่มตัวอย่าง 44.1KHz ขนาดการสุ่มตัวอย่าง 16 บิตและการเข้ารหัส PCM แบบดูอัลแชนแนลอัตราข้อมูลคือ 44.1K × 16 × 2 = 1411.2Kbps ซีดีเพลงทั่วไปของเราใช้การเข้ารหัส PCM และความจุของซีดีสามารถเก็บข้อมูลเพลงได้เพียง 72 นาที

สัญญาณเสียงที่เข้ารหัส PCM แบบดูอัลแชนแนลต้องการพื้นที่ 176.4KB ใน 1 วินาทีและประมาณ 10.34M ใน 1 นาที สิ่งนี้ไม่สามารถยอมรับได้สำหรับผู้ใช้ส่วนใหญ่โดยเฉพาะผู้ที่ชอบฟังเพลงบนคอมพิวเตอร์ การครอบครองดิสก์มีเพียงสองวิธีคือดัชนีการสุ่มตัวอย่างหรือการบีบอัด ไม่แนะนำให้ลดดัชนีการสุ่มตัวอย่างดังนั้นผู้เชี่ยวชาญจึงพัฒนารูปแบบการบีบอัดต่างๆ ต้นฉบับมากที่สุดคือ DPCM, ADPCM และที่มีชื่อเสียงที่สุดคือ MP3 ดังนั้นอัตราโค้ดหลังการบีบอัดข้อมูลจึงต่ำกว่าโค้ดเดิมมาก

2.9 ตัวอย่างการคำนวณ
ตัวอย่างเช่นความยาวไฟล์ของ "Windows XP startup.wav" คือ 424,644 ไบต์ซึ่งอยู่ในรูปแบบ "22050HZ / 16 บิต / สเตอริโอ"

จากนั้นอัตราการส่งข้อมูลต่อวินาที (อัตราบิตหรือที่เรียกว่าอัตราบิตอัตราการสุ่มตัวอย่าง) คือ 22050162 = 705600 (bps) แปลงเป็นหน่วยไบต์คือ 705600/8 = 88200 (ไบต์ต่อวินาที) เวลาในการเล่น: 424644 (ไบต์ทั้งหมด) / 88200 (ไบต์ต่อวินาที) ≈ 4.8145578 (วินาที)

แต่ยังไม่แม่นยำเพียงพอ ไฟล์ WAVE (* .wav) ในรูปแบบ PCM มาตรฐานมีข้อมูลส่วนหัวอย่างน้อย 42 ไบต์ซึ่งควรลบออกเมื่อคำนวณเวลาในการเล่นจึงมี: (424644-42) / (22050162/8) ≈ 4.8140816 ( วินาที) นี่คือความแม่นยำมากขึ้น

3 การเข้ารหัสเสียง PCM
PCM ย่อมาจากการปรับรหัสพัลส์ ในกระบวนการ PCM สัญญาณแอนะล็อกอินพุตจะถูกสุ่มตัวอย่าง หาปริมาณ และเข้ารหัส และเลขฐานสองจะแสดงถึงแอมพลิจูดของสัญญาณแอนะล็อก ปลายทางรับจะคืนค่ารหัสเหล่านี้เป็นสัญญาณแอนะล็อกดั้งเดิม นั่นคือ การแปลง A/D ของเสียงดิจิทัลประกอบด้วยสามกระบวนการ: การสุ่มตัวอย่าง การหาปริมาณ และการเข้ารหัส

อัตราการนำ PCM เสียงมาใช้คือ 8kHz และจำนวนบิตการสุ่มตัวอย่างคือ 8 บิตดังนั้นอัตรารหัสของสัญญาณรหัสเสียงดิจิทัลคือ 8bits × 8kHz = 64kbps = 8KB / s

3.1 หลักการเข้ารหัสเสียง
ใครก็ตามที่มีพื้นฐานทางอิเล็กทรอนิกส์บางอย่างจะรู้ดีว่าสัญญาณเสียงที่เซ็นเซอร์เก็บรวบรวมนั้นเป็นปริมาณอะนาล็อก แต่สิ่งที่เราใช้ในกระบวนการส่งสัญญาณจริงคือปริมาณดิจิทัล และสิ่งนี้เกี่ยวข้องกับกระบวนการแปลงอนาล็อกเป็นดิจิทัล สัญญาณอนาล็อกต้องผ่านกระบวนการสามขั้นตอน ได้แก่ การสุ่มตัวอย่างการหาปริมาณและการเข้ารหัสเพื่อให้ทราบถึงเทคโนโลยีการมอดูเลตรหัสพัลส์ (PCM, Pulse Coding Modulation)

กระบวนการแปลง

3.1.1 การสุ่มตัวอย่าง
การสุ่มตัวอย่างเป็นกระบวนการแยกตัวอย่าง (อัตราการสุ่มตัวอย่าง) จากสัญญาณแอนะล็อกที่ความถี่ที่มากกว่า 2 เท่าของแบนด์วิดท์ของสัญญาณ (Lequist Sampling Theorem) และเปลี่ยนเป็นสัญญาณการสุ่มตัวอย่างแบบไม่ต่อเนื่องบนแกนเวลา
อัตราการสุ่มตัวอย่าง: จำนวนตัวอย่างที่สกัดจากสัญญาณต่อเนื่องต่อวินาทีเพื่อสร้างสัญญาณที่ไม่ต่อเนื่องซึ่งแสดงเป็นเฮิรตซ์ (Hz)

ตัวอย่าง:
ตัวอย่างเช่นอัตราการสุ่มตัวอย่างสัญญาณเสียงคือ 8000hz
สามารถเข้าใจได้ว่าตัวอย่างในรูปด้านบนสอดคล้องกับเส้นโค้งของการเปลี่ยนแปลงแรงดันไฟฟ้าตามเวลาในรูปเป็นเวลา 1 วินาทีจากนั้น 1 2 3 ... 10 ที่ต่ำกว่าเนื่องจากควรมี 1-8000 จุดนั่นคือ 1 วินาทีแบ่งออกเป็น 8000 ส่วนแล้วนำออกมาในทางกลับกันค่าแรงดันไฟฟ้าที่สอดคล้องกับเวลา 8000 จุดนั้น

3.1.2 การหาปริมาณ
แม้ว่าสัญญาณตัวอย่างจะเป็นสัญญาณที่ไม่ต่อเนื่องบนแกนเวลา แต่ก็ยังคงเป็นสัญญาณแอนะล็อกและค่าตัวอย่างอาจมีค่าเป็นจำนวนไม่ จำกัด ภายในช่วงค่าที่กำหนด ต้องใช้วิธีการ "ปัดเศษ" เพื่อ "ปัดเศษ" ค่าตัวอย่างเพื่อให้ค่าตัวอย่างภายในช่วงค่าหนึ่งเปลี่ยนจากค่าจำนวนไม่สิ้นสุดเป็นค่าจำนวน จำกัด กระบวนการนี้เรียกว่า ปริมาณ

จำนวนบิตการสุ่มตัวอย่าง: หมายถึงจำนวนบิตที่ใช้ในการอธิบายสัญญาณดิจิทัล
8 บิต (8 บิต) แทน 2 ยกกำลัง 8 = 256, 16 บิต (16 บิต) แทน 2 ยกกำลัง 16 = 65536;

ตัวอย่าง:
ตัวอย่างเช่นช่วงแรงดันไฟฟ้าที่เซ็นเซอร์เสียงรวบรวมคือ 0-3.3V และหมายเลขการสุ่มตัวอย่างคือ 8 บิต (บิต)
นั่นคือเราถือว่า 3.3V / 2 ^ 8 = 0.0128 เป็นความแม่นยำในการหาปริมาณ
เราแบ่ง 3.3v เป็น 0.0128 เป็นแกน Y แบบสเต็ปดังแสดงในรูปที่ 3, 1 2 ... 8 กลายเป็น 0 0.0128 0.0256 ... 3.3 V
ตัวอย่างเช่นค่าแรงดันไฟฟ้าของจุดสุ่มตัวอย่างคือ 1.652V (ระหว่าง 1280.128 ถึง 1290.128) เราปัดเศษเป็น 1.65V และระดับควอนไทเซชันที่สอดคล้องกันคือ 128

3.1.3 การเข้ารหัส
สัญญาณการสุ่มตัวอย่างเชิงปริมาณจะถูกแปลงเป็นชุดของสตรีมรหัสดิจิทัลทศนิยมที่จัดเรียงตามลำดับการสุ่มตัวอย่างนั่นคือสัญญาณดิจิทัลทศนิยม ระบบข้อมูลที่เรียบง่ายและมีประสิทธิภาพคือระบบรหัสไบนารี ดังนั้นรหัสดิจิทัลทศนิยมควรถูกแปลงเป็นรหัสไบนารี ตามจำนวนรหัสดิจิทัลทศนิยมทั้งหมดจำนวนบิตที่ต้องการสำหรับการเข้ารหัสไบนารีสามารถกำหนดได้นั่นคือความยาวของคำ (จำนวนบิตการสุ่มตัวอย่าง) กระบวนการแปลงสัญญาณตัวอย่างเชิงปริมาณนี้เป็นสตรีมรหัสไบนารีที่มีความยาวของคำที่กำหนดเรียกว่าการเข้ารหัส

ตัวอย่าง:
จากนั้น 1.65V ข้างต้นจะสอดคล้องกับระดับ quantization 128 ระบบไบนารีที่สอดคล้องกันคือ 10000000 นั่นคือผลลัพธ์ของการเข้ารหัสจุดสุ่มตัวอย่างคือ 10000000 แน่นอนว่านี่เป็นวิธีการเข้ารหัสที่ไม่พิจารณาค่าบวกและลบ และมีวิธีการเข้ารหัสหลายประเภทที่ต้องการการวิเคราะห์เฉพาะประเด็นที่เฉพาะเจาะจง (การเข้ารหัสรูปแบบเสียง PCM เป็นการเข้ารหัส A-law 13 polyline)

3.2 การเข้ารหัสเสียง PCM
สัญญาณ PCM ไม่ผ่านการเข้ารหัสและการบีบอัดใด ๆ (การบีบอัดแบบไม่สูญเสีย) เมื่อเทียบกับสัญญาณอนาล็อกจะไม่ได้รับผลกระทบง่ายๆจากความยุ่งเหยิงและความผิดเพี้ยนของระบบส่งสัญญาณ ไดนามิกเรนจ์กว้างและคุณภาพเสียงค่อนข้างดี

3.2.1 การเข้ารหัส PCM
การเข้ารหัสที่ใช้คือ A-law 13 polyline coding
สำหรับรายละเอียดโปรดดูที่: การเข้ารหัสเสียง PCM

ฮิตทางช่อง
ช่องสามารถแบ่งออกเป็นโมโนและสเตอริโอ (ช่องสัญญาณคู่)

ค่าตัวอย่างแต่ละค่าของ PCM จะอยู่ในจำนวนเต็ม i และความยาวของ i คือจำนวนไบต์ต่ำสุดที่จำเป็นเพื่อรองรับความยาวของตัวอย่างที่ระบุ

ขนาดตัวอย่างรูปแบบข้อมูลค่าต่ำสุดค่าสูงสุด
8 บิต PCM ไม่ได้ลงนาม int 0 225
PCM 16 บิต int -32767 32767

สำหรับไฟล์เสียงโมโนข้อมูลการสุ่มตัวอย่างเป็นจำนวนเต็มสั้น 8 บิต (int 00H-FFH แบบสั้น) และข้อมูลการสุ่มตัวอย่างจะถูกจัดเก็บตามลำดับเวลา

ไฟล์เสียงสเตอริโอสองแชนเนลแต่ละข้อมูลการสุ่มตัวอย่างเป็นจำนวนเต็ม 16 บิต (int) แปดบิตบน (แชนเนลซ้าย) และแปดบิตล่าง (แชนเนลขวา) ตามลำดับแทนสองแชนเนลและข้อมูลการสุ่มตัวอย่างจะเรียงตามลำดับเวลา ฝากเงินในลำดับอื่น
เช่นเดียวกันเมื่อจำนวนบิตการสุ่มตัวอย่างคือ 16 บิต และหน่วยเก็บข้อมูลสัมพันธ์กับลำดับไบต์

รูปแบบข้อมูล PCM
โปรโตคอลเครือข่ายทั้งหมดใช้วิธี endian ขนาดใหญ่ในการส่งข้อมูล ดังนั้นเมธอด big endian จึงเรียกอีกอย่างว่า network byte order เมื่อโฮสต์สองโฮสต์ที่มีลำดับไบต์ต่างกันจะต้องถูกแปลงเป็นลำดับไบต์ของเครือข่ายก่อนที่จะส่งข้อมูลก่อนที่จะส่ง

4 ก. 711
โดยทั่วไป PCM สัญญาณแอนะล็อกจะผ่านการประมวลผลบางอย่าง (เช่นการบีบอัดแอมพลิจูด) ก่อนที่จะถูกแปลงเป็นดิจิทัล เมื่อแปลงเป็นดิจิทัลแล้วสัญญาณ PCM มักจะถูกประมวลผลเพิ่มเติม (เช่นการบีบอัดข้อมูลดิจิทัล)

G.711 เป็นอัลกอริธึมสัญญาณดิจิตอลมัลติมีเดียมาตรฐานodulates รหัสพัลส์จาก ITU-T เป็นเทคนิคการสุ่มตัวอย่างสำหรับการแปลงสัญญาณแอนะล็อกให้เป็นดิจิทัล โดยเฉพาะอย่างยิ่งสำหรับสัญญาณเสียง PCM สุ่มตัวอย่างสัญญาณ 8000 ครั้งต่อวินาที 8KHz; แต่ละตัวอย่างคือ 8 บิต รวม 64Kbps (DS0) มีสองมาตรฐานสำหรับการเข้ารหัสระดับการสุ่มตัวอย่าง อเมริกาเหนือและญี่ปุ่นใช้มาตรฐาน Mu-Law ในขณะที่ประเทศอื่นๆ ส่วนใหญ่ใช้มาตรฐาน A-Law

A-law และ u-law เป็นวิธีการเข้ารหัสสองวิธีของ PCM A-law PCM ใช้ในยุโรปและประเทศของฉันและ Mu-law ใช้ในอเมริกาเหนือและญี่ปุ่น ความแตกต่างระหว่างทั้งสองคือวิธีการหาปริมาณ กฎหมาย A ใช้การหาปริมาณ 12 บิตและกฎหมาย u ใช้การหาปริมาณ 13 บิต ความถี่ในการสุ่มตัวอย่างคือ 8KHz และทั้งสองเป็นวิธีการเข้ารหัส 8 บิต

ทำความเข้าใจง่ายๆ: PCM คือข้อมูลเสียงต้นฉบับที่รวบรวมโดยอุปกรณ์เครื่องเสียง G.711 และ AAC เป็นอัลกอริทึมที่แตกต่างกันสองแบบซึ่งสามารถบีบอัดข้อมูล PCM ให้มีอัตราส่วนที่แน่นอนซึ่งจะช่วยประหยัดแบนด์วิธในการส่งผ่านเครือข่าย