การจดจาเสยี ง
(Voice Recognition)
เรยี บเรียงโดย
นายไชยวัฒน์ ด้วงบาง
นักศึกษาสาขาวิชาเทคโนโลยีสารสนเทศ
วิทยาลัยเทคนิคสโุ ขทยั
1
การจดจาเสียง (Voice Recognition)
ในอนาคตนักวิทยาศาสตร์ประสบความสาเร็จในการนาความรู้ต่างๆ มาใช้สร้าง
ระบบการจดจาเสียงก็จะสามารถสร้างประโยชน์ได้อย่างมหาศาลแก่การใช้งาน
คอมพิวเตอร์และเทคโนโลยีสารสนเทศ โดยที่ผู้ใช้จะสามารถออกคาส่ังและตอบโต้กับ
คอมพวิ เตอรแ์ ทนการกดแปน้ พิมพ์
2
การรู้จาเสียงพดู (Speech Recognition)
การท่ีคอมพิวเตอร์สามารถรับรู้เสียงของมนุษย์ได้โดยอัตโนมัติ ในกรณีท่ัวไปแล้ว
การรู้จาเสียงพดู จะหมายถึง การแปลงขอ้ มูลนาเข้าในรูปแบบเสียงพูดใหก้ ลายเป็นข้อความ
ตัวอกั ษร สาหรบั เราน้นั การทเี่ ราสามารถฟงั เสียงพูดและเขา้ ใจความหมายน้นั ไมใ่ ช่เร่ืองท่ี
ยากลาบาก ดังนนั้ เรามกั จะคิดว่าการทาให้คอมพิวเตอร์รับร้แู ละเข้าใจเสียงพูด นา่ จะเป็น
เร่ืองที่ทาได้ไม่ยากเช่นเดียวกัน แต่ในความเป็นจริงแล้ว การรู้จาเสียงพูดนั้นต้องอาศัย
เทคโนโลยีข้ันสูง เพราะว่าการออกเสียงในบางครั้งก็เป็นท่ีเข้าใจได้ยากแม้แต่กับมนุษย์
ด้วยกนั เอง
3
หลกั การพื้นฐานของการรู้จาเสยี ง
หลักการพ้ืนฐานของการรู้จาเสียง จะคล้ายกับหลักการในการทาความเข้าใจภาษา
ที่มนษุ ยเ์ ราใชใ้ นการสนทนาทว่ั ไป ซ่งึ ประกอบด้วยสว่ นตา่ งๆ ดังน้ี
(1) การวเิ คราะหค์ ล่ืนเสียง
(2) ตวั ถอดรหัสการรู้จา
(3) โมเดลคลืน่ เสียง
(4) พจนานกุ รม
(5) โมเดลภาษา (กฏไวยากรณ์)
4
การวิเคราะหค์ ลื่นเสยี ง
เป็นการวิเคราะห์เสียงที่ถูกส่งเข้ามาเพื่อให้ได้ค่าลักษณะเฉพาะท่ีเรียกว่า
compact เพ่ือแปลงเป็นข้อมูลเพ่ิมเติมท่ีมีประโยชน์ต่อการรู้จาเสียง จะถูกแปลงเป็น
สัญญาณไฟฟ้าส่งไปยังสมอง แต่เสียงท่ีได้รับมาก็ไม่ได้ถูกส่งไปยังสมองตามลักษณะดงั้ เดิม
ท้ังหมด จะมีเพียงสัญญาณที่ถูกคัดเลือกจากระบบประสาทเท่าน้ันที่จะถูกส่งไปยังสมอง
เพ่ือนาไปใช้วิเคราะห์ในขน้ั ตอนตอ่ ไป ซ่ึงด้วยลักษณะกลไกการทางานแบบเดียวกันนี้ การ
รู้จาเสียงจะแยกเอาลกั ษณะเฉพาะจากข้อมูลเสยี งเฉพาะส่วนทจี่ าเป็นเท่านั้น
5
ตัวถอดรหสั การรู้จา
เป็นส่วนประกอบท่ีเป็นใจกลางของระบบการรู้จาเสียง ซ่ึงทาหน้าท่ีแปลง
ลักษณะเฉพาะของเสียงให้เป็นข้อความตัวอักษร หลักการสาคัญของการทางานในส่วนน้ี
คือ “การตัดสินใจบนองค์ประกอบรวมของข้อมูลคลื่นเสียง และข้อมูลภาษา” ยกตัวอย่าง
เช่น คาว่า “กลบเกลื่อนความผิด” คาว่า “กลบ” น้ันมีการออกเสียงคล้ายกับคาว่า “กบ”
ซ่ึงถึงแม้ว่าจะมีการออกเสียงผิดเป็น “กบเกล่ือน” มนุษย์เราก็จะยังสามารถฟังเข้าใจได้
อยา่ งถูกตอ้ ง โดยอาศยั ขอ้ มูลภาษาและบริบทรอบข้างเขา้ มาชว่ ยได้
6
แหลง่ ข้อมูลอ้างอิง
นาย ณัฐวธุ อวยชัยพรเลิศ, นายปิยะณฐั ในจิตต์,
นายวิโรจน์ จันทฤก.การรู้จาเสยี งพูด (SPEECH RECOGNITION).[ออนไลร์].
เข้าถึงไดจ้ าก : http://gg.gg/eg0iz
(วันท่ีค้นข้อมูล) : 4 กรกฎาคม 2562
การจดจาเสยี ง (Voice Recognition) [ออนไลร์]. เข้าถึงได้จาก : http://gg.gg/eg0m5
(วันทคี่ ้นข้อมลู ) : 4 กรกฎาคม 2562