รายงานผลการวจิ ัย
เร่ือง
การศกึ ษาระบบรจู้ าเสยี งพดู อตั โนมตั ิ
The Study of The Speech Recognition
ส่วนวจิ ัยและพัฒนาอปุ กรณพ์ ิเศษ กองเทคโนโลยแี ละศูนย์ข้อมูลการตรวจสอบ
กรมสอบสวนคดพี ิเศษ กระทรวงยุติธรรม
ปงี บประมาณ พ.ศ. 2561
คานา
งานวิจัย เรื่อง “การศึกษาระบบรู้จาเสียงพูดอัตโนมัติ (The Study of The Speech
Recognition)” เป็นงานวิจัยที่ศึกษาเกี่ยวกับแนวทางในการพัฒนาระบบรู้จาเสียงพูดอัตโนมัติ
โดยได้นาแนวคิดเรื่องระบบรู้จาเสียงพูดอัตโนมัติมาพัฒนาเพ่ือแปลสัญญาณเสียงเป็นข้อความทันที
ซ่ึงเป็นการช่วยลดระยะเวลาในการในการทางานของเจ้าหน้าท่ีคดีพิเศษและพนักงานสอบสวนคดี
พิเศษ ทั้งน้ี ตัวช้ีวัดตามแผนยุทธศาสตร์ กรมสอบสวนคดีพิเศษ ปี พ.ศ. 2560-2564 ประจาปี
งบประมาณ พ.ศ. 2561 ตัวช้ีวัดท่ี 2.6 ระดับความสาเร็จของการดาเนินการเก่ียวกับการวิจัยหรือ
ผลงานทางวิชาการเพ่ือการปอ้ งกนั การกระทาความผิดท่ีมลี ักษณะเปน็ คดีพเิ ศษท่มี ีประสทิ ธิภาพ
โดยในส่วนของการวิเคราะห์และออกแบบระบบ ผู้วิจัยได้เก็บข้อมูลด้วยแบบสอบถาม
ปลายเปิด ซึ่งเป็นการรวบรวมข้อมูลการทางาน ปัญหา อุปสรรค และความต้องการต่อการพัฒนา
ระบบรู้จาเสียงพูดของผู้ใช้งาน จากน้ัน นาข้อมูลที่ได้มาวิเคราะห์และออกแบบระบบรู้จาเสียงพูด
อัตโนมัติให้สอดคล้องกับความต้องการของผู้ใช้งานโดยเริ่มจากในข้ันตอนของการสอบสวนพนักงาน
สอบสวนใช้คอมพิวเตอร์ที่มีไมโครโฟน ทาการเลือกชนิดของเอกสารที่ต้องการใช้งาน ไม่ว่าจะเป็น
เอกสารต้นแบบ เอกสารที่ไม่มีต้นแบบ ที่สามารถเรียกได้อีกอย่างว่าเอกสารเปล่า จากน้ันพนักงาน
สอบสวนสั่งการระบบผ่านไมโครโฟน โดยจะมีไมโครโฟนประจาตัวของแต่ละคน จากนั้นข้อมูลเสียง
ของการสอบสวนหรือสนทนาทาการประมวลผล เพ่ือตรวจสอบคุณลักษณะของเสียงที่ไม่พึงประสงค์
ออกไป เช่นเสียงรบกวน เป็นต้น จากนั้นระบบทาการส่งข้อมูลเสียงแยกตามไมโครโฟนของแต่ละคน
ไปยังโปรแกรมพาที (PARTY) ท่ีพัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
(NECTEC) เพื่อประมวลผลให้ออกมาเปน็ ข้อความตัวหนังสืออตั โนมตั ิตามเสยี งพูด
เมื่อได้ตัวหนังสือตามที่พนักงานสอบสวนได้พูดหรือส่ังการแล้ว ระบบจะทาการจับคู่ข้อความ
กับตาแหน่งของข้อความในไฟลเ์ อกสารต้นแบบ โดยจะเปน็ การเตมิ ข้อความแบบอตั โนมัติ ซึ่งหลกั การ
จะคล้ายคลึงกับระบบสั่งการด้วยเสียงอัตโนมัติ จากนั้นระบบทาการจัดเก็บข้อมูลเสียงและข้อความ
จากการสอบสวนหรอื สนทนา เพ่อื ใช้ประโยชนใ์ นการสบื คน้ ไดใ้ นอนาคต
งานวิจัยน้ีได้ ดาเนินการโ ดยมีระเบียบวิธีวิจัยที่ถูกต้องตามหลักวิช าการว่ าด้ว ยการ ศึ กษ า
ระเบียบวิธีวิจัย พิจารณาตามขอบเขต บทบาทหน้าที่ และภารกิจหลกั ตามเจตนารมณข์ องการจดั ตง้ั
กรมสอบสวนคดีพเิ ศษ ท้งั 4 ด้าน ดังนี้
1. ดาเนนิ การปอ้ งกนั ปราบปราม และควบคมุ อาชญากรรมพิเศษ
2. พัฒนาระบบ รูปแบบ วิธีการและมาตรการในการป้องกัน ปรามปราม และควบคุม
อาชญากรรม
3. พัฒนาบุคลากรในการเสริมสร้างศักยภาพในด้านความรู้ ความสามารถ คุณธรรมจริยธรรม
และขวัญกาลงั ใจ
4. ประสานความร่วมมอื ในการป้องกันปราบปรามและควบคุมอาชญากรรมพิเศษจากหนว่ ยงาน
ภาครัฐและภาคประชาชน ทัง้ ภายในและต่างประเทศ
ส่วนวิจยั และพัฒนาอุปกรณ์พิเศษ
กันยายน 2561
2
สารบญั
หน้า
คานา................................................................................................................................................. 1
สารบัญ.............................................................................................................................................. 2
สารบัญภาพ ...................................................................................................................................... 3
บทท่ี 1 บทนา................................................................................................................................. 5
1.1 ความเป็นมา............................................................................................................... 5
1.2 วัตถุประสงค์ .............................................................................................................. 6
1.3 เปา้ หมาย................................................................................................................... 6
1.4 ขอบเขตการดาเนินการ.............................................................................................. 6
1.5 กรอบแนวคิด ............................................................................................................. 6
1.6 ระเบยี บวิธีวจิ ยั ........................................................................................................... 6
1.7 ขั้นตอนและระยะเวลาดาเนนิ งาน .............................................................................. 7
1.8 ประโยชนท์ ค่ี าดว่าจะได้รับ......................................................................................... 7
บทท่ี 2 ทฤษฎแี ละงานวิจยั ทเี่ ก่ยี วข้อง............................................................................................ 8
2.1 หลักการทางานพืน้ ฐาน.............................................................................................. 8
2.2 เคร่อื งมอื การแปลงเสียงพดู เป็นข้อความ.................................................................... 9
2.3 Voice Type.............................................................................................................. 9
2.4 Siri........................................................................................................................... 10
2.5 Windows Speech Recognition .......................................................................... 10
2.6 Dragon ................................................................................................................... 11
2.7 Speech to Text .................................................................................................... 11
2.8 พาที (PARTY).......................................................................................................... 11
2.9 แนวทางในการพัฒนาระบบรู้จาเสยี งพดู .................................................................. 13
บทที่ 3 การวเิ คราะห์และออกแบบระบบ...................................................................................... 22
3.1 การวเิ คราะห์และศึกษาสภาพปญั หา........................................................................ 22
3.2 การวิเคราะห์และออกแบบระบบ............................................................................. 25
บทที่ 4 บทสรุป............................................................................................................................. 29
4.1 สรปุ ผลการดาเนินงาน ............................................................................................. 29
4.2 ปญั หาและอุปสรรค ................................................................................................. 29
4.3 แนวทางการดาเนนิ การต่อไป................................................................................... 29
3
สารบัญภาพ
ภาพท่ี หน้า
2.1 ส่วนประกอบหลักของระบบรู้จาเสียงพดู (Speech Recognition) .......................................... 8
2.2 หลักการโดยท่วั ไปของระบบระบุคาพดู ..................................................................................... 13
2.3 ฟงั กช์ นั กรอบชนิด Hamming Windows................................................................................. 14
2.4 การกรองความถีส่ ัญญาณเสยี งพูดแบบ low-pass filter .......................................................... 14
2.5 การตัดหัว-ท้ายเสียง ของสัญญาณเสียงพูดทตี่ ่อเนอ่ื ง ................................................................ 15
2.6 การสุ่มสัญญาณ (signal sampling) และการควอนไทซ์ (quantization)................................. 15
2.7 ตัวอยา่ งเสยี งพูด........................................................................................................................ 16
2.8 แผนภาพแสดง HMM แบบ 5 สถานะ ที่มีการเปล่ียนแปลงสถานะแบบซา้ ยไปขวา .................. 19
2.9 แบบจาลองทางคณติ ศาสตรข์ องสมองมนุษย์ ............................................................................ 20
2.10 โครงข่ายประสาทเทียมแบบหลายช้ัน ท่ีใช้การสอนแบบอัลกอริทึมการแพร่ย้อนกลับ
(Backpropagation Neural Network).......................................................................................... 20
2.11 ภาพรวมขั้นตอนการใชง้ าน..................................................................................................... 21
3.1 การใชง้ านกบั เอกสารต้นแบบ (template)............................................................................... 23
3.2 ใชง้ านกบั เอกสารท่ีไม่มตี ้นแบบ (template) ............................................................................ 24
3.3 สามารถนาไฟล์เสยี งเขา้ สู่ระบบและแปลงเป็นข้อความ ............................................................. 24
3.4 ไมโครโฟนลกั ษณะตา่ ง.............................................................................................................. 24
3.5 แผนภาพบริบท (Context Diagram): ระบบร้จู าเสยี งพูดอัตโนมัตเิ พ่ืองานสอบสวน ............... 25
3.6 Data Flow Diagram Level 1 : ระบบรู้จาเสียงพูดอัตโนมตั เิ พ่ืองานสอบสวน ........................ 26
4
สารบญั ตาราง
ตารางท่ี หนา้
1 คาอธิบายการประมวลผลของโปรเซสท่ี 1.0 : เลอื กเอกสารตน้ แบบ................................................27
2 คาอธบิ ายการประมวลผลของโปรเซสท่ี 2.0 : การรู้จาเสยี งพูด(Speech Recognition)...............27
3 คาอธบิ ายการประมวลผลของโปรเซสท่ี 3.0 : การร้จู าเสียงพูด (Speech Recognition)..............28
5
บทที่ 1
บทนา
1.1 ความเปน็ มา
กรมสอบสวนคดีพิเศษมีพันธกิจเก่ียวกับการป้องกัน การปราบปราม การสืบสวนและ
การสอบสวนคดีความผิดทางอาญาท่ีต้องดาเนินการสืบสวนและสอบสวนโดยใช้วิธีการพิเศษตาม
กฎหมายว่าด้วยการสอบสวนคดีพิเศษ โดยในปัจจุบันการเก็บข้อมูลการสอบสวนบุคคลต่างๆ
อยใู่ นรูปแบบของข้อความทีต่ อ้ งถกู ถอดออกมาจากเสยี งในขั้นตอนการสอบสวน ซง่ึ เปน็ กระบวนการท่ี
ซับซ้อนและใช้เวลามาก ดังนั้นคณะผู้วิจัยจึงมีแนวคิดที่จะนาเอาระบบรู้จาเสียงพูดโดยอัตโนมัติ
(Automatic Speech Recognition) เข้ามาเพ่ือแก้ปัญหาดังกล่าว โดยหลักการทางานคือ
เมื่อผู้ใช้พูดใส่ไมโครโฟน ระบบรู้จาเสียงพูดอัตโนมัติ ( Automatic Speech Recognition)
จะแปลงสัญญาณเสยี งเป็นขอ้ ความท่ีพรอ้ มนาไปใช้งานต่อได้ทันที
ในการดาเนินชีวิตประจาวันของมนุษย์นั้นมีการติดต่อส่ือสารกับคอมพิวเตอร์อยู่ตลอด
อาจจะโดยการติดต่อด้วยมือผ่านอุปกรณ์นาเข้า (Input Devices) ที่ปัจจุบันได้มีการพัฒนาขึ้นมา
หลายชนิด เช่น คีย์บอร์ด หรือ เมาส์ หรือ ปุ่มที่มีอยู่หลากหลายบนแปน้ โทรศัพท์ แต่การติดต่อท่ีเป็น
ธรรมชาติมากท่ีสุดคือ การใช้เสียงพูด การติดต่อกับคอมพิวเตอร์ด้วยเสียงพูดน้ันช่วยอานวยความ
สะดวกในการใช้งานคอมพิวเตอร์ให้กับผู้ใช้ต่าง ๆ ได้ เช่น ผู้สูงอายุที่ไม่มีความชานาญในการใช้
อุปกรณ์นาเข้าที่มีอยู่มากมายหลายชนิด และผู้ท่ีมีความทุพพลภาพทางร่างกาย ได้แก่ ผู้พิการทางมือ
และผพู้ ิการทางสายตา
ระบบรู้จาเสียงพูดอัตโนมัติ (Automatic Speech Recognition) เป็นเทคโนโลยีท่ีสามารถ
นาไปใช้ได้อย่างหลากหลาย อย่างเช่น ในอุตสาหกรรมดูแลสุขภาพ (Health Care) ผู้ท่ีใช้ประโยชน์
จากเทคโนโลยีนี้คือ ฝ่ายธุรการ และหมอ พยาบาล เภสัชกรที่ไม่ถนัดการพิมพ์, หรือแม้กระท่ังทาง
การทหาร ก็สามารถนาเทคโนโลยีนี้ไปใช้เพื่อส่ังการระบบนักบินอัตโนมัติ (Autopilot), ติดตั้งความถ่ี
คล่ืนวิทยุ หรือควบคุมการบิน (flight display) เป็นต้น นอกจากน้ี เทคโนโลยีนี้ยังสามารถนาไปใช้
ประโยชน์อย่างอื่นได้อีก เช่น การแปลอัตโนมัติ, การส่ังการรถยนต์, การโทรสนเทศ (Telematics),
การรายงานในศาล (Court reporting หรือ Real-time Voice Writing), คอมพิวเตอร์แฮนด์ฟรี,
โทรศัพท์มือถือ, หุ่นยนต์, ระบบตอบรับอัตโนมัติ (Interactive Voice Response) และการควบคุม
การจราจรทางอากาศ เปน็ ต้น
อกี งานท่สี าคัญอยา่ งหนงึ่ ของการใช้งานระบบรู้จาเสยี งพูด (Speech Recognition) เทคโนโลยี
คือแปลงเสียงจากคาพูดของเรากลายเป็นตัวหนังสือได้อย่างแม่นยา เพียงแค่พูดภาษานั้นชัดเจน
ก็สามารถแปลงเป็นตัวเขียนได้ ซ่ึงจะเป็นการลดเวลาการทางานของหน่วยงานหลาย ๆ หน่วยงานได้
โดยไมจ่ าเปน็ ตอ้ งไปน่ังฟงั และพมิ พต์ าม ซง่ึ เป็นการสิน้ เปลืองเวลาและทางานซ้าซ้อนหลายข้ันตอน
ส่วนวิจัยและพัฒนาอุปกรณ์พิเศษ กองเทคโนโลยีและศูนย์ข้อมูลการตรวจสอบ มีหน้าที่
รบั ผิดชอบงานด้านวิจัยและพัฒนาอุปกรณ์พิเศษของกรมสอบสวนคดีพิเศษ ไดเ้ ลง็ เหน็ ถึงความจาเป็น
ในการใช้งานระบบรู้จาเสียงพูดอัตโนมัติเพ่ืองานสอบสวนคดีพิเศษ จึงได้ดาเนินการ วิจัย
6
เร่ือง “การศึกษาระบบรู้จาเสียงพูดอัตโนมัติ” โดยคาดหวังว่าการวิจัยเร่ืองนี้จะเป็นแนวทางที่นาไปสู่
การพฒั นางานทางดา้ นการสืบสวนและสอบสวนคดพี ิเศษต่อไป
1.2 วตั ถุประสงค์
เพื่อศึกษาองค์ความรู้ ข้อมูลท่ีเกี่ยวข้อง และการเก็บข้อมูลโดยแบบสอบถามของเจ้าหน้าที่
คดพี ิเศษและพนักงานสอบสวนคดีพิเศษ เพอื่ นามาวเิ คราะหแ์ ละออกแบบระบบรู้จาเสยี งพูดอัตโนมตั ิ
1.3 เปา้ หมาย
ได้แนวทางและรูปแบบสาหรับการพัฒนาระบบรู้จาเสียงพูดอัตโนมัติสาหรับงานทางด้านการ
สบื สวนและสอบสวนคดีพิเศษ
1.4 ขอบเขตการดาเนนิ การ
1) ศกึ ษาการจดั เก็บขอ้ มูลเสยี งเพื่อสามารถนาไปใชใ้ นการแปลงเปน็ ตวั หนงั สือภายหลังได้
2) วิเคราะหแ์ ละออกแบบระบบจดั เก็บเสยี งพูดหรือสนทนา
1.5 กรอบแนวคิด
อานวยความสะดวกสาหรับเจ้าหน้าที่ คดีพิเศษและพนักงานสอบสวนคดีพิเศษ
ของกรมสอบสวนคดีพิเศษ เพ่ือลดเวลาในการบันทึกข้อมูลการสอบสวนจากเดิมท่ีใช้การพิมพ์สัมผัส
ตามเสียงพูด โดยมีการปรับเปล่ียนมาเป็นระบบพิมพ์ตัวหนังสืออัตโนมัติตามเสียงพูดในเวลาเดียวกัน
และเป็นแบบเรียลไทม์ (real-time) และยังสามารถจัดเก็บลงในระบบฐานข้อมูลโดยอัตโนมัติเพื่อใช้
ประโยชนใ์ นการสืบค้นภายหลังได้
1.6 ระเบยี บวธิ วี ิจยั
1. ศึกษาความเป็นมาและความสาคัญของปัญหา หลักการและเหตุผล วัตถุประสงค์ของการ
ศึกษาวิจัย ขอบเขตการศึกษา วิธีการศึกษาและวิเคราะห์ ผลประโยชน์ท่ีคาดว่าจะได้รับหรือเกี่ยวกับ
การกระทาความผดิ ท่มี ีลกั ษณะเป็นคดีพิเศษหรือเร่ืองท่จี ะศึกษาวจิ ัย
2. ทบทวน กรอบแนวคดิ ทฤษฎี วรรณกรรม กฎหมาย ที่เกยี่ วขอ้ ง
3. กาหนดกรอบแนวคดิ ในการวจิ ัย และแบบการเกบ็ ขอ้ มลู
4. เก็บข้อมูล และรวบรวมข้อมูลท่ีทาการวิจัย โดยใช้แบบสอบถามสารวจปัญหาและความ
ต้องการของผู้ใช้งาน
5. วเิ คราะหข์ อ้ มลู ตามระเบยี บวิธีวจิ ยั และจัดทารายงานผลการวิจัย
7
1.7 ข้ันตอนและระยะเวลาดาเนนิ งาน
ลาดับ ขน้ั ตอนการดาเนนิ งานหลกั ระยะเวลาการดาเนนิ งาน (ปี พ.ศ.2559)
1. ศึกษาทฤษฎที ี่เก่ียวของ ส.ค. ก.ย.
12341234
------- ------- -------
2. รวบรวมแบบสอบถามและความต้องการ ------- ------- -------
ข อ ง ผู้ ใ ช้ ง า น เ พื่ อ อ อ ก แ บ บ ร ะ บ บ รู้ จ า
เสยี งพดู อัตโนมตั ิ
3. ออกแบบระบบร้จู าเสยี งพดู อตั โนมัติ ------- ------- -------
4. จดั กิจกรรมการนาเสนอรา่ งผลงานวจิ ัย -------
และรบั ฟงั ความเหน็ ที่มตี ่อร่างผลงานวจิ ัย
เรื่อง “การศกึ ษาระบบรู้จาเสยี งพดู
อตั โนมตั ิ”
5. วเิ คราะหผ์ ลการทดลองฯ ------- ------- -------
6. จัดทาเอกสารายงานฯ ------- ------- ------- ------- ------- ------- ------- -------
1.8 ประโยชนท์ ีค่ าดวา่ จะไดร้ ับ
กรมสอบสวนคดีพิเศษได้แนวทางการพัฒนาระบบรู้จาเสียงพูดอัตโนมัติสาหรับงานด้านการ
สบื สวนและสอบสวนคดีพเิ ศษ ให้อยใู่ นรูปแบบของตัวหนงั สือตามเสยี งพดู ได้จากขนั้ ตอนกระบวนการ
สอบสวนได้
บทที่ 2
ทฤษฎีและงานวิจยั ที่เกีย่ วขอ้ ง
2.1 หลกั การทางานพน้ื ฐาน
เทคโนโลยีการแปลงเสียงพูดเป็นข้อความ เป็นสร้างข้อความตามคาบอก (Dictation)
โดยทาความเข้าใจความหมายของลาดับข้อมูลท่ีสกัดออกมาจากสัญญาณเสียงพูดแปลงเป็นข้อความ
โดยอาศัยพ้ืนฐานของเทคโนโลยีการรู้จาเสียงพูด (Speech Recognition) โดยระบบรู้จาเสียงพูด
มสี ่วนประกอบหลกั 5 สว่ น ดังรปู ที่ 2.1 คอื
1) ส่วนรับเสียง (Acoustic Front-end) เป็นส่วนที่ทาหน้าที่เกี่ยวกับการประมวลผล
สญั ญาณ (signal processing) และสกัดคณุ ลกั ษณะ (feature extraction)
2) โมเดลเสยี ง (Acoustic Model) เปน็ สว่ นที่จัดเกบ็ ความร้สู าหรับระบบรูจ้ าเสียงพดู
3) โมเดลภาษา (Language Model) เป็นส่วนทรี่ วบรวมเงอื่ นไขของลาดับคาในภาษา
4) ตวั ตรวจจบั (Decoder) เปน็ ส่วนท่คี น้ หาความคลา้ ยของลาดับคาจากเสียงทไี่ ดร้ ับ
5) คลังศัพท์ (Lexicon) เป็นสว่ นทจี่ ัดเกบ็ คาศพั ทท์ ัง้ หมด
ภาพท่ี 2.1 สว่ นประกอบหลกั ของระบบรู้จาเสียงพดู (Speech Recognition)
บทบาทของเทคโนโลยีการรู้จาเสียงพูดท่ีสาคัญในปัจจุบัน คือ เป็นตัวเชื่อมประสาน
กับผู้ใช้งาน (User Interface) ซึ่งอานวยความสะดวกในการติดต่อระหว่างมนุษย์กับคอมพิวเตอร์
ขณะที่มือไม่ว่าง ต้องการความคล่องตัว สายตามไม่ว่าง ไม่ต้องการใช้คีย์บอร์ด ทัศนวิสัยไม่ดี
มขี อ้ จากัดดา้ นร่างกาย ฯลฯ
ท้งั น้ี ความท้าทายและทิศทางการพฒั นาเทคโนโลยดี งั กลา่ ว มดี ังต่อไปน้ี
1) ความทนทาน (Robustness) เพ่ือให้ได้คว ามถูกต้องของการรู้จาที่ไม่ล ดลง
เมอื่ ข้อมูลทส่ี ่งมาเกดิ ความผิดเพยี้ นหรือหายไปเนื่องจากสิ่งรบกวนต่างๆ
2) การเรียนรู้และปรับปรุงตัวเองโดยอัตโนมัติ (Automatic Training and Adaptation)
เ พ่ื อ ใ ห้ ร ะ บ บ ส า ม า ร ถ เ รี ย น รู้ แ ล ะ ป รั บ ป รุ ง ตั ว เ อ ง ใ ห้ เ ข้ า กั บ ก า ร ท า ง า น ใ น ลั ก ษ ณ ะ ต่ า ง ๆ
ไดอ้ ย่างรวดเร็ว ประหยัด และเรยี บง่าย
9
3) การรู้จาเสียงพูดท่ีเป็นธรรมชาติ (Spontaneous Speech) เพื่อให้ระบบสามารถ
รู้จาสาเนียงการพดู (Prosody) จงั หวะการพูด อารมณ์ และพฤติกรรมการพูดรูปแบบแบบต่างๆ
4) การสนทนา (Dialogue Models) เพื่อใหร้ ะบบสามารถเข้าใจบทสนทนาของผ้ใู ช้
5) การสร้างภาษาโต้ตอบ (Natural Language Response Generation) เพ่ือให้ระบบ
สามารถสร้างภาษาโต้ตอบกับผู้ใช้ โดยภาษาที่สร้างขึ้นต้องสอดคล้องและเหมาะสมกับเร่ืองท่ีกาลัง
สนทนา
6) การสังเคราะห์และสร้างเสียงพูด (Speech Synthesis and Generation) เพ่ือให้ระบบ
สามารถสังเคราะหเ์ สยี งพูด และสนทนาโตต้ อบกบั ผ้ใู ช้
7) ร ะ บ บ ห ล า ย ภ าษ า ( Multilingual Systems) เ พื่ อ ก า ร เ ข้ า ถึ ง ข้ อ มู ล ข้ า ม ภ าษา
และการแปลภาษาแบบทนั กาลจากเสยี งพดู
8) ระบบแบบผสมผสาน (Multimodal Systems) เป็นการนาขอ้ มูลดา้ นอืน่ ทนี่ อกเหนือจาก
ข้อมูลทางภาษาและเสียงพูด เช่น สีหน้า ฝีปาก ท่าทาง และลายมือ เข้ามาใช้เพ่ือเพ่ิมความถูกต้อง
ของการรูจ้ าและความเขา้ ใจในภาษา
2.2 เครือ่ งมือการแปลงเสยี งพูดเป็นข้อความ
ปัจจุบันเทคโนโลยีการแปลงเสียงพูดเป็นข้อความ (speech to text) ได้มีการพัฒนา
ให้มีความถูกต้องแม่นยาเพ่ิมมากขึ้น ระยะเวลาการตอบสนองลดน้อยลง อีกทั้งการใช้งานมีความสะดวก
สามารถทางานผ่านอปุ กรณ์ตา่ งๆ ไม่ว่าจะเปน็ เครื่องคอมพวิ เตอร์ แทบ็ เล็ต หรือสมาร์ทโฟน ซึง่ มผี ลติ ภัณฑ์
ให้เลือกใช้หลายหลาย ท้ังน้ี แต่ละผลิตภัณฑ์จะมีข้อดีและข้อจากัดการใช้งานแตกต่างกัน ข้ึนอยู่กับ
ระบบปฏบิ ตั ิการหรือแพลตฟอร์ม ภาษาท่ีรองรับ และการปรับแต่งผลิตภณั ฑ์ให้เป็นไปตามความต้องการ
ท้งั น้ี ได้ดาเนนิ การศึกษาผลิตภัณฑท์ สี่ าคัญ จานวน 6 ผลิตภณั ฑ์ ประกอบด้วย
1) Voice Typing ของ Google
2) Siri ของ Apple
3) Windows Speech Recognition ของ Microsoft
4) Dragon ของ Nuance Communications
5) Speech to Text API ของ IBM
6) พาที (PARTY) ของ NECTEC
2.3 Voice Type
Voice Typing เป็นฟังก์ชั่นการทางานพิมพ์ ข้อความด้ว ยเสียงพูด โดย ท่ี Google
เป็นผู้พัฒนาขึ้น โดยทางานผ่านการเชื่อมต่ออินเทอร์เน็ตแบบ Real Time บนเว็บบราวเซอร์
Chrome และระบบปฏิบัติการ Android สามารถรองรับการใช้งานภาษาไทยและภาษาอื่น
รวมมากกว่า 80 ภาษา ซง่ึ ไมม่ กี ารคิดค่าใชจ้ า่ ย
โดยในสว่ นของการทางานบนเว็บบราวเซอร์ Chrome จะสามารถใช้งานไดใ้ นหลายลักษณะ คอื
1) การป้อนข้อมูลด้วยเสียงผ่านโปรแกรมที่จัดเตรียมไว้แล้ว ซ่ึงจะปรากฏรูปสัญลักษณ์
ไมโครโฟนในบริเวณทต่ี ้องการป้อนขอ้ มูล เช่น ในการคน้ หาของ Google เปน็ ต้น
10
2) การพิมพ์ข้อความด้วยเสียงผ่าน Google เอกสาร (Docs) ซ่ึงเป็นบริการหนึ่ง
บน Cloud Storage ทเี่ รยี กวา่ Google Drive ในการจดั ทาไฟลเ์ อกสาร
3) การสร้าง Application ขึ้นเองตามความต้องการ โดยเชื่อมต่อผ่าน Speech API
ใน Google Cloud Platform ตัวอย่างเช่น https://dictation.io
สาหรับการทางานบนระบบปฏิบัติการ Android (รองรับ Android 4.1 Jelly bean ขึ้นไป)
จะทางานผ่าน Google Keyboard ซ่ึงจะมีรูปสัญลักษณ์ไมโครโฟน ให้เรียกใช้งานสาหรับพิมพ์
ข้อความลงในโปรแกรมต่างๆ แทนแปน้ พิมพ์
2.4 Siri
Siri เป็นโปรแกรมที่พัฒนาโดย Apple เพ่ือทาหน้าที่เป็นผู้ช่วยส่วนตัวอัจฉริยะ (intelligent
personal assistant) และเป็นผู้ตอบคาถามความรู้ต่างๆ (knowledge navigator) ที่มาพร้อมกับ
ระบบระบบปฏิบัติการ iOS ไม่ว่าจะเป็นเครอ่ื งคอมพวิ เตอร์ (Macintosh) แท็บเล็ต (iPad) สมาร์ทโฟน
(iPhone) หรอื บนอปุ กรณ์อนื่ ๆ ไดแ้ ก่ Apple Watch Apple TV และ iPod
ทั้งนี้ Siri มีความสามารถในการพิมพ์ข้อความด้วยเสียงพูดด้วย ผ่านการเช่ือมต่อ
ทางอินเทอร์เน็ตแบบ Real Time รองรับภาษาไทย และภาษาอื่นรวมมากกว่า 60 ภาษา
ซง่ึ สามารถเรยี กใชง้ านให้พิมพ์ขอ้ ความลงในโปรแกรมท่ีทางานบนเครอื่ งคอมพวิ เตอรห์ รอื อุปกรณ์นนั้
นอกจากน้ี ใน iOS 10 ทาง Apple เปิดให้นักพัฒนาสามารถพัฒนาโปรแกรมเช่ือมต่อผ่าน
API ของ Siri ในช่อื SirKit API โดยไม่มกี ารคดิ ค่าใช้จา่ ย แตท่ งั้ นีจ้ ะใช้งานได้กับโปรแกรมบางประเภท
เท่าน้ัน
2.5 Windows Speech Recognition
Windows Speech Recognition เป็นโปรแกรมท่ีพัฒนาโดย Microsoft สาหรบั การรู้จาเสียง
เพื่อสั่งการให้คอมพิวเตอร์ทางานต่างๆ เช่น เปิดปิดโปรแกรม ส่งอีเมล ค้นหาและพิมพ์ข้อความลง
ในโปรแกรมที่ให้มาพรอ้ มกับระบบปฏบิ ัตกิ าร Windows (Windows 7 ข้ึนไป) บนเครือ่ งคอมพิวเตอร์
ท่ีสาคัญคือสามารถทางานร่วมกับชุดโปรแกรม Microsoft Office และทางานแบบ Offline ได้
แตท่ ง้ั นี้ยงั ไม่รองรบั การใช้งานภาษาไทย
ทั้งน้ี Microsoft ได้มีการพัฒนา Cortana เพ่ือทาหน้าที่เป็นผู้ช่วยส่วนตัว (personal
assistant) ทีม่ าพร้อมกับระบบปฏิบตั ิการ Windows Phone 8.1 ขน้ึ ไป โดยเฉพาะใน Windows 10 ซง่ึ
สามารถใช้งานบนทุกอุปกรณ์ไม่ว่าจะเป็นคอมพิวเตอร์ แท็บเล็ต หรือสมาร์ทโฟน โดยการใช้งาน
บางอย่างจะต้องเชื่อมต่อกับอินเทอร์เน็ต และคุณลักษณะบางอย่างสามารถใช้งานได้เพียง
บางประเทศเทา่ นัน้ และปัจจบุ นั ยังไมร่ องรบั ภาษาไทย
นอกจากนี้ ทาง Microsoft ได้เปิดให้นักพัฒนาสามารถพัฒนาโปรแกรมเชื่อมต่อ
ผ่าน API ที่เรียกว่า Bing Speech API ใน Microsoft Cognitive Services โดยไม่มีการคิดค่าใช้จ่าย
แตย่ ังไมร่ องรับภาษาไทย
11
2.6 Dragon
Dragon เป็นโปรแกรมท่ีพัฒนาโดย Nuance Communications ในการรู้จาเสียงพูดและใช้
งานต่างๆ รองรับภาษาไทยและภาษาอื่นรวมมากกว่า 80 ภาษา แต่มีการคิดค่าใช้จ่าย
ในลักษณะเปน็ การใชง้ านสว่ นบคุ คล และทางธุรกจิ
โดยแบบการใช้งานส่วนบุคคลจะเป็นชุดโปรแกรมสาเร็จรูป สามารถติดต้ังบน
เครื่องคอมพิวเตอร์ได้ท้ังระบบปฏิบัติการ Windows และ iOS ซ่ึงมีค่าใช้จ่ายตามลักษณะการใช้งาน
(ราคาประมาณ 3,000 ถึง 20,000 บาท) ทั้งนี้ ที่น่าสนใจคือมีซอฟต์แวร์ด้านกฎหมายโดยเฉพาะ
ซ่งึ ฝึกสอนจากคาศพั ท์ทางกฎหมาย 400 ล้านคา จากเอกสารกฎหมาย แตย่ งั ไม่รองรับภาษาไทย
ส่วนแบบการใช้งานทางธุรกิจ จะเป็นลักษณะแยกตามประเภทธุรกิจ และมีค่าใช้จ่าย
(ต้องตดิ ตวั กับตัวแทนจัดจาหนา่ ย) ทง้ั นี้ ทน่ี ่าสนใจคอื มปี ระเภทธรุ กิจท่ีเป็นงานราชการ งานกฎหมาย
และงานรักษาความปลอดภยั สาธารณะ (การตรวจจบั เฝ้าระวัง และตรวจพสิ จู น)์
นอกจากน้ี ยังมีโปรแกรมท่ีทางานบนอุปกรณ์เคล่ือนท่ีบนระบบปฏิบัติการ iOS
และ Android ใหใ้ ชง้ านโดยไม่เสียค่าใชจ้ า่ ย โดยบางโปรแกรมรองรบั แค่บางระบบปฏบิ ัติการ
2.7 Speech to Text
IBM ได้เปิดบริการการเชื่อมต่อผ่าน API กับ Speech to Text ภายใต้ IBM Watson
Developer Cloud ซึ่งทางานผ่านอินเทอร์เน็ตบนแพลตฟอร์มโมบายล์คลาวด์ที่เรียกว่า
IBM Bluemix โดยเป็น Platform as a Service ท่ีสามารถรองรับธุรกิจขนาดเล็กจนถึงองค์กร
ขนาดใหญ่ ด้วยแนวคิด Open standards และ Cloud ลดความยุ่งยากในการพัฒนา และมีบริการ
เคร่ืองมือยา่ งครบวงจร
บริการดังกล่าวามารถปรับแต่งการทางานได้ตามที่ต้องการ และมีการคิดค่าใช้จ่ าย
ในการบริการ ทั้งนป้ี จั จุบันยงั ไม่รองรับภาษาไทย
2.8 พาที (PARTY)
พาที (PARTY) เป็นระบบร้จู าเสียงพูดภาษาไทย ท่ีพฒั นาโดยศนู ย์เทคโนโลยีอเิ ล็กทรอนกิ ส์และ
คอมพิวเตอร์แห่งชาติ หรือ NECTEC ซึ่งเป็นหน่วยงานในสังกัดสานักงานพัฒนาวิทยาศาสตร์และ
เทคโนโลยีแห่งชาติ (สวทช.) หรอื NSTDA กระทรวงวิทยาศาสตรแ์ ละเทคโนโลยี
ระบบรู้จาเสียงพูดภาษาไทย “พาที (PARTY)” เวอร์ชัน 1.0 ทางานบนอุปกรณ์แท็บเล็ตหรือ
สมารท์ โฟนท่มี รี ะบบปฏบิ ัตกิ าร iOS มีคณุ สมบัติสาคญั ดงั น้ี
- ไม่จากัดเน้ือหา (Open domain) – พาที ได้ใช้วิทยาการใหม่ท่ีสร้างขึ้น โดยมีพจนานุกรม
ในระบบขนาดเพียง 40,000 คา บรรจุหน่วยคาผสมกับหน่วยพยางค์ที่ใช้บ่อยในภาษาไทย
หน่วยพยางค์สามารถผสมเป็นคาใหม่ๆ ที่ระบบไม่รู้จัก ส่งผลให้ครอบคลุมคาศัพท์
ได้ใกล้เคียงกับระบบท่ีมีพจนานุกรมขนาดเกิน 140,000 คา ทั้งยังช่วยลดปริมาณทรัพยากร
ท่ีตอ้ งใช้ในการคานวณอยา่ งมากด้วยเช่นกัน
12
- ความแม่นยา 80% (Accuracy) – ภายใต้การทดสอบกับเสียงพูดผ่านช่องทางข้อมูล
(data channel) ด้วยสมาร์ทโฟน โดยไม่กาหนดเน้ือหา ผู้พูด หรือรูปแบบการพูด
ระบบให้ความถูกต้องของการรู้จาเกือบ 80% ซ่ึงใกล้เคียงกับบริการจากต่างประเทศ
(ทดสอบเม่อื พฤษภาคม 2557)
- ตอบสนองภายใน 1.5xRT (Response time) – การทดสอบความเร็วในการตอบสนอง
ภายใต้เครือข่าย WiFi และเครือข่าย 3G จาลอง พบว่าพาทีสามารถตอบสนองได้ภายใน
เวลาไม่เกนิ 1.5 เทา่ ของความยาวของเสยี งอินพุต ซงึ่ ใกลเ้ คยี งกบั การตอบสนองของบริการ
รจู้ าเสยี งพดู ภาษาไทยจากต่างประเทศ
- เว็บบริการพร้อมติดต้ังและปรับแต่งได้ (Customizable) – จุดเด่นสาคัญของ พาที
คือความเช่ียวชาญของทีมวิจัยและพัฒนาในการปรับแต่งระบบตามความต้องการ
ปัจจุบันพาทีอยู่ในรูปแบบเว็บบริการพร้อมติดตั้งในหน่วยงานท่ีต้องการใช้งาน สามารถ
ขยายบริการตามปริมาณการใช้งาน และปรับแต่งระบบให้ถอดความได้ถูกต้องมากขึ้นใน
เนอื้ หาหรอื ผู้พูดทกี่ าหนดได้
ทั้งน้ี NECTEC มีแผนท่จี ะนาระบบดงั กลา่ วมาประยุกตใ์ ชใ้ นดา้ นต่างๆ ไดแ้ ก่
- การส่ือสารโทรคมนาคม (Telecommunication) โดยการนาระบบรู้จาเสียงพูดไปใช้แปลง
เสียงพูดลูกค้าท่ีติดต่อเข้าที่ศูนย์บริการลูกค้าหรือ Contact center ผ่านทางโทรศัพท์
เพ่ือวเิ คราะหค์ วามตอ้ งการของลกู คา้
- การอานวยความสะกวดในการป้อนข้อมูล (Voice data input) โดยการประยุกต์ใช้ระบบ
รู้จาเสียงพูดช่วยในศูนย์บริการถ่ายทอดการสื่อสารสาหรับผู้บกพร่องทางการได้ยิน
(Thailand Telecommunication Relay Service หรือ TTRS) นอกจากนี้ยังสามารถ
ประยุกต์ใช้ในนวัตกรรมท่ีสร้างโอกาสทางธุรกิจได้อีกมาก เช่น ความต้องการป้อนข้อมูล
อย่างรวดเร็วผ่านอุปกรณ์พกพาหรือสมาร์ทโฟนภายใต้สถานการณ์ฉุกเฉิน การป้อนข้อมูล
เพื่อบริหารคลังสินค้าขนาดใหญ่ ตลอดจนการป้อนข้อมูลด้วยเสียงเพ่ือส่ังการอุปกรณต์ า่ งๆ
ภายในอาคารบ้านเรือน โดยเล็งเห็นถึงชอ่ งทางในอนาคตที่นวตั กรรมนจ้ี ะมาทดแทนการใช้
รีโมทคอนโทรลท่ใี ช้อยใู่ นปจั จบุ ัน
- การถอดความข้อมูลเสียง ( Audio transcription) จากความต้องการถอดความ
เพื่อนาข้อมูลข่าวสารไปใช้ประโยชน์ต่อก็ต้องมีการลงทุนเพ่ิมขึ้นอย่างมากตามไปด้วย
ตัวอย่างเช่น ความต้องการในการจัดทารายงานการประชุมรฐั สภาของสานักงานเลขาธิการ
รัฐสภาและวฒุ สิ ภา ทีต่ อ้ งสาเรจ็ ออกเปน็ รา่ งรายงานภายในเวลาอันสนั้ ความตอ้ งการจัดทา
รายงานการไต่สวนคดีในศาลยุติธรรม เพ่ือให้ผู้ท่ีเกี่ยวข้องลงนามรับรองหลังจบการไต่สวน
ความต้องการถอดความเสียงบันทึกเทปต่างๆ เพ่ือการสืบค้นย้อนหลังได้ง่ายขึ้น เป็นต้น
ความต้องการเหล่าน้ีล้วนมีความเป็นไปได้ในการประยุกต์ใช้เทคโนโลยีการรู้จาเสียงพูด
โ ด ย ใ น ปั จ จุ บั น เ น ค เ ท ค ไ ด้ รั บ ก า ร ติ ด ต่ อ จ า ก ห น่ ว ย ง า น ท่ี ใ ห้ ค ว า ม ส น ใ จ ดั ง ก ล่ า ว
และอยู่ระหว่างศกึ ษาความเปน็ ไปได้ในการประยุกต์ใชใ้ ห้มีประสทิ ธภิ าพ
13
2.9 การพัฒนาระบบรูจ้ าเสยี งพูด
หลักการรู้จาเสียงพูดภาษาไทยในปัจจบุ ันได้มีงานวจิ ัยจานวนมาก ที่มีการวิจัยเกี่ยวกับการรจู้ า
เสียงพูดภาษาไทย ไม่ว่าจะเป็นเสียงพูดภาษาไทยกลาง หรือแม้กระทั่งเสียงพูดภาษาถ่ิน โดยเน้น
หลักการสร้างระบบรู้จาเสียงพูดซ่ึงได้แสดงไว้ในรูปที่ 2.2 ซึ่งการทางานจะประกอบด้วยการ
ประมวลผลเบ้ืองต้น (Preprocessing) การสกัดค่าลักษณะสาคัญ (Feature extraction) และการ
รู้จา (Recognition)
สญั ญาณเสียง
การประมวลผลเบ้ืองต้น
การสกัดคุณลกั ษณะสาคญั
การรู้จา
ผลการเรียนรู้
ภาพท่ี 2.2 หลักการโดยทวั่ ไปของระบบระบุคาพดู
การรู้จาเสียงพูดจะเร่ิมต้นด้วยขั้นตอนของการประมวลสัญญาณเบื้องต้นซ่ึงเป็นขั้นตอนในการ
จัดเตรยี มเสยี งพูด โดยเริ่มตั้งแต่การแปลงสัญญาณเสียงพดู ที่ได้มาจากการบนั ทึกเสยี งมาเป็นสัญญาณ
เชิงเลขซึ่งได้เป็นข้อมูลเสียงพูด เพ่ือท่ีจะนาไปใช้ในการประมวลผลในขั้นตอนต่อไปได้
เนื่องจากสัญญาณเสียงพูดเป็นค่าทางสถิติท่ีเปล่ียนแปลงตามเวลา ทาให้ไม่สามารถจาลองสัญญาณ
เสียงพูดเป็นค่าทางสถิติได้ ด้วยเหตุนี้ในการประยุกต์ใช้งานเสียงพูดกับกรรมวิธีสัญญาณดิจิตอลจึง
จาเป็นต้องแบ่งสัญญาณเสียงพูดออกเป็นส่วนย่อยสั้นๆ เรียกว่า กรอบเสียงพูดโดยในแต่ละส่วนย่อย
น้ันจะมีความยาวประมาณ 10-40 มิลลิวินาที ทาให้กรอบเสียงพูดแต่ละกรอบมีค่าทางสถิติ
เปลี่ยนแปลงตามเวลาน้อยมาก จนถือได้ว่าในแต่ละกรอบเสียงพูดมีค่าทางสถิติไม่เปล่ียนแปลงตาม
เวลา จึงสามารถประมวลผลโดยใช้ค่าทางสถิติกับสัญญาณเสียงพูดในแต่ละกรอบได้ ซ่ึงข้ันตอนของ
การวางกรอบสัญญาณนี้ คือการแบ่งสัญญาณเสียงพูดออกเป็นส่วนย่อย ๆ เพ่ือใช้ในการหาค่า
สหสัมพันธ์ ซึ่งมีหลายชนิดด้วยกัน เช่น หน้าต่างแฮมม่ิง หน้าต่างแฮนน่ิง เป็นต้น ซ่ึงโดยในงานวิจัย
ทัว่ ไป สว่ นใหญจ่ ะเลือกใชฟ้ งั กช์ ันกรอบแบบหนา้ ตา่ งแฮมม่ิง ดงั แสดงในรูปที่ 2.3
14
ภาพท่ี 2.3 ฟังกช์ ันกรอบชนดิ Hamming Windows
การวางกรอบขนาดสัญญาณ สามารถทาได้ด้วยการลดทอนแอมปลิจูดอย่างช้าๆ ที่บริเวณ
ปลายแต่ละข้างของกรอบข้อมูลเสียงพูดเพ่ือป้องกันการเปลี่ยนแปลงท่ีไม่ต่อเน่ืองอย่างกระทันหัน
ท่ีส่วนปลายกรอบสัญญาณและเพื่อเป็นการสร้างค่าการประสานสาหรับผลจากการแปลงฟูริเยร์ของ
ฟังก์ชันกรอบและแถบสเปตรัมของเสียงพูด โดยสัญญาณเสียงที่ผ่านการแปลงสัญญาณเป็นดิจิตอล
แล้วผ่านการประมวลผลเบ้ืองต้น สามารถสรุปเป็นขั้นตอนหลัก ๆ เพื่อให้เกิดความเข้าใจได้ง่ายข้ึน
ดงั นี้
1) การกรองทางความถ่ี (Filtering) เป็นข้ันตอนในการกรองสัญญาณในช่วงความถี่ที่ไม่
ตอ้ งการออกโดยอาศัยตวั กรองแบบดจิ ติ อล ดงั แสดงในรูปที่ 2.4
ภาพที่ 2.4 การกรองความถ่ีสัญญาณเสียงพูดแบบ low-pass filter
การตัดหัว-ท้ายเสียง (Endpoint detection) เป็นขั้นตอนในการกาหนดจุดเร่ิมต้นและ
จุดสิ้นสุดของเสียง โดยการแยกส่วนท่ีเป็นคาพูดออกจากส่วนที่ไม่ใช่คาพูด ดังแสดงในรูป
ที่ 2.5 วิธีในการตัดหัว-ท้ายเสียงมีหลายวิธี เช่น ใช้ค่าระดับพลังงาน (Energy level)
ใช้อัตราการตัดศนู ย์ (Zero-crossing rate) เปน็ ตน้
15
ภาพที่ 2.5 การตดั หัว-ท้ายเสียง ของสัญญาณเสยี งพดู ท่ีต่อเน่อื ง
2) การนอร์มอลไลซ์ทางเวลา (Time normalization) เป็นขั้นตอนการเพิ่มหรือลดขนาดความ
ยาวของสัญญาณในเชิงเวลา เพื่อปรับแต่งขนาดความยาวของสัญญาณให้เหมาะสมตาม
ต้องการ ทัง้ นจี้ ะขึน้ อยู่กับกระบวนการในการรู้จาเสียงว่าจาเป็นต้องนอร์มอลไลซส์ ัญญาณให้
เท่ากันหรือไม่ วิธีการนอร์มอลไลซ์ทางเวลามีหลายวิธี เช่น การเปล่ียนอัตราการชักตัวอย่าง
(Sampling rate changing) การประมาณค่าในช่วงเชิงเส้น ( Linear interpolation)
และการเหล่ือมและรวมส่วนย่อยแบบซิงโครไนซ์ (Synchronized overlap-and-add)
เป็นตน้
ภาพที่ 2.6 การสุ่มสญั ญาณ (signal sampling) และการควอนไทซ์ (quantization)
16
ภาพท่ี 2.7 ตัวอยา่ งเสียงพดู
จากรูปท่ี 2.6 และรูปที่ 2.7 เป็นตัวอย่างของการการสุ่มสัญญาณ (signal sampling)
และการควอนไทซ์ (quantization) จากตัวอย่างเสียงพูด โดยที่โดเมนของ การแปลง (transformed
domain) แบ่งออกเป็น
1) ความถี่ (frequency) หรือฟูริเยร์ (Fourier)
a. การแปลงฟูริเยร์ (Fourier transform –FT)
b. การแปลงฟรู เิ ยร์ไม่ต่อเนื่อง (Discrete Fourier transform –DFT)
c. อัลกอริทึมในการแปลงฟูรเิ ยร์ไม่ต่อเน่ืองอยา่ งเร็ว (Fast Fourier transform –FFT)
d. การแปลงโคซายน์ไม่ต่อเน่ือง (Discrete Cosine Transform-DCT)
2) เวลาและความถี่ (time-frequency)
a. การแปลงฟรู เิ ยร์ในเวลาชว่ งสั้น (Short time Fourier transform – STFT)
3) เวลาและสเกล (time-scale) หรอื เวฟเลต (wavelets)
a. การแปลงเวฟเลต (Wavelet transform)
ข้ันตอนท่ีสาคัญอีกขั้นตอนหน่ึง คือการสกัดค่าลักษณะสาคัญเป็นการวิเคราะห์สัญญาณ
เสียงพูดเพื่อหาค่าที่เหมาะสม สาหรับใช้เป็นตัวแทนข้อมูลเสียงพูดซึ่งเก็บรวบรวมลักษณะสาคัญของ
เสียงพูดแต่ละเสียง โดยจะนาค่าเหลา่ นี้ไปฝกึ ฝนระบบให้รับร้ถู ึงความแตกต่างของเสียงพูดแต่ละเสียง
และใช้ในการเปรียบเทียบเพื่อแบ่งแยกความแตกต่างของเสียงพูดแต่ละเสียงออกจากกัน
ซึ่งการวิเคราะห์หาค่าท่ีใช้แทนสัญญาณเสียง ที่นาไปใช้ในขั้นตอนการรู้จา แบ่งได้เป็น 3 กลุ่มหลัก
กลุ่มแรกเป็นค่าลักษณะสาคัญระดับสูง (High level feature) ได้แก่ สาเนียงการพูด รูปแบบในการ
พูด และความเร็วในการพูด เป็นต้น กลุ่มที่สอง จะใช้ค่าลักษณะสาคัญทางฉันทลักษณ์
(Prosodic feature) เช่น ค่าความถี่มูลฐาน (Fundamental frequency) ความถ่ีฟอร์แมนท์
(Formant frequency) และระดับพลังงาน (Energy profile) เป็นต้น ถึงแม้ว่าค่าลักษณะสาคัญ
แบบนี้จะมปี ระสทิ ธภิ าพสงู ในการร้จู า แต่ยากในการสกัดจากสัญญาณ กลมุ่ สุดท้ายเรยี กวา่ ค่าลักษณะ
สาคัญแบบเอนเวโลปของสเปกตรัม(Spectral envelop feature) เป็นกลุ่มท่ีนิยมใช้กันมาก
เนื่องจากค่าลักษณะสาคัญส่วนใหญ่สาหรับการรู้จาเสียงจะรวมอยู่ในข้อมูลเชิงสเปกตรัมนี้
อีกท้ังยังง่ายและสะดวกในการคานวณหาค่าด้วย ตัวอย่างค่าลักษณะสาคัญแบบน้ีได้แก่
17
สัมประสิทธ์ิการประมาณพันธะเชิงเส้น (Linear prediction coefficients: LPC) ซ่ึง เป็นเทคนิคที่
นิยมนามาใช้ในการวิเคราะห์คุณสมบัติทางกายภาพของสัญญาณ เช่น Spectral magnitude
ของสัญญาณ เทคนิคน้ีพิจารณาได้รวดเร็ว แม่นยาและมีประสิทธิภาพซึ่งก็ใช้ได้ดีสาหรับสัญญาณ
เสียงพูดและนามาประยุกต์ใช้กับระบบการรู้จาเสียงพูดได้เป็นอย่างดี แบบจาลองการประมาณพันธะ
เชิงเส้นเป็นแบบจาลองแบบใชค้ ่าพารามิเตอร์ (Parametric Model) ซึ่งจาลองให้ค่าพารามิเตอร์ทไ่ี ด้
นี้เกนิ จากช่องทางเดินเสียงเพ่อื จาลองเป็นสญั ญาณเสยี งพดู
นอกจากน้ันยังมีวิธีอื่นๆอีก เช่น การหาสัมประสิทธิ์เซปสตรัม ( Cepstral coefficient)
การหาสัมประสิทธ์ิเซปสตรัมบนสเกลเมล ( Mel frequency cepstral coefficients: MFCC)
เซปสตรัมแบบหักลบค่าเฉล่ีย (Cepstral mean substraction:CMS) และเซปสตรัมแบบผ่านตัว
กรองภายหลัง (Post filtered cepstrum: PFL) เป็นต้น ท้ังยังมีการคานวณค่าการเปลี่ยนแปลง
(Derivative หรือ Delta) ของสัมประสทิ ธ์ิเหลา่ น้มี าใช้เป็นค่าลักษณะสาคัญเพิ่มเตมิ ได้ด้วย
ขั้นตอนสุดท้ายคือการรู้จา (Recognition) สาหรับขั้นตอนของการรู้จาน้ีจะประกอบด้วย
2 หน้าท่ีหลัก คือการนาเวกเตอร์ของค่าลักษณะสาคัญของสัญญาณเสียง ท่ีอยู่ในชุดอ้างอิงหรือชุด
ฝึกฝน มาทาการเรียนรู้ เมื่อเรียนรู้แล้วเวกเตอร์ของสัญญาณเสียงที่ต้องการทดสอบการรู้จาจะถูก
นาเข้ามาเทียบเคียงเพ่ือรู้จา ข้ันตอนในการเรียนรู้น้ันข้ึนอยู่กับวิธีในการรู้จาของระบบน้ันๆ
บางวิธีก็เพียงแค่เก็บข้อมูลชุดเรียนรู้ไว้เปรียบเทียบกับข้อมูลชุดทดสอบเท่านั้น เช่น วิธีการรู้จาแบบ
หาค่าระยะห่างยูคลิเดียน (Euclidean distance) วิธีไดนามิกไทม์วาร์ปปิง (Dynamic time
warping: DTW) เป็นต้น ในขณะที่บางวิธี จะนาข้อมูลชุดเรียนรู้ไปแปลงเป็นค่าอ้างอิงที่ต้องการ
เช่น โครงข่ายประสาทเทียม (Artificial neural networks: ANN) จะนาข้อมูลชุดเรียนรู้ไปผ่าน
โครงข่ายท่ีสร้างขึ้น เพ่ือจดจารูปแบบ และเก็บเป็นค่าน้าหนัก (Weight) แทน วิธีควอนไตซ์แบบ
เวกเตอร์ (Vector quantization: VQ) ซ่ึงจะแทนเวกเตอร์ทั้งหมด ของแต่ละสัญญาณเสียงอ้างอิง
ด้วยเวกเตอร์จานวนไม่มาก หรือการใช้แบบจาลองฮิดเดนมาร์คอฟ (Hidden markov model:
HMM) โดยนาข้อมูลชดุ ฝกึ ฝนไปผ่านแบบจาลองที่สร้างขึ้นเพ่ือจดจารูปแบบ และเก็บค่าทางสถิติและ
ค่าความน่าจะเป็นของแต่ละสถานะไว้ เป็นต้น แต่ทั้งหมดจะมีพื้นฐานอยู่ที่การคานวณระยะห่างของ
รูปแบบท่ีจะรู้จา และนาค่าระยะห่างท่ีได้ไปใช้รู้จาตามแต่ละวิธีน้ันๆ การเลือกใช้วิธีการรู้จา
ข้ึนอยู่กับข้อกาหนดของงาน เช่น วิธี DTW และ ANN เหมาะสมกับระบบแบบกาหนดคาพูดตายตัว
ในขณะท่ีวิธี VQ และ HMM จะเหมาะสมกับระบบงานท่ีเป็นแบบไม่กาหนดคาพูดมากกว่า
ซ่ึงในหลักของความเป็นจริงแล้วในการรู้จา เราไม่ได้นาเอาสัญญาณเสยี งพูดจากผู้พูดไปเทียบโดยตรง
แต่จะดึงเฉพาะค่าสาคัญของเสียงออกมา เราเรียกค่าสาคัญน้ีว่า Speech feature เพื่อนาไปเป็น
ตัวแทนของเสียงในการรู้จาได้เป็นอย่างดี ข้ันตอนการแปลงน้ี ซึ่งค่าท่ีได้จะถูกเก็บเวกเตอร์
โดยที่เวกเตอร์หน่ึงเวกเตอร์จะแทนสัญญาณเสียงยาวประมาณ 20 มิลลิวินาที แต่ละเวกเตอร์ก็แทน
สัญญาณเสียง ท่ีค่อยๆ เล่ือนไปแบบคาบเกี่ยวกัน เช่นเลื่อนไปทีละ 10 มิลลิวินาที ดังรูปที่ 2.11
ดังนนั้ หากมเี สยี งทยี่ าว 1 วินาทเี ข้ามา ก็จะแทนดว้ ยเวกเตอร์จานวน 100 อนั
การเรียงลาดบั (Sequence) ของเวกเตอรท์ ่ีแทนสัญญาณเสยี งนี้เรียกวา่ ลาดับการสังเกตการณ์
( Observation sequence) นอกจากนั้น ในการรู้จายังต้องเข้าใจคุณลักษณะของแต่ละคาท่ีเราต้อง
ใช้ในการรู้จาคือ Phone ซึ่งหมายถึง โมเดลการออกเสียง (Pronunciation model) โมเดลเสียง
(Acoustic model) และโมเดลภาษา (Language model)
18
1) Phone คือหน่วยย่อยสุดทางเสียง ตัวอย่างเช่น คาว่า “การ” อ่านออกเสียงด้วยเสียง
“ก” ตามด้วยสระ “า” และลงท้ายด้วย เสียงตัวสะกด “น” คือ Phone ในทาง
ภาษาศาสตร์ จะมีสัญลักษณ์มาตรฐานแทนเสียง Phone แต่ละเสียง ตัวอย่างเช่น “k”
แทน เสยี ง “ก” “aa” แทนสระ “า”
2) โมเดลการออกเสียง (Pronunciation model) จะบอก Sequence ของ Phone เช่น
“การ” ออกเสียงว่า “k aa n^” “ขนม” ออกเสียงวา่ “kh a n o m^”
3) โมเดลเสียง (Acoustic model) ซ่ึงโดยปกติเราจะมีโมเดลเสียง 1 โมเดล ต่อ 1 Phone
เมื่อเราป้อน Observation sequence เข้าไปยังโมเดลเสียงใดๆ มันจะคานวณค่าความ
น่าจะเป็นที่ Observation sequence น้ันจะเป็นเสียงของ Phone น้ันๆ ความน่าจะ
เปน็ ทว่ี า่ นีเ่ ขียนส้ันๆว่า P(O|p) โดยที่ p คือโมเดลเสยี งของ Phone ใดๆ
โมเดลภาษา (Language model) คือตวั บอกให้ทราบวา่ คา (Word) นี้ ตามด้วยคาน้ไี ดห้ รือไม่
หรือในบางโมเดลจะบอกค่าความน่าจะเป็นที่คาใดๆ จะพูดต่อกัน เช่น โมเดลภาษาอาจจะบอกว่า
“จะ ไป” ได้ แต่ “ไป จะ” ไม่ได้ หรืออาจจะบอกเป็นค่าความน่าจะเป็นว่า “จะ ไป” มีโอกาสเกิดได้
0.8 แต่ “ไป จะ” มีโอกาสเกิดได้แค่ 0.01 เป็นต้น โมเดลภาษาแท้จริงไม่เพียงบอกโอกาสที่คาสองคา
จะเกิดคู่กันเท่านั้น ยังสามารถบอกด้วยว่า ทั้งประโยคมีโอกาสเกิด ได้เท่าไหร่ สมมุติว่าเรามีประโยค
ซ่ึงประกอบด้วยคาต่อๆ กันหลายๆ คา เช่น W = (w1...wM) โดยท่ี w แทนคาแต่ละคา โมเดลภาษา
จะบอกว่า W สามารถเกิดได้หรือไม่ หรือบอกเป็น ค่าความน่าจะเป็นว่ามีโอกาสเกิดมากน้อยแค่ไหน
ขอแทนคา่ ความน่าจะเป็นดว้ ย P(W) ข้นั ตอนของการรจู้ ามขี นั้ ตอนหลักๆ คือ ระบบรับ Observation
sequence ที่ ต้องการรู้จาเข้ามา โดยมันจะเริ่มด้วยการเดาว่าเป็นคาใดต่อๆ กัน จะเป็นประโยค
ว่า “ฉัน รัก เธอ” ประโยคว่า “ฉัน หิว ข้าว” หรือ “อาหาร อร่อย ดี” ฯลฯ หลังจากเดาประโยคข้ึน
มาแล้ว จะส่งประโยคน้ันเข้าไปยัง Language model ได้ค่าความน่าจะเป็น P(W) ท่ีจะเกิดประโยค
ดังกล่าว แล้วจะทาการแปลงประโยคเป็ นเสียงอ่านโดยอาศัย Pronunciation model
เมอื่ ได้ Sequence ของ Phone แลว้ กจ็ ะเอา Acoustic model ของแต่ละ Phone มาต่อกนั แล้วทา
การปอ้ น Observation sequence เข้าไปยงั Acoustic model ของทั้งประโยค จะหาคา่ ความนา่ จะ
เป็น P(O|W) ซึ่งเกิดจาก P(O|p) ของแต่ละ Phone คูณกัน และสุดท้ายก็จะนาเอา P(W) มาคูณกับ
P(O|W) ได้เป็น P(O,W) ซ่ึงหมายถึง โอกาสท่ีสัญญาณเสียงดังกล่าวจะเป็นเสียงประโยค W แล้วก็ทา
อย่างนกี้ บั ทุกๆ ประโยคท่ีเดาขน้ึ มา และเทยี บค่า P(O,W) วา่ ประโยค ไหนมีโอกาสสูงท่สี ุด ก็ตอบเป็น
ประโยคนน้ั ในกรณที ว่ี ่าประโยคที่เป็นไปไดม้ หี ลาก หลายล้านลา้ นแบบ และไม่กาหนดว่าประโยคยาว
เท่าไหร่ วิธีการแก้ไขก็คือ การสร้าง Word network โดยเอาคามาต่อๆ กันในลักษณะของ Network
ระหว่างคาก็กากับด้วยโอกาสท่ีแต่ละคาจะต่อกัน หรือ P(wi|wi-1) และในแต่ละคาก็ประกอบด้วย
Acoustic model ของ Phone ที่ต่อกันเป็นเสียงอ่านของคานั้นๆ แล้วเวลาทางานก็จะผ่าน
สัญญาณเสียงเข้าไป ในขณะที่ผ่าน Node ของ Network แต่ละ Node ก็จะ มีการคูณค่าความน่าจะ
เป็น P(O,W) ต่อๆ ไปเรื่อยๆ หากในเส้นทางใดท่ีค่าความน่าจะเป็นรวมขณะน้ัน ตกต่ากว่า
ค่า Threshold ทกี่ าหนด ก็ใหเ้ ลกิ ว่งิ ไปเส้นทางนน้ั เทา่ นีก้ ็จะชว่ ยลดจานวนประโยคทจี่ ะต้องคานวณ
ลงได้มาก วิธีนี้จะเรียกว่า Beam search หรือการ Search ภายใน Beam ท่ีกาหนดเท่าน้ัน
ซึ่งนอกจากนั้นยังมีอีก วิธีในการกาหนด Beam ของการ Search โดยกาหนดให้ ณ ขณะใดๆ
19
จะมีเส้นทางท่ีว่ิง ไปได้ ไม่เกิน N เส้นทาง วิธีน้ีก็ช่วยลดจานวนประโยคที่ต้องคานวณลงมหาศาล
เชน่ กัน เราเรยี กวธิ ที สี่ องนี้ว่า N-best search
วิธีท่ีได้รับการนิยมอีกวิธีคือ แบบจาลองฮิดเดนมาร์คอฟ (HMM) แบบต่อเนื่อง ซ่ึงงานวิจัย
ส่วนมากนิยมใช้เป็นแบบจาลองในการจดจาเสียงพูด โดยทาการสรา้ งแบบจาลองฮิดเดนมาร์คอฟเปน็
แบบหน่วยพ้ืนฐานของเสียง (phoneme) และแต่ละแบบจาลองจะใช้แบบจาลองฮิดเดนมาร์คอฟ
แบบ 5 สถานะ (state) มีการเปลี่ยนสถานะแบบซ้ายไปขวาและแต่ละสถานะเป็นแบบ 1 เกาส์เซียน
ดงั แสดงในรูปท่ี 2.8
ภาพที่ 2.8 แผนภาพแสดง HMM แบบ 5 สถานะ ท่ีมกี ารเปลีย่ นแปลงสถานะแบบซา้ ยไปขวา
ส่วน K-nearest neighbor (K-NN) เป็นเทคนิคท่ีเหมาะกับปัญหาแบบการแบ่งกลุ่มข้อมูล
(classification) เทคนิคน้ีแตกต่างจากเทคนิคอ่ืนตรงที่มันไม่ได้ใช้ข้อมูลฝึกหัด (training data)
ในการสร้างแบบจาลอง แต่จะใชข้ อ้ มลู นัน้ มาเป็นตวั แบบจาลองเลย ในการใชง้ านข้นั ตอนวิธกี ารค้นหา
เพื่อนบ้านใกล้สุด (K-NN algorithm) น้ันเราต้องระบุค่าตัวเลข จานวนเต็มบวกให้กับ k ด้วย
ซง่ึ ค่านจ้ี ะเปน็ ตัวบอกจานวนของกรณี (case) ทีจ่ ะต้องค้นหาในการทานายกรณีใหม่ algorithm แบบ
K-NN ได้แก่ 1-NN, 2-NN, 3-NN, … K-NN โดยท่ี k แทนเลขจานวนเต็มบวก เช่น 4-NN หมายถึง
algorithm น้ีจะค้นหา 4 กรณีที่มีลักษณะ ใกล้เคียงกับกรณีใหม่ (4 nearest cases) ในการทานาย
กรณีใหม่การเรียนรู้แบบเบย์อย่างง่าย (Naïve-Bayes) เป็นเทคนิคที่ถูกตั้งช่ือตามโทมัส เบส์
(Thomas Bayes) เทคนิคแบบการเรียนรู้แบบเบย์อย่างง่าย (Naïve-Bayes) ใช้ทฤษฎี Bayes
Theorem ในการคานวณความน่าจะเป็นซ่ึงถูกใช้ในการทานายผล เมื่อทาการวิเคราะห์กรณีใหม่
การทานายผลทาได้โดยการรวมผลของตัวแปรอิสระ (independent variable) ที่มีต่อตัวแปรตาม
(dependent variable) การเรียนรู้แบบเบย์อย่างง่าย (Naïve-Bayes) เป็นเทคนิคในการแก้ปัญหา
แบบ classification ที่ทั้งสามารถคาดการณ์ผลลัพธ์ได้และสามารถอธิบายได้ด้วย มันจะทาการ
วิเคราะห์ความสัมพันธ์ระหว่างตัวแปรอิสระแต่ละตัวกับตัวแปรตามเพื่อใช้ในการสร้างเงื่อนไขความ
น่าจะเป็นสาหรับแต่ละความสัมพันธ์ ในทางทฤษฎีแล้วการทานายผลของ Naïve-Bayes จะถูกต้อง
ถ้าตัวแปรอิสระทั้งหมดเป็นอิสระต่อกัน ไม่ขึ้นกับตัวแปรอิสระตัวใดตัวหน่ึง ซ่ึงในความเป็นจริงแล้วมี
กรณีไม่มากนักที่ตัวแปรอิสระท้ังหมดเป็นอิสระต่อกัน เทคนิคการเรียนรู้แบบเบย์อย่างง่าย
(Naïve-Bayes) ยังไม่รองรับข้อมูลท่ีเป็นข้อมูลต่อเน่ือง (continuous data) ด้วย ดังน้ัน ตัวแปร
อิสระหรือตัวแปรตามท่ีมีค่าเป็นค่าต่อเน่ืองจะต้องถูกแบ่งเป็นช่วง ซึ่งการแบ่งช่วงน้ัน ถ้าแบ่งไม่
เหมาะสม ก็จะมีผลต่อคุณภาพของแบบจาลองที่สรา้ งขน้ึ แต่ถ้าไม่คานึงถึงข้อจากัดนี้แล้ว เทคนิคการ
20
เรยี นรแู้ บบเบย์อย่างงา่ ย (Naïve-Bayes) สามารถใหผ้ ลลพั ธ์ทด่ี แี ละรวดเร็วได้ ความง่ายและความเร็ว
ทาให้เทคนิคน้ีเป็นเครื่องมือท่ีดีในการสร้างแบบจาลองและหารูปแบบความสัมพันธ์ท่ีไม่ซับซ้อน
โครงข่ายประสาทเทียม (Neural networks) มพี ้ืนฐานมาจากแบบจาลองการทางานของสมองมนุษย์
และก็สามารถใช้ได้ดีกับปัญหาการแบ่งกลุ่มข้อมูล และการวิเคราะห์การถดถอย เป็นระบบที่จาลอง
การทางานของสมองมนุษย์มาใช้ในการเรียนรู้ แยกแยะ ตัดสินใจในสงิ่ ตา่ ง โดยสถาปตั ยกรรมพื้นฐาน
ของโครงข่ายประสาทเทียม (Neural Network Architecture) จากการทางานของเซลล์ประสาท
ได้ถูกนาประยุกต์เป็นโครงสร้างทางคณิตศาสตร์ ดังแสดงดังรูปที่ 2.9 ซึ่งสามารถแยกโครงสร้างของ
โครงขา่ ยประสาทเทยี มออกเปน็ หลกั ๆได้ 2 โครงสรา้ งดังนี้
ภาพท่ี 2.9 แบบจาลองทางคณติ ศาสตร์ของสมองมนุษย์
1) โครงข่ายประสาทเทยี มแบบชนั้ เดียว (Single layer artificial neural network)
2) โครงข่ายประสาทเทียมแบบหลายชั้น (Multilayer artificial neural network)
โดยในโครงสร้างต่างๆจะประกอบด้วยเลเยอร์ดังน้ี Input Layer, Hidden Layer, Output
Layer ซ่งึ เราจะนาตวั อยา่ งของการอาศยั อลั กอรทิ มึ ในการสอนให้กับโครงข่ายประสาทเทียมใช้เทคนิค
แบ็กพรอบพาเกช่ัน โดยเทคนิคน้ีเป็นการใช้โครงสร้างแบบหลายช้ันในการเรียนรู้แบบ มีผู้สอน
(Supervised Learning) มีการกาหนดค่าเป้าหมาย (Target) ท่ีต้องการไว้ และใช้โครงข่ายประสาท
เทยี ม ในการปรับคา่ นา้ หนกั (Weight) ให้เหมาะ ดงั แสดงรปู ที่ 2.10
ภาพท่ี 2.10 โครงขา่ ยประสาทเทยี มแบบหลายช้นั ทใี่ ช้การสอนแบบอลั กอริทึมการแพร่ย้อนกลบั
(Backpropagation Neural Network)
21
ดังน้ันโครงการน้ีเป็นอีกแนวทางหน่ึงในการอานวยความสะดวกสาหรับเจ้าหน้าที่สอบสวนของ
กรมสอบสวนคดีพิเศษ เพ่ือลดเวลาในการบันทึกข้อมูลการสอบสวนจากเดิมท่ีใช้การพิมพ์สัมผัสตาม
เสียงพูดด้วยพนักงานสอบสวน โดยมีการปรับเปล่ียนมาเป็นระบบพิมพ์ตัวหนังสืออัตโนมัติตาม
เสียงพูด ระบบสามารถรองรับผูใ้ ช้ได้มากกว่า 1 คนในเวลาเดยี วกันและเป็นแบบ Real Time และยัง
สามารถจัดเก็บลงในระบบฐานข้อมูลโดยอัตโนมัติเพ่ือใช้ประโยชน์ในการสืบค้นภายหลังได้
โดยขัน้ ตอนการทางานของระบบตามรปู ท่ี 2.11
เร่ิมจากในขั้นตอนของการสอบสวนพนักงานสอบสวน ผู้ต้องหาหรือพยาน ทาการสอบสวน
หรือสนทนาผ่านไมโครโฟน โดยจะมีไมโครโฟนประจาตัวของแต่ละคน จากน้ันขอมูลเสียงของการ
สอบสวนหรือสนทนาทาการประมวลผล(Preprocessing) เพ่ือตรวจสอบคุณลักษณะของเสียงท่ีไม่พึง
ประสงค์ออกไป เช่นเสียงรบกวน เป็นต้น จากนั้นระบบทาการส่งข้อมูลเสียงแยกตามไมโครโฟนของ
แต่ละคนไปยังโปรแกรมพาที(PARTY) ที่พัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์
แห่งชาติ (NECTEC) เพิ่มทาการรู้จาให้ออกมาเป็นข้อความตัวหนังสืออัตโนมัติตามเสียงพูด
จากนน้ั ระบบทาการจัดเก็บข้อมูลเสียงและข้อความจากการสอบสวนหรือสนทนา เพอ่ื ใช้ประโยชน์ใน
การสบื คน้ ได้ในอนาคต
PARTY Server
Audio Data Text Data
Storage Application Server
Audio Files / Text ·
Files
(Preprocessing)
·
PARTY Server
·
PARTY Server
1 2 3/
ภาพท่ี 2.11 ภาพรวมขนั้ ตอนการใชง้ าน
บทท่ี 3
การวเิ คราะหแ์ ละออกแบบระบบ
3.1 ศกึ ษา วเิ คราะห์สภาพปัญหา และความตอ้ งการของผ้ใู ชง้ าน
จากเก็บข้อมูลผู้ใช้งาน (พนักงานสอบสวนจากกองคดีต่างๆ) ด้วยแบบสอบถามปลายเปิด
(Open-ended questionnaire) ซึ่งเป็นการรวบรวมข้อมูลการทางานในปัจจุบัน ปัญหา อุปสรรค
และความต้องการต่อการพัฒนาระบบร้จู าเสียงพดู ของผ้ใู ชง้ าน โดยมีรปู แบบคาถามดงั น้ี
1) ลกั ษณะการทางานในปัจจุบนั
2) ปญั หาและอุปสรรคในการสอบสวนผู้ต้องหาและผู้เสยี หาย
3) ขอ้ จากดั และข้อควรระวังในการสอบสวนผู้ตอ้ งหาและผูเ้ สียหาย
4) ข้อแตกต่างของปัญหาอุปสรรค์และข้อควรระวัง ในการสอบสวนผู้ต้องหาและผู้เสียหาย
ของแต่ละหนว่ ยงาน
5) ความต้องการในการแก้ปัญหางานด้านการสอบสวน ในส่วนของการพัฒนาระบบรู้จา
เสียงพดู
6) มีขอ้ เสนอแนะพิเศษในสว่ นของการพฒั นาระบบรู้จาเสยี งพูด
ซ่ึงจากการรวบรวมข้อมูลดงั กล่าวทาใหผ้ ้วู ิจัยสามารถสรุปปญั หา และอปุ สรรคของกลุ่มผู้ใช้งาน
ตอ่ การพฒั นาระบบรูจ้ าสยี งพูด ได้ดงั น้ี
1) การออกเสียงของผู้ใช้มคี วามชดั เจนมากแค่ไหน ถ้าผใู้ ชง้ านออกเสยี งไม่ชัดเจนสามารถทา
ให้ระบบรู้จาเสียงพูดอัตโนมัติ (Automatic Speech Recognition) แปลเป็นข้อความ
ตัวอกั ษรที่ผิดพลาดได้
2) เสียงรบกวนจากส่ิงแวดล้อมรอบข้าง ถือเป็นส่วนท่ีสาคัญเนื่องมาจากเสียงรบกวนนั้นจะ
ถูกบันทึกรวมไปด้วยกับเสียงพูดสั่งการหรือเสียงสัมภาษณ์ ซ่ึงเมื่อนาไปประมวลผลแล้ว
สามารถทาให้ระบบรู้จาเสียงพูดอัตโนมัติ (Automatic Speech Recognition) แปลเป็น
ข้อความตวั อักษรที่ผิดพลาดได้
3) คาศัพย์ที่โปรแกรมรู้จาเสียงพูดอัตโนมัติ (Automatic Speech Recognition) ได้เรียนรู้
ไปครอบคลมุ กบั การรูปประโยค ในการใชง้ านหรือไม่
4) ระยะเวลาในการประมวลผลของโปรแกรมรู้จาเสียงพูดอัตโนมัติ (Automatic Speech
Recognition) ซ่ึงในบางคร้ังมีผู้ใช้จานวนมากเข้าใช้งานพร้อมกัน หรือเสียงพูดส่ังการ
เสียงสัมภาษณ์ มีความยาวในการบันทึกท่ีมาก อาจทาให้ระบบมีการตอบสนองได้ช้ากว่า
ทผ่ี ใู้ ช้ต้องการได้
5) สาหรับเน้ืองานจริงในข้ันตอนการใช้งานนั้น ระบบควรมีกระบวนการของการทาให้แน่ใจ
ในความเปน็ ส่วนตวั สามารถรักษาความลับได้ ความปลอดภัยในการรับส่งข้อมลู เน่ืองจาก
ข้อมูลมคี วามสาคัญทางกฎหมาย อาจมกี ารใชใ้ ช้การเข้ารหัสในการรบั ส่งข้อมลู
6) การใช้งานระบบควรระวงั และควรตรวจสอบข้ันตอนของข้อกฎหมายก่อนแสมอ
23
นอกจากน้นั ยังสามารถสรุปความตอ้ งการขอ้ งผ้ใู ชง้ านได้ ดงั น้ี
พนกั งานสอบสวน
ภาพที่ 3.1 การใช้งานกับเอกสารต้นแบบ (template)
1) สามารถใช้งานกับเอกสารต้นแบบ (template) ที่มีตัวอย่างดังรปู ที่ 3.1 (ตามเอกสารท่ีแสดง
ใน ภาคผนวก) โดยมีคุณสมบัติดงั ตอ่ ไปนี้
1.1) สามารถใช้งานในรูปแบบหนังสือแบบฟอร์มราชการของแต่ละหน่วยงานเช่น
บันทึกถ้อยคา เป็นต้น โดยจะเป็นการแปลงข้อความให้ตามที่ผู้ใช้ต้องการ
จากนั้นข้อความผลลัพธ์ จะถูกเตมิ ลงในแบบฟอร์มทก่ี าหนดไว้ ดงั รูปท่ี 3.1
1.2) ระบบสามารถข้ึนคาถามหรือข้อความแบบอัตโนมัติ ที่ใช้งานบ่อยคร้ังในแต่ละ
แบบฟอร์มต่างได้เพ่ือลดเวลาและเพิ่มความถูกต้อง เช่น การแจ้งสิทธ์ิทาง
กฏหมาย หรือ คาถามเฉพาะตามระเบยี บกฎหมาย เป็นตน้
1.3) ข้อความอัตโนมัติท่ีขึ้นน้ันไม่สามารถแก้ไขได้ มีการป้องกันการแก้ไข เพื่อเพิ่ม
ความถูกต้อง ลดโอกาสผิดพลาดในการเขียนคาถามผิดทาให้เกิดข้อผิดพลาด
ในทางกฎหมายได้
1.4) ระบบควรมคี วามสามารถในการแทรกรูปภาพได้ขณะใช้งาน
1.5) เม่ือแปลงเสียงเป็นข้อความใส่ในรูปแบบหนังสือแบบฟอร์มราชการของแต่ละ
หน่วยงาน แล้ว สามารถแก้ไขได้อย่างสะดวด โดยผลลัพธ์อาจอยู่ในรปู แบบของ
ไฟลท์ ่ีสามารถแก้ไขได้สะดวดเชน่ Microsoft Word
2) ใช้งานกับเอกสารที่ไม่มีต้นแบบ (template) โดยจะเป็นการแปลงข้อความให้ตามท่ีผู้ใช้
ต้องการดังรูปท่ี 2 เช่น ใบลา บันทึกการประชุม บันทึกข้อความทางราชการ และเอกสารอื่น
ตามทีผ่ ใู้ ช้งาน เปน็ ต้น
24
พนกั งานสอบสวน
ภาพที่ 3.2 ใช้งานกับเอกสารทไ่ี ม่มตี น้ แบบ (template)
3) สามารถนาไฟล์เสียง เข้าสู่ระบบและแปลงเป็นข้อความได้ และสนับสนุนไฟล์เสียงได้
หลากหลายรปู แบบ เชน่ WAV, Mp3, AIFF, WMA และ AAC เปน็ ต้น
Audio Files Transcribed Text
WAV, Mp3, AIFF,
WMA AAC
ภาพท่ี 3.3 สามารถนาไฟลเ์ สยี งเขา้ ส่รู ะบบและแปลงเปน็ ข้อความ
4) ระบบสามารถทาการบนั ทึกเสียงและสามารถจัดเก็บไดห้ ลากหลายรปู แบบ เชน่ WAV, Mp3,
AIFF, WMA และ AAC เป็นต้น
5) ระบบควรรองรับไมโครโฟนทม่ี ีหลายขนาดไดเ้ พ่อื ความสะดวดในการใชง้ าน
ภาพที่ 3.4 ไมโครโฟนลกั ษณะตา่ ง
25
6) ระบบมีขนาดเล็กติดต้ังง่าย สามารถตดิ ต้ังในแล็ปท็อปหรือโนต๊ บุ๊คได้
7) ระบบสามารถสามารถตอบสนองความต้องการของผู้ใช้ได้อย่างรวดเร็วและมีประสิทธิภาพ
ตอบสนองไดอ้ ย่างรวดเร็ว
8) ใช้งานง่าย ส่วนการนาเขา้ และส่วนแสดงผลลัพธ์ไม่มีความสลบั ซับซอ้ น มีความชัดเจน
9) ไฟลท์ ่ไี ด้หลงั จากการประมวลผลสามารถสง่ั พิมพ์ไดท้ นั ที
10) ไฟล์ทีไ่ ดห้ ลังจากการทางานควรอยใู่ นรูปแบบที่แก้ไขไดง้ า่ ย เช่น Microsoft Word เปน็ ต้น
11) ระบบควรมีฟังก์ชนั การใช้งานแบบ off-line
12) ระบบควรสนับสนุนการใช้งานได้หลายภาษา ภาษาถิ่น ภาษาพื้นบ้าน และภาษาอังกฤษ เปน็ ต้น
3.2 การวิเคราะห์และออกแบบระบบ
สาหรับข้ันตอนการวิเคราะหร์ ะบบน้ัน ผู้พฒั นาไดศ้ ึกษาเคร่ืองมือทใี่ ช้ในการออกแบบและพัฒนา
เพ่ือให้ตอบสนองกับความต้องการของผู้ใช้และสามารถใช้งานได้จริง โดยเลือกใช้เคร่ืองมือการ
วิเคราะห์ และการออกแบบเชิงโครงสร้าง (Structured) ซ่ึงเป็นการอธิบายด้วยแผนภาพ (Diagram)
ได้แก่ แผนภาพบริบท (Context Diagram) แผนภาพกระแสข้อมูล (Data Flow Diagram level 1)
และ คาอธิบายการประมวลผลข้อมูล (Process Description) การจัดการเอกสารในระบบงานใหม่
สามารถอธิบายข้ันตอนการปฏิบตั ิงานในลักษณะของ แผนภาพแสดงการไหลของข้อมูล (Data Flow
Diagram) ดงั นี้
สญั ญาณเสียงพูด
ผูใ้ ช้ ระบบรูจ้ าเสียงพดู อัตโนมตั ิ
เอกสาร บบั สมบูรณ์
ภาพที่ 3.5 แผนภาพบริบท (Context Diagram): ระบบรูจ้ าเสยี งพูดอัตโนมตั เิ พ่ืองานสอบสวน
26
ไ ล์เอกสารตน้ แบบ (template)
ไ ล์เอกสารต้นแบบ (template)
1
ผใู้ ช้ เอกสารต้นแบบ
เลือกเอกสารต้นแบบ เอกสารต้นแบบ
3
2 เตมิ ขอ้ ความลง
การรจู้ าเสียงพดู เอกสารตน้ แบบ
(Speech ข้อความ
Recognition)
สญั ญาณเสยี งพดู
เอกสาร บับสมบรู ณ์
ภาพท่ี 3.6 Data Flow Diagram Level 1 : ระบบรจู้ าเสียงพูดอตั โนมัติเพ่ืองานสอบสวน
เร่ิมจากในขั้นตอนของการสอบสวน พนักงานสอบสวนใช้คอมพิวเตอร์หรือ Notebook
ที่มีไมโครโฟนพร้อมใช้งานทาการเลือกชนิดของเอกสารท่ีต้องการใช้งาน ไม่ว่าจะเป็นเอกสารตน้ แบบ
(template) ตามภาคผนวก ข หรือ เอกสารท่ีไม่มีต้นแบบ ที่สามารถเรียกได้อีกอย่างว่าเอกสารเปล่า
จากนน้ั พนักงานสอบสวนทาการสอบสวนหรือสงั่ การผา่ นไมโครโฟน โดยจะมไี มโครโฟนประจาตัวของ
แต่ละคน จากนั้นข้อมูลเสียงของการสอบสวนหรือสนทนาทาการประมวลผล (Preprocessing)
เพื่อตรวจสอบคุณลักษณะของเสียงที่ไม่พึงประสงค์ออกไป เช่นเสียงรบกวน เป็นต้น จากนั้นระบบ
ทาการส่งข้อมูลเสียงแยกตามไมโครโฟนของแต่ละคนไปยังโปรแกรมพาที (PARTY) ท่ีพัฒนาโดย
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) เพิ่มทาการรู้จาให้ออกมาเป็น
ขอ้ ความตัวหนงั สอื อัตโนมตั ิตามเสียงพูด
เมื่อได้ตัวหนังสือตามที่พนักงานสอบสวนได้พูดหรือสั่งการแล้ว ระบบจะทาการจับคู่ข้อความกับ
ตาแหน่งของข้อความในไฟล์เอกสารต้นแบบ โดยจะเป็นการเติมข้อความแบบอัตโนมัติ ซ่ึงหลักการ
จะคล้ายคลึงกับระบบส่ังการด้วยเสียงอัตโนมัติ (Voice Typing) จากนั้นระบบทาการจัดเก็บข้อมูล
เสยี งและข้อความจากการสอบสวนหรือสนทนา เพอ่ื ใช้ประโยชน์ในการสบื คน้ ไดใ้ นอนาคต
27
ตารางที่ 1 คาอธบิ ายการประมวลผลของโปรเซสท่ี 1.0 : เลอื กเอกสารตน้ แบบ
Process Description
System : ระบบรจู้ าเสยี งพูดอัตโนมตั ิเพอ่ื งานสอบสวน
DFD Number : 1
Process Name : เลอื กเอกสารตน้ แบบ
Input Data Flow : เอกสารต้นแบบ (template) ตามตารางท่ี 1 2 และ 3 หรอื เอกสารที่
ไม่มีตน้ แบบ
Output Data Flow : ไฟล์เอกสารต้นแบบ (template) ตามตารางท่ี 1 2 และ 3 หรือ
เอกสารทไี่ มม่ ตี ้นแบบ
Data Stored Used : ไฟล์เอกสารตน้ แบบ (template)
Description : พนักงานสอบสวนทาการเลือกชนิดของเอกสารที่ต้องการใช้งาน ไม่ว่า
จะเป็นเอกสารต้นแบบ (template) ตามตารางท่ี 1 2 และ 3 หรือ
เอกสารทีไ่ ม่มีตน้ แบบ ท่ีสามารถเรยี กไดอ้ กี อย่างว่าเอกสารเปล่า
ตารางท่ี 2 คาอธบิ ายการประมวลผลของโปรเซสที่ 2.0 : การร้จู าเสยี งพูด (Speech Recognition)
Process Description
System : ระบบรูจ้ าเสยี งพูดอัตโนมตั เิ พ่อื งานสอบสวน
DFD Number : 2
Process Name : การรูจ้ าเสยี งพูด (Speech Recognition)
Input Data Flow : ข้อมูลเสยี ง
Output Data Flow : ขอ้ ความตวั หนงั สอื
Data Stored Used : -
Description : พนักงานสอบสวนทาการสอบสวนหรือส่ังการผ่านไมโครโฟน โดยจะมี
ไมโครโฟนประจาตัวของแต่ละคน จากน้ันข้อมูลเสียงของการสอบสวน
หรือสนทนาทาการประมวลผล(Preprocessing) เพื่อตรวจสอบ
คุณลกั ษณะของเสียงทีไ่ ม่พงึ ประสงค์ออกไป เช่นเสยี งรบกวน เป็นตน้
จากน้ันระบบทาการส่งข้อมูลเสียงแยกตามไมโครโฟนของแต่ละคนไป
ยังโปรแกรมพาที(PARTY) ที่พัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์
และคอมพิวเตอร์แห่งชาติ (NECTEC) เพิ่มทาการรู้จาให้ออกมาเป็น
ขอ้ ความตัวหนังสืออัตโนมัตติ ามเสยี งพูด
28
ตารางที่ 3 คาอธิบายการประมวลผลของโปรเซสที่ 3.0 : การรจู้ าเสยี งพดู (Speech Recognition)
Process Description
System : ระบบรจู้ าเสียงพูดอัตโนมตั ิเพ่ืองานสอบสวน
DFD Number : 3
Process Name : เติมขอ้ ความลงเอกสารตน้ แบบ
Input Data Flow : ข้อความตัวหนังสือ, ไฟล์เอกสารต้นแบบ (template) ตามตารางท่ี 1
2 และ 3 หรือ เอกสารทไ่ี มม่ ตี ้นแบบ
Output Data Flow : เอกสารฉบบั สมบรู ณ์
Data Stored Used : -
Description : เม่ือได้ตัวหนังสือตามท่ีพนักงานสอบสวนได้พูดหรือส่ังการแล้ว ระบบ
จะทาการจบั คู่ข้อความกับตาแหน่งของข้อความในไฟลเ์ อกสารต้นแบบ
โดยจะเป็นการเตมิ ข้อความแบบอตั โนมตั ิ
บทที่ 4
บทสรปุ
4.1 สรุปผลการดาเนนิ งาน
จากการศึกษาผลงานวิจัยเร่ือง “การศึกษาระบบรู้จาเสียงพูดอัตโนมัติ” เป็นการศึกษาความ
ต้องการของของผู้ใช้งาน ซึ่งเป็นการเก็บข้อมูลโดยแบบสอบถามปลายเปิด ( Open-end
questionnaire) ซ่ึงจากการเก็บข้อมูลดังกล่าว พบว่าผู้ใช้งานมีความต้องการให้ระบบดังกล่าว
สามารถใช้กับเอกสารที่มีต้นแบบและไม่มีต้นแบบ นาไฟล์เสียงเข้าสู่ระบบแปลงข้อความได้ ระบบทา
การบันทึกไฟล์เสียงได้หลายรูปแบบ รองรับไมโครโฟนได้หลายรูปแบบ ระบบมีขนาดเล็กติดตั้งง่าย
ตอบสนองต่อความต้องการของผู้ใช้อย่างรวดเร็ว ใช้งานได้ง่าย ไฟล์ท่ีได้หลังจากการประมวลผล
สามารถส่ังพิมพ์ได้ทันที ไฟล์ท่ีได้หลังเสรจ็ ส้นิ กระบวนการควรอยู่ในรูปแบบท่ีแก้ไขได้ง่าย สามารถใช้
งานไดใ้ นทที่ ี่ไมม่ ีอนิ เตอรเ์ น็ต และสามารถรองรบั ภาษาถิ่นได้หลากหลาย
ซ่ึงจากข้อมูลดังกล่าวทาให้ผู้วิจัยสามารถวิเคราะห์และออกแบบระบบให้สอดคล้องกับความ
ต้องการของผู้ใช้งาน โดยเร่ิมจากในขั้นตอนของการสอบสวนพนักงานสอบสวนใช้คอมพิวเตอร์หรือ
Notebook ที่มีไมโครโฟนพร้อมใช้งานทาการเลือกชนิดของเอกสารท่ีต้องการใช้งาน ไม่ว่าจะเป็น
เอกสารต้นแบบ (template) ตามภาคผนวก ก หรือ เอกสารที่ไม่มีต้นแบบ ที่สามารถเรียกได้อีก
อย่างว่าเอกสารเปล่า จากนั้นพนักงานสอบสวนทาการสอบสวนหรือส่ังการผ่านไมโครโฟน โดยจะมี
ไมโครโฟนประจาตวั ของแต่ละคน จากนัน้ ข้อมลู เสยี งของการสอบสวนหรือสนทนาทาการประมวลผล
(Preprocessing) เพ่ือตรวจสอบคุณลักษณะของเสียงที่ไม่พึงประสงค์ออกไป เช่นเสียงรบกวน
เป็นต้น จากนั้นระบบทาการส่งข้อมูลเสียงแยกตามไมโครโฟนของแต่ละคนไปยังโปรแกรมพาที
(PARTY) ที่พัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกสแ์ ละคอมพิวเตอรแ์ ห่งชาติ (NECTEC) เพิ่มทาการ
รู้จาให้ออกมาเปน็ ขอ้ ความตวั หนงั สืออัตโนมัตติ ามเสียงพูด
เมื่อได้ตัวหนังสือตามท่ีพนักงานสอบสวนได้พูดหรือส่ังการแล้ว ระบบจะทาการจับคู่ข้อความ
กบั ตาแหนง่ ของข้อความในไฟลเ์ อกสารต้นแบบ โดยจะเป็นการเติมขอ้ ความแบบอตั โนมัติ ซงึ่ หลกั การ
จะคล้ายคลึงกับระบบสั่งการด้วยเสียงอัตโนมัติ (Voice Typing) จากนั้นระบบทาการจัดเก็บข้อมูล
เสยี งและข้อความจากการสอบสวนหรอื สนทนา เพอ่ื ใชป้ ระโยชนใ์ นการสบื คน้ ได้ในอนาคต
4.2 ปัญหาและอปุ สรรค
1) จานวนการเก็บข้อมูลของผู้ใช้งานไม่เพียงพอ ทาให้ไม่สามารถทราบปัญหาและ
แนวทางการออกแบบระบบรจู้ าเสยี งพดู ได้ท้งั หมด
2) ขอ้ จากดั ด้านระยะเวลาในการดาเนนิ งาน
4.3 แนวทางการดาเนินการต่อไป
จากการศึกษางานวิจัยดังกล่าว เป็นการศึกษาความต้องการของผ้ใู ชบ้ ริการเพ่ือนามาออกแบบ
ระบบรู้จาเสยี งพูดอัตโนมตั ิเพื่อนามาใชใ้ นงานสบื สวนและสอบสวนคดีพิเศษ ซึ่งเมื่อผู้วิจัยได้ออกแบบ
30
ระบบดังกล่าวแล้ว ได้มีกิจกรรมสารวจความเหน็ ผใู้ ช้งานที่มีต่อการพัฒนาระบบรู้จาเสียงพูดอัตโนมตั ิ
เม่ือวันท่ี 10 กรกฎาคม 2561 ต่อมาได้มีการจัดกิจกรรมเสนอร่างผลงานวิจัยและรับฟังความเห็นท่ีมี
ต่อร่างผลงานวิจัย เร่ือง “การศึกษาระบบรู้จาเสียงพูดอัตโนมัติ” ในวันท่ี 11 กันยายน 2561
ซง่ึ ไดม้ ีการเสนอแนะความคิดเหน็ ตอ่ ระบบและแนวทางในการพฒั นา ดงั น้ี
1) การแกป้ ัญหาเร่อื งการแบ่งแยกเสยี งหลกั กบั เสียงรบกวนอื่นๆ ใหช้ ัดเจน
2) การพัฒนาระบบที่สามารถแกไ้ ขคาผดิ ไดอ้ ยา่ งอัตโนมตั โิ ดยไมต่ ้องแก้ไขภายหลัง
3) เน่ืองจากในการสอบสวนบางคร้ังจะมีการสนทนาที่รวดเร็วและพร้อมกันหลายๆคน
จึงควรจะพฒั นาระบบให้มีการประมวลผลอย่างรวดเรว็ เพอ่ื ตอบสนองต่อการสอบสวน
จากข้อเสนอแนะและความคิดเห็นจากการจัดกิจกรรมดังกล่าว จะเป็นแนวทางท่ีจะนาไปสู่
การพัฒนาให้เกิดเป็น ระบบรู้จาเสียงพูดอัตโนมัติ ที่สอดคล้องกับการใชง้ านดา้ นการสืบสวนสอบสวน
คดพี ิเศษของกรมสอบสวนคดีพิเศษต่อไป
บรรณานกุ รม
บุญเสริม กิจศิริกุล และ ณัฐกร ทับทอง. (2548). การพัฒนาระบบการรู้จาเสียงพูดภาษาไทย.
กรุงเทพฯ: ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์
มหาวทิ ยาลยั .
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ. (2016). PARTY: พาที ระบบรู้จาเสียงพูด
ภาษาไทย. [ออนไลน์]. เข้าถึงได้จาก http://www.nectec.or.th/innovation/
innovation-software/party.html สืบคน้ 2 สงิ หาคม 2559
Agarwal, A. Dictation (2016). Online Speech Recognition. [อ อ น ไ ล น์ ] . เ ข้ า ถึ ง ไ ด้ จ า ก
https://dictation.io สบื ค้น 3 สงิ หาคม 2559.
Google. (2016). Android. [ออนไลน์]. เข้าถึงได้จาก https://www.android.com/ สืบค้น 3
สงิ หาคม 2559.
Google. (2016). Google Cloud Platform. [ออนไลน์]. เข้าถึงได้จาก https://cloud.google.com
สืบคน้ 3 สงิ หาคม 2559.
Google. (2016). Google Voice Typing. [ออนไลน์]. เข้าถึงได้จาก https://www.google.co.th/
intl/en/about/products สืบคน้ 2 สิงหาคม 2559.
IBM. (2016). Speech to Text. [ออนไลน์]. เข้าถึงได้จาก https://www.ibm.com/watson/
developercloud/speech-to-text.html สบื คน้ 5 สงิ หาคม 2559
IBM. (2016). Speech to Text. [ออนไลน์]. เข้าถึงได้จาก https://console.ng.bluemix.net/
catalog/services/speech-to-text สืบคน้ 5 สงิ หาคม 2559
Microsoft. (2016). Windows Speech Recognition. [อ อ น ไ ล น์ ] . เ ข้ า ถึ ง ไ ด้ จ า ก
https://www.microsoft.com สืบคน้ 5 สิงหาคม 2559.
Nuance Communications. (2016). Dragon. [อ อ น ไ ล น์ ] . เ ข้ า ถึ ง ไ ด้ จ า ก
http://www.nuance.com/dragon สืบค้น 2 สิงหาคม 2559
Karpagavalli S. and Chandra E. (2016). A Review on Automatic Speech Recognition
Architecture and Approaches. International Journal of Signal Processing,
Image Processing and Pattern Recognition Vol.9, No.4, pp.393-404
Chai Wutiwiwatchai, Sadooki Furui, Thai speech processing technology: A review,
Speech communication, Volume 49, Issue 1, January 2007, Pages 8-27, ISSN
0167-6293.
32
S. Jitapunkul, S. Luksaneeyanawin, V. Ahkuputra, E. Maneenoi, S. Kasuriya and P.
Amornkyl (1998), “Recent advances of Thai speech recognition in
Thailand,” Circuits and Systems. IEEE APCCAS 1998. The 1998 IEEE Asia-
Pacific Conference on, Chiangmai 1998, pp. 173-176.
V. Ahkuputra, S. Jitapunkul, E. Maneenoi, S. Kasuriya and P. Amornkul, (1998)
“Comparison of different techniques on Thai speech recognition,” Circuits
and Systems, 1998. IEEE APCCAS 1998. THE 1998 IEEE Asia-Pacific
Conference on, Chiangmai, pp. 177-180.
W. Rochkittchareon, A. Suchato and P. Punyabukkana, (2012), “Broad phonetic class
segmentation study for Thai automatic speech recognition,” Electrical
Engineering/Electronics, Computer, Telecommunications and Information
Technology (ECTI-CON), 2012 9th International Conference on, Phetchaburi
pp. 1-4.
เจษฎา กานต์ประชา) .2545). การรู้จาเสียงพูดภาษาไทยอย่างคงทนโดยใช้สมั ประสิทธ์เิ มลฟรีเควน็ ซี
เซปสตอรลของค่าอัตสหสัมพันธ์ของเสียงพูดที่มีสัญญาณรบกวน. จุฬาลงกรณ์
มหาวทิ ยาลยั กรงุ เทพมหานคร.
ฐนียา สัตยพานิช) .2541). ระบบรู้จาเสียงพูดภาษาไทยต่อเนื่องแบบเฉพาะบุคคลสาหรับการใช้งาน
อเี มลล.์ มหาวทิ ยาลยั เกษตรศาสตร์:กรุงเทพมหานคร.
ศุภชัย ต้ังวงศ์ศานต์ และ วิจติ รธเนศานรุ ักษ.์ (2544). การรู้จาเสียงพยางค์ภาษาไทย แบบขึ้นกับผู้พูด
โ ด ย วิ ธี Segmental Probability Model, Department of Computer Science,
Faculty of science, Mahidol University, Bangkok.
S. Tangwongsan and R. Phoophuangpairoj, (2008), “Boosting Thai Syllable Speech
Recognition Using Acoustic Models Combination,” Computer and Electrical
Engineering, 2008. ICCEE 2008. International Conference on, Phuket,
pp.568-572.
A. Suchato, P. Punyabukkana, P. Ariyakornwijit and T. Namchaisawatwong, (2011),
“Automatic sppech recognition of Thai person names from dynamic name
lists,” Electrical Engineering/Electronics, Computer, Telecommunications
and Information Technology (ECTI-CON), 2011 8th International Conference
on, Khon Kaen, pp. 962-966.
C. Wutiwiwatchai, K. Thangthai and P. Sertsi, (2012), “Thai ASR Development for
network-based speech translation,” Speech Database and Assessments
(Oriental COCOSDA), 2012 International Conference on, Macau, 2012, pp.
92-96
33
S. Klaithin, P. Chootrakool and K. Kosawat, (2010), “LEXiTRON-Pro Editor: An integrated
tool for developing Thai pronunciation dictionary,” ComputerScience and
Information Technology (IMCSIT), Proceedings of the 2010 International
Multiconference on, Wisla, pp. 429-433.
“PARTY: พ า ที ร ะ บ บ รู้ จ า เ สี ย ง พู ด ภ า ษ า ไ ท ย ” , ( 2559) , (อ อ น ไ ล น์ ). แ ห ล่ ง ท่ี ม า :
http://www.nectec.or.th/innovation/innovation-solfware/party.html
“List of speech recognition software”, (2016), (อ อ น ไ ล น์ ) . แ ห ล่ ง ที่ ม า :
http://www.capterra.com/speech-recognition-software/
Imai et al. (2004.) Speech Recognition for Subtitling Japanese Live Broadcasts. ICA 2004,
Vol.l , pp.165-168
H.Shinichi, K. Akio and O. Takahiro, (2018), “New Real-time Closed-Captioning System
for Japanese Broadcast News Programs.” 11th International Conference,
ICCHP 2008, Linz, Austria, July 9-11, 2008. Proceedings pp. 651-654.
34
ภาคผนวก
35
ผนวก ก. เอกสารท่ีใชใ้ นการทาสานวนคดพี ิเศษ (เปน็ เอกสารท่คี วรมอี ยูใ่ นเอกสาร
ตน้ แบบของระบบ)
36
รหสั ของ รายการ
แบบ อรม์
คพ.๐๐๑ ปกสานวนการสอบสวน
หนังสอื ส่งสานวนการสอบสวน
คพ.๐๐๒ ๑ หนงั สอื ส่งสานวนคดพี เิ ศษที่เห็นควรงดการสอบสวน/ให้งดการสอบสวน
คพ.๐๐๓ ๒ หนังสอื ส่งสานวนคดีพเิ ศษทีเ่ ห็นควรสง่ั ฟ้อง (ผตู้ อ้ งหาหลบหนี)
คพ.๐๐๔ ๓ หนงั สอื ส่งสานวนคดพี เิ ศษทเ่ี หน็ ควรสั่งฟอ้ ง/สัง่ ไมฟ่ ้อง
บัญชสี านวนการสอบสวน
คพ.๐๐๕ ๑ บญั ชีสานวนการสอบสวน
คพ.๐๐๕ ๒ บัญชสี านวนการสอบสวน (เพิ่มเติม)
คพ.๐๐๖ รายงานการสอบสวน
เอกสารเกีย่ วกับคาให้การผูก้ ล่าวหา
คพ.๐๐๗ ๑ บนั ทึกคาใหก้ ารผู้กลา่ วหา
คพ.๐๐๘ ๒ บนั ทึกสอบสวนผู้กลา่ วหา (เพิม่ เตมิ )
๓ เอกสารยนื่ แทนคาใหก้ ารผู้กลา่ วหา (ถา้ ม)ี
๔ สาเนาเอกสารประกอบคาให้การผู้กล่าวหาเฉพาะที่เป็นสาระสาคัญทางคดี ท่ีสามารถบ่งชี้ถึง
ขอ้ เท็จจริงหรอื พยานหลกั ฐานในคดี (ถ้ามี)
เอกสารเก่ยี วกบั คาใหก้ ารผตู้ อ้ งหา
คพ.๐๐๙ ๑ บันทึกคาใหก้ ารผตู้ ้องหา
คพ.๐๑๐ ๒ บันทึกสอบสวนผู้ต้องหา (เพิ่มเติม)
๓ เอกสารยน่ื แทนคาให้การผู้ต้องหา (ถา้ มี)
๔ สาเนาเอกสารประกอบคาให้การผู้ตอ้ งหาเฉพาะที่เป็นสาระสาคัญทางคดีท่ีสามารถบ่งชถี้ งึ ขอ้ เท็จจริง
หรอื พยานหลักฐานในคดี (ถา้ มี)
เอกสารเกยี่ วกบั คาใหก้ ารพยาน (รายบคุ คล)
คพ.๐๑๑ ๑ บันทึกคาให้การพยาน (เรียงตามลาดบั ความสาคญั ของพยานและ/หรือเหตุการณ)์
คพ.๐๐๘ ๒ บนั ทกึ สอบสวนพยาน (เพ่มิ เติม)
๓ เอกสารยืน่ แทนคาใหก้ ารพยาน (ถา้ ม)ี
๔ สาเนาเอกสารประกอบคาให้การพยานเฉพาะท่ีเป็นสาระสาคัญทางคดี ท่ีสามารถบ่งชี้ถึงข้อเท็จจริง
หรอื พยานหลกั ฐานในคดี (ถ้าม)ี
คพ.๐๑๒ รายการพยานเอกสารและพยานวตั ถุ
รายละเอียดเกยี่ วกับของกลาง
คพ.๐๑๓ ๑ บัญชีของกลางคดอี าญา
คพ.๐๑๔ ๒ ภาพถ่ายของกลาง
รายละเอยี ดเกี่ยวกับทรัพย์ถูกประทุษร้าย
คพ.๐๑๕ ๑ บัญชที รพั ย์ถูกประทษุ ร้าย
คพ.๐๑๖ ๒ ภาพถ่ายทรัพย์ทถี่ กู ประทษุ ร้าย
คพ.๐๑๗ ๓ บัญชีมูลค่าความเสยี หาย
คพ.๐๑๘ ๔ บัญชีทรัพยถ์ กู ประทุษร้ายได้คนื
37
รหสั ของ รายการ
แบบ อร์ม
คพ.๐๑๙ ๕ ภาพถา่ ยทรพั ย์ที่ถกู ประทุษรา้ ยได้คืน
คพ.๐๒๐ บันทึกพนกั งานสอบสวน
คพ.๐๒๑ รายงานการประชุมคณะพนกั งานสอบสวนคดพี ิเศษ
เอกสารเกีย่ วกบั สถานที่เกดิ เหตแุ ละสถานทเ่ี กยี่ วขอ้ ง
คพ.๐๒๒ ๑ บันทกึ การตรวจสถานทเ่ี กิดเหตุ
คพ.๐๒๓ ๒ แผนทีส่ งั เขปแสดงสถานทีเ่ กิดเหตุ
คพ.๐๒๔ ๓ ภาพถา่ ยประกอบการตรวจสถานท่ีเกดิ เหตุ
๔ รายงานการตรวจสถานท่เี กดิ เหตุของหนว่ ยงานหรือผู้เชี่ยวชาญด้านนติ วิ ทิ ยาศาสตร์ (ถ้ามี)
คพ.๐๒๕ ๕ บันทึกการนาชส้ี ถานทปี่ ระกอบคาให้การของผู้กลา่ วหา ผูต้ อ้ งหา หรือพยาน
คพ.๐๒๖ ๖ ภาพถ่ายการนาชี้สถานทีป่ ระกอบคาให้การของผู้กลา่ วหา ผูต้ ้องหา หรอื พยาน
บันทึกส่งผู้บาดเจ็บหรือศพฯ หนังสือนาส่งและรายงานผลการตรวจพิสูจน์พยานหลักฐานทางนิติ
วิทยาศาสตร์
คพ.๐๒๗ ๑ บนั ทกึ ส่งผู้บาดเจ็บหรอื ศพใหแ้ พทย์ตรวจชันสตู รและผลการตรวจชันสูตรบาดแผลหรอื ศพ ของ
แพทย์
คพ.๐๒๘ ๒ หนังสอื นาสง่ การตรวจพสิ ูจน์ยาเสพติด
คพ.๐๒๙ ๓ หนงั สือนาส่งเอกสารและวตั ถุของกลางตรวจพสิ ูจน์
เอกสารเกี่ยวกบั พยาน
คพ.๐๓๐ ๑ หมายเรยี กพยาน
คพ.๐๓๑ ๒ หนงั สอื ขอเชญิ มาใหถ้ ้อยคา
คพ.๐๓๒ ๓ หนงั สือขอตรวจสอบข้อมลู การทาธรุ กรรมทางการเงิน
คพ.๐๓๓ ๔ หนังสอื ขอตรวจสอบข้อมูลเกี่ยวกบั การจดทะเบียนนิตบิ ุคคล
๕ เอกสารโตต้ อบ (เรียงตามลาดบั เวลาแตล่ ะหนว่ ยงาน) (ถา้ มี)
เอกสารท่ีเก่ียวข้องกับการใช้มาตรการพิเศษตาม พระราชบัญญัติการสอบสวนคดีพิเศษและ
กฎหมายอื่น
คพ.๐๓๔ ๑ หนงั สอื ขออนุมัตเิ ข้าถงึ ข้อมลู ข่าวสาร
คพ.๐๓๕ ๒ คาสง่ั อนมุ ัติให้เข้าถึงข้อมูลขา่ วสาร
คพ.๐๓๖ ๓ หนังสอื ขอเขา้ ถึงข้อมูลขา่ วสาร
คพ.๐๓๗ ๔ คาขอใหไ้ ด้มาซงึ่ ข้อมูลข่าวสาร
คพ.๐๓๘ ๕ หนงั สือรายงานผลการดาเนนิ การเขา้ ถงึ ขอ้ มลู ขา่ วสาร
คพ.๐๓๙ ๖ หนังสอื ขอใชป้ ระโยชนจ์ ากเอกสารหรือขอ้ มูลข่าวสาร
คพ.๐๔๐ ๗ หนงั สอื รบั รองการรักษาความลบั
เอกสารเกี่ยวกบั การค้น
๑ คารอ้ งขอหมายคน้
๒ คาใหก้ ารพยานประกอบคารอ้ ง
๓ รายงานกระบวนพจิ ารณา
38
รหัสของ รายการ
แบบ อรม์
๔ แบบหมายคน้
คพ.๐๔๑ ๕ บนั ทึกการตรวจคน้
คพ.๐๔๒ ๖ บัญชรี ายละเอยี ดสิง่ ของแนบบันทึกการตรวจค้น
คพ.๐๔๓ ๗ หนังสอื อนุมัติให้ดาเนินการตามมาตรา ๒๔
คพ.๐๔๔ ๘ บนั ทกึ เหตสุ งสัยตามสมควรและเหตุอันควรเชือ่ ที่ทาใหส้ ามารถเขา้ คน้ ได้ (คน้ ไม่มหี มาย)
คพ.๐๔๕
คพ.๐๔๖ ๙ หนังสือรายงานผลการปฏบิ ัตติ ามหมายค้น
๑๐ บันทกึ การยึดหรอื อายัดส่งิ ของ
เอกสารท่ีมาของอานาจการสอบสวน เช่น เอกสารท่ีแสดงถึงอานาจในการสืบสวนสอบสวน และ
หนังสือแจ้งมติ กคพ. (ต้ังแต่รายงานการสืบสวน, การขอรับเป็นคดีพิเศษ จนถึงการแต่งต้ังคณะ
พนักงานสอบสวนและพนกั งานอัยการ รวมทั้งท่ีปรกึ ษา) คารอ้ งขอสบื พยานก่อน อ้ ง
๑ สานวนการสืบสวนหรอื ตรวจสอบข้อเทจ็ จริง
๒ แบบเสนอเรือ่ งเพื่อมีมติให้การกระทาความผดิ ทางอาญาอ่ืนเป็นคดีพเิ ศษตามมาตรา ๒๑ วรรคหนึ่ง
(๒) แห่งพระราชบัญญัตกิ ารสอบสวนคดีพเิ ศษ พ.ศ. 2547 (แบบ กคพ.๑)
๓ แบบเสนอเรื่องที่คณะอนุกรรมการคดพี ิเศษเห็นควรไม่มีมติให้การกระทาความผิดทางอาญาอ่ืนเป็น
คดีพิเศษตามมาตรา ๒๑ วรรคหนึ่ง (๒) แห่งพระราชบัญญัติการสอบสวนคดีพิเศษ พ.ศ. 2547
(แบบ กคพ.๒)
๔ แบบเสนอเรื่องต่อคณะกรรมการคดีพิเศษเพ่ือพิจารณามีมติให้คดีความผิดอาญาท่ีค้างดาเนินการ
และคดียังไม่ถึงท่ีสุดเป็นอานาจหน้าท่ีของพนักงานสอบสวนคดีพิเศษ ตามมาตรา ๔๔ แห่ง
พระราชบญั ญัติการสอบสวนคดีพิเศษ พ.ศ. 2547 (แบบ กคพ.๓)
๕ แบบเสนอเรอ่ื งต่อคณะกรรมการคดีพเิ ศษเพื่อพิจารณาชี้ขาดตามมาตรา ๒๑ วรรคท้าย
(แบบ กคพ.๔)
๖ สาเนารายงานการประชมุ คณะกรรมการคดพี เิ ศษ (กคพ.) ท่ีมีมติรบั เป็นคดีพเิ ศษ
๗ ประกาศกรมสอบสวนคดพี ิเศษ เรื่องมตคิ ณะกรรมการคดพี ิเศษให้คดคี วามผิดทางอาญาอนื่ เป็น
คดพี เิ ศษ
๘ คาสงั่ อธบิ ดีกรมสอบสวนคดพี ิเศษ อนมุ ัติให้ทาการสอบสวนเปน็ คดพี เิ ศษ ตามมาตรา ๒๑
วรรคหนึ่ง (๑)
๙ หนังสือจากสานกั งานอยั การสงู สดุ มอบหมายใหก้ รมสอบสวนคดีพิเศษทาการสอบสวนความผิดทาง
อาญาทกี่ ระทานอกราชอาณาจักรและเอกสารท่ีเกีย่ วข้อง
๑๐ คาสงั่ แต่งตัง้ คณะพนกั งานสอบสวนคดพี เิ ศษ (แบบ ศบพ.๒)
๑๑ คาสั่งแต่งตั้งคณะพนักงานสอบสวนคดีพิเศษ สาหรับคดีความผิดซึ่งมีโทษตามกฎหมายไทยได้
กระทาลงนอกราชอาณาจกั รไทย (แบบ ศบพ.๓)
๑๒ คาสัง่ แต่งต้งั คณะพนกั งานสอบสวนคดพี เิ ศษ เพ่ิมเติม
๑๓ แบบคาร้องขอออกเลขคดพี ิเศษ (แบบ ศบพ.๙)
๑๔ คาสั่งแตง่ ตัง้ ผูช้ ว่ ยเหลอื พนกั งานสอบสวนคดีพิเศษหรือเจา้ หนา้ ทคี่ ดีพเิ ศษ
คพ.๐๔๗ ๑๕ หนังสอื ขอสืบพยานกอ่ นฟอ้ ง
เอกสารการปฏบิ ัตเิ กย่ี วกบั ตวั ผู้ตอ้ งหา
39
รหัสของ รายการ
แบบ อรม์
คพ.๐๔๘ ๑ หมายเรยี กผูต้ ้องหาพรอ้ มหลกั ฐานนาส่ง
คพ.๐๔๙ ๒ บันทึกแจ้งข้อหา
คพ.๐๕๐ ๓ บนั ทกึ การชี้รปู ผู้ต้องหา
๔ คารอ้ งขอหมายจับและรายงานกระบวนพจิ ารณา
๕ หมายจบั
คพ.๐๕๑ ๖ ตาหนริ ูปพรรณผกู้ ระทาความผดิ
คพ.๐๕๒ ๗ หนังสืองดการสืบจับบุคคล
คพ.๐๕๓ ๘ บันทกึ การจับกุม
คพ.๐๕๔ ๙ บนั ทกึ การมอบตัว/จับกมุ /แจง้ ข้อหา
๑๐ คาร้องตรวจสอบการจับกุมตัวผู้ตอ้ งหาศาลเยาวชนและครอบครวั
คพ.๐๕๕ ๑๑ หนงั สือแจง้ การจับกมุ ผตู้ ้องหาท่เี ป็นทหาร
คพ.๐๕๖ ๑๒ บันทึกผลการช้ีตวั ผู้ต้องหา
คพ.๐๕๗ ๑๓ บนั ทึกการแจ้งสิทธใิ นการรับตวั ผตู้ อ้ งหา
คพ.๐๕๘ ๑๔ หนังสือขออายดั ตัวผู้ต้องขัง
คพ.๐๕๙ ๑๕ หนังสอื ขอพบผู้ต้องขงั เพือ่ แจง้ ข้อกล่าวหา สอบสวนปากคา และพมิ พ์ลายน้วิ มอื
คพ.๐๖๐ ๑๖ บันทึกการควบคุมผู้ต้องหา
๑๗ คารอ้ งขอผัดฟ้อง/ฝากขังผูต้ อ้ งหา(ศาลแขวง) ครง้ั ท่ี ๑
๑๘ คารอ้ งขอผัดฟ้อง/ฝากขงั ผตู้ อ้ งหา(ศาลแขวง) ครัง้ ท่ี ๒ – ๕ และคาให้การพยานชั้นไตส่ วนฝากขัง
๑๙ คาใหก้ ารพยานช้ันไต่สวนผัดฟอ้ ง/ฝากขงั ครง้ั ที่.....
๒๐ คาร้องฝากขงั ผูต้ ้องหา(ศาลจงั หวดั ) คร้งั ที่ ๑
๒๑ คาร้องฝากขงั ผู้ตอ้ งหา(ศาลจงั หวัด) ครง้ั ท.่ี ....
คพ.๐๖๑ ๒๒ บันทกึ เสนอสัญญาประกนั
คพ.๐๖๒ ๒๓ สญั ญาประกันตัวผตู้ อ้ งหา
คพ.๐๖๓ ๒๔ คาร้องขอประกนั และตารางนัดหมาย
คพ.๐๖๔ ๒๕ ใบนดั ส่งตัวผ้ตู อ้ งหา
๒๖ ภาพถา่ ยผตู้ ้องหา/ประวตั ิและแบบพิมพล์ ายนวิ้ มือผตู้ ้องหา/ผลคดี
คพ.๐๖๕ ๒๗ คายนิ ยอมกรณผี ูใ้ หส้ ัญญาคา้ ประกันมีคู่สมรส
คพ.๐๖๖ ๒๘ คารอ้ งขอคืนสง่ิ ของ
คพ.๐๖๗ ๒๙ สัญญาประกันและรบั มอบส่งิ ของ
คพ.๐๖๘ บัญชีพยานบุคคล
เอกสารอ่ืนๆ ที่เกี่ยวข้องกับการดาเนินคดี เช่น การส่งตัว ,ผู้ต้องหาไปควบคุม ,การฝากของกลาง ,การ
เบิกสานวน ,การสง่ เก็บสานวน ใหน้ าไปใสไ่ วใ้ น “ร่างสานวนการสอบสวน”