รายงานโครงการวจิ ัยฉบบั สมบรู ณ์
การออกแบบและการสรา้ งระบบรู้จาเสียงพดู อัตโนมัติ
(ระยะที่ 1)
Design and Implementation of Automatic Speech
Recognition (Phase 1)
โดย
กรมสอบสวนคดพี ิเศษ
มหาวิทยาลัยเทคโนโลยพี ระจอมเกล้าพระนครเหนือ
กรกฎาคม พ.ศ.2562
ก
รายงานโครงการวิจัยฉบับสมบูรณ์
การออกแบบและการสร้างระบบรจู้ าเสียงพูดอัตโนมตั ิ
(ระยะที่ 1)
โดย
กรมสอบสวนคดีพเิ ศษ
มหาวทิ ยาลยั เทคโนโลยีพระจอมเกลา้ พระนครเหนอื
กรกฎาคม พ.ศ.2562
โครงการวจิ ยั น้ีได้รับสนบั สนนุ เงินอุดหนุนการวิจยั ประจาปงี บประมาณ พ.ศ. 2561
ข
กิตติกรรมประกาศ
โครงการวิจัยเร่ือง การออกแบบและการสร้างระบบรู้จาเสยี งพูดอัตโนมัติ (ระยะที่ 1) ไดร้ ับ
การสนับสนุนเงินทุนวิจัยจากสานักงานคณะกรรมการวิจัยแห่งชาติ (วช.) ผ่านสานักงานกิจการ
ยตุ ธิ รรม (สกธ.) กระทรวงยุตธิ รรม เงินงบประมาณ พ.ศ.2561 โดยจดั จา้ งมหาวทิ ยาลยั เทคโนโลยีพระ
จอมเกลา้ พระนครเหนือ
ก
บทคดั ย่อ
ชอ่ื โครงการ การออกแบบและการสร้างระบบรู้จาเสียงพูดอัตโนมัติ (ระยะท่ี 1)
ช่ือผู้รับผดิ ชอบโครงการวิจยั ดร.มงคล มีลุน
E-mail [email protected]
ระยะเวลาโครงการ 1 ตลุ าคม 2561 ถงึ 30 กรกฎาคม 2562
ส่วนพัฒนาระบบงานสืบสวนสอบสวนคดีพิเศษ กองพัฒนาและสนับสนุนคดีพิเศษ ซ่ึงมีหน้าท่ี
รับผิดชอบงานงานวิจัยและพัฒนาของกรมสอบสวนคดีพิเศษ ได้เล็งเห็นถึงความจาเป็นในการใช้งานระบบรู้จา
เสียงพูดอัตโนมัติ (Auto Speech Recognition) เพ่ืองานสอบสวนคดีพิเศษ ระบบรู้จาเสียงพูดอัตโนมัติ
เป็นการแปลงเสียงจากคาพูดให้กลายเป็นตัวหนังสือได้อย่างแม่นยา เพียงแค่พูดภาษานนั้ ชัดเจนก็สามารถแปลงเป็น
ตัวเขียนได้ ซ่ึงจะเป็นการลดเวลาการทางานของหน่วยงานหลาย ๆ หน่วยงานของกรมสอบสวนคดีพิเศษ หรือ
หน่วยงานต่าง ๆ ในกระทรวงยุติธรรมได้โดยไม่จาเป็นต้องไปน่ังฟังและพิมพ์ตาม ซึ่งเป็นการส้ินเปลืองเวลาและ
ทางานซ้าซ้อนหลายข้ันตอน จึงได้ดาเนินโครงการออกแบบและสร้างระบบรู้จาเสียงพูดอัตโนมัติ (ระยะท่ี 1) ข้ึน
โดยโครงการวิจัยน้ีได้รับงบประมาณวิจัยจากสานักกิจการยุติธรรม กระทรวงยุติธรรม ประจาปีงบประมาณ พ.ศ.
2561 โครงการวิจัยฯ มีขั้นตอนการวิจัยตั้งแต่เริ่มนิยามปัญหาของการวิจัยโดยทีมวิจัยเข้ามาสารวจความต้องการ
ของผู้ใช้และรวบรวมข้อมูลท่ีใช้ในการจัดทาระบบ จากน้ันจัดประชุมเพื่อรับฟังความเห็นจากผู้เก่ียวข้องและ
ผู้เชี่ยวชาญเพ่ือสรุปวางแผนเตรียมความพร้อมของการดาเนินงาน ทาการออกแบบและวิเคราะห์อัลกอริทึมเพื่อให้
สอดคล้องกับภารกิจของกรมสอบสวนคดีพิเศษ พัฒนาซอฟต์แวร์ต้นแบบโดยเลือกใช้ระบบรู้จาเสียงพูดภาษาไทย
“พาที (PARTII)” ของเนคเทคซึ่งเป็นซอฟต์แวร์ท่ีสร้างโดยนักวิจัยไทย จึงเหมาะสมกับกรมสอบสวนคดีพิเศษที่
ต้องการการรักษาข้อมูลที่เป็นความลับ แตกต่างจากซอฟต์แวร์ต่างประเทศท่ีเคร่ืองแม่ข่าย ( Server)
อย่ตู ่างประเทศที่ขอ้ มลู อาจไมม่ ีความมนั่ คงปลอดภัยได้ เม่ือจัดทาโปรแกรมและระบบสาเรจ็ แลว้ มีการทดสอบการใช้
งานจากผู้ใช้งานและปรับปรุงระบบเพื่อความถูกต้องความสมบูรณ์ปลอดภัยและมีคุณภาพท่ีดี ทาการรวบรวม
ข้อผิดพลาดและพัฒนาระบบปรับปรุงแก้ไขซอฟต์แวร์ให้มีความสมบูรณ์มากข้ึน ผ่านการประชุมเพื่อรายงาน
โครงการต่อผเู้ กย่ี วข้องและผ้เู ชีย่ วชาญ
จากผลของโครงการวิจัยฯ ทาให้ได้ระบบรู้จาเสียงพูดที่สามารถแปลงเสียงพูดให้เป็นตัวหนังสือได้
ผ่านโปรแกรมไมโครซอฟท์เวิร์ดท่ีใช้งานทั่วไปทั้งแบบเรียลไทม์ และสามารถนาไฟล์เสียงหรือวิดีโอส่งให้ระบบ
ถอดข้อความเป็นตัวหนังสือได้ จึงสามารถนามาใช้ในการสอบสวนหรือการถอดรายงานการประชุม
ทาให้ลดระยะเวลาการทางานสง่ ผลใหก้ ารปฏบิ ตั ิงานมปี ระสิทธิภาพย่งิ ขนึ้
คาสาคญั : ระบบรู้จาเสียงพดู อตั โนมัติ การสอบสอน พาที
ข
Project Title: Abstract
Design and Implementation of Automatic Speech Recognition (Phase 1)
Investigator: Dr.MONGKOL MEELOON
E-mail Address: [email protected]
Project Period: October 1, 2018 to July 30, 2019
Investigation System Development Sector, at the Bureau of Development
and Logistics, is responsible for communication and research and development for the
Department of Special Investigation. Their current focus is on the need to develop and
use an Automatic Speech Recognition system for special investigation. Automatic
speech recognition system can precisely convert speech into text just by using clear
spoken words, which is then converted into text. This has the potential to significantly
reduce the working time of many departments of the Department of Special
Investigation and agencies in the Ministry of Justice without requiring listening in person
and manual typing which is inefficient as it involves numerous other associated
redundant steps. Therefore, we have initiated a project to design and implement an
automatic speech recognition system (Phase 1). This research project received research
funding from The office of Justice Affairs, Ministry of Justice during the budget year
2018. This research project step 1 starts by defining the problems of research by the
research team as they explore the needs of the users and collect the data used to
create the system. Then a meeting was held to hear opinions from relevant parties
and experts to summarize the preparation plan for the operation. This includes
designing and analyzing algorithms to comply with the Department of Special
Investigation's mission. Also discussed were plans to develop the prototype software
by selection of the NECTEC "PARTII" speech recognition system, which is a software
created by Thai researchers. This made it suitable for the Department of Special
Investigation that needs their confidential information to be secure as foreign software
may have their Server located out of the country where data may not be secure. Once
the program and system have been successfully created, there will be pilot testing by
users to improve the system for accuracy, integrity, security and quality control. Further
through collection of bug reports while continuing the development of the system
would ensure improvement of the software to be more complete. In addition,
ค
meetings would be held regularly to discuss and report on the project development
progress to relevant persons and experts
The result of the research project would be a speech recognition system
that can convert speech into text via a Microsoft Word program in real time and would
have the capability to import audio or video files into the system to convert it into
text files. It therefore would be ideal for use in investigation procedures or for preparing
minutes of meeting and would significantly reduce manual work time thus resulting in
a more efficient and streamlined operation.
Keywords: Automatic speech recognition system, Investigation, Partii
ง
จ
โครงการวจิ ัยเรือ่ ง การออกแบบและการสรา้ งระบบรู้จาเสยี งพูดอัตโนมตั ิ (ระยะท่ี 1)
บทสรปุ ผบู้ ริหาร
กรมสอบสวนคดีพิเศษมีพันธกิจเกี่ยวกับการป้องกัน การปราบปราม การสืบสวนและ
การสอบสวนคดคี วามผิดทางอาญาท่ีต้องดาเนินการสืบสวนและสอบสวนโดยใช้วธิ ีการพิเศษตามกฎหมายว่าด้วย
การสอบสวนคดีพิเศษ โดยในปัจจุบันการเก็บข้อมูลการสอบสวนบุคคลต่าง ๆ อยู่ในรูปแบบของข้อความท่ี
ต้องถูกถอดออกมาจากเสียงในข้ันตอนการสอบสวน ซ่ึงเป็นกระบวนการที่ซับซ้อนและใช้เวลามาก ผู้รับผิดชอบ
โครงการวิจัยจึงมีแนวคิดท่ีจะนาเอาระบบรู้จาเสียงพูดโดยอัตโนมัติ (Automatic Speech Recognition) เข้ามา
เพื่อแก้ปัญหาดังกล่าว โดยหลักการทางานคือ เมื่อผู้ใช้พูดใส่ไมโครโฟน ระบบรู้จาเสียงพูดอัตโนมัติ (Automatic
Speech Recognition) จะแปลงสัญญาณเสยี งเป็นขอ้ ความทพ่ี ร้อมนาไปใช้งานต่อได้ทนั ที
ระบบรู้จาเสียงพูดอัตโนมัติ ( Automatic Speech Recognition) เป็นเทคโนโลยีท่ีสามารถ
นาไปใช้ได้อย่างหลากหลาย อย่างเช่น ในอุตสาหกรรมดูแลสุขภาพ (Health Care) การส่ังการรถยนต์
การโทรสนเทศ (Telematics) การรายงานในศาล (Court reporting หรือ Real-time Voice Writing)
คอมพิวเตอร์แฮนด์ฟรี โทรศัพท์มือถือ หุ่นยนต์ ระบบตอบรับอัตโนมัติ (Interactive Voice Response) และ
การควบคุมการจราจรทางอากาศ อีกงานท่ีสาคัญอย่างหนึ่งของการใช้งานระบบรู้จาเสียงพูด ( Speech
Recognition) คือ แปลงเสียงจากคาพูดให้กลายเป็นตัวหนังสือได้อย่างแม่นยา เพียงแค่พูดภาษาน้ันชัดเจน
ก็สามารถแปลงเป็นตัวเขียนได้ ซึ่งจะเป็นการลดเวลาการทางานของหน่วยงานหลาย ๆ หน่วยงานของ
กรมสอบสวนคดีพิเศษ หรือหน่วยงานต่างๆ ในกระทรวงยุติธรรมได้โดยไม่จาเป็นต้องไปนั่งฟังและพิมพ์ตาม
ซ่งึ เป็นการส้ินเปลืองเวลาและทางานซา้ ซ้อนหลายขัน้ ตอน
ส่วนพฒั นาระบบงานสืบสวนสอบสวนคดีพิเศษ กองพฒั นาและสนับสนุนคดีพิเศษ ซ่ึงมีหน้าที่รับผิดชอบ
งานวิจัยและพัฒนาของกรมสอบสวนคดีพิเศษ ไดเ้ ล็งเห็นถึงความจาเป็นในการใช้งานระบบรู้จาเสียงพูดอัตโนมัติ
เพื่องานสอบสวนคดีพิเศษ จึงได้ดาเนินโครงการออกแบบและสร้างระบบรู้จาเสียงพูดอัตโนมัติ (ระยะท่ี 1) ขึ้น
โดยวา่ จ้างที่ปรึกษามหาวิทยาลัยเทคโนโลยพี ระจอมเกลา้ พระนครเหนือ (มจพ.) ซ่ึงเป็นมหาวิทยาลัยในกากับของ
รัฐท่ีมีการเรียนการสอนดา้ นวทิ ยาศาสตร์ ดา้ นเทคโนโลยี และด้านวศิ วกรรม และมีความรู้และความเชี่ยวชาญใน
ศาสตร์ท่ีเกี่ยวข้อง ซ่ึงรวมไปถึงด้านเทคโนโลยีสารสนเทศและคอมพิวเตอร์เพ่ือดาเนินการวิจัยโครงการออกแบบ
และสร้างระบบรู้จาเสยี งพูดอตั โนมตั ิ (ระยะท่ี 1) ใหส้ าเร็จลลุ ่วงตามเปา้ หมายของโครงการ
โครงการวิจัยนี้ได้รับงบประมาณวิจัยจากสานักกิจการยุติธรรม กระทรวงยุติธรรม ประจาปีงบประมาณ
พ.ศ.2561 โครงการวิจัยฯ มีขั้นตอนการวิจัยต้ังแต่เริ่มนิยามปัญหาของการวิจัยโดยทีมวิจัยเข้ามาสารวจ
จ
ฉ
ความต้องการของผู้ใช้และรวบรวมข้อมูลท่ีใช้ในการจัดทาระบบ จากน้ันจัดประชุมเพ่ือรับฟังความเห็นจาก
ผู้เก่ียวข้องและผู้เชี่ยวชาญเพ่ือสรุปวางแผนเตรียมความพร้อมของการดาเนินงาน ทาการออกแบบและวิเคราะห์
อัลกอริทึมเพื่อให้สอดคล้องกับภารกิจของกรมสอบสวนคดีพิเศษ พัฒนาซอฟต์แวร์ต้นแบบโดยเลือกใช้ระบบ
รู้จาเสียงพูดภาษาไทย “พาที (PARTII)”ของเนคเทคซ่ึงเป็นซอฟต์แวร์ท่ีสร้างโดยนักวิจัยไทย จึงเหมาะสมกับ
กรมสอบสวนคดีพิเศษท่ีต้องการการรักษาข้อมูลที่เป็นความลับ แตกต่างจาก ซอฟต์แวร์ต่างประเทศท่ี
เคร่ืองแม่ข่าย (Server) อยู่ต่างประเทศที่ข้อมูลอาจไม่มีความมั่นคงปลอดภัยได้ เม่ือจัดทาโปรแกรมและระบบ
สาเร็จแล้ว มีการทดสอบการใช้งานจากผู้ใช้งานและปรับปรุงระบบเพื่อความถูกต้องความสมบูรณ์ปลอดภัยและ
มีคณุ ภาพท่ดี ี ทาการรวบรวมข้อผดิ พลาดและพัฒนาระบบปรับปรุงแกไ้ ขซอฟตแ์ วรใ์ หม้ คี วามสมบูรณ์มากขึน้ ผา่ น
การประชมุ เพอื่ รายงานโครงการต่อผเู้ ก่ยี วขอ้ งและผู้เชี่ยวชาญ
จากผลของโครงการวิจัยฯ ทาให้ได้ระบบรู้จาเสียงพูดที่สามารถแปลงเสียงพูดให้เป็นตัวหนังสือได้
ผ่านโปรแกรมไมโครซอฟท์เวิร์ดที่ใช้งานท่ัวไปทั้งแบบเรียลไทม์ และสามารถนาไฟล์เสียงหรือวิดีโอส่งให้ระบบ
ถอดข้อความเป็นตัวหนังสือได้ จึงสามารถนามาใช้ในการสอบสวนหรือการถอดรายงานการประชุม
ทาให้ลดระยะเวลาการทางานส่งผลให้การปฏิบตั ิงานมีประสทิ ธภิ าพยง่ิ ขึน้
ฉ
สารบญั ช
หนา้
กิตติกรรมประกาศ ..............................................................................................................................................ก
บทคัดยอ่ .............................................................................................................................................................ข
Abstract............................................................................................................................................................ค
บทสรปุ ผู้บริหาร..................................................................................................................................................จ
บทท่ี 1 บทนา.....................................................................................................................................................1
1.1 ความเป็นมา ....................................................................................................................................1
1.2 วัตถปุ ระสงค์....................................................................................................................................3
1.3 เป้าหมาย.........................................................................................................................................3
1.4 ขอบเขตการดาเนนิ งาน ...................................................................................................................3
1.5 รปู แบบ/เทคนคิ ...............................................................................................................................3
1.6 วิธกี ารดาเนนิ งาน ..........................................................................................................................13
1.7 ข้ันตอนและระยะเวลาดาเนินงาน ..................................................................................................13
1.8 ศกึ ษาสภาพปญั หาของระบบเดมิ และออกแบบโครงสรา้ งระบบใหม่ ..............................................15
บทที่ 2 การวิเคราะห์และออกแบบระบบอลั กอรทิ มึ ..........................................................................................23
2.1 ปญั หาและอุปสรรคของระบบรวมท้ังขดี จากัดต่าง ๆ.....................................................................26
บทที่ 3 ผลการทดสอบระบบและรับฟงั ความคิดเหน็ ........................................................................................27
3.1 ผลการประชุมเพ่อื รับฟังความเห็น ความต้องการและปัญหาจากผู้ใช้งาน ผเู้ กี่ยวข้องและ
ผู้เช่ยี วชาญของกรมสอบสวนคดีพิเศษ (คร้งั ท่ี 1).................................................................................27
3.2 ผลการประชุมเพ่อื รายงานความก้าวหนา้ ของโครงการตอ่ ผู้เกี่ยวข้องและผู้เชยี่ วชาญ และรบั ฟัง
ความคิดเห็น (คร้ังท่ี 2) ........................................................................................................................31
3.3 ผลการประชุมเพ่อื รายงานสรุปโครงการตอ่ ผู้เกี่ยวข้องและผู้เชยี่ วชาญ และรับฟังความคิดเห็น (ครั้ง
ท่ี 3) .....................................................................................................................................................35
บทที่ 4 ผลทดสอบการใชง้ านครงั้ ท่ี 1 และครัง้ ที่ 2 และปรบั ปรงุ ระบบ............................................................40
เอกสารอา้ งองิ ...................................................................................................................................................42
ประวตั ิคณะวจิ ยั ................................................................................................................................................44
1
บทท่ี 1
บทนา
1.1 ความเป็นมา
กรมสอบสวนคดีพิเศษมีพันธกจิ เก่ียวกบั การปอ้ งกัน การปราบปราม การสืบสวนและการสอบสวนคดี
ความผิดทางอาญาท่ีตอ้ งดาเนินการสืบสวนและสอบสวนโดยใช้วิธกี ารพิเศษตามกฎหมายว่าด้วยการสอบสวน
คดีพิเศษ โดยในปัจจุบันการเก็บข้อมูลการสอบสวนบุคคลต่าง ๆ อยู่ในรูปแบบของข้อความที่ต้องถูก
ถอดออกมาจากเสียงในข้ันตอนการสอบสวน ซ่ึงเป็นกระบวนการท่ีซับซ้อนและใช้เวลามาก ดังน้ันคณะผู้วิจัย
จึงมีแนวคิดที่จะนาเอาระบบรู้จาเสียงพูดโดยอัตโนมัติ (Automatic Speech Recognition) เข้ามาเพ่ือ
แก้ปัญหาดังกล่าว โดยหลักการทางานคือ เม่ือผู้ใช้พูดใส่ไมโครโฟน ระบบรู้จาเสียงพูดอัตโนมัติ (Automatic
Speech Recognition) จะแปลงสญั ญาณเสยี งเป็นขอ้ ความทพี่ ร้อมนาไปใชง้ านต่อได้ทันที
ในการดาเนินชีวิตประจาวันของมนุษย์น้ันมีการติดต่อสื่อสารกับคอมพิวเตอร์อยู่ตลอดอาจจะโดย
การตดิ ต่อดว้ ยมอื ผ่านอปุ กรณ์นาเขา้ (Input Devices) ที่ปจั จุบันได้มีการพัฒนาข้นึ มาหลายชนิด เชน่ คยี ์บอร์ด
หรือ เมาส์ หรือ ปุ่มท่ีมีอยู่หลากหลายบนแป้นโทรศัพท์ แต่การติดต่อท่ีเป็นธรรมชาติมากท่ีสุด คือ
การใช้เสียงพูด การติดต่อกับคอมพิวเตอร์ด้วยเสียงพูดน้ันช่วยอานวยความสะดวกในการใช้งานคอมพิวเตอร์
ให้กับผู้ใช้ต่าง ๆ ได้ เช่น ผู้สูงอายุท่ีไม่มีความชานาญในการใช้อุปกรณ์นาเข้าท่ีมีอยู่มากมายหลายชนิด
และผู้ที่มีความทุพพลภาพทางร่างกาย ไดแ้ ก่ ผพู้ ิการทางมอื และผพู้ ิการทางสายตา
ระบบรู้จาเสียงพูดอัตโนมัติ (Automatic Speech Recognition) เป็นเทคโนโลยีที่สามารถ
นาไปใช้ได้อย่างหลากหลาย อย่างเช่น ในอุตสาหกรรมดูแลสุขภาพ (Health Care) ผู้ที่ใช้ประโยชน์จาก
เทคโนโลยีนี้ คือ ฝ่ายธุรการ และหมอ พยาบาล เภสัชกรที่ไม่ถนัดการพิมพ์, หรือแม้กระทั่งทางการทหาร
ก็สามารถนาเทคโนโลยีนี้ไปใช้เพ่ือสั่งการระบบนักบินอัตโนมัติ (Autopilot), ติดต้ังความถี่คล่ืนวิทยุ หรือ
ควบคุมการบิน (flight display) เป็นต้น นอกจากน้ี เทคโนโลยีน้ียังสามารถนาไปใช้ประโยชน์อย่างอ่ืนได้อีก
เช่น การแปลอัตโนมัติ, การสั่งการรถยนต์, การโทรสนเทศ (Telematics), การรายงานในศาล (Court
reporting หรือ Real-time Voice Writing), คอมพิวเตอร์แฮนด์ฟรี, โทรศัพท์มือถือ, หุ่นยนต์, ระบบตอบรับ
อัตโนมตั ิ (Interactive Voice Response) และการควบคุมการจราจรทางอากาศ เป็นต้น
2
อีกงานที่สาคัญอย่างหนึ่งของการใช้งานระบบรู้จาเสียงพูด (Speech Recognition) เทคโนโลยี คือ
แปลงเสียงจากคาพูดของเรากลายเป็นตัวหนังสือได้อย่างแม่นยา เพียงแค่พูดภาษานั้นชัดเจนก็สามารถ
แปลงเป็นตัวเขียนได้ ซ่ึงจะเป็นการลดเวลาการทางานของหน่วยงานหลาย ๆ หน่วยงานได้ โดยไม่จาเป็นต้อง
ไปนงั่ ฟงั และพมิ พต์ าม ซง่ึ เปน็ การสิ้นเปลอื งเวลาและทางานซ้าซ้อนหลายขน้ั ตอน
ส่วนพัฒนาระบบงานสืบสวนสอบสวนคดีพิเศษ กองพัฒนาและสนับสนุนคดีพิเศษ ซึ่งมีหน้าที่
รับผิดชอบงานด้านวิจัยและพัฒนา ของกรมสอบสวนคดีพิเศษ ได้เล็งเห็นถึงความจาเป็นใน
การใช้งานระบบรู้จาเสียงพูดอัตโนมัติเพ่ืองานสอบสวนคดีพิเศษ จึงได้ดาเนินการโครงการพัฒนาระบบรู้จา
เสียงพูดอัตโนมัติเพ่ืองานสอบสวน (ระยะที่ 1) ขึ้น
ท้ังนี้ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ (มจพ.) ซงึ่ เป็นมหาวิทยาลัยในกากับของรัฐ
ท่ีมีการเรียนการสอนด้านวทิ ยาศาสตร์ ดา้ นเทคโนโลยี และด้านวศิ วกรรม และมีความรู้และความเช่ียวชาญใน
ศาสตร์ทีเ่ ก่ยี วขอ้ ง ซ่ึงรวมไปถึงด้านเทคโนโลยีสารสนเทศและคอมพวิ เตอร์ จะดาเนินการโครงการพฒั นาระบบ
รู้จาเสียงพดู อัตโนมัตเิ พอ่ื งานสอบสวนให้สาเร็จลุลว่ งตามเป้าหมายของโครงการ
จากขอ้ เสนอของทางกรมสอบสวนคดพี เิ ศษ ทางทมี วจิ ัยจงึ ใช้งาน “พาที (PARTII)” ระบบรจู้ าเสียงพูด
โดยอัตโนมัติ (Automatic Speech Recognition) ซ่ึงเป็นระบบรู้จาเสียงพูดภาษาไทย “พาที (PARTII)”
เวอร์ชัน 1.0 มีคณุ สมบัตสิ าคญั ดงั น้ี
• ไม่จากัดเนื้อหา (Open domain) – พาที ได้ใช้วิทยาการใหม่ท่ีสร้างขึ้น โดยมีพจนานุกรมในระบบ
ขนาดเพียง 40,000 คา บรรจุหน่วยคาผสมกับหน่วยพยางค์ท่ีใช้บ่อยในภาษาไทย หน่วยพยางค์
สามารถผสมเป็นคาใหม่ ๆ ท่ีระบบไม่รู้จัก ส่งผลให้ครอบคลุมคาศัพท์ได้ใกล้เคียงกับระบบที่มี
พจนานุกรมขนาดเกิน 140,000 คา ท้ังยังช่วยลดปริมาณทรัพยากรที่ต้องใช้ในการคานวณอย่างมาก
ดว้ ยเชน่ กัน
• ความแมน่ ยา 80% (Accuracy) – ภายใต้การทดสอบกบั เสยี งพดู ผ่านช่องทางขอ้ มลู (data channel)
ด้วยสมาร์ทโฟน โดยไม่กาหนดเนื้อหา ผู้พูด หรือรูปแบบการพูด ระบบให้ความถูกต้องของการรู้จา
เกอื บ 80% ซ่งึ ใกลเ้ คยี งกบั บรกิ ารจากต่างประเทศ (ทดสอบเมื่อพฤษภาคม 2557)
• ตอบสนองภายใน 1.5xRT (Response time) – การทดสอบความเร็วในการตอบสนองภายใต้
เครือข่าย WiFi และเครือข่าย 3G จาลอง พบว่าพาทีสามารถตอบสนองไดภ้ ายในเวลาไม่เกิน 1.5 เท่า
ของความยาวของเสียงอินพุต ซึ่งใกล้เคียงกับการตอบสนองของบริการรู้จาเสียงพูดภาษาไทยจาก
ตา่ งประเทศ
• เว็บบริการพร้อมติดตั้งและปรับแต่งได้ ( Customizable) – จุดเด่นสาคัญของ พาที คือ
ความเชย่ี วชาญของทีมวจิ ยั และพฒั นาในการปรบั แตง่ ระบบตามความตอ้ งการ
• ปจั จุบนั พาที อยู่ในรูปแบบเว็บบริการพร้อมติดต้ังในหน่วยงานทีต่ อ้ งการใช้งาน สามารถขยายบรกิ าร
ตามปริมาณการใช้งาน และปรับแตง่ ระบบให้ถอดความได้ถูกต้องมากขึ้นในเน้ือหาหรือผู้พดู ท่ีกาหนด
ได้
3
1.2 วัตถปุ ระสงค์
เพ่ือพัฒนาระบบทีส่ ามารถจดั เก็บเสยี งพูดหรือสนทนาขณะมกี ารสอบสวนและแปลงเสียงพูดท่เี กดิ ขึน้
ใหอ้ ย่ใู นรูปแบบของตวั หนังสอื ตามเสยี งพดู ไดจ้ ากขน้ั ตอนกระบวนการสอบสวนได้
1.3 เป้าหมาย
มีระบบท่ีสามารถจัดเก็บเสียงพูดหรือสนทนาขณะมีการสอบสวนและแปลงเสียงพูดที่เกิดข้ึนให้อยู่ใน
รปู แบบของตวั หนงั สอื ตามเสยี งพดู ได้จากขนั้ ตอนกระบวนการสอบสวน 1 ระบบ
1.4 ขอบเขตการดาเนนิ งาน
1. มกี ารจัดเก็บข้อมูลเสียงเพอื่ สามารถนากลบั ใช้ในการแปลงเปน็ ตัวหนงั สอื ภายหลังได้
2. สามารถแปลงเสียงพูดท่ีเกิดข้ึนสนทนาขณะมีการสอบสวนหรือให้ถ้อยคาให้อยู่ในรูปแบบของ
ตวั หนงั สอื ได้
3. สามารถรองรบั ผู้พดู ได้ 4 คน
1.5 รปู แบบ/เทคนคิ
หลักการรู้จาเสียงพูดภาษาไทยในปัจจุบันได้มีงานวิจัยจานวนมาก ท่ีมีการวิจัยเก่ียวกับการรู้จา
เสียงพูดภาษาไทย ไม่วา่ จะเป็นเสียงพูดภาษาไทยกลาง หรือแม้กระท่ังเสียงพูดภาษาถิน่ โดยเน้นหลักการสรา้ ง
ระบบรู้จาเสียงพูดซึ่งได้แสดงไว้ในรูปท่ี 1 ซ่ึงการทางานจะประกอบด้วยการประมวลผลเบื้องต้น
(Preprocessing) การสกัดค่าลักษณะสาคัญ (Feature extraction) และการรู้จา (Recognition)
สัญญาณเสียง
การประมวลผลเบอื้ งต้น
การสกดั คณุ ลักษณะสาคญั
การรู้จา
ผลการเรยี นรู้
รปู ที่ 1 หลักการโดยท่ัวไปของระบบระบุคาพูด
การรู้จาเสียงพูดเริ่มต้นด้วยข้ันตอนของการประมวลสัญญาณเบ้ืองต้นซ่ึงเป็นขั้นตอนในการจัดเตรียม
เสียงพูด โดยเริ่มตั้งแต่การแปลงสัญญาณเสียงพูดท่ีได้มาจากการบันทึกเสียงมาเป็นสัญญาณเชิงเลขซึ่งได้เป็น
ข้อมูลเสียงพูด เพ่ือท่ีจะนาไปใช้ในการประมวลผลในข้ันตอนต่อไปได้ เน่ืองจากสัญญาณเสียงพูดเป็น
4
ค่าทางสถิติที่เปล่ียนแปลงตามเวลา ทาให้ไม่สามารถจาลองสัญญาณเสียงพูดเป็นค่าทางสถิติได้ ด้วยเหตุน้ี
ในการประยุกต์ใช้งานเสียงพดู กับกรรมวธิ ีสัญญาณดิจิทัลจึงจาเป็นตอ้ งแบ่งสัญญาณเสียงพูดออกเป็นส่วนย่อย
ส้ันๆ เรียกว่า กรอบเสียงพูดโดยในแต่ละส่วนย่อยนั้นจะมีความยาวประมาณ 10-40 มิลลิวินาที
ทาให้กรอบเสียงพดู แตล่ ะกรอบมคี า่ ทางสถิตเิ ปลี่ยนแปลงตามเวลาน้อยมาก จนถอื ได้ว่าในแต่ละกรอบเสียงพูด
มีค่าทางสถิติไม่เปล่ียนแปลงตามเวลา จึงสามารถประมวลผลโดยใช้ค่าทางสถิติกับสัญญาณเสียงพูด
ในแต่ละกรอบได้ ซ่ึงข้ันตอนของการวางกรอบสัญญาณน้ี คือการแบ่งสัญญาณเสียงพูดออกเป็นส่วนย่อย ๆ
เพ่ือใช้ในการหาค่าสหสัมพันธ์ ซ่ึงมีหลายชนิดด้วยกัน เช่น หน้าต่างแฮมมิ่ง หน้าต่างแฮนนิ่ง เป็นต้น
ในงานวจิ ัยทว่ั ไป สว่ นใหญ่จะเลอื กใชฟ้ งั ก์ชนั กรอบแบบหน้าตา่ งแฮมม่ิง ดังแสดงในรปู ท่ี 2
รปู ท่ี 2 ฟังก์ชันกรอบชนดิ Hamming Windows
การวางกรอบขนาดสัญญาณ สามารถทาได้ด้วยการลดทอนแอมปลิจูดอย่างช้า ๆ ที่บริเวณปลายแต่
ละข้างของกรอบข้อมูลเสียงพูดเพ่ือป้องกันการเปล่ียนแปลงท่ีไม่ต่อเน่ืองอย่างกระทันหันท่ีส่วนปลาย
กรอบสัญญาณและเพื่อเป็นการสร้างค่าการประสานสาหรับผลจากการแปลงฟูริเยร์ของฟังก์ชันกรอบและ
แถบสเปตรัมของเสียงพูด โดยสัญญาณเสียงที่ผ่านการแปลงสัญญาณเป็นดิจิทัลแล้วผ่านการประมวลผล
เบ้ืองตน้ สามารถสรปุ เป็นข้ันตอนหลกั ๆ เพ่ือใหเ้ กิดความเข้าใจไดง้ ่ายข้นึ ดงั นี้
1. การกรองทางความถ่ี (Filtering) เปน็ ขั้นตอนในการกรองสญั ญาณในช่วงความถี่ทีไ่ มต่ อ้ งการออกโดย
อาศัยตวั กรองแบบดจิ ทิ ัล ดงั แสดงในรูปท่ี 3
รปู ท่ี 3 การกรองความถีส่ ัญญาณเสยี งพดู แบบ low-pass filter
5
2. การตัดหัว-ท้ายเสียง (Endpoint detection) เป็นข้ันตอนในการกาหนดจุดเร่ิมต้นและจุดส้ินสุดของ
เสียง โดยการแยกส่วนท่ีเป็นคาพูดออกจากส่วนท่ีไม่ใชค่ าพูด ดงั แสดงในรูปที่ 4 วธิ ีในการตดั หัว-ท้าย
เสียงมีหลายวิธี เช่น ใช้ค่าระดับพลังงาน (Energy level) ใช้อัตราการตดั ศูนย์ (Zero-crossing rate)
เป็นตน้
รูปท่ี 4 การตัดหัว-ท้ายเสียง ของสัญญาณเสียงพดู ท่ีตอ่ เนื่อง
3. การนอร์มอลไลซ์ทางเวลา (Time normalization) เป็นข้ันตอนการเพ่ิมหรือลดขนาดความยาวของ
สัญญาณในเชิงเวลา เพ่ือปรับแต่งขนาดความยาวของสัญญาณให้เหมาะสมตามต้องการ ทั้งนี้
จะข้ึนอยู่กับกระบวนการในการรู้จาเสียงว่าจาเป็นต้องนอร์มอลไลซ์สัญญาณให้เท่ากันหรือไม่ วิธีการ
นอร์มอลไลซ์ทางเวลามีหลายวิธี เช่น การเปลี่ยนอัตราการชักตัวอย่าง (Sampling rate changing)
การประมาณค่าในช่วงเชิงเส้น (Linear interpolation) และการเหลื่อมและรวมส่วนย่อยแบบ
ซิงโครไนซ์ (Synchronized overlap-and-add) เปน็ ต้น
รปู ที่ 5 การสุม่ สญั ญาณ (signal sampling) และการควอนไทซ์ (quantization)
6
รูปท่ี 6 ตัวอยา่ งเสยี งพูด
จากรูปที่ 5 และรูปที่ 6 เป็นตัวอย่างของการการสุ่มสัญญาณ (signal sampling) และการควอนไทซ์
(quantization) จากตวั อย่างเสยี งพดู โดยทโ่ี ดเมนของ การแปลง (transformed domain) แบง่ ออกเป็น
1. ความถ่ี (frequency) หรือฟรู เิ ยร์ (Fourier)
a. การแปลงฟูริเยร์ (Fourier transform –FT)
b. การแปลงฟรู ิเยรไ์ ม่ตอ่ เนื่อง (Discrete Fourier transform –DFT)
c. อัลกอริทึมในการแปลงฟรู ิเยร์ไม่ต่อเน่อื งอยา่ งเรว็ (Fast Fourier transform –FFT)
d. การแปลงโคซายนไ์ มต่ อ่ เนอื่ ง (Discrete Cosine Transform-DCT)
2. เวลาและความถี่ (time-frequency)
a. การแปลงฟรู ิเยรใ์ นเวลาช่วงสน้ั (Short time Fourier transform – STFT)
3. เวลาและสเกล (time-scale) หรอื เวฟเลต (wavelets)
a. การแปลงเวฟเลต (Wavelet transform)
ขั้นตอนท่ีสาคัญอีกขั้นตอนหนึ่ง คือการสกัดค่าลักษณะสาคัญเป็นการวิเคราะห์สัญญาณเสียงพูดเพื่อ
หาค่าท่ีเหมาะสม สาหรับใช้เป็นตัวแทนข้อมูลเสียงพูดซึ่งเก็บรวบรวมลักษณะสาคัญของเสียงพูดแต่ละเสียง
โดยจะนาค่าเหล่าน้ีไปฝึกฝนระบบให้รับรู้ถึงความแตกต่างของเสียงพูดแต่ละเสี ยงและใช้ในการเปรียบเทียบ
เพ่ือแบ่งแยกความแตกต่างของเสียงพูดแต่ละเสียงออกจากกัน ซ่ึงการวิเคราะห์หาค่าท่ีใช้แทนสัญญาณเสียง
ที่นาไปใช้ในขั้นตอนการรู้จา แบ่งได้เป็น 3 กลุ่มหลัก กลุ่มแรกเป็นค่าลักษณะสาคัญระดับสูง (High level
feature) ได้แก่ สาเนียงการพูด รูปแบบในการพูด และความเร็วในการพูด เป็นต้น กลุ่มท่ีสอง จะใช้
ค่าลักษณะสาคัญทางฉันทลักษณ์ (Prosodic feature) เช่น ค่าความถ่ีมูลฐาน (Fundamental frequency)
ความถี่ฟอร์แมนท์ (Formant frequency) และระดับพลังงาน (Energy profile) เป็นต้น ถึงแม้ว่าค่าลักษณะ
สาคัญแบบนี้จะมีประสิทธิภาพสูงในการรู้จา แต่ยากในการสกัดจากสัญญาณ กลุ่มสุดท้ายเรียกว่าค่าลักษณะ
สาคัญแบบเอนเวโลปของสเปกตรัม(Spectral envelop feature) เป็นกลุ่มที่นิยมใช้กันมาก เน่ืองจาก
ค่าลักษณะสาคัญส่วนใหญ่สาหรับการรู้จาเสียงจะรวมอยู่ในข้อมูลเชิงสเปกตรัมน้ี อีกทั้งยังง่ายและสะดวกใน
7
การคานวณหาค่าด้วย ตัวอย่างค่าลักษณะสาคัญแบบนี้ได้แก่ สัมประสิทธิ์การประมาณพันธะเชิงเส้น (Linear
prediction coefficients: LPC) ซ่ึง เป็นเทคนิคท่ีนิยมนามาใช้ในการวิเคราะห์คุณสมบัติทางกายภาพของ
สญั ญาณ เช่น Spectral magnitude ของสัญญาณ เทคนิคนพ้ี จิ ารณาไดร้ วดเรว็ แมน่ ยาและมีประสิทธิภาพซึง่
ก็ใช้ได้ดีสาหรับสัญญาณเสียงพูดและนามาประยุกต์ใช้กับระบบการรู้จาเสียงพูดได้เป็นอย่างดี แบบจาลอง
การประมาณพันธะเชิงเส้นเป็นแบบจาลองแบบใช้ค่าพารามิเตอร์ (Parametric Model) ซ่ึงจาลองให้
คา่ พารามเิ ตอรท์ ไี่ ดน้ ้เี กนิ จากชอ่ งทางเดนิ เสียงเพ่อื จาลองเปน็ สญั ญาณเสียงพดู
นอกจากนั้นยังมีวิธีอื่นๆอีก เช่น การหาสัมประสิทธิ์เซปสตรัม (Cepstral coefficient) การหา
สัมประสิทธิ์เซปสตรัมบนสเกลเมล (Mel frequency cepstral coefficients: MFCC) เซปสตรัมแบบหักลบ
ค่าเฉลี่ย (Cepstral mean substraction:CMS) และเซปสตรัมแบบผ่านตัวกรองภายหลัง (Post filtered
cepstrum: PFL) เป็นต้น ทั้งยังมีการคานวณค่าการเปล่ียนแปลง (Derivative หรือ Delta) ของสัมประสิทธิ์
เหลา่ น้มี าใชเ้ ป็นคา่ ลักษณะสาคัญเพิ่มเตมิ ได้ด้วย
ข้ันตอนสุดท้าย คือ การรู้จา (Recognition) ซ่ึงประกอบด้วย 2 หน้าท่ีหลัก คือการนาเวกเตอร์ของ
ค่าลักษณะสาคัญของสัญญาณเสียง ท่ีอยู่ในชุดอ้างอิงหรือชุดฝึกฝน มาทาการเรียนรู้ เม่ือเรียนรู้แล้วเวกเตอร์
ของสัญญาณเสียงท่ีต้องการทดสอบการรู้จาจะถูกนาเข้ามาเทียบเคียงเพ่ือรู้จา ข้ันตอนในการเรียนรู้ น้ัน
ข้ึนอยู่กับวิธีในการรู้จาของระบบนั้นๆ บางวิธีก็เพียงแค่เก็บข้อมูลชุดเรียนรู้ไว้เปรียบเทียบกับข้อมูลชุดทดสอบ
เท่าน้ัน เช่น วิธีการรู้จาแบบหาค่าระยะห่างยูคลิเดียน (Euclidean distance) วิธีไดนามิกไทม์วาร์ปปิง
(Dynamic time warping: DTW) เป็นต้น ในขณะท่ีบางวิธี จะนาข้อมูลชุดเรียนรู้ไปแปลงเป็นค่าอ้างอิงที่
ต้องการ เช่น โครงข่ายประสาทเทียม (Artificial neural networks: ANN) จะนาข้อมูลชุดเรียนรู้ไปผ่าน
โครงข่ายท่ีสร้างขึ้น เพื่อจดจารูปแบบ และเก็บเป็นค่าน้าหนัก (Weight) แทน วิธีควอนไตซ์แบบเวกเตอร์
(Vector quantization: VQ) ซ่ึงจะแทนเวกเตอร์ท้ังหมด ของแต่ละสัญญาณเสียงอ้างอิงด้วยเวกเตอร์จานวน
ไม่มาก หรือการใช้แบบจาลองฮิดเดนมาร์คอฟ (Hidden markov model: HMM) โดยนาข้อมูลชุดฝึกฝนไป
ผ่านแบบจาลองท่ีสร้างข้ึนเพ่ือจดจารูปแบบ และเก็บค่าทางสถิติและค่าความน่าจะเป็นของแต่ละสถานะไว้
เป็นต้น แต่ทั้งหมดจะมีพ้ืนฐานอยู่ที่การคานวณระยะห่างของรูปแบบท่ีจะรู้จา และนาค่าระยะห่างที่ได้ไปใช้
ร้จู าตามแตล่ ะวิธีนัน้ ๆ การเลอื กใชว้ ธิ ีการร้จู า ขน้ึ อยูก่ ับขอ้ กาหนดของงาน เชน่ วิธี DTW และ ANN เหมาะสม
กับระบบแบบกาหนดคาพูดตายตัว ในขณะท่ีวิธี VQ และ HMM จะเหมาะสมกับระบบงานที่เป็นแบบ
ไม่กาหนดคาพูดมากกว่า ซึ่งในหลักของความเปน็ จรงิ แล้วในการรู้จา เราไม่ได้นาเอาสัญญาณเสยี งพูดจากผูพ้ ูด
ไปเทียบโดยตรง แตจ่ ะดึงเฉพาะค่าสาคัญของเสียงออกมา เราเรียกค่าสาคัญนี้วา่ Speech feature เพื่อนาไป
เป็นตวั แทนของเสียงในการรู้จาได้เป็นอย่างดี ข้ันตอนการแปลงน้ี ซ่ึงค่าที่ไดจ้ ะถูกเก็บเวกเตอร์ โดยที่เวกเตอร์
หน่ึงเวกเตอร์จะแทนสัญญาณเสียงยาวประมาณ 20 มิลลิวินาที แต่ละเวกเตอร์ก็แทนสัญญาณเสียง ท่ีค่อย ๆ
เลื่อนไปแบบคาบเกี่ยวกัน เช่นเล่ือนไปทีละ 10 มิลลิวินาที ดังรูปท่ี 10 ดังนั้น หากมีเสียงท่ียาว 1 วนิ าทีเข้ามา
กจ็ ะแทนดว้ ยเวกเตอร์จานวน 100 อนั
การเรียงลาดับ (Sequence) ของเวกเตอร์ที่แทนสัญญาณเสียงน้ีเรียกว่าลาดับการสังเกตการณ์
(Observation sequence) นอกจากน้ัน ในการรู้จายังต้องเข้าใจคุณลักษณะของแต่ละคาท่ีเราต้องใช้ใน
8
การรู้จาคือ Phone ซึ่งหมายถึง โมเดลการออกเสียง (Pronunciation model) โมเดลเสียง (Acoustic
model) และโมเดลภาษา (Language model)
1. Phone คือหน่วยย่อยสุดทางเสียง ตัวอย่างเช่น คาว่า “การ” อ่านออกเสียงด้วยเสียง “ก” ตาม
ด้วยสระ “า” และลงท้ายด้วย เสียงตัวสะกด “น” คือ Phone ในทางภาษาศาสตร์ จะมี
สัญลักษณ์มาตรฐานแทนเสยี ง Phone แต่ละเสียง ตัวอย่างเช่น “k” แทน เสียง “ก” “aa” แทน
สระ “า”
2. โมเดลการออกเสียง (Pronunciation model) จะบอก Sequence ของ Phone เช่น “การ”
ออกเสยี งวา่ “k aa n^” “ขนม” ออกเสยี งว่า “kh a n o m^”
3. โมเดลเสียง (Acoustic model) ซึ่งโดยปกติเราจะมีโมเดลเสียง 1 โมเดล ต่อ 1 Phone เมื่อเรา
ป้อน Observation sequence เข้าไปยังโมเดลเสียงใดๆ มันจะคานวณค่าความน่าจะเป็นท่ี
Observation sequence น้ันจะเป็นเสียงของ Phone น้ันๆ ความน่าจะเป็นที่ว่าน่ีเขียนสั้นๆว่า
P(O|p) โดยท่ี p คือโมเดลเสียงของ Phone ใด ๆ
โมเดลภาษา (Language model) คือตัวบอกให้ทราบว่า คา (Word) น้ี ตามด้วยคานี้ได้หรือไม่ หรือ
ในบางโมเดลจะบอกค่าความน่าจะเป็นท่ีคาใดๆ จะพูดต่อกัน เช่น โมเดลภาษาอาจจะบอกว่า “จะ ไป” ได้
แต่ “ไป จะ” ไม่ได้ หรืออาจจะบอกเป็นค่าความน่าจะเป็นว่า “จะ ไป” มีโอกาสเกิดได้ 0.8 แต่ “ไป จะ”
มีโอกาสเกิดได้แค่ 0.01 เป็นต้น โมเดลภาษาแท้จริงไม่เพียงบอกโอกาสท่ีคาสองคาจะเกิดคู่กันเท่าน้ัน ยัง
สามารถบอกด้วยว่า ท้ังประโยคมีโอกาสเกิด ได้เท่าไหร่ สมมุติว่าเรามีประโยค ซึ่งประกอบด้วยคาต่อ ๆ กัน
หลายๆ คา เช่น W = (w1...wM) โดยท่ี w แทนคาแต่ละคา โมเดลภาษาจะบอกว่า W สามารถเกิดได้หรือไม่
หรือบอกเป็น ค่าความน่าจะเป็นวา่ มีโอกาสเกิดมากน้อยแค่ไหน ขอแทนค่าความน่าจะเปน็ ด้วย P(W) ขั้นตอน
ของการรู้จามีขั้นตอนหลักๆ คือ ระบบรับ Observation sequence ที่ต้องการรู้จาเข้ามา โดยจะเริ่มด้วย
การเดาว่าเป็นคาใดต่อ ๆ กัน จะเป็นประโยค ว่า “ฉัน รัก เธอ” ประโยคว่า “ฉัน หิว ข้าว” หรือ “อาหาร
อร่อย ดี” ฯลฯ หลังจากเดาประโยคขึ้นมาแล้ว จะส่งประโยคน้ันเข้าไปยัง Language model ได้
ค่าความน่าจะเป็น P(W) ท่ีจะเกิดประโยคดังกล่าว แล้วจะทาการแปลงประโยคเป็นเสียงอ่านโดยอาศัย
Pronunciation model เมอ่ื ได้ Sequence ของ Phone แลว้ กจ็ ะเอา Acoustic model ของแตล่ ะ Phone
มาต่อกัน แล้วทาการป้อน Observation sequence เข้าไปยัง Acoustic model ของทั้งประโยค จะหา
ค่าความน่าจะเปน็ P(O|W) ซ่งึ เกิดจาก P(O|p) ของแต่ละ Phone คณู กนั และสุดท้ายก็จะนาเอา P(W) มาคณู
กับ P(O|W) ไดเ้ ป็น P(O,W) ซ่งึ หมายถึง โอกาสที่สัญญาณเสียงดังกล่าวจะเป็นเสียงประโยค W แล้วทาอย่างนี้
กับทุก ๆ ประโยคที่เดาขึ้นมา และเทียบค่า P(O,W) ว่าประโยค ไหนมีโอกาสสูงท่ีสุด ก็ตอบเป็นประโยคนั้น
ในกรณีที่ว่าประโยคที่เป็นไปได้มีหลาก หลายล้านล้านแบบ และไม่กาหนดว่าประโยคยาวเท่าไหร่ วิธีการแก้ไข
คือ การสร้าง Word network โดยเอาคามาต่อ ๆ กันในลักษณะของ Network ระหว่างคาก็กากับด้วยโอกาส
ที่แต่ละคาจะต่อกัน หรือ P(wi|wi-1) และในแตล่ ะคาก็ประกอบด้วย Acoustic model ของ Phone ที่ต่อกัน
เป็นเสียงอ่านของคาน้ัน ๆ แล้วเวลาทางานก็จะผ่านสัญญาณเสียงเข้าไป ในขณะท่ีผ่าน Node ของ Network
แต่ละ Node ก็จะ มีการคูณค่าความน่าจะเป็น P(O,W) ต่อ ๆ ไปเรื่อย ๆ หากในเส้นทางใดท่ี
ค่าความน่าจะเป็นรวมขณะน้ัน ตกต่ากว่าค่า Threshold ที่กาหนด ก็ให้เลิกว่ิงไปเส้นทางน้ัน เท่านี้ก็จะช่วย
9
ลดจานวนประโยคที่จะต้องคานวณลงไดม้ าก วธิ ีนี้จะเรียกว่า Beam search หรือการ Search ภายใน Beam
ที่กาหนดเท่าน้ัน นอกจากนั้นยังมีอีกวิธีในการกาหนด Beam ของการ Search โดยกาหนดให้ ณ ขณะใด ๆ
จะมีเส้นทางท่ีว่ิง ไปได้ ไม่เกิน N เส้นทาง วิธีนี้ก็ช่วยลดจานวนประโยคท่ีต้องคานวณลงมหาศาลเช่นกัน
เรยี กวิธีทสี่ องน้ีวา่ N-best search
วิธีที่ได้รับการนิยมอีกวิธี คือ แบบจาลองฮิดเดนมาร์คอฟ (HMM) แบบต่อเนื่อง ซึ่งงานวิจัยส่วนมาก
นยิ มใชเ้ ป็นแบบจาลองในการจดจาเสยี งพดู โดยทาการสร้างแบบจาลองฮดิ เดนมารค์ อฟเป็นแบบหนว่ ยพื้นฐาน
ของเสียง (phoneme) และแต่ละแบบจาลองจะใช้แบบจาลองฮิดเดนมาร์คอฟแบบ 5 สถานะ (state)
มกี ารเปล่ยี นสถานะแบบซา้ ยไปขวาและแต่ละสถานะเป็นแบบ 1 เกาสเ์ ซียน ดังแสดงในรปู ที่ 7
รปู ท่ี 7 แผนภาพแสดง HMM แบบ 5 สถานะ ทีม่ กี ารเปล่ยี นแปลงสถานะแบบซ้ายไปขวา
ส่วน K-nearest neighbor (K-NN) เป็นเทคนิคท่ีเหมาะกับปัญหาแบบการแบ่งกลุ่มข้อมูล
(classification) เทคนิคน้ีแตกต่างจากเทคนิคอ่ืนตรงที่มันไม่ได้ใช้ข้อมูลฝึกหัด (training data) ในการสร้าง
แบบจาลอง แต่จะใช้ข้อมูลนั้นมาเป็นตัวแบบจาลองเลย ในการใช้งานขั้นตอนวิธีการค้นหาเพ่ือนบ้านใกล้สุด
(K-NN algorithm) นั้นเราต้องระบุค่าตัวเลข จานวนเต็มบวกให้กับ k ด้วย ซ่ึงค่าน้ีจะเป็นตัวบอกจานวนของ
กรณี (case) ที่จะต้องค้นหาในการทานายกรณีใหม่ algorithm แบบ K-NN ได้แก่ 1-NN, 2-NN, 3-NN, …
K-NN โดยที่ k แทนเลขจานวนเต็มบวก เช่น 4-NN หมายถึง algorithm น้ีจะค้นหา 4 กรณีท่ีมีลักษณะ
ใกล้เคียงกับกรณใี หม่ (4 nearest cases) ในการทานายกรณใี หม่การเรยี นรแู้ บบเบย์อย่างงา่ ย (Naïve-Bayes)
เป็นเทคนิคที่ถูกต้ังช่ือตามโทมัส เบส์ (Thomas Bayes) เทคนิคแบบการเรียนรู้แบบเบย์อย่างง่าย (Naïve-
Bayes) ใช้ทฤษฎี Bayes Theorem ในการคานวณความน่าจะเป็นซึ่งถูกใช้ในการทานายผล เม่ือทา
การวิเคราะห์กรณีใหม่ การทานายผลทาได้โดยการรวมผลของตัวแปรอสิ ระ (independent variable) ทม่ี ีต่อ
ตัวแปรตาม (dependent variable) การเรียนรู้แบบเบย์อย่างง่าย (Naïve-Bayes) เป็นเทคนิคใน
การแก้ปัญหาแบบ classification ท่ีทั้งสามารถคาดการณ์ผลลัพธ์ได้และสามารถอธิบายได้ด้วย มันจะทา
ก า ร วิ เ ค ร า ะ ห์ ค ว า ม สั ม พั น ธ์ ร ะ ห ว่ า ง ตั ว แ ป ร อิ ส ร ะ แ ต่ ล ะ ตั ว กั บ ตั ว แ ป ร ต า ม เ พ่ื อ ใ ช้ ใ น ก า ร ส ร้ า ง เ งื่ อ น ไ ข
ความน่าจะเป็นสาหรับแต่ละความสัมพันธ์ ในทางทฤษฎีแล้วการทานายผลของ Naïve-Bayes จะถูกต้องถ้า
ตัวแปรอิสระท้ังหมดเป็นอิสระต่อกัน ไม่ข้ึนกับตัวแปรอิสระตัวใดตัวหน่ึง ซ่ึงในความเป็นจริงแล้ว
มีกรณีไม่มากนักท่ีตัวแปรอิสระท้ังหมดเป็นอิสระต่อกัน เทคนิคการเรียนรู้แบบเบย์อย่างง่าย (Naïve-Bayes)
10
ยังไม่รองรับข้อมูลท่ีเป็นข้อมูลต่อเน่ือง (continuous data) ด้วย ดังน้ัน ตัวแปรอิสระหรือตัวแปรตามท่ีมี
ค่าเป็นค่าต่อเนื่องจะต้องถูกแบ่งเป็นช่วง ซึ่งการแบ่งช่วงนั้น ถ้าแบ่งไม่เหมาะสม ก็จะมีผลต่อคุณภาพของ
แบบจาลองที่สร้างข้ึน แต่ถ้าไม่คานึงถึงข้อจากัดน้ีแล้ว เทคนิคการเรียนรู้แบบเบย์อย่างง่าย (Naïve-Bayes)
สามารถให้ผลลัพธ์ที่ดีและรวดเร็วได้ ความง่ายและความเร็วทาให้เทคนิคน้ีเป็นเคร่ืองมือที่ดีในการสร้าง
แบบจาลองและหารูปแบบความสัมพันธ์ที่ไม่ซับซ้อน โครงข่ายประสาทเทียม (Neural networks) มีพ้ืนฐาน
มาจากแบบจาลองการทางานของสมองมนุษย์ และก็สามารถใช้ได้ดีกับปัญหาการแบ่งกลุ่มข้อมูล และ
การวิเคราะห์การถดถอย เป็นระบบท่ีจาลองการทางานของสมองมนุษย์มาใช้ในการเรียนรู้ แยกแยะ ตัดสินใจ
ในสิ่งต่าง โดยสถาปัตยกรรมพ้ืนฐานของโครงข่ายประสาทเทียม ( Neural Network Architecture)
จากการทางานของเซลล์ประสาท ได้ถูกนาประยุกต์เป็นโครงสร้างทางคณิตศาสตร์ ดังแสดงดังรูปท่ี 8
ซง่ึ สามารถแยกโครงสรา้ งของโครงขา่ ยประสาทเทยี มออกเปน็ หลัก ๆ ได้ 2 โครงสร้างดงั นี้
โครงขา่ ยประสาทเทียมแบบชน้ั เดียว (Single layer artificial neural network)
โครงข่ายประสาทเทียมแบบหลายช้ัน (Multilayer artificial neural network)
รปู ท่ี 8 แบบจาลองทางคณิตศาสตรข์ องสมองมนุษย์
รูปท่ี 9 โครงขา่ ยประสาทเทยี มแบบหลายชน้ั ทใ่ี ช้การสอนแบบอัลกอริทมึ การแพรย่ อ้ นกลบั
(Backpropagation Neural Network)
11
โดยในโครงสร้างต่าง ๆ ประกอบดว้ ยเลเยอร์ ดังนี้ Input Layer, Hidden Layer, Output Layer ซงึ่
เราจะนาตัวอย่างของการอาศัยอัลกอริทึมในการสอนให้กับโครงข่ายป ระสาทเทียมใช้เทคนิค
แบ็กพรอบพาเกช่ัน โดยเทคนิคน้ีเป็นการใช้โครงสร้างแบบหลายชั้นในการเรียนรู้แบบมีผู้สอน (Supervised
Learning) มีการกาหนดค่าเป้าหมาย (Target) ท่ีต้องการไว้ และใช้โครงข่ายประสาทเทียม ในการปรับ
คา่ นา้ หนกั (Weight) ใหเ้ หมาะ ดงั แสดงรปู ที่ 9
ดังนั้นโครงการนี้เป็นอีกแนวทางหนึ่งในการอานวยความสะดวกสาหรับเจ้าหน้าที่สอบสวนของ
กรมสอบสวนคดีพิเศษ เพื่อลดเวลาในการบันทึกข้อมูลการสอบสวนจากเดิมท่ีใช้การพิมพ์สัมผัสตามเสียงพูด
ด้วยพนักงานสอบสวน โดยมีการปรับเปล่ียนมาเป็นระบบพิมพต์ ัวหนังสืออัตโนมัตติ ามเสียงพูด ระบบสามารถ
รองรับผู้ใช้ได้มากกว่า 1 คนในเวลาเดียวกันและเป็นแบบ Real Time และยังสามารถจัดเก็บลงใน
ระบบฐานข้อมูลโดยอัตโนมัติเพื่อใช้ประโยชน์ในการสืบค้นภายหลังได้ โดยข้ันตอนการทางานของระบบตาม
รปู ที่ 10
PARTY Server
Audio Data Text Data
Storage Application Server
Audio Files / Text Files
(Preprocessing)
PARTY
Server
PARTY Server
รูปที่ 10 ภาพรวมขนั้ ตอนการใชง้ าน
เริ่มจากในข้ันตอนของการสอบสวนพนักงานสอบสวน ผู้ต้องหาหรือพยาน ทาการสอบสวนหรือ
สนทนาผ่านไมโครโฟน โดยจะมีไมโครโฟนประจาตัวของแต่ละคน จากนั้นข้อมูลเสียงของการสอบสวนหรือ
สนทนาทาการประมวลผล(Preprocessing) เพ่ือตรวจสอบคุณลักษณะของเสียงที่ไม่พึงประสงค์ออกไป เช่น
12
เสียงรบกวน เป็นต้น จากน้ันระบบทาการส่งข้อมูลเสียงแยกตามไมโครโฟนของแต่ละคนไปยังโปรแกรมพาที
(PARTII) ท่ีพัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) เพิ่มทาการรู้จาให้
ออกมาเปน็ ข้อความตัวหนังสืออัตโนมัติตามเสียงพดู จากน้ัน ระบบทาการจัดเก็บข้อมูลเสียงและข้อความจาก
การสอบสวนหรือสนทนา เพอื่ ใช้ประโยชน์ในการสบื ค้นได้ในอนาคต
13
1.6 วธิ ีการดาเนนิ งาน
1. โปรแกรมรู้จาเสียงพูดอัตโนมัติ (Automatic Speech Recognition หรือ ASR) คือโปรแกรมที่
รับข้อมูลนาเข้าเป็นเสียงและแปลงให้กลายเป็นข้อความ (text) แบบเรียลไทม์ ซิสเต็ม(real-time)
ปัจจุบันมีใช้กันแพร่หลายขึ้นมาก อย่างสิริ (Siri) ของแอปเปิลก็สามารถพูดคุยโต้ตอบกันได้ หรือ
ตัวอย่างเคร่ืองใช้ไฟฟ้าบางย่ีห้อในปัจจุบัน ที่มีการเพ่ิมฟังก์ชันการสั่งการด้วยเสียง ระบบท่ีพัฒนาใน
ส่วนน้ีได้มีข้อมูลขาเข้าเป็นเสียงพูดผ่านทางไมโครโฟนและข้อมูลขาออกเป็นข้อความ โดยระบบ
ดงั กล่าวมีส่วนประกอบหลกั ดงั ต่อไปนี้
2. เริ่มต้นเม่ือมีการรับเสียงพูดท่ีเป็นภาษาไทยท่ีต้องการจากการสนทนา ผ่านทางไมโครโฟนเม่ือผู้พูด
พูดจบประโยค เสียงท่ีได้ท้ังหมดจะผ่านส่วนที่ทาการตัดหัวท้ายเพ่ือกาหนดให้เป็นประโยค
และทาการแปลงให้อยู่ในรูปแบบของท่ีเหมาะสม เช่น ขนาดของบิทเรท (Bit Rates) และ อัตราสุ่ม
ของเสยี ง (Sample Rates) เป็นต้น
3. เมื่อรับเสียงพูดมาแล้ว จากนั้นจะนาเสียงพูดทไ่ี ดน้ ั้นมาผา่ นส่วนของการรู้จาเสียงพูดภาษาไทยที่อยู่ใน
ส่วนของเครอื่ งใหบ้ รกิ ารโปรแกรมรูจ้ าเสยี งพดู อัตโนมตั ิ (Automatic Speech Recognition Server)
ซ่ึงจะให้ผลคือข้อความท่ีอยู่ในรูปแบบของตัวหนังสือและแสดงข้อความแบบอัตโนมัติ เพื่อให้ผู้ดูแล
สามารถตรวจได้ถึงกรณีท่ีเสียงพูดน้ันไม่ชัดเจน ซงึ่ อาจทาให้ข้อความที่ไดจ้ ากการสนทนานั้นผิดพลาด
ได้ โดยในส่วนนี้ระบบไม่สามารถตรวจสอบได้ว่าข้อความที่ได้มาถูกต้องครบถ้วนหรือไม่ จึงจาเป็น
ต้องให้ผู้ดูแลเป็นผู้ตรวจสอบและแจ้งให้ผู้พูดหรือสนทนาปรับปรุงการพูด เช่น พูดช้าลงหรือ
ใช้เสียงดังมากขนึ้ รวมไปถงึ การปรบั แต่งเสียงทอ่ี ุปกรณก์ อ่ นเขา้ สู่ระบบดว้ ย
4. เม่ือเสร็จข้ันตอนการแปลงข้อมูลเสียงให้เปน็ ตัวหนังสือเสร็จแล้วระบบจะทาการจัดเก็บข้อมูลเสียงลง
ระบบสารองข้อมูลเพ่อื เกบ็ ไว้สาหรบั สืบคน้ และใชง้ านในภายหลงั
5. สรปุ ผล/เขยี นรายงานการวิจยั
6. จัดพมิ พ์รายงานการวจิ ัยฉบบั สมบูรณ์
1.7 ขั้นตอนและระยะเวลาดาเนนิ งาน
ลาดบั กจิ กรรม เดอื นท่ี
ท่ี
1 2 3 4 5 6 7 8 9 10 11 12
1 นิยามปัญหา สารวจความต้องการของผู้ใช้ และ
รวบรวมข้อมูลที่ใช้ในการจดั ทาระบบ
ประชุมเพื่อรับฟังความเห็นจากผู้เกี่ยวข้องและ
ผเู้ ชย่ี วชาญ
สรปุ วางแผนเตรียมความพร้อมของการดาเนนิ งาน
14
ลาดับ กจิ กรรม เดือนท่ี
ท่ี
1 2 3 4 5 6 7 8 9 10 11 12
ส่งมอบงานงวดท่ี 1 ที่มีผลงานครบถ้วนตาม
ขอ้ กาหนดขอบเขตของงาน ฯ ตามข้อ 5.2
2 ออกแบบและวิเคราะห์อัลกอริทึม และทาการพัฒนา
ซอฟตแ์ วรต์ น้ แบบ ครง้ั ที่ 1
ประชุมเพ่ือรายงานความคืบหน้าของโครงการต่อ ****
ผู้เก่ยี วข้องและผูเ้ ช่ยี วชาญ และรบั ฟังความเห็น
3 ส่งมอบงาน งวดท่ี 2 ท่ีมีผลงานครบถ้วนตาม
ข้อกาหนดขอบเขตของงาน ฯ ตามข้อ 5.4.1
4 ทดสอบการใช้งานและปรับปรุงระบบ เพื่อความ
ถกู ต้อง, ความสมบูรณ,์ ปลอดภยั , และมีคณุ ภาพทดี่ ี
รวบรวมข้อผิดพลาดและพัฒนาระบบปรับปรุงแก้ไข
ตน้ ซอฟต์แวรแ์ บบท่ี 2
ประชุมเพ่ือรายงานความคืบหน้าของโครงการต่อ
ผเู้ กี่ยวข้องและผเู้ ชี่ยวชาญ และรับฟังความเหน็
5 ส่งมอบงาน งวดที่ 3 ที่มีผลงานครบถ้วนตาม
ขอ้ กาหนดขอบเขตของงาน ฯ ตามขอ้ 5.4.2
6 ทดสอบการใช้งานและปรับปรุงระบบ เพื่อความ
ถกู ต้อง, ความสมบูรณ,์ ปลอดภัย, และมีคุณภาพท่ดี ี
รวบรวมข้อผิดพลาดและพัฒนาระบบปรับปรุงแก้ไข
ซอฟตแ์ วรช์ ุดสมบรู ณ์
ประชุมเพื่อรายงานสรุปโครงการต่อผู้เกี่ยวข้องและ
ผ้เู ช่ยี วชาญ และรับฟงั ความเห็น
7 อบรมการใชง้ านระบบ
ส่งมอบงาน งวดที่ 4 รายงานฉบับสมบูรณ์ (Final
Report) ท่มี ีผลงานครบถว้ นตามข้อกาหนดขอบเขต
ของงาน ฯ ตามขอ้ 5.4.3
หมายเหตุ สญั ญาเลขที่ 47/2561 ลงวนั ที่ 29 มิถนุ ายน พ.ศ. 2561
ระยะเวลาดาเนนิ การต้ังแต่วันท่ี 30 มถิ ุนายน พ.ศ. 2561 ถึงวันท่ี 24 มถิ ุนายน พ.ศ. 2562
15
1.8 ศกึ ษาสภาพปัญหาของระบบเดิมและออกแบบโครงสร้างระบบใหม่
จากเก็บข้อมูลผู้ใช้แบบสอบถามปลายเปิด ( Open-ended questionnaire) สามารถสรุปผล
ความต้องการของผู้ใช้บริการท่ีมีต่อโครงการวิจัยการออกแบบและการสร้างระบบรู้จาเสียงพูดอัตโนมัติ
(ระยะที่ 1) ดงั นี้
พนักงานสอบสวน
รูปที่ 11 การใชง้ านกบั เอกสารต้นแบบ (template)
1.8.1 ใช้งานกับเอกสารต้นแบบ (template) ท่ีมีตัวอย่างดังรูปที่ 11 (ตามเอกสารท่ีแสดงใน ตารางที่ 1
ตารางท่ี 2 และ ตารางที่ 3 โดยเอกสารตัวจริงแสดงในภาคผนวกในตอนท้าย) โดยมีคุณสมบัติ
ดังต่อไปน้ี
ก. สามารถใช้งานในรูปแบบหนังสือแบบฟอร์มราชการของแต่ละหน่วยงานเช่น บันทึกถ้อยคา
เป็นตน้ โดยจะเป็นการแปลงข้อความให้ตามทผ่ี ใู้ ชต้ ้องการ จากนั้น ข้อความผลลัพธ์ จะถูกเติม
ลงในแบบฟอรม์ ที่กาหนดไว้ ดังรูปที่ 11
ข. ระบบสามารถข้ึนคาถามหรือข้อความแบบอัตโนมัติ ท่ีใช้งานบอ่ ยครั้งในแต่ละแบบฟอรม์ ต่างได้
เพื่อลดเวลาและเพ่ิมความถูกต้อง เช่น การแจ้งสิทธิ์ทางกฏหมาย หรือ คาถามเฉพาะ
ตามระเบียบกฎหมาย เปน็ ตน้
ค. ข้อความอัตโนมัติที่ข้ึนน้ันไม่สามารถแก้ไขได้ มีการป้องกันการแก้ไข เพื่อเพ่ิมความถูกต้อง
ลดโอกาสผดิ พลาดในการเขยี นคาถามผดิ ทาให้เกดิ ขอ้ ผดิ พลาดในทางกฎหมายได้
ง. ระบบควรมคี วามสามารถในการแทรกรปู ภาพไดข้ ณะใชง้ าน
จ. เมื่อแปลงเสียงเป็นข้อความใส่ในรูปแบบหนังสือแบบฟอร์มราชการของแต่ละหน่วยงานแล้ว
สามารถแก้ไขได้อย่างสะดวก โดยผลลัพธ์อาจอยู่ในรูปแบบของไฟล์ที่สามารถแก้ไขได้สะดวก
เช่น Microsoft Word
16
ตารางท่ี 1 เอกสารทีใ่ ชใ้ นการทาสานวนการสบื สวน
ลาดับท่ี รายการ หมายเหตุ
กสพ.๐๐๑(ส)
๑ ปกสานวนการสืบสวน
กสพ.๐๐๒.๑(ส)
๒ หนังสือแจ้งการสืบสวนหรอื สง่ ผลการสืบสวน กสพ.๐๐๒.๒(ส)
หรอื สานวนไปยังหนว่ ยงานของรฐั เอกชน หรอื ประชาชน กสพ.๐๐๒.๓(ส)
กสพ.๐๐๒.๔(ส)
๒.๑ แบบหนงั สอื แจ้งการรับเรอ่ื งเบอ้ื งต้นใหผ้ ู้ร้องทราบ กสพ.๐๐๒.๕(ส)
กสพ.๐๐๒.๖(ส)
๒.๒ แบบหนงั สือแจง้ การดาเนินการของหน่วยงานภายนอก กสพ.๐๐๒.๗(ส)
กสพ.๐๐๓(ส)
ใหผ้ รู้ อ้ งทราบ กสพ.๐๐๔(ส)
๒.๓ แบบหนังสอื สง่ เรอ่ื งใหห้ นว่ ยงานอืน่ กสพ.๐๐๕.๑(ส)
กสพ.๐๐๕.๒(ส)
๒.๔ แบบหนงั สือส่งเรื่องให้ ป.ป.ช กสพ.๐๐๖(ส)
กสพ.๐๐๗(ส)
๒.๕ แบบหนงั สือส่งเรอื่ งให้ ผบ.ตร. กสพ.๐๐๘(ส)
๒.๖ ตัวอยา่ งแจ้งผูว้ ่าฯ กสพ.๐๐๙.๑(ส)
๒.๗ แบบหนงั สอื ตดิ ตามเรอื่ งทสี่ ่งให้หนว่ ยงานอ่ืน กสพ.๐๐๙.๒(ส)
๓ บญั ชีสานวนการสบื สวน กสพ.๐๐๙.๓(ส)
๔ รายงานการสบื สวน กสพ.๐๐๙.๔(ส)
กสพ.๐๐๙.๕(ส)
๕ เอกสารเก่ียวกบั คาให้การผ้ใู หถ้ ้อยคา กสพ.๐๐๙.๖(ส)
๕.๑ คาให้การผ้ใู ห้ถอ้ ยคา
๕.๒ สาเนาเอกสารประกอบคาใหก้ ารผู้ใหถ้ อ้ ยคา **
๖ รายการพยานเอกสารและพยานวัตถ(ุ ตามแบบฟอร์มที่กาหนด)
๗ บนั ทกึ พนักงานสืบสวน
๘ เอกสารที่เกย่ี วกบั การใช้อานาจตามกฎหมายและเอกสารอ่ืน ๆ
ตวั อย่างเชน่ การตรวจคน้ บันทกึ การประชมุ การตดิ ตอ่ กบั
หน่วยงานราชการอนื่ เป็นตน้ (ถา้ มี) **
๙ เอกสารท่แี สดงถงึ อานาจในการสืบสวน
(เรอ่ื งเดมิ บนั ทึกเสนอให้ทาการสืบสวน และคาสั่งแตง่ ตง้ั
คณะพนักงานสบื สวน)
๙.๑ แบบคารอ้ งขอให้ กสพ.ดาเนนิ การในเรอ่ื งทางอาญา
(แบบ ศบพ.๑)
๙.๒ แบบคาสงั่ แตง่ ต้ังคณะทางานสืบสวนตาม
มาตรา ๒๓/๑ วรรคหนึง่ (แบบ ศบพ.๓)
๙.๓ แบบคาสง่ั แตง่ ต้งั คณะทางานสบื สวนตาม
มาตรา ๒๓/๑ วรรคสอง (แบบ ศบพ.๔)
๙.๔ แบบคาร้องขอออกเลขสานวนสืบสวน (แบบ ศบพ.๖)
๙.๕ แบบรายงานความคบื หนา้ การสบื สวน(แบบ ศบพ.๘)
๙.๖ แบบขอจาหนา่ ยสานวนสืบสวน/เรอื่ งตรวจสอบขอ้ เท็จจรงิ
ออกจากสารบบคดี (แบบ ศบพ.๑๑)
17
**หมายเหตุ เป็นเอกสารท่ไี มม่ รี ูปแบบ หรอื เปน็ เอกสารทน่ี าเขา้ จากภายนอก ไม่สามารถระบตุ าแหน่งใน
การเตมิ ขอ้ ความลงไปได้
ตารางที่ 2 เอกสารทีใ่ ช้ในการสอบสวนคดพี เิ ศษ
ลาดบั ท่ี รายการ หมายเหตุ
กสพ.๐๐๑
๑ ปกสานวนการสอบสวน กสพ.๐๐๒
กสพ.๐๐๓
๒ หนงั สอื ส่งสานวนการสอบสวน กสพ.๐๐๔
๓ บญั ชีสานวนการสอบสวน กสพ.๐๐๕.๑
กสพ.๐๐๕.๒
๔ รายงานการสอบสวน
กสพ.๐๐๖.๑
๕ เอกสารเก่ยี วกบั คาใหก้ ารผกู้ ลา่ วหา กสพ.๐๐๖.๒
๕.๑ คาใหก้ ารผูก้ ล่าวหา กสพ.๐๐๖.๓
๕.๒ สาเนาเอกสารประกอบคาให้การเฉพาะส่วนทเ่ี ป็นสาระสาคัญ กสพ.๐๐๖.๔
ทางคดี ทีส่ ามารถบ่งชี้ถงึ ขอ้ เทจ็ จริงหรอื พยานหลกั ฐานในคดี
(ถา้ ม)ี กสพ.๐๐๗.๑
กสพ.๐๐๗.๒
๖ เอกสารเก่ียวกบั คาให้การผ้ตู อ้ งหา กสพ.๐๐๗.๓
๖.๑ คาให้การผู้ตอ้ งหา กสพ.๐๐๗.๔
๖.๒ บนั ทกึ สอบผตู้ อ้ งหาเพม่ิ เตมิ กสพ.๐๐๘
๖.๓ เอกสารยน่ื แทนคาใหก้ าร (ถา้ มี) ** กสพ.๐๐๙.๑
กสพ.๐๐๙.๒
๖.๔ สาเนาเอกสารประกอบคาให้การเฉพาะสว่ นทีเ่ ป็นสาระสาคัญ
ทางคดี ที่สามารถบ่งชถ้ี ึงข้อเทจ็ จริงหรือพยานหลักฐานในคดี
**
๗ เอกสารเกยี่ วกบั คาให้การพยาน (รายบคุ คล)
๗.๑ คาให้การพยานทัว่ ไป (เรยี งตามลาดบั ความสาคัญของพยาน
และ/หรือเหตกุ ารณ)์ ประกอบ
๗.๒ เอกสารยน่ื แทนคาใหก้ าร **
๗.๓ คาให้การพยานท่ีผู้ต้องหากล่าวอา้ ง และเอกสารยนื่ แทน
คาให้การ (ถา้ ม)ี **
๗.๔ สาเนาเอกสารประกอบคาใหก้ ารเฉพาะสว่ นท่ีเปน็
สาระสาคัญทางคดี ทส่ี ามารถบ่งช้ีถงึ ข้อเทจ็ จรงิ หรอื
พยานหลักฐานในคดี (ถ้ามี) **
๘ รายการพยานเอกสารและพยานวตั ถุ
๙ รายละเอียดเกย่ี วกบั ของกลาง
๙.๑ บญั ชีของกลาง
๙.๒ ภาพถ่ายของกลาง
18
ลาดับท่ี รายการ หมายเหตุ
(วัตถุพยานท่มี ีไว้ ได้ใช้หรือไดม้ า จากการกระทาความผิด กสพ.๐๑๐.๑
กสพ.๐๑๐.๒
หรอื วตั ถุพยานหลักฐานท่ใี ช้ในการพิสจู นก์ ารกระทาความผิด กสพ.๐๑๐.๓
กสพ.๐๑๐.๔
ทีพ่ นักงานสอบสวนไดร้ ับหรอื ไดย้ ดึ มา) กสพ.๐๑๐.๕
กสพ.๐๑๑
๑๐ รายละเอยี ดเกย่ี วกบั ทรัพยถ์ กู ประทษุ ร้าย กสพ.๐๑๒
๑๐.๑ บญั ชที รพั ยถ์ ูกประทุษร้าย กสพ.๐๑๓.๑
กสพ.๐๑๓.๒
๑๐.๒ ภาพถา่ ยทรัพยถ์ ูกประทษุ ร้าย(ถ้าม)ี กสพ.๐๑๓.๓
กสพ.๐๑๓.๔
๑๐.๓ บญั ชีมลู ค่าความเสียหาย
กสพ.๐๑๓.๕
๑๐.๔ บญั ชที รพั ย์ถกู ประทุษรา้ ยได้คนื
กสพ.๐๑๓.๖
๑๐.๕ ภาพถา่ ยทรัพย์ที่ถกู ประทุษร้ายไดค้ นื /ไมไ่ ดค้ นื
กสพ.๐๑๔.๑
๑๑ บนั ทกึ พนักงานสอบสวน กสพ.๐๑๔.๒
กสพ.๐๑๔.๓
๑๒ บนั ทกึ การประชมุ คณะพนักงานสอบสวนคดพี ิเศษ
กสพ.๐๑๕.๑
๑๓ เอกสารเก่ยี วกบั สถานทเ่ี กิดเหตุและสถานท่เี ก่ียวข้อง
๑๓.๑ บนั ทึกการตรวจสถานทเ่ี กิดเหตุ กสพ.๐๑๕.๒
๑๓.๒ แผนท่ีสงั เขปแสดงสถานทีเ่ กดิ เหตุ กสพ.๐๑๕.๓
๑๓.๓ ภาพถา่ ยท่เี กิดเหตุ กสพ.๐๑๕.๔
๑๓.๔ รายงานการตรวจสถานที่เกิดเหตขุ องหนว่ ยงานหรอื กสพ.๐๑๖
ผ้เู ชี่ยวชาญด้านนติ วิ ิทยาศาสตร์ (ถา้ ม)ี **
๑๓.๕ บันทกึ การนาชสี้ ถานทปี่ ระกอบคาให้การของผู้กลา่ วหา
ผูต้ อ้ งหา หรอื พยาน
๑๓.๖ ภาพถา่ ยการนาชี้สถานท่ปี ระกอบคาใหก้ ารของผกู้ ลา่ วหา
ผตู้ ้องหา หรอื พยาน
๑๔ บันทึกสง่ ผู้บาดเจบ็ หรอื ศพฯ หนังสือนาสง่ และรายงานผลการ
ตรวจพสิ ูจน์พยานหลกั ฐานทางนติ ิวทิ ยาศาสตร์
๑๔.๑ บนั ทกึ สง่ ผบู้ าดเจ็บหรอื ศพใหแ้ พทย์ตรวจชันสตู ร
๑๔.๒ หนังสือนาส่งยาเสพติดไปตรวจพิสจู น์
๑๔.๓ หนังสอื นาสง่ เอกสารและวตั ถุของกลางไปตรวจพิสูจน์
๑๕ เอกสารเกยี่ วกบั พยาน
๑๕.๑ หมายเรยี กพยาน พร้อมหลกั ฐานการนาส่ง
หนงั สือเรยี กพยานบุคคลหรือพยานเอกสาร
๑๕.๒ ขอเชญิ มาใหถ้ ้อยคา
๑๕.๓ ขอตรวจสอบขอ้ มลู การทาธรุ กรรมทางการเงิน
๑๕.๔ ขอตรวจสอบข้อมลู เกย่ี วกับการจดทะเบยี นนติ ิบคุ คล
๑๖ เอกสารโต้ตอบ (เรียงตามลาดบั เวลาแตล่ ะหน่วยงาน) **
๑๗ เอกสารที่เกย่ี วข้องกับการใช้มาตรการพเิ ศษตาม พระราชบัญญัติ
การสอบสวนคดีพเิ ศษและกฎหมายอ่ืน
19
ลาดบั ท่ี รายการ หมายเหตุ
กสพ.๐๑๗.๑
๑๗.๑ หนังสือขออนมุ ตั ิเข้าถงึ ขอ้ มลู ขา่ วสาร กสพ.๐๑๗.๒
กสพ.๐๑๗.๓
๑๗.๒ คาสง่ั อนุมัติใหเ้ ข้าถงึ ขอ้ มูลขา่ วสาร กสพ.๐๑๗.๔
กสพ.๐๑๗.๕
๑๗.๓ หนังสอื ประสานงานขอเขา้ ถงึ ข้อมลู ข่าวสาร กสพ.๐๑๗.๖
กสพ.๐๑๗.๗
๑๗.๔ คาขอศาลเข้าถึงข้อมลู
กสพ.๐๑๘.๑
๑๗.๕ รายงานผลการดาเนินการเข้าถงึ ข้อมูลข่าวสาร กสพ.๐๑๘.๒
กสพ.๐๑๘.๓
๑๗.๖ ขอใชป้ ระโยชน์จากเอกสารหรือขอ้ มลู ขา่ วสาร กสพ.๐๑๘.๔
กสพ.๐๑๘.๕
๑๗.๗ หนงั สอื รบั รองการรกั ษาความลับ กสพ.๐๑๘.๖
กสพ.๐๑๘.๗
๑๘ เอกสารเก่ยี วกบั การคน้
กสพ.๐๑๘.๘
๑๘.๑ คารอ้ งขอหมายคน้ กสพ.๐๑๙
๑๘.๒ คาใหก้ ารพยานประกอบคารอ้ ง ** กสพ.๐๒๐.๑
๑๘.๓ รายงานกระบวนการพิจารณา กสพ.๐๒๐.๒
๑๘.๔ แบบหมายค้น กสพ.๐๒๐.๓
๑๘.๕ บันทกึ การตรวจคน้ กสพ.๐๒๐.๔
๑๘.๖ บัญชีรายละเอยี ดสง่ิ ของแนบบันทกึ การตรวจค้น กสพ.๐๒๐.๕
กสพ.๐๒๐.๖
๑๘.๗ บันทึกเหตสุ งสยั ตามสมควรและเหตุอันควรเชื่อท่ีทาให้
สามารถเข้าคน้ ได้(คน้ ไมม่ ีหมาย)
๑๘.๘ หนงั สอื รายงานผลการคน้ ให้ศาลทราบ
๑๙ เอกสารอน่ื ๆ ทเ่ี กีย่ วข้องกบั คดี เชน่ คาร้องขอสบื พยานกอ่ นฟอ้ ง
๒๐ เอกสารทีแ่ สดงถงึ อานาจในการสบื สวนสอบสวน และหนังสือ
แจง้ มติ กคพ. (ตงั้ แตร่ ายงานการสบื สวน, การขอรบั เปน็ คดีพเิ ศษ
จนถงึ การแต่งตงั้ คณะพนกั งานสอบสวนและพนกั งานอยั การ
รวมท้งั ที่ปรึกษา)
๒๐.๑ แบบเสนอเรอ่ื งตอ่ คณะกรรมการคดีพเิ ศษเพื่อพิจารณา
มีมตใิ ห้คดีความผิดอาญาอ่ืนเปน็ คดพี ิเศษตามมาตรา ๒๑
วรรคหนง่ึ (๒) (แบบ กคพ.๑)
๒๐.๒ แบบเสนอเรอ่ื งต่อคณะกรรมการคดีพเิ ศษเพอื่ พจิ ารณา
กรณีคณะอนกุ รรมการคดีพเิ ศษมมี ติไม่เหน็ ควรเสนอ
คณะกรรมการคดพี ิเศษมีมตใิ หค้ ดีความผิดอาญาอน่ื
เป็นคดพี เิ ศษตามมาตรา ๒๑ วรรคหนงึ่ (๒) (แบบ กคพ.๒)
๒๐.๓ แบบเสนอเรื่องตอ่ คณะกรรมการคดีพเิ ศษเพอ่ื พิจารณา
มีมตใิ ห้คดคี วามผดิ อาญาท่คี า้ งดาเนนิ การและคดยี ังไมถ่ งึ ที่สดุ
เปน็ อานาจหน้าทข่ี องพนักงานสอบสวนคดีพิเศษ
(แบบ กคพ.๓)
๒๐.๔ แบบเสนอเรอ่ื งต่อคณะกรรมการคดพี เิ ศษเพื่อพจิ ารณาชข้ี าด
ตามมาตรา ๒๑ วรรคทา้ ย (แบบ กคพ.๔)
๒๐.๕ คาสัง่ แตง่ ตัง้ คณะทางานสอบสวนคดพี เิ ศษ (แบบ ศบพ.๒)
๒๐.๖ แบบคารอ้ งขอออกเลขคดีพิเศษ (แบบ ศบพ.๕)
20
ลาดบั ท่ี รายการ หมายเหตุ
๒๑ เอกสารการปฏบิ ัติเกย่ี วกับตวั ผู้ตอ้ งหา
๒๑.๑ หมายเรียกผู้ต้องหาพรอ้ มหลักฐานนาสง่ กสพ.๐๒๑.๑
๒๑.๒ บันทึกการช้รี ูป กสพ.๐๒๑.๒
๒๑.๓ คาร้องขอออกหมายจบั ผู้ต้องหาและหลกั ฐานการชร้ี ปู ผตู้ อ้ งหา กสพ.๐๒๑.๓
๒๑.๔ หมายจบั ผูต้ ้องหา กสพ.๐๒๑.๔
๒๑.๕ ตาหนิรปู พรรณผู้ต้องหา กสพ.๐๒๑.๕
๒๑.๖ หลักฐานเกย่ี วกบั การถอนหมายจบั /งดประกาศสืบจับ กสพ.๐๒๑.๖
และแจง้ การจบั ใหศ้ าลทราบ
๒๑.๗ บันทึกการจับกมุ กสพ.๐๒๑.๗
๒๑.๘ คาร้องแจง้ การจบั กมุ ผตู้ ้องหาเพ่อื ตรวจสอบการจบั กมุ ตวั กสพ.๐๒๑.๘
ผูต้ อ้ งหาศาลเยาวชนและครอบครวั
๒๑.๙ หนงั สอื แจ้งการจับกมุ ผู้ต้องหาทเี่ ปน็ ทหาร กสพ.๐๒๑.๙
๒๑.๑๐ บันทกึ การช้ตี วั /ชร้ี ปู ผู้ตอ้ งหาและภาพถ่ายการชต้ี ัว/ช้ีรปู กสพ.๐๒๑.๑๐
๒๑.๑๑ บันทกึ การแจง้ สทิ ธชิ น้ั รบั ตัวผู้ต้องหา กสพ.๐๒๑.๑๑
๒๑.๑๒ หนังสอื หรอื บนั ทึกแจง้ อายดั ตวั และถอนอายดั ตวั ผตู้ ้องหา กสพ.๐๒๑.๑๒
๒๑.๑๓ บนั ทกึ การควบคุมผ้ตู อ้ งหา กสพ.๐๒๑.๑๓
๒๑.๑๔ คารอ้ งขอฝากขงั ผตู้ อ้ งหา
๒๑.๑๔.๑ ครง้ั ท่ี ๑ กสพ.๐๒๑.๑๔.๑
๒๑.๑๔.๒ ครงั้ ที่ ๒ กสพ.๐๒๑.๑๔.๒
๒๑.๑๕ บันทึกเสนอสัญญาประกัน (กสพ.๐๔๒) กสพ.๐๒๑.๑๕
๒๑.๑๖ สญั ญาประกัน (กสพ.๐๔๓) กสพ.๐๒๑.๑๖
๒๑.๑๗ คารอ้ งขอประกันและตารางนัดหมาย (กสพ.๐๔๔) กสพ.๐๒๑.๑๗
๒๑.๑๘ ใบนัดนายประกันสง่ ตัวผูต้ ้องหา (กสพ.๐๔๕) กสพ.๐๒๑.๑๘
๒๑.๑๙ ภาพถา่ ยผูต้ อ้ งหา/ประวตั ิและแบบพิมพล์ ายนว้ิ มอื ผตู้ ้องหา/ กสพ.๐๒๑.๑๙
ผลคดี **
๒๒ บญั ชีพยานบุคคลและการตดิ ต่อ กสพ.๐๒๒
๒๓ เอกสารอน่ื ๆ (ท่ไี มไ่ ด้อย่ใู นลาดบั ที่ ๑ – ๒๒ กสพ.๐๒๓
แตพ่ นักงานสอบสวนคดีพเิ ศษเหน็ ควรนามาใสไ่ ว้ในสานวน) **
๒๔ เอกสารภายในกรมสอบสวนคดีพิเศษที่เกย่ี วข้องกบั การดาเนนิ การ กสพ.๐๒๔
ในสานวน เชน่ การส่งตัวผตู้ ้องหาไปควบคุม, การฝากของกลาง,
การเบกิ สานวน, การส่งเกบ็ สานวน ใหน้ าไปใสไ่ วใ้ น
“ร่างสานวนการสอบสวน” **
**หมายเหตุ เป็นเอกสารที่ไมม่ รี ปู แบบ หรอื เป็นเอกสารทีน่ าเข้าจากภายนอก ไม่สามารถระบตุ าแหนง่ ใน
การเติมขอ้ ความลงไปได้
ตารางที่ 3 เอกสารทใ่ี ชใ้ นศนู ยส์ บื สวนสะกดรอยและการขา่ ว 21
หมายเหตุ
ลาดับท่ี รายการ
๑ คาร้องขอหมายค้น
๒ บนั ทึกการจบั กมุ แบบกรอกช่องวา่ ง ไมม่ ีหมายค้น 2
๓ บันทกึ การจบั กมุ แบบกรอกชอ่ งวา่ งมีหมายคน้
๔ บนั ทึกการตรวจคน้
๕ รายงานการสบื สวน
1.8.2 ใช้งานกับเอกสารที่ไม่มีต้นแบบ (template) โดยจะเป็นการแปลงข้อความให้ตามท่ีผู้ใช้ต้องการ
ดังรูปท่ี 12 เช่น ใบลา บันทึกการประชุม บันทึกข้อความทางราชการ และเอกสารอื่นตามที่ผู้ใช้งาน
เป็นต้น
พนักงานสอบสวน
รูปที่ 12 ใช้งานกับเอกสารทีไ่ มม่ ีต้นแบบ (template)
1.8.3 สามารถนาไฟล์เสียง เข้าสู่ระบบและแปลงเป็นข้อความได้ และสนับสนุนไฟล์เสียงได้หลากหลาย
รปู แบบ เช่น WAV, MP3, AIFF, WMA และ AAC เปน็ ต้น
Audio Files Transcribed Text
WAV, Mp3, AIFF,
WMA AAC
รูปที่ 13 นาไฟลเ์ สียงเข้าส่รู ะบบและแปลงเปน็ ขอ้ ความ
22
1.8.4 ระบบสามารถทาการบันทกึ เสียงและสามารถจดั เก็บไดห้ ลากหลายรูปแบบ เชน่ WAV, MP3, AIFF,
WMA และ AAC เป็นต้น
1.8.5 ระบบควรรองรับไมโครโฟนท่ีมีหลายขนาดได้เพื่อความสะดวกในการใช้งาน
รูปที่ 14 นาแสดงไมโครโฟนลกั ษณะตา่ ง ๆ
1.8.6 ระบบมขี นาดเล็กตดิ ตงั้ ง่าย สามารถตดิ ตั้งในแลป็ ท็อปหรอื โนต๊ บคุ๊ ได้
1.8.7 ระบบสามารถสามารถตอบสนองความต้องการของผ้ใู ชไ้ ดอ้ ยา่ งรวดเร็วและมปี ระสิทธิภาพตอบสนอง
ไดอ้ ย่างรวดเร็ว
1.8.8 ใชง้ านง่าย สว่ นการนาเขา้ และสว่ นแสดงผลลัพธไ์ มม่ คี วามสลับซบั ซอ้ น มีความชัดเจน
1.8.9 ไฟล์ที่ได้หลงั จากการประมวลผลสามารถสง่ั พมิ พ์ไดท้ ันที
1.8.10 ไฟล์ทไ่ี ดห้ ลงั จากการทางานควรอยใู่ นรูปแบบที่แก้ไขไดง้ า่ ย เช่น Microsoft Word เปน็ ต้น
23
บทท่ี 2
การวิเคราะหแ์ ละออกแบบระบบอัลกอรทิ ึม
สาหรับข้ันตอนการวิเคราะห์ระบบน้ัน ผู้พัฒนาได้ศึกษาเครื่องมือที่ใช้ในการออกแบบและพัฒนา
เพื่อให้ตอบสนองกับความต้องการของผู้ใช้และสามารถใช้งานได้จริง โดยเลือกใช้เครื่องมือการวิเคราะห์
และการออกแบบเชิงโครงสร้าง (Structured) ซ่ึงเป็นการอธิบายด้วยแผนภาพ (Diagram) ได้แก่ แผนภาพ
บริบท (Context Diagram) แผนภาพกระแสข้อมูล (Data Flow Diagram level 1) และ คาอธิบาย
การประมวลผลข้อมูล (Process Description) การจัดการเอกสารในระบบงานใหม่สามารถอธิบายขั้นตอน
การปฏบิ ัตงิ านในลักษณะของ แผนภาพแสดงการไหลของข้อมลู (Data Flow Diagram) ดังรปู ที่ 15 และ 16
สัญญาณเสียงพดู
ผใู้ ช้ ระบบรูจ้ าเสียงพดู อตั โนมตั ิ
เอกสารฉบบั สมบรู ณ์
รูปที่ 15 แผนภาพบริบท (Context Diagram): ระบบรจู้ าเสยี งพูดอตั โนมตั เิ พ่อื งานสอบสวน
ไฟลเ์ อกสารต้นแบบ (template)
ไฟลเ์ อกสารตน้ แบบ (template)
1
ผู้ใช้ เอกสารต้นแบบ
เลือกเอกสารตน้ แบบ เอกสารต้นแบบ
3
2 เติมข้อความลง
การร้จู าเสียงพูด เอกสารตน้ แบบ
(Speech ขอ้ ความ
Recognition)
สัญญาณเสียงพดู
เอกสารฉบบั สมบูรณ์
รูปที่ 16 Data Flow Diagram Level 1 : ระบบรูจ้ าเสียงพดู อัตโนมตั ิเพื่องานสอบสวน
24
เริ่มจากในขัน้ ตอนของการสอบสวน พนักงานสอบสวนใช้คอมพวิ เตอร์หรือ Notebook ที่มไี มโครโฟน
พร้อมใช้งานทาการเลือกชนิดของเอกสารที่ต้องการใช้งาน ไม่ว่าจะเป็นเอกสารต้นแบบ (template)
ตามตารางท่ี 1 2 และ 3 หรือ เอกสารที่ไม่มีต้นแบบ ท่ีสามารถเรียกได้อีกอย่างว่าเอกสารเปล่า จากนั้น
พนักงานสอบสวนทาการสอบสวนหรือสั่งการผ่านไมโครโฟน โดยจะมีไมโครโฟนประจาตัวของแต่ละคน
จากนั้นข้อมูลเสียงของการสอบสวนหรือสนทนาทาการประมวลผล (Preprocessing) เพื่อตรวจสอบ
คุณลักษณะของเสียงที่ไม่พึงประสงค์ออกไป เช่นเสียงรบกวน เป็นตน้ จากน้ันระบบทาการส่งข้อมูลเสียงแยก
ตามไมโครโฟนของแต่ละคนไปยังโปรแกรมพาที (PARTII) ท่ีพัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และ
คอมพิวเตอร์แห่งชาติ (NECTEC) เพม่ิ ทาการรู้จาให้ออกมาเป็นขอ้ ความตัวหนงั สอื อัตโนมตั ิตามเสยี งพูด
เม่ือได้ตัวหนังสือตามท่ีพนักงานสอบสวนได้พูดหรือส่ังการแล้ว ระบบจะทาการจับคู่ข้อความกับ
ตาแหน่งของข้อความในไฟล์เอกสารต้นแบบ โดยจะเป็นการเติมข้อความแบบอัตโนมัติ ซ่ึงหลักการจะ
คล้ายคลึงกับระบบสั่งการด้วยเสียงอัตโนมัติ (Voice Typing) จากน้ันระบบทาการจัดเก็บข้อมูลเสียงและ
ข้อความจากการสอบสวนหรือสนทนา เพอ่ื ใชป้ ระโยชน์ในการสบื ค้นได้ในอนาคต
ตารางที่ 4 คาอธิบายการประมวลผลของโปรเซสที่ 1.0 : เลือกเอกสารต้นแบบ
Process Description
System : ระบบร้จู าเสยี งพดู อตั โนมัติเพอ่ื งานสอบสวน
DFD Number : 1
Process Name : เลือกเอกสารตน้ แบบ
Input Data Flow : เอกสารต้นแบบ (template) ตามตารางท่ี 1 2 และ 3 หรือ เอกสารท่ไี ม่มี
ตน้ แบบ
Output Data Flow : ไฟลเ์ อกสารต้นแบบ (template) ตามตารางท่ี 1 2 และ 3 หรอื เอกสารที่
ไมม่ ตี น้ แบบ
Data Stored Used : ไฟลเ์ อกสารต้นแบบ (template)
Description : พนักงานสอบสวนทาการเลือกชนิดของเอกสารท่ีต้องการใช้งาน ไม่ว่าจะเป็น
เอกสารต้นแบบ (template) ตามตารางท่ี 1 2 และ 3 หรือ เอกสารที่ไม่มี
ต้นแบบ ท่สี ามารถเรียกได้อกี อย่างวา่ เอกสารเปล่า
25
ตารางท่ี 5 คาอธิบายการประมวลผลของโปรเซสท่ี 2.0 : การร้จู าเสยี งพูด (Speech Recognition)
Process Description
System : ระบบรู้จาเสียงพดู อตั โนมตั เิ พ่อื งานสอบสวน
DFD Number : 2
Process Name : การรู้จาเสยี งพดู (Speech Recognition)
Input Data Flow : ข้อมลู เสียง
Output Data Flow : ข้อความตวั หนงั สือ
Data Stored Used : -
Description : พนักงานสอบสวนทาการสอบสวนหรือสั่งการผ่านไมโครโฟน โดยจะมี
ไมโครโฟนประจาตัวของแต่ละคน จากนั้นข้อมูลเสียงของการสอบสวนหรือ
สนทนาทาการประมวลผล(Preprocessing) เพื่อตรวจสอบคุณลักษณะของ
เสยี งทไี่ ม่พึงประสงคอ์ อกไป เชน่ เสียงรบกวน เป็นต้น
จากน้ันระบบทาการส่งข้อมูลเสียงแยกตามไมโครโฟนของแต่ละคนไปยัง
โปรแกรมพาที(PARTII) ท่ีพัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และ
คอมพิวเตอร์แห่งชาติ (NECTEC) เพ่ิมทาการรู้จาให้ออกมาเป็นข้อความ
ตัวหนังสืออตั โนมตั ติ ามเสยี งพดู
26
ตารางที่ 6 คาอธิบายการประมวลผลของโปรเซสท่ี 3.0 : การรู้จาเสียงพูด (Speech Recognition)
Process Description
System : ระบบรูจ้ าเสียงพูดอตั โนมตั เิ พ่อื งานสอบสวน
DFD Number : 3
Process Name : เตมิ ขอ้ ความลงเอกสารต้นแบบ
Input Data Flow : ขอ้ ความตัวหนงั สือ, ไฟลเ์ อกสารตน้ แบบ (template) ตามตารางท่ี 1 2 และ
3 หรอื เอกสารท่ไี มม่ ตี ้นแบบ
Output Data Flow : เอกสารฉบับสมบูรณ์
Data Stored Used : -
Description : เมื่อได้ตัวหนังสือตามที่พนักงานสอบสวนได้พูดหรือสั่งการแล้ว ระบบจะทา
การจับคู่ข้อความกับตาแหน่งของข้อความในไฟล์เอกสารต้นแบบ โดยจะเป็น
การเติมขอ้ ความแบบอตั โนมตั ิ
2.1 ปัญหาและอปุ สรรคของระบบรวมทง้ั ขีดจากดั ตา่ ง ๆ
2.1.1 การออกเสยี งของผ้ใู ช้มีความชดั เจนมากแค่ไหน ถ้าผใู้ ชง้ านออกเสียงไม่ชัดเจนสามารถทาใหร้ ะบบรู้จา
เสียงพูดอัตโนมตั ิ (Automatic Speech Recognition) แปลเปน็ ข้อความตัวอกั ษรที่ผิดพลาดได้
2.1.2 เสียงรบกวนจากสงิ่ แวดลอ้ มรอบขา้ ง ถือเปน็ ส่วนที่สาคัญเน่อื งมาจากเสยี งรบกวนนน้ั จะถูกบันทึกรวม
ไปด้วยกับเสียงพูดส่ังการหรือเสียงสัมภาษณ์ ซึ่งเมื่อนาไปประมวลผลแล้วสามารถทาให้ระบบ
รจู้ าเสยี งพูดอตั โนมตั ิ (Automatic Speech Recognition) แปลเปน็ ขอ้ ความตัวอกั ษรท่ีผดิ พลาดได้
2.1.3 คาศพั ทท์ โ่ี ปรแกรมรูจ้ าเสยี งพูดอัตโนมตั ิ (Automatic Speech Recognition) ได้เรียนรู้ไปครอบคลุม
กับการรูปประโยคในการใชง้ านหรอื ไม่
2.1.4 ระยะเวลาในการประมวลผลของโปรแกรมรู้จาเสียงพูดอัตโนมัติ (Automatic Speech Recognition)
ซึ่งในบางครั้งมีผู้ใช้จานวนมากเข้าใช้งานพร้อมกัน หรือเสียงพูดส่ังการ เสียงสัมภาษณ์ มีความยาวใน
การบนั ทึกทม่ี าก อาจทาใหร้ ะบบมีการตอบสนองไดช้ ้ากวา่ ท่ีผู้ใชต้ ้องการได้
2.1.5 สาหรับเนื้องานจริงในขั้นตอนการใช้งานน้ัน ระบบควรมีกระบวนการของการทาให้แน่ใจในความเป็น
ส่วนตัว สามารถรักษาความลับได้ ความมั่นคงปลอดภัยในการรับส่งข้อมูลเนื่องจากข้อมูลมี
ความสาคญั ทางกฎหมาย อาจมีการใชใ้ ช้การเขา้ รหสั ในการรบั สง่ ขอ้ มลู
2.1.6 การใช้งานระบบควรระวัง และควรตรวจสอบข้ันตอนของขอ้ กฎหมายกอ่ นแสมอ
27
บทที่ 3
ผลการทดสอบระบบและรับฟังความคดิ เหน็
3.1 ผลการประชุมเพือ่ รบั ฟังความเห็น ความต้องการและปญั หาจากผู้ใชง้ าน ผูเ้ ก่ียวขอ้ งและ
ผูเ้ ช่ียวชาญของกรมสอบสวนคดพี เิ ศษ (ครง้ั ที่ 1)
ได้มีการจัดการประชุมเพ่ือรับฟังความเห็น ความต้องการและปัญหาจากผู้ใช้งาน ผู้เก่ียวข้องและ
ผเู้ ชยี่ วชาญของกรมสอบสวนคดีพเิ ศษ (ครง้ั ที่ 1)
วนั ศกุ ร์ ที่ 14 กนั ยายน 2561
ณ โรงแรม ทเี ค พาเลซ (TK Palace Hotel)
เลขท่ี 54/7 ถ.แจง้ วัฒนะ ซอย 15, หลักส,ี่ หลักส,ี่ กรุงเทพมหานคร 10210
ทางคณะวิจัยได้ทาการนาเสนอระบบรู้จาเสียงพูดอัตโนมัติ ให้ผู้ใช้ได้ทดลองใช้งาน และให้
ขอ้ เสนอแนะ โดยมีข้อสรุปดังน้ี
1. ควรมีการกาหนดสภาพแวดล้อมในการใช้งาน/ทดสอบ เน่ืองจากการใช้งานในสภาพแวดล้อมที่
สถานที่จัดประชมุ น้ี ระบบยงั ไมส่ ามารถแยกเสียงได้ดเี ท่าทคี่ วร
2. ควรมกี ารทดลองโดยระบุประเภทไมโครโฟนทส่ี ามารถใชง้ านได้
3. คณะวิจัยจะทาการศึกษาประเภทเอกสารและแบบฟอร์มต่าง ๆ ท่ีทางกรมสอบสวนคดพี ิเศษได้มี
การใช้งาน และกาหนดรูปแบบการใช้งาน เช่น เมื่อมีการพูดให้กรอกข้อมูลลงไปในแบบฟอร์ม
หรอื เมื่อมกี ารพดู ใหมลู ลงในไมโครซอฟต์เวริ ์ด เพอื่ ทผี่ ูใ้ ช้งานจะนาไปแก้ไขไดต้ ่อไป
28
29
30
31
3.2 ผลการประชุมเพ่อื รายงานความก้าวหนา้ ของโครงการต่อผ้เู ก่ยี วข้องและผูเ้ ชีย่ วชาญ และ
รับฟังความคดิ เห็น (คร้ังที่ 2)
ไดม้ ีการจดั การประชุมเพือ่ รายงานความก้าวหน้าของโครงการต่อผู้เก่ียวขอ้ งและผ้เู ช่ยี วชาญ และรบั
ฟังความคิดเห็น (ครง้ั ท่ี 2)
วนั พฤหัสบดี ที่ 29 พฤศจิกายน 2561
ณ โรงแรม ทีเค พาเลซ (TK Palace Hotel)
เลขท่ี 54/7 ถ.แจ้งวฒั นะ ซอย 15, หลักส,่ี หลกั ส,ี่ กรุงเทพมหานคร 10210
ทางคณะวิจัยได้ทาการปรับปรุงตามข้อเสนอแนะจากการประชุมในคร้ังก่อน และนาเสนอระบบรู้จา
เสียงพดู อตั โนมตั ิ ให้ผู้ใช้ได้ทดลองใช้งาน และให้ข้อเสนอแนะ โดยมขี อ้ สรุปดงั นี้
1. สภาพแวดล้อมในการใช้งาน ควรเปน็ ห้องที่เงยี บ เชน่ หอ้ งประชุม ห้องสอบสวน
2. ประเภทไมโครโฟนท่สี ามารถใช้งานได้ ควรใช้ไมโครโฟนทจี่ ดั หาในโครงการน้ี เนอื่ งจากเปน็
ไมโครโฟนท่มี คี ุณภาพสูง หรอื ใช้ไมโครโฟนที่ต่อจากเคร่อื งโน๊ตบคุ๊ ท่ีมีคุณภาพดี ไมโครโฟนท่มี อี ยู่
ในเครอื่ งโนต๊ บุค๊ ยังไม่มคี ุณภาพดีเทา่ ทค่ี วร
3. คณะวจิ ัยไดก้ ารศึกษาประเภทเอกสารและแบบฟอรม์ ต่าง ๆ ทท่ี างกรมสอบสวนคดีพิเศษไดม้ กี าร
ใชง้ าน และกาหนดรปู แบบการใช้งาน โดยสามารถทางานไดต้ ามข้อเสนอแนะ เชน่ เมือ่ มีการพดู
ใหก้ รอกข้อมลู ลงไปในแบบฟอรม์ หรือเมอื่ มกี ารพดู ใหม้ กี ารพิมพข์ อ้ มลู ลงในไมโครซอฟตเ์ วิรด์
เพ่ือทีผ่ ใู้ ชง้ านจะนาไปแก้ไขได้ตอ่ ไป รวมถึงรองรับไฟลเ์ สียงไดห้ ลากหลายรูปแบบ ไดแ้ ก่ WAV,
MP3, AIFF, WMA และ AAC
4. การใช้งาน สามารถแปลงเสยี งพูดเป็นขอ้ ความได้แบบเวลาจรงิ หรอื นาไฟลเ์ สยี งทบี่ นั ทกึ ไว้
นาเขา้ ระบบและแปลเป็นข้อความได้
32
33
34
35
3.3 ผลการประชุมเพ่ือรายงานสรปุ โครงการตอ่ ผู้เกี่ยวข้องและผู้เชยี่ วชาญ และรบั ฟงั ความ
คดิ เห็น (คร้งั ที่ 3)
ไดม้ กี ารจดั การประชมุ เพอื่ รายงานสรปุ โครงการตอ่ ผู้เกี่ยวขอ้ งและผูเ้ ช่ียวชาญ และรับฟังความคิดเหน็
(ครัง้ ท่ี 3)
จัดขึ้นเมื่อวนั จนั ทร์ ท่ี 10 มิถนุ ายน 2561
ณ โรงแรม ทเี ค พาเลซ (TK Palace Hotel)
เลขท่ี 54/7 ถ.แจง้ วัฒนะ ซอย 15, หลกั ส,่ี หลักส,่ี กรงุ เทพมหานคร 10210
ทางคณะวิจัยได้ทาการนาเสนอระบบรู้จาเสียงพูดอัตโนมัติ ให้ผู้ใช้ได้ทดลองใช้งาน และให้
ขอ้ เสนอแนะ โดยมขี ้อสรุปดงั น้ี
1. ระบบสามารถนาไปใชง้ านจริงได้ ผลการทดสอบระบบมคี วามแม่นยามากกวา่ รอ้ ยละ 80 อย่างไร
ก็ดี ในการที่จะเพ่ิมความแม่นยาให้สูงข้ึน ต้องการเรียนรู้สานวนและคาศัพท์ เสียงพูดที่มี
การใช้งานจริง แต่ทางกรมสอบสวนคดีพิเศษติดขัดในประเด็นเรื่องของความลับ จึงเสนอแนะให้
ในการพัฒนาต่อไป ควรหาแหล่งขอ้ มูลทส่ี ามารถเปิดเผยได้มาเปน็ ขอ้ มลู นาเข้าให้กับระบบเพ่ือให้
มีความแมน่ ยามากขนึ้
2. ควรมีการถ่ายทอดความรู้และขยายขอบเขตการใช้งานให้กับหน่วยงานภายในกรมสอบสวนคดี
พิเศษ ได้นาไปใช้งาน เพื่อให้เกิดประโยชน์และคุ้มค่ากับการพัฒนาระบบ ผู้ใช้งานต้องทาการ
ประสานกบั หน่วยงานท่ีดแู ลเพอ่ื ขอลงระบบ เนื่องจากเป็นระบบที่อนญุ าตให้ใช้เฉพาะภายในกรม
สอบสวนคดีพเิ ศษ และตอ้ งใชส้ ิทธผิ์ ูด้ ูแลระบบในการลงโปรแกรมลงไปยังเครื่องของผู้ใชง้ าน
3. ระบบทีพ่ ฒั นาสามารถทางานไดต้ ามวตั ถุประสงคข์ องโครงการทต่ี ั้งไว้
36
37
38
39
40
บทที่ 4
ผลทดสอบการใช้งานครง้ั ท่ี 1 และคร้งั ที่ 2 และปรับปรุงระบบ
ตารางท่ี 9 สรปุ ความก้าวหน้าในการพัฒนาแอปพลิเคชนั ระบบรู้จาเสียงอตั โนมตั ิ (Automatic Speech
Recognition)
สรุปความกา้ วหน้าของงานตามความตอ้ งการในการใช้งาน
ความตอ้ งการในการใชง้ าน ความก้าวหน้า
เมื่อผู้ใช้พูดใส่ไมโครโฟน ระบบรู้จาเสียงอัตโนมัติ (Automatic Speech สามารถทาได้
Recognition) เสียงพูดจะถูกแปลงสัญญาณเสียงเป็นข้อความ และใช้งานกับ
เอกสารต้นแบบ (template) (ตามเอกสารที่แสดงใน ตารางท่ี 1 ตารางท่ี 2
และตารางที่ 2 ซึ่งเป็นรูปแบบหนังสือแบบฟอร์มราชการของแต่ละหน่วยงาน
เช่น บันทึกถ้อยคา เป็นต้น โดยจะเป็นการแปลงข้อความให้ตามที่ผู้ใช้ต้องการ
จากน้นั ข้อความผลลัพธ์ จะถกู เตมิ ลงในแบบฟอร์มที่กาหนดไว้
เม่ือผู้ใช้พูดใส่ไมโครโฟน ระบบรู้จาเสียงอัตโนมัติ (Automatic Speech สามารถทาได้
Recognition) เสียงพูดจะถูกแปลงสัญญาณเสียงเป็นข้อความ และใช้งานกับ
เอกสารท่ีไม่มีต้นแบบ (template) โดยจะเป็นการแปลงข้อความให้ตามท่ีผู้ใช้
ต้องการดังรูปที่ 2 เช่น ใบลา บันทึกการประชุม บันทึกข้อความทางราชการ
และเอกสารอนื่ ตามท่ีผูใ้ ชง้ าน เปน็ ต้น
ระบบควรมีความสามารถในการแทรกรูปภาพไดข้ ณะใชง้ าน สามารถทาได้
เมื่อแปลงเสียงเป็นข้อความใส่ในรูปแบบหนังสือแบบฟอร์มราชการของแต่ละ สามารถทาได้
หนว่ ยงาน แลว้ สามารถแกไ้ ขไดอ้ ย่างสะดวก โดยผลลัพธ์อาจอยู่ในรูปแบบของ
ไฟล์ที่สามารถแกไ้ ขไดส้ ะดวก เชน่ Microsoft Word
สามารถนาไฟล์เสียง เข้าสู่ระบบและแปลงเป็นข้อความได้ และสนับสนุนไฟล์ สามารถใช้งานไดก้ บั ไฟล์
เสยี งไดห้ ลากหลายรปู แบบ ได้แก่ เสยี ง WAV เพียงอยา่ ง
MPEG-1 Audio Layer III or MPEG-2 Audio Layer III (MP3) เดยี ว
4X Technologies format(4xm)
Id RoQ format (.RoQ)
ADTS AAC format (.aac)
Raw ac3 format (.ac3)
Asf format format (.asf) 41
Audio IFF format (.aiff)
SUN AU Format (.au) สามารถทาได้
Audio Video Interleave (.avi) สามารถทาได้
Raw flac format (.flac) สามารถทาได้
FLI/FLC/FLX animation format (.flic) สามารถทาได้
Flash Video is a container file format (.flv) สามารถทาได้
Raw MPEG4 video format (.mjpeg) สามารถทาได้
MJPEG video (.m4v) สามารถทาได้
Matroska File Format (.matroska) สามารถทาได้
QuickTime/MPEG4/Motion JPEG 2000 format (.mov, .mp4 ,
.m4a, .3gp, .3g2 , .mj2)
MPEG1 System format(.mpeg)
Sierra VMD format (.vmd)
Creative Voice File format (.voc)
Waveform Audio File Format (.wav)
Wing Commander III movie format (.wc3movie)
ระบบสามารถทาการบันทึกเสียงและสามารถจดั เกบ็ ได้หลากหลายรปู แบบ เชน่
WAV, MP3, AIFF, WMA และ AAC เป็นต้น
ระบบควรรองรับไมโครโฟนท่มี หี ลายขนาดไดเ้ พอ่ื ความสะดวกในการใช้งาน
ระบบมขี นาดเล็กตดิ ตั้งงา่ ย สามารถตดิ ตง้ั ในแลป็ ทอ็ ปหรอื โน๊ตบคุ๊ ได้
ระบบสามารถสามารถตอบสนองความต้องการของผู้ใช้ได้อย่างรวดเร็วและมี
ประสิทธภิ าพตอบสนองไดอ้ ยา่ งรวดเร็ว
ใชง้ านงา่ ย ส่วนการนาเข้าและส่วนแสดงผลลัพธ์ไม่มีความสลับซับซ้อน มีความ
ชดั เจน
ไฟลท์ ไ่ี ดห้ ลังจากการประมวลผลสามารถสง่ั พมิ พไ์ ดท้ นั ที
ไฟล์ท่ีได้หลังจากการทางานควรอยู่ในรูปแบบที่แก้ไขได้ง่าย เช่น Microsoft
Word เปน็ ต้น
ปรับให้โปรแกรมเป็นโปรแกรมตวั เดียว ซึ่งสามารถใช้ได้กับ Microsoft Office
ทุกเวอร์ชั่น ตั้งแต่ Microsoft Office 2007 , Microsoft Office 2010,