บทที่ 2
การเก็บรวบรวมและ
สารวจขอ้ มูล
โดย นางสาวมณฑารพ สงิ ห์โตเกษม
จดุ ประสงค์การเรยี นรู้
เมอื่ เรยี นจบแล้วนกั เรียนสามารถ
1. เก็บรวบรวม ขอ้ มูลทตุ ิยภมู ิตามวตั ถปุ ระสงค์
2. เลอื ก แหลง่ ข้อมลู สาธารณะทเี่ ชอื่ ถอื ได้
3. จัดเตรียม ข้อมูลกอ่ นการประมวลผล
4. สารวจข้อมูล เพื่อทาความเขา้ ใจรปู แบบ ความสัมพันธ์ และ
ผลลพั ธ์เชงิ พรรณาเบอื้ งตน้
5. ตระหนกั ถงึ การนาขอ้ มลู ส่วนบคุ คลไปใช้
บทท่ี 2 ประกอบดว้ ย
01. 02.
การเกบ็ รวบรวมข้อมลู การเตรียมขอ้ มลู
- การทาความสะอาดข้อมลู
- การแปลงขอ้ มลู
- การเช่ือมโยงขอ้ มูล
03. 04.
การสารวจขอ้ มลู ข้อมลู ส่วนบุคคล
ทบทวนความร้เู ดมิ
แหลง่ ข้อมูล แหล่งกาเนิดข้อมลู หรอื แหลง่ รวบรวมข้อมลู เช่น คน สตั ว์ ส่งิ ของ สถานที่ หรือเหตุการณ์
01 02
ข้อมูลปฐมภมู ิ (Primary Data) ขอ้ มลู ทตุ ิยภมู ิ (Secondary Data)
ข้อมลู ท่ไี ดจ้ ากแหลง่ ขอ้ มลู โดยตรง เป็นขอ้ มูลที่ ขอ้ มลู ที่ ไม่ได้ มาจากแหลง่ ขอ้ มลู โดยตรง แต่
เกิดจากการกระทา นาเสนอรายละเอียดทเ่ี ปน็ ไดม้ าจากการอ้างอิงข้อมลู ปฐมภมู ิ หรือการนา
ข้อมูลปฐมภมู มิ าวเิ คราะห์ ประมวลผล เช่น สถติ ิ
มมุ มองของเหตุการณ์
ทีเ่ กิดข้นึ เชน่ ข้อมลู ท่ไี ด้จากการทดลอง บทวิจารณ์ บทความ เอกสารตา่ งๆ
ความคิดเหน็ ของผูเ้ ชีย่ วชาญ เหตุการณท์ าง
ประวตั ศิ าสตร์
ที่มา : oho.ipst/m5/0201
การรวบรวมข้อมูล
การสัมภาษณ์ การสารวจ 03 การสังเกต
01 02
สมั ภาษณ์โดยตรงหรอื ผ่าน สร้างแบบสารวจท่ีกาหนด ใชร้ วบรวมข้อมูลจาก
เหตกุ ารณ์ สถานการณ์ หรือ
ชอ่ งทางอืน่ ลกั ษณะเป็นคาถาม คาถามเพอ่ื ค้นหาขอ้ มลู เชน่ พฤตกิ รรมทเี่ ปลยี่ นแปลงไป
ปลายเปิด ใชร้ วบรวมข้อมูลเชงิ สารวจความพงึ พอใจของ
คุณภาพ การบรหิ ารงานของสภา
นักเรยี น
04 การทดลอง 05 การทบทวนเอกสาร 06 การสามะโน
การรวบรวมข้อมลู จากการ รวบรวมข้อมลู จากเอกสาร การรวบรวมข้อมูลดว้ ยการ
ทดลองหรือทดสอบการ รายงาน บทความ หรือ สารวจจากประชากรเก่ียวกับ
ควบคุมปัจจัยบางประการ แบบฟอร์มสาหรับรวบรวม เรอ่ื งทกี่ าหนด
ข้อมลู
ทม่ี า : oho.ipst/m5/0202
2.1 การเกบ็ รวบรวมข้อมลู
รูปแบบการจดั เกบ็ ไฟล์ข้อมูลทตุ ยิ ภูมิ
รูปแบบท่ี
เผยแพร่
ไฟล์ 1 รายงานหรอื ตารางบน
เว็บไซต์
xls, xlsx หรอื odp ได้จาก
โปรแกรมตารางการทางาน 2 สว่ นมากเป็นข้อมลู ทีส่ รุปมาแลว้ ไม่
csv เป็นไฟล์แบบขอ้ ความ
มีข้อมูลดิบประกอบ
ทาใหย้ ากตอ่ การนาขอ้ มลู ไป
วิเคราะห์ในหวั ข้ออนื่
แหล่งข้อมลู ทตุ ิยภูมิ
01 03
สานักงานสถิติแห่งชาติ 02 สานักงานคณะกรรมการ
www.nso.go.th พัฒนาการเศรษฐกิจและสังคม
สานกั งานพฒั นารัฐบาลดจิ ทิ ัล
(องคก์ ารมหาชน) แหง่ ชาติ
http://data.go.th
www.nesdb.go.th
แหลง่ ข้อมูลทุติยภมู ิ
04 05 06
www.kaggle.com datasetsearch.research.g data.worldbank.org
oogle.com
ความเหมาะสมของแหล่งข้อมูล
01 ความทนั สมัยของข้อมลู
ตรวจสอบว่าขอ้ มลู เผยแพรเ่ ม่อื ใด มีการปรบั ปรุงให้เปน็ ปัจจุบันหรือไม่
02 ความสอดคล้องกับการใชง้ าน
ตรวจสอบว่าข้อมูลเก่ยี วขอ้ งกับปัญหาทีต่ อ้ งการหรือไม่
การพิจารณาความ 03 ความนา่ เชอ่ื ถือของแหล่งข้อมลู
เหมาะสมของ ตรวจสอบวา่ ผู้เผยแพร่มีความชานาญมากพอสาหรับการใหข้ ้อมูลในเรอ่ื งท่ีต้องการหรอื ไม่
แหล่งขอ้ มูล
04 ความถูกตอ้ งแม่นยา
05
ตรวจสอบความถกู ตอ้ งพืน้ ฐานของขอ้ มลู ว่ามกี ารนาขอ้ มูลไปอ้างอิงท่อี ่ืนหร่อื ไม่ และมกี ารยนื ยนั
ความถกู ตอ้ งของข้อมูลหรอื ไม่
จดุ มุ่งหมายของแหลง่ ขอ้ มลู
ตรวจสอบวา่ ข้อมลู นน้ั ถกู พัฒนาข้นึ ดว้ ยจุดประสงค์อะไร
Activity Task
ใหน้ กั เรียนกรอกแบบสอบถามขอ้ มูลนักเรยี น
https://bit.ly/33ITuq0
Click
Click
2.2 การเตรียมขอ้ มลู
การเตรยี มข้อมลู (Data preparation)
1 2 3
การทาความสะอาดข้อมลู การแปลงข้อมูล การเชือ่ มโยงข้อมูล
ข้อมลู ท่ีรวบรวมมาไดอ้ าจมี เตรียมข้อมูลใหอ้ ยู่ใน ในกรณที ใ่ี ช้ข้อมลู กลมุ่ ตัวอย่างท่มี า
ข้อผดิ พลาดทเี่ กดิ จาก รูปแบบทีพ่ รอ้ มสาหรบั จากหลายแหลง่ ข้อมูล
การกรอกข้อมูลไม่ครบถว้ น การประมวลผล การเชอ่ื มโยงข้อมลู ทาไดโ้ ดย
หรือกรอกขอ้ มูลผิดพลาด ใชแ้ อตทริบวิ ต์เดยี วกันจากทงั้ 2
หากพบข้อผดิ พลาดดาเนินการแก้ไข แหลง่ ขอ้ มลู เปน็ ตวั เช่ือมข้อมูลเข้า
ใหถ้ กู ตอ้ ง ด้วยกนั
หรอื ลบข้อมูลน้ันออกไป
ตวั อยา่ งขอ้ มลู
https://riccosmartdata.com/data-cleansing-or-data-cleaning/
2.2.1 การทาความสะอาดข้อมลู (Data Cleansing)
ค่าว่าง พมิ พผ์ ิด
01 หนว่ ยนบั ผดิ 05
คา่ อยนู่ อกขอบเขต E0ar3th คา่ ผิดปกติ
02 04
การทาความ
สะอาดข้อมูล
21.CPoarrseincgt Data
4. Duplicate Eliminationหกคราือรอื แตกกวัา้ไรเขลแขขจอ้ทกม่ีผแูลดิ จทปงี่ผกขดิตอ้ พมิไปลูลาเหดนรื่ออืเงชกจน่ าารกใในมชชี้หอ่0ัวงขเเ้อกพขินศอมงามชกี ุดาขรอ้ใสม่ตูลวั เลข
3.Standardizingกาเรชลน่ บชอ่ืดุ :ขสอ้ มคศวารมี, ซจ้างั ซห้อวนัดท: ง้ิ กรงุ เทพ, น้าหนัก: 75, ส่วนสงู :
160, อาย:ุ 60, เพศ: หญงิ
การทาข้อมูลใหเ้ ปน็ รปู แบบเดยี วกัน ตวั อย่างเชน่ จงั หวัด
กรุงเทพฯ ทีม่ รี ปู แบบ กทม. กรุงเทพฯ และ
กรงุ เทพมหานคร ซ่งึ คอมพิวเตอร์ไม่สามารถทราบได้เองว่า
มนั คือจังหวดั เดยี วกัน
https://www.coraline.co.th/single-post/why-data-quality-is-a-king
2.2.2 การแปลงข้อมูล (Data Transformation)
คอื การเตรยี มข้อมูลให้อยใู่ นรูปแบบทพี่ รอ้ มสาหรับประมวลผล
การลดจานวนข้อมลู การเพิ่มจานวนขอ้ มูล
เลือกเฉพาะขอ้ มลู ที่เราสนใจ เพมิ่ จานวนข้อมลู ใหง้ า่ ยต่อการ
นาไปประมวลผล
การรวมขอ้ มูล
จดั กล่มุ ขอ้ มูลท่มี คี ่าสอดคล้องกับเงอ่ื นไขที่
กาหนดในแอตทริบวิ ตท์ ่ีสนใจ
2.2.2 การแปลงขอ้ มูล (Data Transformation)
แต่ละแถว คือขอ้ มลู 1
รายการ และ แตล่ ะคอลมั น์
คอื คณุ ลกั ษณะ
หรอื แอตทรบิ ิวต์
2.2.3 การเชอ่ื มโยงขอ้ มูล (Combining Data)
ในกรณีทีใ่ ชข้ ้อมลู กลุ่มตวั อยา่ งท่ีมาจากหลายแหลง่ ข้อมูล
การเชอื่ มโยงขอ้ มลู ทาได้ โดย
ใชแ้ อตทริบิวตเ์ ดยี วกนั จากทง้ั 2 แหลง่ ขอ้ มูลเป็นตัวเชือ่ มข้อมูลเขา้ ด้วยกนั
กจิ กรรมท่ี 01.
DATA 1 การเตรียมข้อมูล
2.3 การสารวจขอ้ มูล
(Data Exploration)
2.3 การสารวจข้อมูล (Data Exploration)
ข้นั ตอนหลกั ของกระบวนการสารวจขอ้ มลู คอื การทดลองวาดแผนภาพ หรือ กราฟของขอ้ มูล
ในรูปแบบตา่ งๆ เพ่อื ดูภาพรวมของขอ้ มลู
เครื่องมือในการสารวจขอ้ มลู เชน่ กราฟเส้น ฮิสโทแกรม แผนภาพกลอ่ ง หรือแผนภาพ
กระจาย
เคร่อื งมือพื้นฐานในการสารวจข้อมลู
ฮิสโทแกรม แผนภาพกล่อง
เพือ่ แสดงความถีข่ องสงิ่ ท่ีสนใจ เพื่อแสดงลกั ษณะที่สาคญั ของชุดขอ้ มูล
นนั้ ๆ เช่น คา่ กลาง การกระจาย คา่ สูงสดุ
ค่าตา่ สดุ
กราฟเส้น แผนภาพ การเขียนโปรแกรม
การกระจาย
เพื่อแสดงใหเ้ หน็ แนวโนม้ ของ นาขอ้ มูลเข้าสู่โปรแกรมทใ่ี ช้สาหรบั
การเปลยี่ นแปลงที่เกดิ ข้ึนในชว่ งเวลาหนงึ่ ๆ เพ่ือแสดงความสมั พนั ธร์ ะหว่าง 2 การประมวลผล
แอตทริบิวต์ วา่ มีความสัมพันธ์กนั หรือไม่
มากกวา่ จะแสดงเพยี งจานวน นามสกลุ ไฟล์ทใ่ี ช้ .xlsx หรอื .csv
ตัวเลขทแ่ี ทจ้ ริงเท่าน้ัน
6 ฮิ สโทแกรม
5 แผนภาพกล่อง
4
3
2
1 กราฟเส้น
0
Category 1 Category 2 Category 3 Category 4
4
3.5
3
2.5
2 แผนภาพ
1.5
1 การกระจาย
0.5
0
02 4 6
2.4 ข้อมลู ส่วนบุคคล
(Personal Data)
ขอ้ มลู ส่วนบุคคล คือ ข้อมลู เกี่ยวกบั บุคลที่สามารถบง่ บอกสิ่งเฉพาะตวั ของ
บุคคล
ขอ้ ควรระวัง
ขอ้ มลู เหลา่ น้ี ถา้ มผี ู้อน่ื ทราบนอกเหนือ
จากเจา้ ของข้อมูล
อาจทาให้ปลอมแปลงตัวตนของเราได้
จึงควรระมัดระวังไมใ่ หค้ นอน่ื
นาข้อมลู ของเราไปใช้ได้
พ.ร.บ.คุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 หรือ PDPA
(Personal Data Protection Act)
มผี ลบังคับใช้
28 พฤษภาคม 2563
ความเส่ียงและความอันตราย ขอ้ มูลส่วนบคุ คล
การเตรยี มขอ้ มูล สรปุ ทา้ ยบทเรียน
การเกบ็ รวบรวมขอ้ มลู ขอ้ มลู ตอ้ งถกู จดั เตรยี ม การสารวจขอ้ มลู ข้อมลู สว่ นบุคคล
โดยเร่ิมจากการทาความสะอาด
การเก็บรวบรวมข้อมูลแบบ หลังจากเตรยี มข้อมูลแลว้ เป็น โดยข้อมูลท่รี วบรวมมานน้ั ต้อง
ทตุ ยิ ภมู จิ ากหนว่ ยงานหรอื ขอ้ มูล ตรวจสอบขอ้ มลู ว่ามี การสารวจข้อมูลเพอื่ ทาความ มคี วามระมัดระวัง
ความผิดปกตหิ รอื ไม่ แล้ว เขา้ ใจรปู แบบ ความสมั พันธ์
องค์กรทเ่ี ผยแพรแ่ บบ แปลงขอ้ มลู ให้เปน็ ระเบยี บ และผลลพั ธ์เบือ้ งตน้ เกี่ยวกบั ถ้าขอ้ มูลนนั้ เปน็ ข้อมลู สว่ น
สาธารณะบนอินเตอร์เน็ต รวมถึงเชอ่ื มโยงขอ้ มูลใหอ้ ย่ใู น บุคคล
ข้อมลู
รูปแบบทน่ี ามาใชไ้ ด้ โดยทาเป็นภาพ กราฟ หรือ
แผนภมู ิ
01 02 03 04