การเก็บรวมรวบและส ารวจข้อมูล
เนื่องจากในสมัยนี้มีข้อมูลข่าวสารมากมายหลายหลาย แต่การจะได้มาซึ่งข้อมูลที่มีประโยชน์จริงๆ จ าเป็นต้องการเก็บข้อมูลที่ดี ดังนั้นเราจะมากล่าวถึงการเก็บข้อมูลแบบทุติยภูมิ เพื่อจุดประสงค์ให้ได้ทราบว่าข้อมูลที่ต้องการจะรวบรวมจะได้จากที่ใดและวิธีการใด
1. การเก็บรวบรวมข้อมูล ในปัจจุบันข้อมูลทุติยภูมิมีการเผยแพร่ได้ในหลากหลายรูปแบบ ในการจัดเก็บก็จะขึ้นอยู่กับรูปแบบที่เผยแพร่ดังนี้ ไฟล์ ไฟล์ที่มีนามสกุล xls xlsxx หรือ odp เป็นไฟล์ที่ได้จากโปรแกรมตารางงาน หรือนามสกุล csv เป็นไฟล์แนบข้อความ โดยไฟล์เหล่านี้สามารถ download ไปใช้งานได้โดยไม่ต้องเขียนโปรแกรมเพิ่มเติม ส่วนไฟล์นามสกุล pdf สามารถ download ได้ แต่การน าข้อมูลไปใช้ต่อจะท าได้ยาก เนื่องจากมีความซับซ้อนในการแปลงข้แมูลให้อยู่ในรูปแบบที่สามารถใช้แก้ไข/ค านวณได้ รายงานหรือตารางบนเว็ปไซต์ โดยทั ่วไปจะเป็นข้อมูลที่ผ่านการสรุปมาแล้ว และไม่มีข้อมูลดิบประกอบ ท าให้ยากต่อการน าข้อมูลไปวิเคราะห์ในประเด็นอื่น 1.1 แหล่งข้อมูลทุติยภูมิ ถ้าหากเราสนใจ ข้อมูลเกี่ยวกับรายได้ประชากรในไทย เราสามารถเริ่มด้วยการค้นใน website กลางของทางรัฐบาล ซึ่งไฟล์ข้อมูลที่สามารถ download ได้จะมีทั้งในรูปแบบ xls และ csv
1.2 ความเหมาะสมของแหล่งข้อมูล การเลือกใช้ข้อมูลที่ไม่ถูกต้องอาจท าให้เกิดการชี้น าที่ไม่ถูกต้องและน าไปสู่การเข้าใจผิดได้ เราสามารถใช้มุมมองทั้ง 5 ด้านได้ดังนี้ 1.2.1 Purpose ตรวจสอบว่าข้อมูลดังกล่าวถูกพัฒนาขึ้นเพื่อเป้าหมายใด 1.2.2 Currency ควรตรวจสอบว่าข้อมูลถูกเผยแพร่เมื่อไหร่ มีการตรวจสอบและแก้ไขปรับปรุงแก้ไข ครั้งสุดท้ายเมื่อใด 1.2.3 Accuracy ตรวจสอบความถูกต้องพื้นฐานของข้อมูล 1.2.4 Relevance ควรตรวจสอบว่าข้อมูลเกี่ยวข้องกับปัญหาที่ต้องการหรือไม่ 1.2.5 Authority พิจารณาความน่าเชื่อถือของแหล่งข้อมูล
2. การเตรียมข้อมูล เมื่อเลือกแหล่งข้อมูลและรวบรวมได้แล้ว ขั้นตอนถัดไปคือการเตรียมข้อมูล เพื่อเตรียมพร้อมส าหรับการประมวลผล ซึ่งข้อมูลที่จะใช้ในการประมวลผลจะต้องมีความถูกต้องครบถ้วนสมบูรณ์ 2.1 การท าความสะอาดข้อมูล ข้อมูลที่เตรียมมาอาจมีข้อผิดพลาด ซึ่งไม่เหมาะกับการในไปประมวลผล จึงที่มีการตรวจ prove และน าเฉพาะส่วนที่ส าคัญมาใช้
2.2 การแปลงข้อมูล เป้าหมายของการแปลงข้อมูล คือการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมส าหรับการประมวลผล โดยรูปแบบของข้อมูลจะมาในรูปแบบของตาราง ที่แต่ละแถวคือ ข้อมูลหนึ่งตัวอย่าง และแต่ละคอร์ลัมคือข้อมูงของตัวอย่างนั ่น
2.3 การเชื่อมโยงข้อมูล ในกรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแห่ง ท าได้โดยการใช้แอททริบิวต์เดียวกันจากทั้ง 2 แหล่งเป็นตัวเชื่อม 3. การส ารวจข้อมูล วาดแผนภาพหรือกราฟของข้อมมูลในแบบต่างๆ เพื่อพิจารณา ภาพรวมของข้อมูล ระหว่างการส ารวจอาจจะพบข้อผิดพลาดหรือปัญหาอื่นๆ จากการตั้งค าถาม หรือการรวบรวมข้อมูล ซึ่งท าให้ต้องกลับไปแก้ไขใหม่ 3.1 การส ารวจข้อมูลโดบใช้กราฟเส้น เมื่อพิจารณาชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน อาจใช้กราฟเส้น เพื่อแสดงรายได้เฉลี่ยต่อครัวเรือนแต่ละปีจ าแนกตามภาคต่างๆ ซึ่งผลจากการส ารวจด้วยข้อมูลกราฟเส้น จะเห็นได้ว่ารายได้เฉลี่ยของแต่ละครัวเรือนจะต่างกันตามภูมิภาค
3.2 การส ารวจข้อมูลด้วยฮิสโตรแกรม การส ารวจข้อมูลเพื่อแสดงความถี่ของสิ่งที่สนใจ อาจใช้ฮิสโตรแกรม 3.3 การส ารวจข้อมูลโดยใช้แผนภาพกล่อง บางครั้งในข้อมูลชุดเดียวอาจประกอบไปด้ วยกลุ่มย่อยหลายๆกลุ่ม ซึ่งท าให้สามารถพิจารณาข้อมูลแต่ละกลุ่มแยกกันได้ และอาจเห็นลักษณะพิเศษบางอย่าง
3.4 การส ารวจข้อมูลโดยใช้แผนภาพกระจาย การใช้แผนภาพกระจาย เพื่อแสดงความสัมพันธ์ ระหว่าง 2 แอตทริบิวต์ 4. ข้อมูลส่วนบุคคล ข้อมูลส่วนบุคคล หมายถึง ข้อมูลเกี่ยวกับสิ่งเฉพาะตัวของบุคคล ข้อมูลนี้หากมีผู้อื่นทราบนอกจากเจ้าของข้อมูลแล้ว อาจท าให้เกิดการปลอมแปลงตัวตนของเราได้จึงต้องมีความระมัดระวังไม่ให้ผู้อื่นน าไปใช้ได้
ผู้จัดท า - นายภวัท พิพัฒน์ธนวงศ์ แหล่งที่มา - หนังสือเรียนวิทยาการค านวณ ม.5 สสวท