ข้อมูลขนาดใหญ่ ก า ร จั ด ก า ร B I G D A T A
ความรู้พื้นฐานเกี่ยวกับดิจิทัล การจัดการข้อมูลขนาดใหญ่ 3.อินเทอร์เน็ตทุกสรรพสิ่ง เทคโนโลยีที่ใช้ในการทำ ธุรกรรมโดยไม่ต้องผ่านบุคคลที่สาม ธุรกรรมการเงินดิจิทัล ระบบเงินดิจิทัล สกุลเงินดิจิทัล หรือ Cryptocurrency การทำ ธุรกิจดิจิทัลบนสื่อสังคมออนไลน์ การประยุกต์ใช้เทคโนโลยีดิจิทัลในอาชีพของการเป็นพลเมืองดิจิทัล 1. 2. 3. 4. 5. 6. 7. เพื่อให้เป็นไปตามอุดมการณ์และหลักการในการจัดการอาชีวศึกษา ที่มุ่งพัฒนากำ ลัง คนระดับกึ่งฝีมือ ระดับฝีมือ ระดับเทคนิค และระดับเทคโนโลยี เพื่อให้เกิดคุณภาพ ตามสมรรถนะอาชีพที่กำ หนดไว้ แบบประเมินผลการเรียนรู้และใบงาน จึงสร้างขึ้น เพื่อเป็นแนวทางในการจัดเารเรียนรู้ต่อไป ายการ 1ยการ 2ยการ 3ยการ 4ยการ5125 100 75 50 250 คำ นำ บริษัท สำ นักพิมพ์เอมพันธ์ จำ กัด ได้จัดการทำ หนังสือเรียนวิชา เทคโนโลยีดิจิทัล เพื่อการจัดการอาชีพ (Digttal Technology for works) รหัสวิชา 30001-2003 ขึ้น ตรงตามจุดประสงค์รายวิชาสมรรถนะรายวิชาและคำ อธิบายรายวิชาหลักสูตร ประกาศนียบัตรวิชาชีพชั้นสูง (ปวส.) พุทธศักราช 2563 หมวดวิชาสมรรถนะ วิชาชีพ ของสำ นักงานคณะกรรมการการอาชีวศึกษา กระทรวงศึกษาธิการ เนื้อหาในหนังสือเล่มนี้ประกอบไปด้วย 7 หน่วยการเรียนรู้ ดังนี้
สารบัญ หน่วยที่ 1 ความหมายของ Big Data ..............................................1 องค์ประกอบที่สำ คัญของข้อมูล........…............................2 ลักษณะสำ คัญของ Big Data..........................................3 การจัดการข้อมูล Big Data............................................6 วิวัฒนาการของ Big Data........................................1 หน่วยที่ 2 คุณลักษณะของ Big Data..............................................3 ประโยชน์ของ Big Data.................................................8 หน่วยที่ 3 ข้อควรระวังในการใช้ Big Data.....................................8 ประโยชน์ของ Big Data คุณลักษณะของ Big Data ความหมายของ Big Data
หน่วยที่ 4 ตัวอย่างการใช้ข้อมูล Big Data ประเภทของ Big Data..........................................................12 ตัวอย่างการใช้ข้อมูล Big Data...................................................9 ประเภทของ Big Data หน่วยที่ 5 ตารางการเปรียบเทียบ Data Lake กับการคลังเก็บข้อมูล....14 หน่วยที่ 6 การจัดการโครงสร้างของ Big Data การจัดการโครงสร้างของ Big Data......................................16 กำ หนดกลยุทธ์เกี่ยวกับข้อมูลขนาดใหญ่................................16 การรู้แหล่งที่มาของข้อมูลขนาดใหญ่.....................................17 การเข้าถึง การจัดการ และจัดเก็บข้อมูลขนาดใหญ่...............18 การวิเคราห์ข้อมูลขนาดใหญ่.................................................18 ตัดสินใจอย่างชาญฉลาดและใช้ข้อมูลช่วย............................18
หน่วยที่ 7 บุคลากรและทักษะการทำ Big Data การพัฒนาบุคลากรในงานข้อมูลขนาดใหญ่............................19 บุคลากรและทักษะการทำ Big Data......................................19 บุลลากรในงานข้อมูลขนาดใหญ่.............................................20 หน่วยที่ 8 การเริ่มทำ Big Data Project การเริ่มทำ Big Data Project.......................................................21 รับรองการส่งผ่านข้อมูลที่ยืดหยุ่นและปรับขนาดได้.......................22 ขับเคลื่อนการประมวลผลและการผสมผสานข้อมูลขนาดใหญ่......23 ส่งมอบข้อมูลเชิงลึกเกี่ยวกับการวิเคราะห์Big Data ที่สมบูรณ์.....24 ใช้แนวทางเชิงโซลูชัน (Solution-Oriented).............................25 การเลือกผู้ขายที่เหมาะสม...........................................................26 หน่วยที่ 9 machine learning Machine Learning คืออะไร...............................................27 หลักการทำ งานของ Machine Learning..............................28 ประโยชน์ของ Machine Learning........................................29
แนวคิดเรื่อง ข้อมูลขนาดใหญ่ หรือ Big Data เป็นของใหม่และมีการเริ่มทำ กัน ในไม่กี่ปีมานี้ แต่ต้นกำ เนิดของชุดข้อมูล ขนาดใหญ่นี้ มีการริเริ่มสร้างมาตั้ฃแต่ ยุค60 และ ยุค 70 ของโลกของข้อมูลก็ได้เริ่มต้น และได้พัฒนาศูนย์ข้อมูลแห่ง แรกขึ้น และทำ การพัฒนาฐานข้อมูลเชิงสัมพันธ์ขึ้นมา คำ ว่า Big Data หลาย คนอาจจะรู้สึกว่าเป็นคำ ศัพท์ใหม่ที่เกิดขึ้นได้ไม่นานและกลายมาเป็น Trend ในอุตสาหกรรมยุคปัจจุบัน หันไปทางไหนก็มีแต่คนพูดถึง Data Science หรือ Big Data เต็มไปหมด ซึ่งคำ จำ กัดความว่า Big Data นั้นเพิ่งเกิดขึ้นได้ไม่นาน จริง BIG DATA หมายถึง ปริมาณข้อมูลที่มหาศาล ทั้งแบบ ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างซึ่งปะปนอยู่มากมาย ในการทำ ธุระกิจในแต่ละวัน หากแต่ไม่ใช่ปริมาณของข้อมูล ที่เป็นสิ่งสำ คัญ สิ่งสำ คัญก็คือการที่องค์กรจัดการกับข้อมูล ต่างหาก การวิเคราะห์ BIG DATA นำ ไปสู่ข้อมูลเชิงลึก เพื่อ การตัดสินใจที่ดีกว่าและเคลื่อนไหวในกลยุทธ์ธุรกิจ 1)ความหมายของ Big Data วิวัฒนาการของ Big Data 1
DEVICES GATEWAYS STORAGE GATEWAYS ANALYTICS REPORT องค์ประกอบที่สำ คัญของข้อมูล BIG DATA FLOW CHART BASIC DIAGRAM DEVICES หมายถึง (ดิไวซฺ') n. อุปกรณ์, เครื่องประดิษฐ์, เครื่องกลไก, แผนการ, หลักในใจ, เครื่องหมาย Gateways หมายถึงระบบการผลิตในลักษณะ industrial automation ในยุค Industry 4.0 การสื่อสารกันระหว่างอุปกรณ์ต่างๆ Storage คือชิ้นส่วนของฮาร์ดแวร์คอมพิวเตอร์ที่ใช้สำ หรับบันทึกพกพา และดึงข้อมูลออกมา Analytics คือ การวิเคราะห์ข้อมูลที่มีอยู่ตั้งแต่ อดีต จนถึงปัจจุบัน เพื่อ ทำ นายอนาคต ที่เป็นประโยชน์ในการพัฒนาการตลาด Report คือ การนำ Insights ทางธุรกิจมานำ เสนอในรูปแบบเอกสาร เพื่อให้ทางฝ่ายที่รับสาร เช่น ฝ่ายบริหาร หรือ ฝ่ายธุรกิจ สามารถเปิด เอกสารนี้แล้วเข้าใจเนื้อหาได้อย่างรวดเร็ว 2
ความแปรผัน Variabilty รายการ 1รายการ 2 รายการ 3รายการ 4 รายการ 525 20 15 10 5 0 3.Languages text messages, ข้อความที่ถูก tweet เนื้อหาต่างๆในเว็บไซต์ เป็นต้น 4.Records ข้อมูลผลสำ รวจที่มีขนาดใหญ่ ข้อมูลทางภาษี เป็นต้น 5.Sensors ข้อมูลทางภูมิศาสตร์ accelerometer เป็นต้น 2 ) คุณลักษณะของ Big Data 1.Behavioral data ข้อมูลเชิงพฤติกรรมการใช้งานต่างๆเช่น พฤติกรรมการคลิกดูข้อมูล, ข้อมูล การใช้ ATM 2.Image & sounds ภาพถ่าย วิดีโอ รูป จาก google street view ลักษณะสำ คัญของ Big Data ปริมาณ Volume ความหลากหลาย Variety ความเร็ว Velocity ความถูกต้อง Veracity คุณค่า Value 3
The Six Vs of Big Data Big Data ที่มีคุณภาพสูงควรมีลักษณะพื้นฐานอยู่ 6 ประการ (6 Vs ) ดังนี้ ข้อมูล ที่มีปริมาณมาก สามารถ นำ ไปวิเคราะห์แล้วได้ ผล สะท้อนความเป็นจริง รูปแบบของข้อมูล มีหลากหลายรูปแบบ เช่น ตาราง ภาพ เสียง ที่สามารถนำ มา วิเคราะห์ประกอบกัน ได้ ข้อมูลถูกเก็บมาอย่าง ต่อเนื่องและรวดเร็ว ทำ ให้สามารถ วิเคราะห์และตอบ สนองได้อย่างทัน ท่วงที ข้อมูลมีความน่าเชื่อ ถือมีระบบในการ ยืนยันตรวจสอบความ ถูกต้องของข้อมูล ข้อมูลมีประโยชน์ต่อ การตัดสินใจเชิง ธุรกิจและมีความ สัมพันธ์ เชื่อมโยง กับวัตถุประสงค์ของ ธุรกิจ ข้อมูลมีความหลาก หลายในการใช้งาน สามารถนำ มาปรับ รูปแบบเพื่อ วิเคราะห์ได้หลายแง่ มุม ปริมาณ VOLUME ความเร็ว VELOCITY ความหลากหลาย VARIETY ความถูกต้อง VERACITY คุณค่า VALUE ความแปรผันได้ VARIABILTY 2.1 V ที่1 Volume (ปริมาณ) ปริมาณ หมายถึง จำ นวนข้อมูลที่มีปริมาณมหาศาลเป็นปัจจัยที่มีความ สำ คัญ ซึ่งโครงสร้างข้อมูลของ ระบบฐานข้อมูลไม่สามารถจัดเก็บข้อมูลได้ ปริมาณ ข้อมู,มากมีประโยชน์เพื่อเป็นข้อมูลที่ใช้ได้ในการตัดสินใจ หรือ ทำ นายอนาคต ใช้ เตรียมการวางแผนการทำ งานเชิงรุกทางธุรกิจ 2.2 V ที่1 Velocity (ความเร็ว) ความเร็ว หมายถึง ความเร็วในการสร้างและการใช้ข้อมูล ข้อมูลที่เข้าสู่ระบบ ฐานข้อมูลมีอัตราการเพิ่มขึ้น อย่างรวดเร็ว เช่นข้อมูลที่เกิดขึ้นจากโทรศัพท์ เคลื่อนที่ เก็บเป็นข้อมูลภาพถ่าย ข้อมูลการพิมพ์ การสนทนา ข้อมูลการอัดวิดีโอ ข้อมูลการอัดเสียง หรือข้อมูลการสั่งสินค้า 4
2.3 V ที่3 Variety (ความหลากหลาย) ความหลากหลาย หมายถึง ความกว้างหรือขอบเขตของข้อมูลที่มีอยู่ รูปแบบมี ความหลากหลายของข้อมูล และ ชนิดของข้อมูลเป็นรูปที่มีโครงสร้าง ได้แก่ ข้อมูล แบบตารางที่เก็บไว้ในฐานข้อมูล ประกอบด้วย ข้อมูลที่เป็นตัวเลข ตัวหนังสือ และ วัน เดือน ปี ส่วนข้อมูลที่ไม่มีโครงสร้าง และกึ่งมีโครงสร้างรูปแบบที่ไม่มีโครงสร้าง หรือกึ่งโครงสร้างไม่เหมือนกันตรงที่จัดเก็บไว้ในระบบฐานข้อมูล 2.4 V ที่4 Veracity (ความถูกต้องแม่นยำ ) ความถูกต้องแม่นยำ หมายถึง ความน่าเชื่อถือของแหล่งที่มาของข้อมูลและ ความถูกต้องของชุดข้อมูล มีกระบวนการในการตรวจสอบและยืนยันความถูกต้อง ของข้อมูล ซึ่งมีความเกี่ยวเนื่องโดยตรงกับผลลัพธ์การวิเคราห์ข้อมูล ข้อมูล ประเภท Big Data มีขนาดใหญ่ ที่ต้องการความเร็วในการใช้งาน 2.5 V ที่5 VAlue (ข้อมูลที่มีคุณค่า) ข้อมูลที่มีคุณค่า คือ สามารถนำ ไปใช้ประโยชน์ได้ หรือมีมูลค่าและความสำ คัญ ต่อธุรกิจในการนำ มาใช้ประโยชน์ เช่น การนำ ข้อมูลไปวิเคราะห์ การสรุปผลเพื่อ นำ ข้อมูลที่วิเคราะห์ได้ไปวางแผนการขับเคลื่อนธุรกิจ เพื่อสร้างมูลค่าของสินค้า 2.6 V ที่6 Variablibty (ความแปรผัน) หมายถึง ข้อมูลสามารถเปลี่ยนแปลงรูปแบบไปตามการใช้งาน หรือ สามารถ คิดวิเคราะห์ได้จากหลายแง่มุมและรูปแบบในการจัดเก็บข้อมูลก็อาจจะต่างกัน ออกไปในแจ่ละแหล่งของข้อมูล 5
การจัดการข้อมูล Big Data ข้อมูลที่มากมายมหาศาลหรือ Big Data จะต้องทำ การจัด เก็บข้อมูลขนาดใหญ่ หรือหาแหล่งที่อยู่ให้มันยกตัวอย่างเช่น on premises หรือ cloud ที่นิยมใช้ในปัจจุบัน ทั้งนี้ขึ้นอยู่ กับความต้องการหรือความสะดวกในการใช้งาน แต่ในบาง กรณีอาจจะต้องจัดเก็บข้อมูลไว้ใกล้กับแหล่งข้อมูลที่มีความ ยืดหยุ่นสูง การจัดการข้อมูล Big Data มีองค์ประกอบดังนี้ ที่มา : มีการดัดแปลงมาจาก Dumbill (2012) 1.การจัดเก็บ (storage) 2.การประมวลผล (Processin) 3.การวิเคราะห์ (Analysis Algorithm) 4.การทำ รายงานสรุป (Visualization) จะมีการเคลื่อนย้ายกลุ่มของข้อมูลเข้าสู่ระบบฐานข้อมูลเพื่อ ประมวลผล และนำ ไปจัดเก็บในส่วนจัดเก็บข้อมูล 6
การกระจายการทำ งานไปยังหลายๆเครื่อง ที่มา : https://bit.ly34WabN9 จากภาพ ซอฟต์แวร์ Hadoop มีการทำ งานบนพื้นฐานของการกระจาย จากการประมวลผลไปยัง Server หลายตัว ทั้งนี้ Google ใช้ซอฟต์แวร์ Hadoop ในการลดโครงสร้าง เพื่อค้นหาและเข้าถึงข้อมูล โดยใช้วิธีการ ทำ ดัชนี (index) ทำ ให้มีผลการทำ งานที่เร็วขึ้น Hadoop มี3ขั้นตอน 1.โหลดข้อมูล โดยใช้ HDFS 2.ลดการทำ งานบางส่วน 3.รับผลลัพธ์ที่ได้จากการทำ งาน HDFS Hadoop เป็นซอฟต์แวร์ ตัวหนึ่งที่นิยมนำ มาใช้ในการทำ Big Data เนื่องจาก Hadoop นั้นเป็น Open Source Technology สามารถที่จะ พัฒนาต่อยอดได้ และมีเครื่องมือต่าง ๆ ที่สามารถมาเชื่อมต่อกับ Hadoop เพื่อใช้งานได้ เช่น Pig, Hive, Hbase เป็นต้น โดยใช้ Hardware PC หรือ Server ทั่วไปมาสร้างเป็น Hadoop Cluster ได้ 7
3.ประโยชน์ของ Big Data จริงๆ แล้ว Big Data สามารถนำ ไปประยุกต์ใช้ได้กับหลายภาคส่วน ไม่ว่าจะเป็น ภาครัฐ หรือภาคเอกชน ในส่วนนี้จะพูดถึงประโยชน์ของ Big Data หากนำ มาปรับใช้ ในภาคธุรกิจแล้วจะสามารถทำ ให้ 1.สามารถเข้าใจลูกค้าได้มากยิ่งขึ้น ด้วยการนำ ฐานข้อมูลที่มีอยู่ใน Big Data ศึกษา ถึงลักษณะพฤติกรรมของผู้บริโภค 2.สามารถวิเคราะห์ความต้องการของตลาดในอนาคตได้ ข้อมูลต่างๆ ที่ถูกค้นหาใน อินเตอร์เน็ต รวมถึงใน Social Media ต่างๆ สามารถนำ มารวบรวมได้ 3.การวางแผนในอนาคตมีประสิทธิภาพมากยิ่งขึ้น จากข้อมูลที่มีอยู่สามารถนำ ผล วิเคราะห์จาก Big Data เข้ามาช่วยประกอบการวางแผนและการตัดสินใจได้เป็น อย่างดี 4.คาดการณ์ปัญหาที่อาจเกิดขึ้น จากการนำ ข้อมูลที่มีจาก Big Data มาคาดการณ์ ความต้องการของตลาด 5.ลดงบประมาณในการลงทุนด้าน IT ในอนาคตหลังจากที่นำ Big Data มาใช้ใน องค์กรแล้วสามารถลดต้นทุนการใช้งบประมาณในด้าน IT ได้เป็นอย่างดี 3.1 ข้อควรระวังในการใช้ Big Data 1. เลือกเชื่อตัวเองมากกว่าข้อมูลที่ได้จาก Big Data 2. เลือกใช้เครื่องมือแก้ไขปัญหาที่ผิด 3. ขาดแคลนบุคลากรที่มีทักษะด้าน IT 4. อาจเกิดปัญหาที่ Big Data ก็ไม่สามารถแก้ไขได้ 5. การใช้เทคโนโลยี Big Data ที่อาจสวนทางกับการวางแผนขององค์กร 6. ขาดการเก็บข้อมูลที่มากเพียงพอ 8
4.ตัวอย่างการใช้ข้อมูล Big Data ข้อมูลขนาดใหญ่ หรือ bIg Data ช่วยให้สามารถจัดการงานทางธุรกิจได้อย่างมี ประสิทธิภาพได้ตั้งแต่การเก็บข้อมูลของลูกค้า เพื่อสร้างประสบการณ์ที่ดีให้กับลูกค้า ตัวอย่าง การใช้ข้อมูล Big Data ดังนี้ 4.1 การพัฒนาผลิตภัณฑ์ บริษัท Netflix และบริษัท Procter & Gamble ได้ใช้ข้อมูล Big Data ช่วยในการคาดการณ์ ความต้องการของลูกค้าสร้างโมเดลเชิงคาดการณ์สำ หรับ ผลิตภัณฑ์และบริการใหม่ๆ โดยการจำ แนกคุณลักษณะที่สำ คัญของผลิตภัณฑ์หรือ บริการในอดีตและปัจจุบัน สร้างแบบจำ ลอง สัมพันธ์ระหว่างตุณลักษณะเหล่านี้กับ ความสำ เร็จในเชิงพาณิชย์ของข้อเสนอ นอกจากบริษัท P&G ยังใช้ข้อมูลของสื่อสังคม ออนไลน์ในการวิเคราะห์ การทดสอบตลาด และเปิดตัวสินค้าในช่วงต้นเพื่อวางแผน การผลิตและเปิดตัวสินค้าใหม่ 4.2 การคาดการณ์เพื่อการบำ รุงรักษาเครื่องจักร ปัจจัยที่ใช้ทำ นายการชำ รุดของเครื่องจักรจากข้อมูลทั้งที่เป็นแบบมี โครงสร้าง เช่น วัน เดือน ปี ที่ผลิต รุ่น และ ข้อมูลที่ไม่มีโครงสร้าง เช่น ข้อมูลจาก อุปกรณ์เซนเซอร์ต่างๆ อุณหภูมิของเครื่องยนต์ การทำ งานผิดปกติของเครื่องจักร ซึ่ง ข้อมูลเหล่านี้ต้องได้รับการวิเคราะห์ก่อนจะเกิดปัญหา การวิเคราห์ข้อมูลเพื่อกำ หนด ตารางซ่อมบำ รุงเพื่อประหยัดงบการซ่อมบำ รุง และรวมไปถึงการสต๊อกอะไหล่ต่างๆ เพื่อ ทำ ให้การซ่อมบำ รุงมีประสิทธิภาพทันเวลา และประหยัดงบประมาณ 9
ในสภาวะการแข่งขันทางการค้าในปัจจุบัน การเสนอประสบการณ์และข้อ เสนอที่ดีที่สุดและตรงใจแก่ลูกค้าที่สุดเป็นผู้ได้เปรียบในการแข่งขัน ข้อมูลขนาดใหญ่ (Big Data) ช่วยให้ธุรกิจรวบรวมข้อมูลจากสื่อสังคมออนไลน์ผู้เข้าชมเว็บไซต์ ผู้เข้าใช้ แอปพลิเคชัน ข้อมูลการตอบโต้ทางโทรศัพท์ ข้อมูลสนทนาผ่านสื่อต่างๆ ช่วยให้ ปรับปรุงการสื่อสารกับลูกค้า และ เพิ่มมูลล่ามากที่สุดด้วยการส่งข้อเสนอสุดพิเศษให้ ตรวใจกับลูกค้า และยังช่วยแก้ปัญหาที่เกิดกับลูกค้า เป็นการแก้ปัญหาเชิงรุกได้อย่างมี ประสิทธิภาพ 4.4 การตรวจสอบการโกงและการปฏิบัติตามกฎระเบียบ การโกงในระบบเครือข่ายอินเทอร์เน็ตไม่ได้มีเฉพาะจากแฮกเกอร์เท่านั้นซึ่งจะ ต้องเผชิญกับผู้เชี่ยวชาญในหลายรููปแบบ ในระบบการรักษาความปลอดภัยสมัยใหม่มีการ พัฒนาอย่างไม่หยุดนิ่ง การใช้ข้อมูลขนาดใหญ่สามารถทำ ให้รูปแบบของข้อมูลที่เข้ามาในรููป แบบที่มิชอบ และไม่ถูกต้องตามข้อกำ หนดได้ 4.5 การเรียนรู้เครื่องจักร 4.6 ประสิทธิภาพในการปฏิบัติงาน 4.3 สร้างประสบการณ์ที่ดีให้กับลูกค้า การเรียนรู้เครื่องจักร หรือ Machine Learning กำ ลังเป็นที่นิยมอยู่ในขณะนี้ ข้อมูล โดนเฉพาะอย่างยิ่ง ข้อมูลขนาดใหญ่เป็นเหตุผลที่สามารถสอนเครื่องจักรได้ การมีข้อมูลขนาด ใหญ่ทำ ให้ง่ายในการเตรียมข้อมูลในการสอนเครื่องจักรให้สามารถเรียนรู้ได้ ในการปฏิบัติงานปกติจะไม่ทราบว่าการดำ เนินงานนั้นมีประสิทธิภาพเพียงใด แต่ใน พื้นที่มีข้อมูลขนาดใหญ่ทำ ให้สามารถวิเคราะห์และเข้าถึงการผลิตหรือการปฏิบัติงานได้ การตอบ รับของลูกค้ารวมถึงปัจจัยอื่นๆ ที่จะทำ ให้ธุรกิจหยุดชะงักหรือขัดข้อง 10
4.8.1 การรวบรวมข้อมูล การรวบรวมข้อมูลของ Big Data เป็นการรวบรวมข้อมูลจากหลากหลายแหล่งทั้งที่มา และการใช้งานที่แตกต่างกันอย่างาก ซึ่งกลไกลและเทคโนโลยีแบบดั้งเดิม ELT (Extract , Transform , and Load) ไม่สามารถทำ ได้ ข้อมูลขนาดใหญ่ต้องการเทคนิค วิธีการ และ เทคโนโลยีใหม่ในการรวบรวมข้อมูลขนาดเทระไบต์ และระดับเพทไบต์ ในการรวบรวมข้อมูล ต้องมีการประมวลผล จัดรูปแบบให้เหมาะสำ หรับธุรกิจหรือวัตถุประสงค์นั้น ๆ 4.7 การขับเคลื่อนในการสังสรรค์สิ่งใหม่ ๆ ข้อมูลขนาดใหญ่ หรือ Big Data สามารถช่วยในการสร้างสรรค์สิ่งใหม่ๆ ได้โดยการศึกษาความ สัมพันธ์ ระหว่างบุคคล สถาบัน หน่วยงาน องค์กร กระบวนการ และการดำ เนินวิธีการการใหม่ในการใช้ข้อมูลเชิงลึกเหล่านั้น 4.8 การทำ งานของข้อมูลขนาดใหญ่ ข้อมูลขนาดใหญ่ให้ข้อมูลเชิงลึกใหม่ๆ เพื่อเปิดโอกาสและรูปแบบธุรกิจใหม่ ๆ การเริ่มต้นใช้ งาน ประกอบด้วย 3 ขั้นตอน ดังนี้ 4.8.2 การจัดการข้อมูล ข้อมูลขนาดใหญ่หรือ Big Data มีความต้องการสถานที่ในการจัดเก็บข้อมูลขนาดใหญ่ การจัดเก็บข้อมูลเป็นชนิดใดก็ได้ เช่น แบบ On Premises หรือ แบบ Cloud ขึ้นอยู่กับความ ต้องการ ความสะดวกในการใช้สามารถใช้และแระเมินผลได้ บางครั้งจำ เป็นที่ต้องจัดเก็บไว้ ใกล้กับแหล่งข้อมูล หรือบางข้อมูลต้องการความยืดหยุ่นสูงและไม่ต้องการบริการจัดการเป็น แบบ Cloud ซึ่งกำ ลังเป็นที่นิยมกันมาก 11
• โครงสร้าง •ไม่มีโครงสร้าง •กึ่งโครงสร้าง 5.ประเภทของ Big Data ข้อมูล (Data) คือ ข้อเท็จจริงที่เกิดขึ้น ข้อมูลอาจจะอยู่ในรูปแบบข้อความหรือ ตัวเลข ข้อความเหล่านี้อาจจะเกี่ยววข้องกับคน สัตว์ สิ่งของ โดย Big Data แบ่งออกเป็น 3 ประเภท 1. ข้อมูลมีโครงสร้าง คือข้อมูลที่มีรูปแบบมาตรฐานเพื่อให้ซอฟต์แวร์และมนุษย์เข้าถึงได้อย่างมี ประสิทธิภาพ โดยทั่วไปจะเป็นตารางที่มีแถวและคอลัมน์ที่กำ หนดคุณลักษณะ ข้อมูลอย่างชัดเจน เนื่องจากข้อมูลที่มีโครงสร้างเป็นข้อมูลที่เน้นปริมาณ ดังนั้น คอมพิวเตอร์จึงสามารถประมวลผลเป็นข้อมูลเชิงลึกได้อย่างมีประสิทธิภาพ อ้างอิงจาก th.LinkedIn.com รูปตัวอย่างแบบมีโครงสร้าง 12
2.ข้อมูลแบบไม่มีโครงสร้าง ข้อมูลใดๆ ที่ทีรูปแบบที่ไม่รู้จักจัดเป็นประเภทข้อมูลที่ไม่มีโครงสร้าง นอกเหนือ จากขนาดที่ใหญ่มาก ตัวอย่างทั่วไปของข้อมูลที่ไม่มีโครงสร้างคือแหล้งข้อมูลที่ แตกต่างกัน ซึ่งประกอบด้วยไฟล์ข้อความ รูปภาพ วิดีโอ อย่างง่าย ข้อมูลนี้อยู่ใน รูปแบบข้อมูลดิบ Structured Data VS Unstructured Data 20% 80% Can be displayed in rows columns and relationnal databases Numbers dates and strings Estimated 20% of enterprise data Requires less storage Easier to manage and protect with legacy solutions Cannot be displayed in rows columns and relationnal databases Images audio video word processing flles e-mails spreadsheets Estimated 80% of enterprise data Requires more storage More difflcult to manage and protect with legacy solutions แหล่งข้อมูล (Data Source) การได้มาของข้อมูลที่จะนำ มาวิเคราห์ มีวิวัฒนาการ มาจากการจดบันทึก ในกระดาษ การบันทึกข้อมูลลงในแบบฟอร์มที่สร้างขึ้นหรือ การจัดเก็บข้อมูลจากเว็บไซต์ลงฐานข้อมูล แต่ในปัจจุบัน แหล้งข้อมูล(Data source) ได้เปลี่ยนมาเป็นการใช้เครื่องมือ อุปกรณ์ต่างๆ 13
การจัดเก็บข้อมูล Data Lake เมื่อได้รับข้อมูล สิ่งที่ควรคำ นึงถึง คือ การนำ ข้อมูล เหล่านั้นมาจัดเก็บใน Big Data ใช้แนวทางในการเก็บข้อมูล Data Lake ซึ่งเป็น พื้นที่ในการจัดเก็บข้อมูลที่มีโครงสร้างและกึ่งโครงสร้าง ตารางการเปรียบเทียบ Data Lake กับการคลังเก็บข้อมูล คุณลักษณะ คลังเก็บข้อมูล Data Lake ข้อมูล สคีมา ราคา/คุณภาพ คุณภาพข้อมูล ผู้ใช้ การวิเคราห์ ข้อมูลเชิงสัมพันธ์ากระบบธุรกรรมฐาน ข้อมูลการปฏิบัติงานและแอปพลิเคชัน หน่วยธุรกิจ ได้รับการออกแบบก่อนการนำ DW ไปใช้ (สคีมาที่กำ หนดได้ล่วงหน้า) ผลการสืบค้นที่รวดเร็วที่สุดโดยใช้พื้นที่จัด เก็บที่มีต้นทุนสูงกว่า ข้อมูลที่จัดเตรียมอย่างดีซึ่งใช้เป็นควาจริง พื้นฐาน นักวิเคราห์ทางธุรกิจ การรายงานแบบกลุ่ม BI และการแสดง ภาพ ข้อมูลที่ไม่ใช่เชิงสัมพันธ์และ เชิงสัมพันธ์จากอุปกรณ์ IOT เว็บไซต์ เขียนเมื่อมีการวิเคราห์ (สคี มาที่กำ หนดเมื่อใช้) ผลการสืบค้นที่รวดเร็วยิ่งขึ้น โดยใช้พื่นที่จัดเก็บที่มีต้นทุนต่ำ ข้อมูลใดๆที่อาจได้รับหรือไม่ได้ รับการจัดเตรียม (เช่น ข้อมูลดิบ) นักวิทยาศาสตร์ข้อมูล นักพัฒนา ข้อมูลและนักวิเคราห์ทางธุรกิจ Machine Leaming การวิเคราห์ เชิงคาดการณ์การค้นพบข้อมูล Cloud สามารถแบ่งออกเป็น3ประเภท ดังนี้ 1) Pubic Cloud คือ ระบบบริการผู้ให้บริการออกแบบมาเพื่อให้คนทั่วโลกสามารถเข้า ถึงได้และใช้งานได้ 2) Private Cloud คือ ระบบองค์กรแต่ละองค์กรจัดทำ ขึ้นเพื่อรองรับการ ทำ งานขององค์กรใด องค์กรหนึ่ง 3) Hybrid Cloud คือ ระบบที่มีผสมผสานการใช้งานแบบ Public Cloud และ Private Cloud เข้าด้วยกัน เพื่อความยึดหยุ่นในการใช้งาน 14
Map Cloud แบ่งตามการให้บริการออกเป็น3ประเภท ดังนี้ 1) Software as a Service การให้บริการทางด้านซอฟต์เวอร์หรือแอปพลิเคชันผ่าน ทางระบบ อินเทอร์เน็ต อาจจะไม่คิดค่าใช้บริการ 2) Platfrom as a Service คือ การให้บริการด้าน platform สำ หรับผู้ใช้บริการทาง ด้านการพัฒนาโปรแกรมเพื่อใช้ Software 3) Infastructure as a Service คือ การให้บริการทางด้านโครงสร้างพื้นฐานทางไอที และ ระบบการจัดเก็บข้อมูลขององค์กร เพื่อรองรับการใช้งาน Software ขององค์นอกจากการ เก็บข้อมูลบน Cloud แล้ว Big Data ยังสามารถใช้เทคโนโลยี Hadoop ซึ่งเป็น Software แบบใช้เครื่องคอมพิวเตอร์ ที่ไม่ต้องแรงมากก็ได้ Input Shuffle Reduce ( ,1) ( ,1) ( ,1) ( ,1) ( ,1) ( ,1) ( ,1) ( ,1) ( [1,1]) ( [1,1]) ( ,2) ( ,2) ( ,1) ( ,1) 15
ในระดับสูง กลยุทธ์ข้อมูลขนาดใหญ่เป็นแผนที่ออกแบบมาเพื่อช่วยคุณในการกำ กับ ดูแลและปรับปรุงวิธีที่คุณได้รับ จัดเก็บ จัดการ แบ่งปัน และใช้ข้อมูลภายในและ ภายนอกองค์กรของคุณ กลยุทธ์ข้อมูลขนาดใหญ่ช่วยปูทางไปสู่ความสำ เร็จทางธุรกิจ ท่ามกลางข้อมูลจำ นวนมาก เมื่อพัฒนากลยุทธ์สิ่งสำ คัญคือต้องพิจรณาเป้าหมายทาง ธุรกิจและเทคโนโลยี-ในปัจจุบันและอนาคต-และโครงการริเริ่มการปฏิบัติกับข้อมูล ขนาดใหญ่มีความจำ เป็ฯ เช่น ทรัพย์สินทางธุริกิจที่มีค่าอื่นๆ แทนที่จะเป็นเพียง ผลพลอยได้ของแอปพลิเคชัน 6.การจัดการโครงสร้างของ Big Data การนำ Big Data มาใช้งานควรพิจรณาว่าข้อมูลจะไหลไปยังสถานที่ แหล่งที่มา ระบบ เจ้าของ และผู้ใช้จำ นวนมาก มี 5ขั้นตอน ดังนี้ 1 กำ หนดกลยุทธ์เกี่ยวกับข้อมูลขนาดใหญ่ สำ หรับองค์กรที่มีความตระหนักในด้านการปรับเปลี่ยน (Transformation) ให้พร้อม ในการก้าวเข้าสู่ยุคดิจิทัลแล้ว การเปลี่ยนแปลงที่ไร้วิสัยทัศน์หรือเป้าหมายที่ชัดเจน ย่อมสำ เร็จได้ยาก ทั้งนี้ไม่ว่าองค์กรของคุณนั้นจะมีขนาดใหญ่ กลาง หรือเล็ก สิ่งหนึ่งที่ เหมือนกันก็คือการวางกลยุทธ์ด้านข้อมูลที่ต้องตอบคำ ถามภายในองค์กรได้ ที่จะช่วยให้ องค์กรสามารถกำ หนดวิสัยทัศน์และวัตถุประสงค์ด้านข้อมูลได้อย่างชัดเจน พร้อมทั้ง ช่วยในกระบวนการตัดสินใจโดยใช้ข้อมูลที่มีอยู่ได้อย่างเต็มประสิทธิภาพนั่นเอง 16
2 รู้แหล่งที่มาของข้อมูลขนาดใหญ่ 2.1 กระแสข้อมูล มาจาก Internet of things และ อุปกรณ์ที่เชื่อมต่ออื่นๆ ที่ไหลเข้า สู่ระบบไอทีจากอุปกรณ์สวมใส่ ซึ่งสามารถวิเคราห์ข้อมูลขนาดใหญ่นี้ได้เมื่อมาถึง รวม ถึงตัดสินใจเลือกข้อมูลที่จะเก็บหรือไม่เก็บ และ ข้อมูลใดที่ต้องมีการวิเคราะห์เพิ่มเติม 2.2 โซเชียลมิเดีย ข้อมูลเกิดจากการโต้ตอบบน Facebook , Youtube , Intagram ซึ่งรวมถึงข้อมูลขนาเใหญ่จำ นวนมหาศาลในรูปแบบของภาพ วิดีโอ คำ พูด ข้อความ และเสียง-มีประโยชน์สำ หรับฟังก์ชันการตลาด การขาย และการสนับสนุน ข้อมูลนี้มัก จะอยู่รูปแบบที่ไม่มีโครงสร้างหรือกึ่งโครงสร้าง ดังนั้นจึงเป็นความท้าทายในแบบเฉพาะ สำ หรับการบริโภค 2.3 ข้อมูลที่เปิดเผยต่อสาธารณชน มาจากแหล่งข้อมูลแบบเปิดขนาดใหญ่เช่น data.gov ของรัฐบาล CIA World Factbook หรือ พอร์ทัลข้อมูลแบบเปิดของสหภาพ ยุโรป 2.4 ข้อมูลขนาดใหญ่อื่นๆ อาจมาจากพื้นที่เก็บข้อมูลส่วนกลาง แหล่งข้อมูลบน ระบบคลาวด์ซัพพลายเออร์ และลูกค้า 17
3 การเข้าถึง การจัดการ และจัดเก็บข้อมูลขนาดใหญ่ ระบบคอมพิวเตอร์สมัยใหม่มีความเร็ว พลัง และความยืดหยุ่น ที่จำ เป็นในการเข้า ถึงข้อมูลจำ นวนมหาศาลและประเภทของข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว นอกเหนือ จากการเข้าถึงที่เชื่อถือได้แล้ว บริษัทต่างๆ ยังต้องมีวิธีการรวบรวมข้อมูล รับประกัน คุณภาพของข้อมูล การจัดระเบียบข้อมูลและการจัดเก็บ และการเตรียมข้อมูล 4 การวิเคราห์ข้อมูลขนาดใหญ่ ด้วยเทคโนโลยีที่มีประสิทธิภาพสูง เช่น Grid Computing (การประมวลผลแบบกริด) หรือ การวิเคราห์ในหน่วยความจำ องค์กรต่างๆ จึงสามารถเลือกที่จะใช้ข้อมูลขนาดใหญ่ ทั้งหมดของพวกเขามาทำ วิเคราห์ได้ แต่ไม่ว่าจะใช้วิธีใด การวิเคราห์ข้อมูลขนาดใหญ่วิธีที่ บริษัทต่างๆ ได้รับมูลค่าและข้อมูลเชิงลึกจากข้อมูล 5 ตัดสินใจอย่างชาญฉลาดและใช้ข้อมูลช่วย ข้อมูลที่ได้รับการจัดการและมีความน่าเชื่อถือนำ ไปสู่การวิเคราห์ที่น่าเชื่อถือและการ ตัดสินใจที่น่าเชื่อถือ เพื่อให้สามารถแข่งขันได้ ธุรกิจต่างๆ จำ เป็นต้องได้รับประโยชน์ สูงสุดจากข้อมูลขนาดใหญ่และดำ เนินงานบนพื้นฐานข้อมูล-ทพการตัดสินใจบนพื้นฐาน หลักฐานที่นำ เสนอโดยข้อมูลขนาดใหญ่ 18
Big Data training Analytice & visualization 7. บุคลากรและทักษะการทำ Big Data การพัฒนาบุคลากรในงานข้อมูลขนาดใหญ่ Big Data training Essential big data platfoem Basic security Big Data training Data integration & ETL Data quality & cleansing Data services System Admin Data Engineer Data Analyst บุลลากรในงานข้อมูลขนาดใหญ่ (Big Data personnel) พื้นฐานสำ คัญในการ พัฒนาบุคลากรในด้านนี้ จะมีการแบ่งกลุ่มคนในงานออกตามหน้าที่ โดยแบ่งกลุ่มเล็กๆ เพื่อให้บุคลากรทราบถึงความสำ คัญและตระหนักรู้เกี่ยวกับเทคโนโลยีและเครื่องมือที่จะ ต้องใช้ในงานด้านนี้ ซึ่งควรมีการจัดหลักสูตรในการฝึกอบรมบุคลากรฝนองค์กร 19
วิศวะกรข้อมูล (Data Engineer) มีหน้าที่เป็นผู้บริหารจัดการข้อมูลของ ระบบ ซึ่งจะเริ่มตั้งแต่รวบรวมข้อมูล การวางแผนการนำ ข้อมูลจากภายนอก ระบบเข้ามาจัดเก็บไว้ในระบบ การทำ ความสะอาดข้อมูลให้มีคุณภาพดี เหมาะสม และตรวจสอบสุขภาพวางโครงสร้างของที่จัดเก็บข้อมูล Data Take และ Data Warehouse 1.ผู้ดูแลระบบ (System Administrator) มีหน้าที่เป็นผู้ดูแลระบบในงาน ข้อมูลขนาดใหญ่ทั้งหมด ไม่ว่าจะเป็นการบริหารจัดการระบบ เครือข่าย เครื่องแม่ข่าย การติดตั้งแพลตฟอร์มที่เกี่ยวข้องในงาน การจัดเตรียมเครื่อง มือในการทำ งานด้านนี้ และจะต้องเป็นผู้ที่จะมาทำ การบริหารจัดการบัญชีผู้ ใช้งานระบบ 2. 3.นักวิเคราห์ข้อมูล(Data Analyst) มีหน้าที่วิเคราห์ข้อมูลที่อยู่ในระบบว่า ข้อมูลที่มีอยู่สามารถบ่งบอกสถานะอะไรขององค์กรได้บ้างในขณะนั้นและหา คำ ตอบจากโจทย์ปัญหาที่ทางองค์กรต้องการโดยจากการอ้างอิงข้อมูลใน ระบบ 20
Big Data มีศักยภาพในการสร้างมูลค่าทางธุรกิจเพื่อเพิ่มผลกำ ไรและสามารถใช้ใน การแก้ปัญหาสำ คัญๆ ของธุรกิจได้ ในขณะที่เครื่องมือทั้งหมดในระบบนิเวศ (Ecosystem) ได้ผุดขึ้นมาไล่เลี่ยกันกับ Hadoop เพื่อการวิเคราะห์และจัดการกับ ข้อมูล แต่เครื่องมือเหล่านั้นกลับมีความเชี่ยวชาญที่น้อยกว่าและช่วยได้เพียงส่วน หนึ่งเท่านั้นหากเป็นกระบวนการขนาดใหญ่ เมื่อองค์กรสามารถใช้ประโยชน์จาก Hadoop ได้อย่างมีประสิทธิภาพจะทำ ให้เกิด ศักยภาพทางธุรกิจและผลกำ ไรทางด้านไอทีมากเป็นพิเศษเช่นเดียวกับเทคโนโลยี ใดๆก็ตามที่มีการพัฒนาอย่างเต็มที่ก็จะทำ ให้เกิดอุปสรรคต่อการเข้ามาเป็นคู่แข่งราย ใหม่ในตลาด โดยเฉพาะในเรื่องของการนำ Hadoop ไปใช้เป็นเครื่องมือในการ วิเคราะห์ผลการดำ เนินงานตามแนวคิดมูลค่าเพิ่ม (Value-Added Analytics)เพื่อให้ ได้ประโยชน์สูงสุดจากHadoop ดังนั้นองค์กรต่างๆ จึงจำ เป็นที่ต้องทบทวนและ ทำ การตรวจวิเคราะห์เกี่ยวกับ Data Pipeline ของพวกเขาโดยใช้มุมมองแบบ endto-end ตามวิธีดังต่อไปนี้ 8. การเริ่มทำ Big Data Project 21
1) รับรองการส่งผ่านข้อมูลที่ยืดหยุ่นและปรับขนาดได้ ขั้นตอนแรกของ Data Pipeline ในองค์กรนั้นเกี่ยวข้องกับระบบต้นทางการ สื่อสารข้อมูล (Source Systems) และ ข้อมูลดิบ (Raw Data) โดยจะส่งข้อมูล จากต้นทาง(Ingest)ผสมผสาน(Blended) (Blended)และวิเคราะห์ข้อมูล (Analyze) การผสมสานของข้อมูลที่หลากหลายจาก ไซโลทั่วทั้งองค์กรนั้นมักนำ ไปสู่ข้อมูลเชิง ลึกที่สำ คัญที่สุด ด้วยเหตุนี้ ความสามารถ ความสามารถในการใช้ประโยชน์จากชนิด ข้อมูลที่หลากหลายรูปแบบ และแหล่งที่มา จึงเป็นสิ่งจำ เป็นที่สำ คัญมากในโครงการ ข้อมูลและการวิเคราะห์ของHadoop ในปัจจุบัน องค์กรไม่เพียงแต่จะต้องเตรียม พร้อมข้อมูลที่พวกเขาวางแผนจะรวมเข้า กับHadoopแต่พวกเขาจำ เป็นต้องเตรียม ข้อมูลที่สำ หรับการใช้งานอื่นๆ ที่อาจเป็น ไปได้ในอนาคตรวมถึงการวางแผนเพื่อลด ภาระงานที่ต้องทำ เองด้วยตนเอง วางแผน รูปแบบการนำ เข้าข้อมูลที่สามารถใช้ซ้ำ ได้ และการออกแบบเวิร์กโฟลว์การนำ เข้า ข้อมูลแบบไดนามิกที่เป็นส่วนสำ คัญของสิ่ง นี้ 22
ชุดข้อมูล 1 ชุดข้อมูล 2 ชุดข้อมูล 3 รายการ 1 รายการ 2 รายการ 3 รายการ 4 รายการ 5 125 100 75 50 25 0 เมื่อองค์กรประสบความสำ เร็จในการดึงข้อมูลอันหลากหลายเข้าสู่ Hadoop ในรูป แบบที่ยืดหยุ่นและปรับขนาดได้แล้วนั้น ขั้นตอนต่อไป ก็จะนำ ไปสู่ขั้นตอนของการ ประมวลผล (Processing) การแปลงสภาพข้อมูล (Transforming) และการผสม ผสานข้อมูล (Data Blending) กับข้อมูลที่มีขนาดใหญ่บนคลัสเตอร์ของHadoop การวิเคราะห์ข้อมูลจาก Big data ยังต้องอาศัยหลักการพื้นฐานและเทคนิคบางอย่าง จึงมีระดับของความเป็นนามธรรมที่ต่างจาก Hadoop หรือเครื่องมืออื่นๆ ดังนั้นการ บำ รุงรักษาและพัฒนาแอพพลิเคชั่นที่ใช้ข้อมูลจำ นวนมากจึงกลายเป็นสิ่งที่ทุกคน สามารถเข้าถึงได้ง่ายกว่า ไม่ได้จำ กัดเพียงกลุ่มเล็กๆ ของผู้เชี่ยวชาญด้านการเขียน โค้ดเท่านั้น 2)ขับเคลื่อนการประมวลผลและการผสมผสานข้อมูลขนาดใหญ่ ในโลกที่ Big Data มีการพัฒนาไปอย่างรวดเร็ว แผนกไอทีก็ยังต้องรักษาและ ออกแบบการแปลงสภาพของข้อมูล (Data Transformation) โดยไม่ต้องกังวลกับ การเปลี่ยนแปลงโครงสร้างพื้นฐาน องค์กรควรพยายามหาแนวทางที่เป็นการผสาน รวมระหว่างการการควบคุม ความสามารถในการมองเห็นข้อมูลในเชิงลึกและการใช้ งานที่ง่ายขึ้น แทนที่การใช้กล่องดำ (Black Box) ในการแปลงข้อมูลบน Hadoop 23
สิ่งสำ คัญที่จะช่วยปลดล็อคการวิเคราะห์เพื่อให้ได้มาซึ่งข้อมูลที่เป็นประโยชน์สูงสุด จากHadoop นั่นก็คือ การพิจารณาอย่างรอบคอบเกี่ยวกับกระบวนการทางธุรกิจ แอพพลิเคชั่นและผู้ใช้ปลายทาง โดยข้อมูลผู้บริโภคที่แตกต่างกันนั้นก็อาจจำ เป็นที่ จะต้องใช้เครื่องมือและวิธีการที่แตกต่างกัน ทั้งนี้ก็ขึ้นอยู่กับว่าพวกเขานั้นต้องการ ข้อมูลอะไร แผนต่างๆที่พวกเขาวางไว้สำ หรับข้อมูลเหล่านั้น และมีระดับความซับ ซ้อนแค่ไหนในขณะที่นักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์ที่มีความเชี่ยวชาญ ขั้นสูง พวกเขาเริ่มทำ การสืบค้นและสำ รวจชุดข้อมูลในHadoopโดยพวกเขามักจะใช้ คลังข้อมูล (Data Warehouse) และเทคโนโลยีประมวลผลเลเยอร์คล้ายSQL (SQLlike) เช่น Hive (ที่ทำ หน้าที่ในการแปลSQL like ให้มาเป็น MapReduce) และ Impala (ซึ่งเป็นเครื่องมือที่คล้ายกับ Hive) นับว่าโชคดีที่เครื่องมือเหล่านี้ใช้เวลาใน การเรียนรู้ไม่นาน เนื่องจากมันเป็นภาษาที่ใช้สำ หรับค้นหาข้อมูลจากฐานข้อมูลหรือ Query Language (QL) ที่คุ้นเคย ฐานข้อมูล NoSQL ที่มีประสิทธิภาพสูงและปรับ ขนาดได้นั้นมีการใช้งานควบคู่กับHadoop มากขึ้น 3) ส่งมอบข้อมูลเชิงลึกเกี่ยวกับการวิเคราะห์Big Data ที่สมบูรณ์ 24
ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าหลายๆ อย่างได้ถูกสร้างขึ้นใน ระบบนิเวศ(Ecosystem)Hadoop และยังคงเติบโตในฐานะของ แพลตฟอร์มเพื่อการปรับใช้กับองค์กรการผลิต(ProductionEnter prise) ในส่วนของข้อกำ หนดสำ หรับความคิดริเริ่มด้านเทคโนโลยีนั้น มีแนวโน้มที่จะได้รับการพัฒนาและอยู่ในช่วงของการ "กำ ลังดำ เนิน การ" ซึ่ง Hadoopก็ได้แสดงให้เห็นถึงองค์ประกอบใหม่ใน Data Pipeline ที่กว้างขึ้น ผลที่ตามมาก็คือความคิดริเริ่มที่เกี่ยวข้องใหม่ๆ นั้นมักจะมีวิธี การแบบค่อยเป็นค่อยไป (Phased Approach) เมื่อคำ นึงถึงเรื่องนี้แล้ว ผู้ประเมินซอฟต์แวร์ต่างก็รู้ว่าพวกเขาไม่ สามารถพบกับอุปกรณ์ที่มีทุกอย่างครบครัน ( Off-the-shelf )เพื่อ ตอบสนองความต้องการด้านข้อมูลและการวิเคราะห์ของ Hadoopได้ ทั้งในปัจจุบันและในอนาคตข้างหน้า 4. ใช้แนวทางเชิงโซลูชัน (Solution-Oriented) 25
กระแสของBig Data ส่งผลให้ผู้ให้บริการโซลูชันหลั่งไหล เข้าพื้นที่ตลาดกันอย่างท่วมท้น แพ็คเกจที่พวกเขาเสนอ นั้นอาจแตกต่างกันอย่างหลากหลาย ซึ่งมีตั้งแต่เครื่องมือ ทางสถิติอย่างง่ายไปจนถึงแอปพลิเคชันการเรียนรู้ เครื่องจักรขั้นสูง ผู้ให้บริการ NoSQL และ Hadoop บางรายกำ ลังร่วมมือ กันจัดทำ ข้อเสนอที่ครอบคลุม รวบรวมระบบของพวกเขา เพื่อเพิ่มความคล่องตัวในการเลื่อนไหลระหว่างระบบ โครงสร้างและซอฟต์แวร์ สิ่งนี้ยังช่วยลดความยุ่งยากให้ กับลูกค้าเนื่องจากพวกเขาสามารถจัดการกับทุกอย่างได้ ในจุดๆ เดียว 5) เลือกผู้ขายที่เหมาะสม องค์กรจึงควรระบุประเภทข้อมูลที่พวกเขาจะประมวลผล เพื่อเลือกเทคโนโลยีที่รองรับพวกเขา แพลตฟอร์มที่น่าพึง พอใจนั้นจำ เป็นต้องเข้ากันได้ดีกับเครื่องมือวิเคราะห์ที่มี อยู่ โดยให้การเข้าถึงกับพนักงานที่พวกเขาต้องการและมี ความยุ่งยากน้อยที่สุดต่อเวิร์กโฟลว์ 26
ในยุคที่เทคโนโลยีเข้ามามีบทบาทในชีวิตประจำ วันมากขึ้น ไม่ว่าจะเป็นการใช้งาน ด้านบันเทิงหรือแม้แต่กระทั่งการซื้อขายของที่สะดวกสบายมากขึ้นโดยไม่ต้องไปที่ ร้านค้าต่าง ๆ เป็นต้น แต่เมื่อยิ่งใช้งานนานเข้า พวกเราในฐานะผู้ใช้งานคงเคยตั้ง คำ ถามกับตัวเองในเรื่องที่เกิดขึ้นกันบ้างแหละว่า ทำ ไม Netflix ถึงได้รู้ว่าเราชอบ ดูหนังประเภทไหน, YouTube ทำ อย่างไรถึงได้แนะนำ คลิปวีดิโอที่ถูกใจเราได้ หรือแม้แต่ website ที่มีการซื้อขายของออนไลน์อย่าง Shopee ที่คอยนำ เสนอ สินค้าที่ตรงกับความชอบของเราได้ตลอดเวลา ซึ่งทั้งหมดนี้ล้วนเป็นตัวอย่าง ศักยภาพของการใช้งาน Machine Learning ทั้งสิ้น ในบทความนี้เราจะพาไป คลายข้อสงสัยต่างๆ และช่วยตอบคำ ถามที่เราเฝ้าถามตัวเองมาตลอด เกี่ยวกับ เทคโนโลยีสุดอเนกประสงค์นี้กัน 9. machine learning Machine Learning คืออะไร Machine Learning คือ การทำ ให้คอมพิวเตอร์ สามารถเรียนรู้สิ่งต่างๆ และ พัฒนาการทำ งานให้ดีขึ้นได้ด้วยตัวเองจากข้อมูลและสภาพแวดล้อมที่ได้รับจาก การเรียนรู้ของระบบ โดยไม่ต้องมีมนุษย์คอยกำ กับหรือเขียนโปรแกรมเพิ่มเติม และไม่ว่าในอนาคตมันจะมีข้อมูลรูปแบบใหม่ๆ ที่เกิดขึ้นมา มนุษย์ก็ไม่จำ เป็นที่จะ ต้องไปนั่งเขียนโปรแกรมใหม่ เพราะคอมพิวเตอร์สามารถตีความและตอบสนองได้ ด้วยตัวเอง 27
หลักการทำ งานของ Machine Learning การเรียนรู้ของ Machine Learning นั้นจะมีหลักการคล้ายๆ กับของมนุษย์ที่ จำ เป็นต้องเรียนรู้จากประสบการณ์ โดยให้เราลองนึกภาพถึงการสอนเด็กคนหนึ่ง ให้แยกความแตกต่างระหว่าง ดินสอและปากกา เราจำ เป็นต้องสอนเด็กคนนั้น ก่อน ว่าดินสอเป็นอย่างไร และปากกาเป็นอย่างไร เพื่อให้เด็กเรียนรู้และแยกแยะ ความแตกต่างระหว่างของสองสิ่งได้ Machine Learning เองก็ทำ งานในลักษณะเดียวกัน ด้วยการป้อนชุดข้อมูลพื้น ฐานและชุดคำ สั่งต่างๆ เพื่อให้คอมพิวเตอร์ “เรียนรู้” และจำ แนกแยกแยะวัตถุ ต่างๆ รวมถึงบุคคล สิ่งของ เป็นต้น และเพื่อให้ได้ผลลัพธ์ที่แม่นยำ มากขึ้น โปรแกรมเมอร์จึงมีการป้อนชุดข้อมูลใหม่ๆ และต้องฝึกฝนระบบอย่างสม่ำ เสมอ เพื่อให้เกิดวิวัฒนาการของระบบ ทำ ให้ระบบคิดได้ด้วยตัวเองในเวลาต่อมา การทำ งานของระบบ Machine Learning มี 3 รูปแบบ โดยหลักการของ Machine Learning จะแบ่งออกเป็น 3 ประเภทตามรูปแบบ การเรียนรู้ด้วยกัน นั่นก็คือ supervised learning, unsupervised learning และ Reinforcement Learning 1.Supervised Learning หรือการเรียนรู้แบบมีผู้สอน เป็นการทำ ให้คอมพิวเตอร์สามารถหาคำ ตอบของปัญหาได้ด้วยตัวเอง หลังจาก เรียนรู้จากชุดข้อมูลตัวอย่างไปแล้วระยะหนึ่ง ยกตัวอย่างเวลาเราป้อนข้อมูลให้กับ คอมพิวเตอร์ (Input) เช่น รูปปากกา เบื้องต้นคอมพิวเตอร์จะยังไม่รู้ว่ารูปที่เรา ป้อนเข้าไป คือรูปปากกา เราจึงต้องสอนให้คอมพิวเตอร์รู้จักเพื่อนำ ไปวิเคราะห์ (Feature Extraction) ว่า ปากกาจะมีปลายด้ามเป็นปุ่ม และใช้หมึกในการเขียน เป็นต้น 28
2.Unsupervised Learning หรือ การเรียนรู้โดยไม่มีผู้สอน เป็นการเรียนรู้ที่ให้เครื่องจักรนั้นสามารถเรียนรู้ได้ด้วยตนเอง โดยไม่ต้องมีค่าเป้า หมายของแต่ละข้อมูล ซึ่งวิธีการคือมนุษย์จะเป็นผู้ใส่ข้อมูลต่าง ๆ และกำ หนดสิ่ง ที่ต้องการจากข้อมูลเหล่านั้น ทำ ให้เครื่องจักรวิเคราะห์จากการจำ แนกและสร้าง แบบแผนจากข้อมูลที่ได้รับมา เรียกได้ว่าตรงกันข้ามกับรูปแบบแรกเลย 3.Reinforcement Learning หรือ การเรียนรู้แบบเสริมกำ ลัง เป็นวิธีการเรียนรู้แบบหนึ่งที่ใช้การเรียนรู้เกิดมาจากการปฎิสัมพันธ์ (interaction) ระหว่างผู้เรียนรู้ (agent) กับสิ่งแวดล้อม (environment) ที่มีการเรียนรู้สิ่งต่าง ๆ จาก Agent ภายใต้การเลือกกระทำ สิ่งต่าง ๆ ให้ได้ผลลัพธ์ที่มากที่สุด ผ่านการ ลองผิดลองถูกภายใต้สถานการณ์หรือระบบจำ ลอง ที่พัฒนาระบบการตัดสินใจให้ ดีขึ้นเรื่อย ๆ หรือพูดให้ง่ายขึ้น มันคือการที่เรากำ หนดเงื่อนไขบางอย่างให้กับ คอมพิวเตอร์ ประโยชน์ของ Machine Learning ในเชิงปฏิบัติแล้ว Machine Learning สามารถนำ มาใช้ทำ ประโยชน์ได้มากมาย ขึ้นอยู่กับจินตนาการของผู้พัฒนา ตัวอย่างเช่น บริษัท Google ที่ได้มีการพัฒนา Google Map ก็เพื่อช่วยอำ นวยความสะดวกบนท้องถนนให้กับพวกเราในปัจจุบัน เพื่อช่วยค้นหาเส้นทางที่ประหยัดเวลาการเดินทางมากที่สุด 29
บรรณานุกรม Mandala Analytics Dashboard // (August 18th 2020) การจัดการข้อมูล สืบค้นวันที่ 18 สิงหาคม 2566, จาก https://https://www.kruchiangrai .net Author: tmtyai // (April 4, 2022) ความหมายของ Big Data สืบค้นวันที่ 18 สิงหาคม 2566 , จาก https://tuemaster.com About Matana Wiboonyasake // (December 24, 2021) ลักษณะของ Big Data สืบค้นวันที่ 19 สิงหาคม 2566 , จาก https://www.aware.co.th The Chapt // ประโยชน์ของ Big Data สืบค้นวันที่ 19 สิงหาคม 2566 , จาก https://thechapt.com Fah Chawanthawat // (กันยายน 19 2019 ) ตัวอย่างการใช้ Big Data สืบค้น วันที่ 19 สิงหาคม 2566 , จาก https://stepstraining.co/entrepreneur/7- example-brand-use-data-for-business Nattapon Muangtum // (22/08/2021) ประเภทของ Big Data สืบค้นวันที่ 20 สิงหาคม 2566 , จาก https://www.everydaymarketing.co/knowledge/data101-how-different-structured-unstructured-and-semi-structured-data/
AUTHOR: DUSADEEVIROJ // การจัดการโครงสร้างของ Big Data สืบค้นวันที่ 20 สิงหาคม 2566 , จาก https://www.fusionsol.com/blog/%E0%B8%BAbig-data- %E0%B8%84%E0%B8%B7%E0%B8%AD เกียรติพงษ์ อุดมธนะธีระ // (22 ธันวาคม 2563) บุคลากรและทักษะในการทำ Big Data สืบค้นวันที่ 21 สิงหาคม 2566 , จาก https://www.iok2u.com/article/informationtechnology/big-data-big-data-personnel Kanjanasuda// การเริ่มทำ Big Data Project สืบค้นวันที่ 21 สิงหาคม 2566 , จาก https://blog.datath.com/jobs-in-big-data-project Published // (Feb 28, 2018) machine learning สืบค้นวันที่ 21 สิงหาคม 2566, จาก https://medium.com/investic/machine-learning- %E0%B8%84%E0%B8%B7%E0%B8%AD%E0%B8%AD%E0%B8%B0%E0%B9%84%E0%B8%A3-fa8bf6663c07
จัดทำ โดย นางสาว ฐิติกานต์ เด่นคุณานนท์ เลขที่ 7 นางสาว ธัญวรัตน์ สามารถ เลขที่13 นางสาว สุพรรณี อยู่แทน เลขที่23