The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

ความรู้เกี่ยวกับ Big Data การจัดการข้อมูลขนาดใหญ่

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by asdaporn.bg, 2022-07-13 03:39:02

Big Data การจัดการข้อมูลขนาดใหญ่

ความรู้เกี่ยวกับ Big Data การจัดการข้อมูลขนาดใหญ่

Keywords: Big Data,การจัดการข้อมูลขนาดใหญ่

หน่วยที่ 2

Big Data

การจัดการข้อมูลขนาดใหญ่

สอนโดย อาจารย์อัษฎาพร บุญเมือง

แผนกวิชา เทคโนโลยีธุรกิจดิจิทัล วิทยาลัยเทคนิคตรัง

ความหมายของข้อมูลขนาดใหญ่

ต้นกำเนิดการจัดเก็บ Big Data มาจาก Search Engine
ของบริษัท Google นักวิทยาศาสตร์ข้อมูลของบริษัทกูเกิล
สร้าง PlatForm Big Data ขึ้นมา เพื่อจัดเก็บคำที่ลูกค้า
ค้นหาทุกคำเก็บรวบรวมไว้ กระบวนการในการจัดเก็บข้อมูล
แบบ Big Data ต่างจากการเก็บข้อมูลแบบธรรมดา เรียกว่า
Data Warehousing การจัดเก็บข้อมูลแบบ Big Data
ภาษาเทคนิคเรียกว่า ฮาดูป (Hadoop) เป็นเครื่องมือจัดเก็บ
ข้อมูลใช้ได้แบบเรียลไทม์

ความหมายของ Big Data

ความหมายของ Big Data คือ จำนวนข้อมูลที่มีขนาดใหญ่

มหาศาล เกินกว่าขีดความสามารถในการประมวลผลของระบบฐาน

ข้อมูลธรรมดาที่จะรองรับได้ ปริมาณข้อมูลที่มีขนาดใหญ่มาก ๆ

มีอัตราการเพิ่มข้อมูลได้อย่างรวดเร็วมากและแนวคิดเน้นการเก็บ

การรักษาและการใช้ข้อมูลที่มีอยู่ในระบบฐานข้อมูลและ

ข้อมูลที่กระจัดกระจายนอกฐานข้อมูล โดยทั่วไป

อยู่ในรูปข้อมูล เอกสาร รูปถ่าย

วิดีโอ ไฟล์เสียง

BIGคุณลักษณะของ Data

Big data เปรียบเสมือนกลุ่มของก้อนเมฆ (Cloud) ขนาดใหญ่ที่มี
จำนวนมากที่ร่วมกันอยู่

ข้อมูลธุรกรรมทาง
ธนาคาร

ข้อมูลสังคมเครือข่าย

ข้อมูลจากอุปกรณ์ตรวจตราการจราจร (Traffic Flow Sensors)

ข้อมูลภาพถ่ายดาวเทียม ข้อมูลด้านการตลาด

ข้อมูลการสื่อสารจากโทรศัพท์เคลื่อนที่ ข้อมูลด้านการกระจายเสียง

ลักษณะพื้ นฐาน Big Data

ลักษณะพื้นฐานของ Big Data มี 3 ลักษณะ คือ ปริมาณ

(Volume) ความหลากหลาย (Variety)

และความเร็ว (Velocity) แต่ปัจจุบันมี ปริมาณ (Volume)
คุณลักษณะที่เพิ่มขึ้นมาอีก 3 ลักษณะ

ที่ทำให้ข้อมูลขนาดใหญ่ (Big Data) มีคุณภาพ

สูงขึ้นและเหมาะที่จะนำมาใช้ในการวิเคราะห์เพื่อให้ได้ ความหลากหลาย (Variety)
มาซึ่งความเข้าใจเชิงลึก ประกอบด้วยส่วนประกอบหลัก

6 ลักษณะ หรือ 6Vs ดังนี้

ความเร็ว (Velocity)

The Six Vs of Big Data

Big data ที่มีคุณภาพสูงควรมีลักษณะพื้นฐานอยู่ 6 ประการ (6 Vs) ดังนี้

ปริมาณ ความหลากหลาย คุณค่า
(Volume) (Variety) (Value)

ความเร็ว ความถูกต้อง ความแปรผันได้
(Velocity) (Veracity) (Variability)

ข้อมูลที่มีปริมาณมาก รูปแบบของข้อมูล ข้อมูลถูกเก็บมาอย่าง ข้อมูลมีความน่าเชื่อถือ ข้อมูลมีประโยชน์ต่อ ข้อมูลมีความหลาก
สามารถนำไปวิเคราะห์ มีหลากหลายรูปแบบ ต่อเนื่องและรวดเร็ว มีระบบในการยืนยัน การตัดสินใจเชิงธุรกิจ หลายในการใช้งาน
แล้วได้ผลสะท้อนความ เช่น ตาราง ภาพ เสียง ทำให้สามารถวิเคราะห์ ตรวจสอบความถูก สามารถนำมาปรับรูป
ต้องของข้อมูล และมีความสัมพันธ์ แบบเพื่อวิเคราะห์
เป็นจริง ที่สามารถนำมา และตอบสนองได้ เชื่อมโยงกับวัตถุ
วิเคราะห์ประกอบกันได้ อย่างทันท่วงที ประสงค์ของธุรกิจ ได้หลายแง่มุม

การใช้ประโยชน์จาก Big Data ในภาคธุรกิจนั้นเป็น 1. การนำข้อมูลภัยพิบัติจากธรรมชาติ
ประโยชน์โดยตรงในการนำข้อมูลมาหาค่าเชิงสถิติ และพัฒนา 2. การนำข้อมูลมาปรับปรุง
ผลิตภัณฑ์ให้ตรงกับความต้องการและพฤติกรรมผู้บริโภค 3. การนำข้อมูลมาสร้างนวัตกรรม
และเกิดผลิตภัณฑ์ใหม่ (Enabling New Products) ส่วนใน
ภาครัฐนั้นยังมีการใช้ประโยชน์จาก Big Data น้อยมากเมื่อ
เทียบกับภาคธุรกิจ การใช้ประโยชน์จาก Big Data ของภาค
รัฐ คือ การนำมาพัฒนาการบริการภาครัฐให้ตรงต่อความ
ต้องการของประชาชนให้มีประสิทธิภาพสูงขึ้นและใช้งบ
ประมาณน้อยลง

การพัฒนาผลิตภัณฑ์ 1.

การคาดการณ์เพื่อการบำรุง 2. 5. การเรียนรู้ของเครื่องจักร
รักษาเครื่องจักร 6. ประสิทธิภาพในการ

สร้างประสบการณ์ที่ดีให้กับ 3. ปฏิบัติงาน
ลูกค้า
7. การขับเคลื่อนในการ
การตรวจสอบการโกงและ 4. สร้างสรรค์สิ่งใหม่ ๆ การรวบรวมข้อมูล
การปฏิบัติตามกฎระเบียบ การจัดการข้อมูล
8. การทำงานของข้อมูล
ขนาดใหญ่ การวิเคราะห์

Big Data แบ่งข้อมูลออกเป็น 3 ประเภท ดังนี้

1. ข้อมูลแบบมีโครงสร้าง (Structure Data) คือ ตารางข้อมูลที่มีลักษณะชัดเจน

ภายในอาเซียน (1) การย้ายถิ่นรวม (2) สัดส่วน (1) / (2) (%)

ออก เข้า ออก/เข้า ออก เข้า ออก/เข้า ออก เข้า
9,313 0.16
บรูไน 53,722 120,578 0.08 24,343 148,123 1.04 38.26 81.40
กัมพู ชา 1,518,687 6.31 15.33 95.46
อินโดนีเซีย 82,788 320,573 0.17 350,485 335,829 19.38
ลาว 1,195,566 0.63
มาเลเซีย 321,100 158,485 9.58 2,504,297 397,124 5.25 60.64 39.91
เมียนมา 335,407 9.82
ฟิลิปปินส์ 122,254 10,134 8.17 366,663 18,916 0.15 22.58 53.58
สิงคโปร์ 262,956 1,481,202 2,357,603 0.70 80.72 79.87
ไทย 22,1956 1,882,987 0.63 32.12 62.39 0.83
เวียดนาม 4,123,515 1.84 7.84 2.09
814 394.47 514,667 98,008 41.13 59.13
รวม 32.39 38.73
9,096 36.87 4,275,612 435,423
1,162,960 0.11 297,234 1,966,865

448,218 0.59 811,123 1,157,263

21,511 10.32 2,226,401 69,307 9.97 31.04
32.08 59.21
4,135,357 1.00 12,852,027 6,984,461

Big Data แบ่งข้อมูลออกเป็น 3 ประเภท ดังนี้

2. ข้อมูลแบบกึ่งโครงสร้าง (Semi Structure Data)

คือ เป็นข้อมูลที่จัดเก็บอย่างมีรูปแบบในระดับหนึ่งและข้อมูลที่สามารถค้นหา (Search) หรือแท็ก (Tag)
เช่น เว็บเพจที่มีการระบุชื่อเพจ คำสำคัญในเพจและวันที่อัปเดตข้อมูล

3. ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data)

คือ เป็นข้อมูลที่ไม่สามารถระบุรูปแบบได้แน่นอน เช่น ข้อมูลการ
แสดงความคิดเห็นบนเฟซบุ๊ก (Facebook)

structured data vs unstructured data

Can be displayed Cannot be displayed
in rows, columns and in rows, columns and
relational databases relational databases

Numbers, dates Images, audio, video
and strings word processing files, e-mails,

Estimated 20% of spreadsheets
enterprise data (Gartner)
Estimated 80% of
enterprise data (Gartner)

Requires less storage Requires more storage
Easler to manage and More diffcult to

protect with legacy manage and protect
solutions with legacy soiutions

แหล่งข้อมูล (Data Source)

คุณลักษณะ คลังเก็บข้อมูล Data Lake

ข้อมูล ข้อมูลเชิงสัมพันธ์จากระบบธุรกรรมฐานข้อมูลการ ข้อมูลที่ไม่ใช่เชิงสัมพันธ์และเชิงสัมพันธ์จากอุปกรณ์
ปฏิบัติงาน และแอปพลิเคชั่นหน่วยธุรกิจ IOT เว็บไซต์ แอปพลิเคชั่นโทรศัพท์มือถือ สื่อสังคม
สคีมา ออนไลน์ และแอปพลิเคชั่นองค์กร
ได้รับการออกแบบก่อนการนำ DW ไปใช้ (สคีมาที่
ราคา/คุณภาพ กำหนดไว้ล่วงหน้า) เขียนเมื่อมีการวิเคราะห์ (สคีมาที่กำหนดเมื่อใช้)
คุณภาพข้อมูล ผลการสืบค้นที่รวดเร็วที่สุดโดยใช้พื้นที่จัดเก็บที่มี
ผู้ใช้ ต้นทุนสูงกว่า ผลการสืบค้นที่รวดเร็วยิ่งขึนโดยที่ใช้พื้นที่จัดเก็บที่มี
ต้นทุนต่ำ
ข้อมูลที่จัดเตรียมอย่างดีซึ่งใช้เป็นความจริงพื้นฐาน
ข้อมูลใด ๆ ที่อาจได้รับหรือไม่ได้รับการจัดเตรียม
นักวิเคราะห์ทางธุรกิจ (เช่น ข้อมูลดิบ)

การวิเคราะห์ การรายงานแบบกลุ่ม BI และการแสดงภาพ นักวิทยาศาสตร์ข้อมูล นักพัฒนาข้อมูล และนักวิเคราะห์
ทางธุรกิจ (โดยใช้ข้อมูลที่จัดเตรียม)

Machine Learning การวิเคราะห์เชิงคาดการณ์ การ
ค้นพบข้อมูล และจัดทำโปรไฟล์

Data แบ่งออกเป็น 3 ประเภท

Private Hybrid
Cloud Cloud

Public Cloud

5การจัดการโครงสร้าง ขั้นตอน
ขนาดใหญ่

กำหนดกลยุทธิ์ ระบุแหล่งข้อมูล
เกี่ยวกับข้อมูล ขนาดใหญ่

ขนาดใหญ่

การเข้าถึงการจัด วิเคราะห์
การและจัดเก็บ ข้อมูล
ข้อมูล

ตัดสินใจโดย
ใช้ข้อมูล

บุคลากรและทักษะการทำ Big Data

ทักษะของ Data Engineer

วิศวกรข้อมูล (Data Engineer) SQL Hodoop หรือ (HDFS)
Hadoop File System
บุคคลที่ทำหน้าที่ติดตั้งวางระบบ
เซิร์ฟเวอร์ ระบบความปลอดภัย NoSQL Cloud Computing
(Security) และดูแลจัดการข้อ (Not Only SQL)

มูลทั้งหมดของระบบ

Python ระบบหลักที่ใช้ในการ
บริการขององค์กร

นักวิทยาศาสตร์ข้อมูล (Data Scientist) คือ บุคคลที่นำข้อมูลมาหาความสัมพันธ์จากการวิเคราะห์เชิงลึก
มีความรู้ด้านการวิเคราะห์ข้อมูลและสร้างมูลค่าให้กับข้อมูล

ทักษะของ Data Scientist

พื้ นฐานทางคณิตศาสตร์

พื้ นฐานทางการเขียนโปรแกรม

พื้ นฐานความรู้เฉพาะทาง

นักวิเคราะห์ข้อมูล (Data Analyst) คือ บุคคลที่ใช้ข้อมูลในการวิเคราะห์แนวโน้มหรือแก้ไขปัญหาจาก

สิ่งที่ต่างไปจากแนวโน้มเดิม โดยใช้หลักสถิติเพื่อวิเคราะห์ทั่วไปและนำมาแสดงผล

ทักษะของ Data Analyst ส่วนใหญ่ทักษะของ Data Analyst เป็นการใช้เครื่องมือต่าง ๆ เพื่อนำมาวิเคราะห์โดยเฉพาะ
เช่น Microsoft Excel SaS หรือเครื่องมือในการทำ BI ต่างๆ เช่น Power BI Tableau Rapid Miner ฯลฯ และอาจ
ต้องมีความสามารถทางด้านการเขียนโปรแกรมที่นำมาใช้ในการวิเคราะห์ข้อมูล การใช้ภาษา R

DATA ENGINEER DATA SCIENTIST DATA ANALYST

การเริ่มทำ Big Data

Projiect

2. ศึกษาให้เข้าใจ 4. การสร้างโมเดลถือเป็ นขั้น 6. การนำโมเดลไปใช้งานจริง
ข้อมูล
ตอนที่สำคัญที่สุด โดย

Data Scientist

1. ศึกษาให้เข้าใจปัญหา 5. การประเมินผลโมเดล
และความต้องการ
ขององค์กร

3. การเตรียมข้อมูล

เพื่อวิเคราะห์ถือว่าเป็นขั้นตอนที่ใช้เวลานานที่สุดของการทำ Big Data

การทำความสะอาดข้อมูล การจัดรูปแบบข้อมูลให้พร้อมใช้งาน Data Scientist มีหน้าที่ในการ
(Cleansing Data) (Data Engineer) มีหน้าที่ในการทำให้ กรองข้อมูลเพื่อนำข้อมูลไปเป็ นต้น
ข้อมูลอยู่ในรูปแบบที่สามารถนำไปต่อยอดได้
แบบในการทำโมเดล

4 ขั้นตอน ข้อมูล Duplicate Elimination

การทำความสะอาด การลบข้อมูลที่มีความซ้ำ

Standardizing ซ้อนกันทิ้ง

การทำข้อมูลให้เป็น
รูปแบบเดียวกัน

Correcting

การแก้ไขข้อมูล
ที่ผิดพลาด

Passing

การแจกแจงข้อมูลตาม

ประเภทของข้อมูล

End.

Big Data

การจัดการข้อมูลขนาดใหญ่

แผนกวิชา เทคโนโลยีธุรกิจดิจิทัล วิทยาลัยเทคนิคตรัง


Click to View FlipBook Version