รายงาน วิชา เทคนิคท าเหมืองข้อมูลทางธุรกิจ จัดท าโดย นางสาวจันทรรัตน์ จันทร์จิระศานต์66644401011 เสนอ อาจารย์อุณนดาทร มูลเพ็ญ รายงานเลม่นเี้ป็นสว่นหนงึ่ของรายวชิาเทคนคิท าเหมอืง ข้อมูลทางธุรกิจ (BDT2107) ภาคเรยีนที่2 ปีการศกึษา 2567 คณะบรหิารธุรกจิและการบญั ชีมหาวทิยาลยัราชภฏั ร้อยเอ็ด
2 การบ้าน บทที่ 5 การจัดกลุ่ม (Clustering Technique) ข้อที่ 1 ใหน้ ักศกึษาคน้หาความหมายของการจัดกลมุ่แบบสมุ่ (Random Clustering) ตอบ ความหมายของการจัดกลมุ่แบบสมุ่คอืกระบวนการทใี่ชว้ธิสีุ่ม ในการแบง่ขอ้มูลหรอืองคป์ระกอบตา่ง ๆ ในกลมุ่หรอืกลมุ่อย่างสมุ่ โดยไม่ ค านึงถึงคุณลักษณะหรือลักษณะทางสถิติที่เป็นเด่นของข้อมูลนั้น ๆ ก่อน การจัดกลุ่ม การจัดกลุ่มแบบสุ่มนั้นเป็ นวิธีที่ใชใ้นหลายทางเพื่อศึกษา คุณลักษณะหรือลักษณะทางสถิติที่อาจมีในข้อมูล โดยที่ไม่มีข้อมูลก่อน หนา้หรือความรูเ้กี่ยวกับลักษณะเหล่านัน้การจัดกลุ่มแบบสุ่มมักถูกใชใ้น งานวิจัยทางสังคม, การทดลองทางการแพทย์, หรือการทดลองทาง วิทยาศาสตร์ที่ต้องการทราบข้อมูลเบื้องต้นโดยที่ไม่มีข้อมูลพื้นฐาน ประเภทของการสุม่กลุม่ตวัอยา่ง วธิกีารสมุ่ตัวอยา่งแบง่เป็ น 2 ประเภทใหญ่ๆ คอื 1. การสุ่มตวัอย่างโดยไม่ใช้ความน่าจะเป็น ( Nonprobability sampling ) เป็นการเลือกตัวอย่างโดยไม่ค านึงว่าตัวอย่างแต่ละหน่วยมี โอกาสถูกเลือกมากน้อยเท่าไร ท าให ้ไม่ทราบความน่าจะเป็ นที่แต่ละหน่วยในประชากรจะถูกเลือก การเลือกกลุ่มตัวอย่างแบบนี้ไม่สามารถน าผลที่ได้อ้างอิงไปยังประชากร ได้แต่มคีวามสะดวกและประหยัดเวลาและค่าใชจ้่ายมากกว่า ซงึ่สามารถ ท าได้หลายแบบ ดังนี้ 1.1 การเลือกกลุ่มตัวอย่างแบบบังเอิญ (Accidental sampling) เป็น การเลือกกลุ่มตัวอย่างเพื่อให ้ได้จ านวนตามต้องการโดยไม่มีหลักเกณฑ์ กลุ่มตัวอย่างจะเป็นใครก็ได้ที่สามารถให ้ข้อมูลได้ 1.2 การเลือกกลุ่มตัวอย่างแบบโควต้า ( Quota sampling ) เป็ น การเลอืกกลุ่มตัวอยา่งโดยค านงึถงึสัดสว่นองคป์ระกอบของประชากร เชน่ เมื่อต้องการกลุ่มตัวอย่าง 100 คน ก็แบ่งเป็นเพศชาย 50 คน หญิง 50 คน แล้วก็เลือกแบบบังเอิญ คือเจอใครก็เลือกจนครบตามจ านวนที่ต้องการ 1.3 การเลือกกลุ่มตัวอย่างแบบเจาะจง ( Purposive sampling ) เป็ นการเลือกกลุ่มตัวอย่างโดยพจิารณาจากการตัดสนิ ใจของผูว้จิ ัยเอง ลักษณะของกลุ่มที่เลือกเป็ นไปตามวัตถุประสงค์ของการวิจัย การเลือก กลุ่มตัวอย่างแบบเจาะจงตอ้งอาศัยความรอบรู้ความช านาญและ
3 ประสบการณ์ในเรื่องนั้นๆของผูท้ าวจิ ัย การเลอืกกลุ่มตัวอย่างแบบนี้มีชอื่ เรียกอีกอย่างว่า Judgement sampling 2. การสุ่มตวัอยา่งโดยใชค้วามน่าจะเป็น ( Probability sampling ) เป็ นการสุ่มตัวอย่างโดยสามารถก าหนดโอกาสที่หน่วยตัวอย่างแต่ละ หน่วยถูกเลือก ท าให ้ทราบความน่าจะเป็นที่แต่ละหน่วยในประชากรจะถูก เลือก การเลือกกลุ่มตัวอย่างแบบนี้สามารถน าผลที่ได้อ้างอิงไปยัง ประชากรได้ สามารถท าได้หลายแบบ ดังนี้ 2.1 การสมุ่ตัวอยา่งแบบง่าย (Simple random sampling) เป็นการ สมุ่ตัวอยา่งโดยถอืวา่ทกุ ๆหน่วยหรอืทกุ ๆสมาชกิ ในประชากรมโีอกาสจะถูก เลือกเท่าๆ กัน การสุ่มวธิีนี้จะตอ้งมรีายชอื่ประชากรทัง้หมดและมีการให้ เลขก ากับ วธิีการอาจใชว้ธิีการจับสลากโดยท ารายชอื่ประชากรทัง้หมด หรอื ใชต้ารางเลขสมุ่ โดยมเีลขก ากับหน่วยรายชอื่ทัง้หมดของประชากร 2.2 การสมุ่ตัวอยา่งแบบเป็ นระบบ ( Systematic sampling) เป็นการ สมุ่ตัวอยา่งโดยมรีายชอื่ของทกุหน่วยประชากรมาเรยีงเป็ นระบบตามบัญชี เรียกชอื่การสุ่มจะแบ่งประชากรออกเป็ นช่วงๆที่เท่ากันอาจใชช้ ่วงจาก สัดส่วนของขนาดกลุ่มตัวอย่างและประชากร แลว้สุ่มประชากรหน่วยแรก สว่นหน่วยตอ่ๆไปนับจากชว่งสัดสว่นทคี่ านวณไว้ 2.3 การสุ่มตัวอย่างแบบชัน้ภูมิ(Stratified sampling) เป็ นการสุ่ม ตัวอย่างโดยแยกประชากรออกเป็นกลุ่มประชากรย่อย ๆ หรือแบ่งเป็ นชัน้ ภูมิก่อน โดยหน่วยประชากรในแต่ละชั้นภูมิจะมีลักษณะเหมือนกัน (Homogenious) แลว้สุ่มอย่างง่ายเพื่อใหไ้ดจ้ านวนกลุ่มตัวอย่างตาม สัดสว่นของขนาดกลมุ่ตัวอยา่งและกลมุ่ ประชากร 2.4 การสุ่มตัวอย่างแบบกลุ่ม (Cluster sampling ) เป็ นการสุ่ม ตัวอยา่งโดยแบง่ ประชากรออกตามพนื้ทโี่ดยไมจ่ าเป็ นตอ้งท าบัญชรีายชอื่ ของประชากร และสุ่มตัวอย่างประชากรจากพื้นที่ดังกล่าวตามจ านวนที่ ตอ้งการ แลว้ศกึษาทุกหน่วยประชากรในกลุ่มพื้นทนี่ัน้ๆ หรือจะท าการสุ่ม ต่อเป็นล าดับขั้นมากกว่า 1 ระดับ โดยอาจแบ่งพื้นที่จากภาค เป็นจังหวัด จาก จังหวัดเป็ นอ าเภอ และเรื่อยไปจนถึงหมู่บ้าน นอกจากนี้การสุ่ม ตัวอย่างยังสามารถเลอืกสุ่มตัวอย่างผสมระหว่างแบบง่ายแบบชัน้ภูมแิละ แบบกลุ่มด้วยก็ได้ การก าหนดขนาดของกลุ่มตัวอย่าง
4 1. การก าหนดขนาดของกลุม่ตวัอยา่งโดยใชเ้กณฑ์ การก าหนดขนาดของกลมุ่ตัวอยา่งโดยใชเ้กณฑ์เป็นวิธีการที่ง่าย วิธีหนึ่ง โดยที่ผู้วิจัย จะต้องทราบจ านวนประชากรที่ค่อนข้างแน่นอนก่อน แล้วค านวณหาจ านวนกลุ่มตัวอย่างจากเกณฑ์ดังต่อไปนี้ จ านวน ประชากร จ านวน กลุ่ม ตัวอย่าง จ านวน ประชากร จ านวน กลุ่ม ตัวอย่าง จ านวน ประชากร จ านวน กลุ่ม ตัวอย่าง จ านวน ประชากร จ านวน กลุ่ม ตัวอย่าง 10 15 20 25 30 35 40 45 50 55 10 14 19 24 28 32 36 40 44 48 150 160 170 180 190 200 210 220 230 240 108 113 118 123 127 132 136 140 144 148 460 480 500 550 600 650 700 750 800 850 210 214 217 226 234 242 248 254 260 265 2,200 2,400 2,600 2,800 3,000 3,500 4,000 4,500 5,000 6,000 327 331 335 338 341 346 351 354 357 361 ก)ประชากรมีจ านวนเป็นหลักร้อย ใชก้ลุ่ม ตัวอย่าง 15-30% ข)ประชากรมีจ านวนเป็นหลักพัน ใช้ กลุ่มตัวอย่าง 10-15% ค)ประชากรมีจ านวนเป็นหลักหมื่น ใช้ กลุ่มตัวอย่าง 5-10%
5 2. สูตรค านวณหาขนาดกลุม่ตวัอยา่งโดยใชต้าราง Krejcie & Morgan การก าหนดขนาดของกลุ่มตัวอย่างที่ Robert V. Krejcie แห่ง มหาวิทยาลัย Minisota และ Earyle W. Morgan แห่งมหาวิทยาลัย Texas (1970 : 608-609) ได้สร้างตารางขนาดประชากร และขนาดกลุ่ม ตัวอย่างขึ้นมา เพื่อให ้ผู้วิจัยสามารถเลือกขนาดของกลุ่มตัวอย่างของ งานวจิ ัยไปใชไ้ด้โดยดูจากตารางที่ก าหนดมานี้ ตารางแสดงจ านวนประชากรและจ านวนกลุ่มตัวอย่างของ Krejcie and Morgan (ที่มา : Robert V. Krejcie and Earyle W. Morgan. Educational and Psychological Measurement, 1970 : 608-609) 3. การก าหนดตัวอย่างในกรณีไม่ทราบขนาดของประชากร 3.1 การก าหนดขนาดของกลุ่มตัวอย่าง ในกรณีไม่ทราบขนาด ของประชากร เพียงแต่ผู้วิจัย ทราบว่ามีจ านวนมาก ใชสู้ตร W.G. cochran (1953) 60 65 70 75 80 85 90 95 100 110 120 130 140 52 56 59 63 66 70 73 76 80 86 92 97 103 250 260 270 280 290 300 320 340 360 380 400 420 440 152 155 159 162 165 169 175 181 186 191 196 201 205 900 950 1,000 1,100 1,200 1,300 1,400 1,500 1,600 1,700 1,800 1,900 2,000 269 274 278 285 291 297 302 306 310 313 317 320 322 7,000 8,000 9,000 10,000 15,000 20,000 30,000 40,000 50,000 75,000 100,000 364 367 368 370 357 377 379 380 381 382 384
6 สูตร n แทน จ านวนกลุ่มตัวอย่างที่ต้องการ P แทน สัดสว่นของประชากรทผีู่ว้จิ ัยตอ้งการจะสุ่ม ซงึ่สามารถ น าคา่ สถติ ใินอดตีมาใชแ้ทนได้ z แทน ความมั่นใจทผีู่ว้จิ ัยก าหนดไวท้รี่ะดับนัยส าคัญทางสถติ ิ เชน่ z ทนี่ัยส าคัญทางสถติ ิ0.05 มีค่าเท่ากับ 1.96 (มั่นใจ 95%) z ทนี่ัยส าคัญทางสถติ ิ0.01 มีค่าเท่ากับ 2.58 (มั่นใจ 99%) d แทน สัดสว่นของความคลาดเคลื่อนที่ยอมให ้เกิดขึ้น 3.2 การก าหนดขนาดกลุ่มตัวอย่างในกรณีไม่ทราบขนาดของประชากร หรือจ านวนประชากรมีจ านวนไมแ่น่นอน อาจใชส้ตูรของ (Poscoe, 1975 : 183) ได้ดังนี้ สูตร เมื่อ e แทน ความคลาดเคลื่อนมากที่สุดที่ยอมรับได้ Z แทน ความมั่นใจทรี่ะดับนัยส าคัญทางสถติ ิ ถ้า z = 0.05 มีค่าเท่ากับ 1.96 และถ้า z = 0.01 มีค่าเท่ากับ 20.56 S แทน สว่นเบยี่งเบนมาตรฐาน N แทน ขนาดของกลุ่มตัวอย่าง
7 4. การก าหนดขนาดกลุ่มตัวอย่างในกรณีทราบจ านวนที่ แน่นอน (Finite Population) ใชส้ตูรทาโร ยามาเน (Taro Yamane, 1973 : 125) สูตร เมื่อ n แทน ขนาดของกลุ่มตัวอย่าง N แทน ขนาดของประชากร E แทน ความคลาดเคลอื่นของการสมุ่ตัวอยา่ง วธิกีารทสี่มุ่ ใชใ้นการจัดกลมุ่แบบสมุ่อาจเป็ นการใชเ้ลขสุ่ม, การเลือก ตัวอยา่งแบบสมุ่ , หรอืกระบวนการสุ่มอนื่ๆ เพอื่จัดกลมุ่ขอ้มูลในลักษณะที่ ไม่มลี าดับหรือล าดับทที่ราบล่วงหนา้. การจัดกลุ่มแบบสุ่มมักมีความเป็ น อิสระทางสถิติมากกว่าวิธีการจัดกลุ่มที่พิจารณาลักษณะทางสถิติของ ข้อมูล การสุ่มในการจัดกลุ่มท าใหผ้ลลัพธ์มีความเป็ นอิสระและไม่เนน้ ลักษณะเฉพาะใด ๆ ของขอ้มูล ซึ่งสามารถช่วยในการคน้พบความ แปรปรวนหรือลักษณะที่ไม่คาดคิดได้ในข้อมูล หลักการท างานของการจัดกลุ่มแบบสุ่ม (random clustering) คือ การใชว้ธิสีุ่มในกระบวนการแบ่งขอ้มูลหรือองคป์ระกอบต่าง ๆ ในกลุ่มหรือ กลุ่มอย่างสุ่ม โดยไม่ค านึงถงึคุณลักษณะหรือลักษณะทางสถติทิเี่ป็ นเดน่ ของข้อมูลนั้น ๆ ก่อนการจัดกลุ่ม ขัน้ตอนการท างานของการจัดกลมุ่แบบสมุ่มลี ักษณะ ดังนี้ 1. สุ่มตวัอยา่ง: เรมิ่ตน้ดว้ยการสุ่มตัวอย่างหรือองคป์ระกอบทจี่ะถกูจัด กลมุ่. สามารถท าไดโ้ดยการใชเ้ลขสุ่มหรอืเลอืกตัวอยา่งแบบสุ่มจาก ข้อมูลทั้งหมด 2. จัดกลุ่ม: จากตัวอย่างทสี่มุ่ ได, ้น าขอ้มูลมาจัดกลุ่มอย่างสมุ่ โดยไม่ พิจารณาคุณลักษณะหรือลักษณะทางสถิติ 3. การทดสอบหรือการวิเคราะห์: หลังจากที่มีการจัดกลุ่มแบบสุ่ม แล้ว, สามารถท าการทดสอบหรือการวิเคราะห์ข้อมูลเพื่อดูว่ามีความ แตกต่างทางสถิติหรือลักษณะที่น่าสนใจอะไรบ้าง
8 4. การสรุปผล: สรุปผลลัพธ์ที่ไดจ้ากการจัดกลุ่มแบบสุ่มและการ วิเคราะห์. ผลลัพธ์นี้อาจช่วยในการคน้พบความแปรปรวนหรือ ลักษณะที่ไม่คาดคิดได้ในข้อมูล 5. การท าซ า้(Iterative Process): บางครั้ง, การจัดกลุ่มแบบสุ่ม อาจถูกท าซ ้าเพื่อดูว่าผลลัพธ์มีความทา้ทายและมีความน่าสนใจ อย่างไร. การท าซ ้าจะช่วยในการปรับปรุงวธิกีารหรือเพมิ่ความเป็ น ประจ า ข้อที่ 2 ใหน้ ักศกึษาคน้หาความหมายของการจัดกลุ่มแบบดีบีสแกน (DBSCAN Clustering) ตอบ ความหมายของการจัดกลุ่มแบบดีบีสแกน คือ การแบ่งกลุ่ม ข้อมูลแบบดีบีสแกน เป็ นวิธีการแบ่งกลุ่มที่ขึ้นอยู่กับความหนาแน่นของ ข้อมูลในบริเวณต่าง ๆ บริเวณที่มีข้อมูลอยู่หนาแน่นและใกล้กันจะถูกจัดให ้ เป็นกลุ่มเดียวกัน ส่วนขอ้มูลทอี่ยู่ไกลจากบรเิวณทมี่ขีอ้มูลหนาแน่นจะถูก ก าหนดให ้เป็ นข้อมูลผิดปกติเป็ นการแบ่งกลุ่ม ที่ต้องก าหนดรัศมีความ หนาแน่น (Epsilon / Eps) และจ านวนขอ้มูลในชว่งรัศมขี ัน้ต ่า (Minimum Points / MinPts) การวัดระยะห่างใชก้ารวัดระยะห่างแบบยูคลิด กระบวนการแบ่งกลุ่มข้อมูลแบบดีบีสแกนมีขั้นตอนดังต่อไปนี้ 1) สมุ่ขอ้มลูเรมิ่ตน้จากชดุขอ้มูล 2) ก าหนดข้อมูลตามเงื่อนไขดังนี้ a. ถา้ในชว่งรัศมคีวามหนาแน่นของขอ้มลูมจี านวนขอ้มลูไม่นอ้ยกวา่ จ านวนข้อมูล ในชว่งรัศมขี ัน้ต ่า ใหก้ าหนดขอ้มลูดังกลา่วเป็ นจุดแกน่ (Core Point) b. ถา้ในชว่งรัศมคีวามหนาแน่นของขอ้มลูมจี านวนขอ้มลูนอ้ยกวา่ จ านวนข้อมูล ในชว่งรัศมขี ัน้ต ่า แต่มจีุดแกน่อยใู่นชว่งรัศมคีวามหนาแน่น ให ้ก าหนดข้อมูล ดังกล่าวเป็นจุดชายแดน (Border Point) c. ถา้ในชว่งรัศมคีวามหนาแน่นของขอ้มลูมจี านวนขอ้มลูนอ้ยกวา่ จ านวนข้อมูล ในชว่งรัศมขี ัน้ต ่า แต่มจีุดชายแดนอยใู่นชว่งรัศมคีวาม หนาแน่น ให ้ก าหนด ขอ้มลูดังกลา่วเป็ นจุดชายแดนเชน่กัน d. มิฉะนั้นให ้ก าหนดข้อมูลดังกล่าวเป็นข้อมูลผิดปกติ
9 3) ข้อมูลที่ยังไม่ได้ก าหนดตามเงื่อนไขข้อ (2) ซงึ่อยใู่กลเ้คยีงกับขอ้มลูที่ ก าหนดไปแล้วมา พิจารณาตามเงื่อนไขข้อ (2) ต่อไป 4) ท าซ ้าขอ้ (3) จนกระทั่งไม่มีข้อมูลที่ยังไม่ถูกก าหนดตามข้อ (2) 5) แบ่งกลุ่มข้อมูลจากจุดแก่นและจุดชายแดนที่อยู่ใกล้กัน จุดเหล่านี้จะ ถูกก าหนดให ้เป็น กลุ่มขอ้มูลเดยีวกัน ส่วนขอ้มลูผดิ ปกตจิะเกดิจากขอ้มูล ซงึ่ไมไ่ดอ้ยใู่กลจุ้ดชายแดน จะไม่ ถูกก าหนดให ้อยู่ในข้อมูลกลุ่มใด ๆ อัลกอริทึมการแบ่งกลุ่มข้อมูลแบบดีบีสแกนสามารถจัดการข้อมูล ผิดปกติได้ดีกว่าแบบเคมีน และเคมีเดียน เพราะการแบ่งกลุ่มที่ขึ้นอยู่กับ ความหนาแน่นของข้อมูล ท าให้อัลกอริทึมสามารถ จ าแนกได้ว่าข้อมูลที่มี ระยะห่างจากบริเวณที่มีความหนาแน่นเป็นข้อมูลผิดปกติ นอกจากนี้ไม่ ต้อง ก าหนดค่า k เพื่อให ้อัลกอริทึมแบ่งกลุ่มตามค่า k ท าให้การแบ่งกลุ่ม มีความยืดหยุ่นตามความ หนาแน่น แต่อัลกอริทึมนี้มีการค านวณความ ซับซอ้นมากขนึ้ซงึ่สง่ผลใหอ้ ัลกอรทิมึนี้ท างานชา้กวา่การ แบ่งกลุ่มแบบ เคมีนและเคมีเดียน เป็ นวธิกีารจัดกลุ่มทใี่ชห้ลักการของความหนาแน่นของ ข้อมูล (density-based) ในการค้นหากลุ่มหรือกลุ่มที่มีความหนาแน่นสูง กว่าเป็นพิเศษ DBSCAN มีความสามารถที่จะจัดกลุ่มข้อมูลที่มีรูปร่างที่ ซับซอ้นและมคีวามหนาแน่นทแี่ตกตา่งกันไดด้ีลักษณะส าคัญของ DBSCAN คือการจับกลุ่มด้วยความหนาแน่น (density), ท าให้สามารถจัด กลุ่มข้อมูลที่มีความหนาแน่นสูงในพื้นที่เดียวกัน DBSCAN จะท าการสแกน ข้อมูลตามความหนาแน่นและระบุกลุ่มโดยอิงจากระยะทางระหว่างข้อมูล จากกัน 1. ความหนาแน่น (Density-Based): DBSCAN ใชค้วามหนาแน่นของ ข้อมูลเพื่อก าหนดกลุ่ม โดยไม่ต้องก าหนดจ านวนกลุ่มล่วงหน้า กลุ่ม ถูกก าหนดโดยพิจารณาความหนาแน่นของข้อมูลที่ต ่ากว่าที่ก าหนด ไว้ (ค่าของพารามิเตอร์ epsilon) 2. การระบุกลุ่ม (Cluster Assignment): DBSCAN จะระบุกลุ่มโดยการ ตรวจสอบความหนาแน่นของข้อมูลหากมีข้อมูลที่มีความหนาแน่นต ่า มากพอ, ก็จะถูกจัดไว้ในกลุ่มเดียวกัน
10 3. การตัดสินใจเกี่ยวกับจุดขอ้มูล (Noise Detection): DBSCAN สามารถตรวจจับข้อมูลที่ไม่ได้รับการจัดกลุ่ม (noise) และไม่ได้เข้า ไปในกลุ่มใด ๆ ทั้งนี้อยู่ในพื้นที่ที่ความหนาแน่นต ่า 4. การจัดกลุ่มแบบซับซอ้น (Handling Complex Shapes): DBSCAN สามารถจัดกลุ่มขอ้มูลที่มีรูปร่างทางกายภาพที่ซับซอ้นไดด้ ี, เช่น กลุ่มที่มีรูปแบบ "ขอบเขต" (border) หรือ "แออัด" (dense region) ที่มีความหนาแน่นสูง 5. ป้องกันต่อตัวแปรของกลุ่ม (Robust to Cluster Variability): DBSCAN มีความทนทานต่อตัวแปรของขนาดหรือรูปร่างของกลุ่ม มาก, ซงึ่ท าใหม้ ปีระสทิธภิาพในการจัดกลุ่มขอ้มูลทมี่คีวามหนาแน่น และการกระจายที่แตกต่างกัน สว่นการท างานของ DBSCAN นัน้จะใช้2 parameter เพื่อหากลุ่มข้อมูล 1. eps = รัศมีจากจุดศูนย์กลางวงกลม 2. MinPts = จ านวน Data point ขั้นต ่าในการก าหนด center MinPts = 6
11 ต าแหน่ง x คือ Core point และ MinPts จากภาพจะมี Neighbor point 6 จุด วิธีการแบ่งกลุ่มข้อมูลและลดปัญหาความผิดพลาดของข้อมูล ค าอธิบายแต่ละตัวอักษร x y z , n ต าแหน่ง x คือ Core point มี Neighbor point 6 จุด ต าแหน่ง y คือ Border มี Neighbor point ไม่ถึง 6 จุดแต่อยู่ในรัศมีของ Core point x ต าแหน่ง z คือ Border มี Neighbor point ไม่ถึง 6 จุดแต่อยู่ในรัศมีของ Core point y ซงึ่ y นั้นก็อยู่ในรัศมี z นับเป็นกลุ่มข้อมูลเดียวกันกับ x และ y DBSCAN คือการหาบริเวณข้อมูลที่อยู่รวมกันเป็นกลุ่มโดยจะหากลุ่ม ข้อมูลได้จากการค านวณที่เกิดจาก Data Point และเป็นหนึ่ง Algorithm ที่มีการจัดการกลุ่มข้อมูลแบบ Clustering รวมไปถึงการแสดงข้อมูลนั้นจะ มีรูปร่างที่แตกต่างกับ K-mean และลดปัญหาข้อมูลที่ผิดพลาดออกไป ข้อดี • รูปร่างของ Cluster มีความยืดหยุ่น มากกว่า K-Means (KMeans จะท าบนสมมติฐานของ Cluster ทรงกลม เนื่องจากจัด Cluster โดยใชร้ะยะทาง) • การจัดการกับ Noise สามารถระบุข้อมูลที่เป็น Outliers และ พิจารณา Data Points เหล่านั้นเป็น Noise ได้ • ไม่ต้องก าหนดจ านวน Cluster ก่อน การใชง้าน DBSCAN ไม่ จ าเป็นต้องระบุจ านวน Cluster ก่อนล่วงหน้า แตกต่างกับ K-Means ขอ้เสยี
12 • ความยากกับความหนาแน่นที่แตกต่างกัน ประสบปัญหาเมื่อ Clusters มคีวามหนาแน่นตา่งกันอยา่งมนี ัยส าคัญ • Border Points จุด (Data Point) หนึ่ง สามารถถูกพิจารณาอยู่ใน 2 Clusters ได้ ท าให้จุดที่อยู่บริเวณ Border ไมม่คีวามชดัเจน • ความไวของพารามิเตอร์ (Sensitivity) ผลลัพธ์สามารถ แตกต่างกันไปตาม Distance Parameter (Epsilon) และ Minimum Points