The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

- ความหมายของการจัดกลุ่มแบบสุ่ม (Random clustering)
- ความหมายของการจัดกลุ่มแบบดีบีสแกน (DBSCAN clustering)

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by บรรพตรี แวงเลิศ, 2024-02-03 03:55:47

รายงานเรื่อง (การจัดกลุ่ม) clustering

- ความหมายของการจัดกลุ่มแบบสุ่ม (Random clustering)
- ความหมายของการจัดกลุ่มแบบดีบีสแกน (DBSCAN clustering)

Keywords: clustering

รายงาน วิชา เทคนิคทำเหมืองข้อมูลทางธุรกิจ จัดทำโดย นางสาวบรรพตรี แวงเลิศ 66644401009 เสนอ อาจารย์อุณนดาทร มูลเพ็ญ รายงานเล่มนี้เป็นส่วนหนึ่งของรายวิชาเทคนิคทำเหมืองข้อมูลทางธุรกิจ (BDT2107) ภาคเรียนที่ 2 ปีการศึกษา 2567 คณะบริหารธุรกิจและการบัญชี มหาวิทยาลัยราชภัฏร้อยเอ็ด


2 การบ้าน บทที่ 5 การจัดกลุ่ม (Clustering Technique) ข้อที่ 1 ให้นักศึกษาค้นหาความหมายของการจัดกลุ่มแบบสุ่ม (Random Clustering) ตอบ ความหมายของการจัดกลุ่มแบบสุ่ม คือ กระบวนการที่ใช้วิธีสุ่มในการแบ่งข้อมูลหรือองค์ประกอบ ต่าง ๆ ในกลุ่มหรือกลุ่มอย่างสุ่ม โดยไม่คำนึงถึงคุณลักษณะหรือลักษณะทางสถิติที่เป็นเด่นของข้อมูลนั้น ๆ ก่อน การจัดกลุ่ม การจัดกลุ่มแบบสุ่มนั้นเป็นวิธีที่ใช้ในหลายทางเพื่อศึกษาคุณลักษณะหรือลักษณะทางสถิติที่อาจมีใน ข้อมูล โดยที่ไม่มีข้อมูลก่อนหน้าหรือความรู้เกี่ยวกับลักษณะเหล่านั้น การจัดกลุ่มแบบสุ่มมักถูกใช้ในงานวิจัยทาง สังคม, การทดลองทางการแพทย์, หรือการทดลองทางวิทยาศาสตร์ที่ต้องการทราบข้อมูลเบื้องต้นโดยที่ไม่มีข้อมูล พื้นฐาน ประเภทของการสุ่มกลุ่มตัวอย่าง วิธีการสุ่มตัวอย่างแบ่งเป็น 2 ประเภทใหญ่ๆ คือ 1. การสุ่มตัวอย่างโดยไม่ใช้ความน่าจะเป็น ( Nonprobability sampling ) เป็นการเลือกตัวอย่างโดยไม่คำนึง ว่าตัวอย่างแต่ละหน่วยมีโอกาสถูกเลือกมากน้อยเท่าไร ทำให้ไม่ทราบความน่าจะเป็นที่แต่ละหน่วยในประชากรจะถูกเลือก การเลือกกลุ่มตัวอย่างแบบนี้ไม่ สามารถนำผลที่ได้อ้างอิงไปยังประชากรได้ แต่มีความสะดวกและประหยัดเวลาและค่าใช้จ่ายมากกว่า ซึ่งสามารถ ทำได้หลายแบบ ดังนี้ 1.1 การเลือกกลุ่มตัวอย่างแบบบังเอิญ (Accidental sampling) เป็นการเลือกกลุ่มตัวอย่างเพื่อให้ได้ จำนวนตามต้องการโดยไม่มีหลักเกณฑ์ กลุ่มตัวอย่างจะเป็นใครก็ได้ที่สามารถให้ข้อมูลได้ 1.2 การเลือกกลุ่มตัวอย่างแบบโควต้า ( Quota sampling ) เป็นการเลือกกลุ่มตัวอย่างโดยคำนึงถึง สัดส่วนองค์ประกอบของประชากร เช่นเมื่อต้องการกลุ่มตัวอย่าง 100 คน ก็แบ่งเป็นเพศชาย 50 คน หญิง 50 คน แล้วก็เลือกแบบบังเอิญ คือเจอใครก็เลือกจนครบตามจำนวนที่ต้องการ 1.3 การเลือกกลุ่มตัวอย่างแบบเจาะจง ( Purposive sampling ) เป็นการเลือกกลุ่มตัวอย่างโดย พิจารณาจากการตัดสินใจของผู้วิจัยเอง ลักษณะของกลุ่มที่เลือกเป็นไปตามวัตถุประสงค์ของการวิจัย การเลือก กลุ่มตัวอย่างแบบเจาะจงต้องอาศัยความรอบรู้ ความชำนาญและประสบการณ์ในเรื่องนั้นๆของผู้ทำวิจัย การเลือก กลุ่มตัวอย่างแบบนี้มีชื่อเรียกอีกอย่างว่า Judgement sampling 2. การสุ่มตัวอย่างโดยใช้ความน่าจะเป็น ( Probability sampling ) เป็นการสุ่มตัวอย่างโดยสามารถกำหนด โอกาสที่หน่วยตัวอย่างแต่ละหน่วยถูกเลือก ทำให้ทราบความน่าจะเป็นที่แต่ละหน่วยในประชากรจะถูกเลือก การ เลือกกลุ่มตัวอย่างแบบนี้สามารถนำผลที่ได้อ้างอิงไปยังประชากรได้ สามารถทำได้หลายแบบ ดังนี้ 2.1 การสุ่มตัวอย่างแบบง่าย (Simple random sampling) เป็นการสุ่มตัวอย่างโดยถือว่าทุกๆหน่วย หรือทุกๆสมาชิกในประชากรมีโอกาสจะถูกเลือกเท่าๆ กัน การสุ่มวิธีนี้จะต้องมีรายชื่อประชากรทั้งหมดและมีการ ให้เลขกำกับ วิธีการอาจใช้วิธีการจับสลากโดยทำรายชื่อประชากรทั้งหมด หรือใช้ตารางเลขสุ่มโดยมีเลขกำกับ หน่วยรายชื่อทั้งหมดของประชากร


3 2.2 การสุ่มตัวอย่างแบบเป็นระบบ ( Systematic sampling) เป็นการสุ่มตัวอย่างโดยมีรายชื่อของทุก หน่วยประชากรมาเรียงเป็นระบบตามบัญชีเรียกชื่อ การสุ่มจะแบ่งประชากรออกเป็นช่วงๆที่เท่ากันอาจใช้ช่วงจาก สัดส่วนของขนาดกลุ่มตัวอย่างและประชากร แล้วสุ่มประชากรหน่วยแรก ส่วนหน่วยต่อๆไปนับจากช่วงสัดส่วนที่ คำนวณไว้ 2.3 การสุ่มตัวอย่างแบบชั้นภูมิ (Stratified sampling) เป็นการสุ่มตัวอย่างโดยแยกประชากรออกเป็น กลุ่มประชากรย่อย ๆ หรือแบ่งเป็นชั้นภูมิก่อน โดยหน่วยประชากรในแต่ละชั้นภูมิจะมีลักษณะเหมือนกัน (Homogenious) แล้วสุ่มอย่างง่ายเพื่อให้ได้จำนวนกลุ่มตัวอย่างตามสัดส่วนของขนาดกลุ่มตัวอย่างและกลุ่ม ประชากร 2.4 การสุ่มตัวอย่างแบบกลุ่ม (Cluster sampling ) เป็นการสุ่มตัวอย่างโดยแบ่งประชากรออกตามพื้นที่ โดยไม่จำเป็นต้องทำบัญชีรายชื่อของประชากร และสุ่มตัวอย่างประชากรจากพื้นที่ดังกล่าวตามจำนวนที่ต้องการ แล้วศึกษาทุกหน่วยประชากรในกลุ่มพื้นที่นั้นๆ หรือจะทำการสุ่มต่อเป็นลำดับขั้นมากกว่า 1 ระดับ โดยอาจแบ่ง พื้นที่จากภาค เป็นจังหวัด จาก จังหวัดเป็นอำเภอ และเรื่อยไปจนถึงหมู่บ้าน นอกจากนี้การสุ่มตัวอย่างยังสามารถ เลือกสุ่มตัวอย่างผสมระหว่างแบบง่ายแบบชั้นภูมิและแบบกลุ่มด้วยก็ได้ การกำหนดขนาดของกลุ่มตัวอย่าง 1. การกำหนดขนาดของกลุ่มตัวอย่างโดยใช้เกณฑ์ การกำหนดขนาดของกลุ่มตัวอย่างโดยใช้เกณฑ์ เป็นวิธีการที่ง่ายวิธีหนึ่ง โดยที่ผู้วิจัย จะต้องทราบ จำนวนประชากรที่ค่อนข้างแน่นอนก่อน แล้วคำนวณหาจำนวนกลุ่มตัวอย่างจากเกณฑ์ดังต่อไปนี้ ก) ประชากรมีจำนวนเป็นหลักร้อย ใช้กลุ่มตัวอย่าง 15-30% ข) ประชากรมีจำนวนเป็นหลักพัน ใช้กลุ่มตัวอย่าง 10-15% ค) ประชากรมีจำนวนเป็นหลักหมื่น ใช้กลุ่มตัวอย่าง 5-10%


4 2. สูตรคำนวณหาขนาดกลุ่มตัวอย่างโดยใช้ตาราง Krejcie & Morgan การกำหนดขนาดของกลุ่มตัวอย่างที่ Robert V. Krejcie แห่งมหาวิทยาลัย Minisota และ Earyle W. Morgan แห่งมหาวิทยาลัย Texas (1970 : 608-609) ได้สร้างตารางขนาดประชากร และขนาดกลุ่มตัวอย่าง ขึ้นมา เพื่อให้ผู้วิจัยสามารถเลือกขนาดของกลุ่มตัวอย่างของงานวิจัยไปใช้ได้โดยดูจากตารางที่กำหนดมานี้ ตารางแสดงจำนวนประชากรและจำนวนกลุ่มตัวอย่างของ Krejcie and Morgan (ที่มา : Robert V. Krejcie and Earyle W. Morgan. Educational and Psychological Measurement, 1970 : 608-609) จำนวน ประชากร จำนวนกลุ่ม ตัวอย่าง จำนวน ประชากร จำนวนกลุ่ม ตัวอย่าง จำนวน ประชากร จำนวนกลุ่ม ตัวอย่าง จำนวน ประชากร จำนวนกลุ่ม ตัวอย่าง 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 110 120 130 140 10 14 19 24 28 32 36 40 44 48 52 56 59 63 66 70 73 76 80 86 92 97 103 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300 320 340 360 380 400 420 440 108 113 118 123 127 132 136 140 144 148 152 155 159 162 165 169 175 181 186 191 196 201 205 460 480 500 550 600 650 700 750 800 850 900 950 1,000 1,100 1,200 1,300 1,400 1,500 1,600 1,700 1,800 1,900 2,000 210 214 217 226 234 242 248 254 260 265 269 274 278 285 291 297 302 306 310 313 317 320 322 2,200 2,400 2,600 2,800 3,000 3,500 4,000 4,500 5,000 6,000 7,000 8,000 9,000 10,000 15,000 20,000 30,000 40,000 50,000 75,000 100,000 327 331 335 338 341 346 351 354 357 361 364 367 368 370 357 377 379 380 381 382 384


5 3. การกำหนดตัวอย่างในกรณีไม่ทราบขนาดของประชากร 3.1 การกำหนดขนาดของกลุ่มตัวอย่าง ในกรณีไม่ทราบขนาดของประชากร เพียงแต่ผู้วิจัย ทราบว่ามี จำนวนมาก ใช้สูตร W.G. cochran (1953) สูตร n แทน จำนวนกลุ่มตัวอย่างที่ต้องการ P แทน สัดส่วนของประชากรที่ผู้วิจัยต้องการจะสุ่ม ซึ่งสามารถนำค่าสถิติในอดีตมาใช้แทนได้ z แทน ความมั่นใจที่ผู้วิจัยกำหนดไว้ที่ระดับนัยสำคัญทางสถิติเช่น z ที่นัยสำคัญทางสถิติ0.05 มีค่าเท่ากับ 1.96 (มั่นใจ 95%) z ที่นัยสำคัญทางสถิติ0.01 มีค่าเท่ากับ 2.58 (มั่นใจ 99%) d แทน สัดส่วนของความคลาดเคลื่อนที่ยอมให้เกิดขึ้น 3.2 การกำหนดขนาดกลุ่มตัวอย่างในกรณีไม่ทราบขนาดของประชากร หรือจำนวนประชากรมีจำนวนไม่ แน่นอน อาจใช้สูตรของ (Poscoe, 1975 : 183) ได้ดังนี้ สูตร เมื่อ e แทน ความคลาดเคลื่อนมากที่สุดที่ยอมรับได้ Z แทน ความมั่นใจที่ระดับนัยสำคัญทางสถิติ ถ้า z = 0.05 มีค่าเท่ากับ 1.96 และถ้า z = 0.01 มีค่าเท่ากับ 20.56 S แทน ส่วนเบี่ยงเบนมาตรฐาน N แทน ขนาดของกลุ่มตัวอย่าง


6 4. การกำหนดขนาดกลุ่มตัวอย่างในกรณีทราบจำนวนที่แน่นอน (Finite Population) ใช้สูตรทาโร ยามาเน (Taro Yamane, 1973 : 125) สูตร เมื่อ n แทน ขนาดของกลุ่มตัวอย่าง N แทน ขนาดของประชากร E แทน ความคลาดเคลื่อนของการสุ่มตัวอย่าง วิธีการที่สุ่มใช้ในการจัดกลุ่มแบบสุ่มอาจเป็นการใช้เลขสุ่ม, การเลือกตัวอย่างแบบสุ่ม, หรือกระบวนการ สุ่มอื่น ๆ เพื่อจัดกลุ่มข้อมูลในลักษณะที่ไม่มีลำดับหรือลำดับที่ทราบล่วงหน้า. การจัดกลุ่มแบบสุ่มมักมีความเป็น อิสระทางสถิติมากกว่าวิธีการจัดกลุ่มที่พิจารณาลักษณะทางสถิติของข้อมูล การสุ่มในการจัดกลุ่มทำให้ผลลัพธ์มี ความเป็นอิสระและไม่เน้นลักษณะเฉพาะใด ๆ ของข้อมูล ซึ่งสามารถช่วยในการค้นพบความแปรปรวนหรือ ลักษณะที่ไม่คาดคิดได้ในข้อมูล หลักการทำงานของการจัดกลุ่มแบบสุ่ม (random clustering) คือการใช้วิธีสุ่มในกระบวนการแบ่งข้อมูล หรือองค์ประกอบต่าง ๆ ในกลุ่มหรือกลุ่มอย่างสุ่ม โดยไม่คำนึงถึงคุณลักษณะหรือลักษณะทางสถิติที่เป็นเด่นของ ข้อมูลนั้น ๆ ก่อนการจัดกลุ่ม ขั้นตอนการทำงานของการจัดกลุ่มแบบสุ่มมีลักษณะ ดังนี้ 1. สุ่มตัวอย่าง: เริ่มต้นด้วยการสุ่มตัวอย่างหรือองค์ประกอบที่จะถูกจัดกลุ่ม. สามารถทำได้โดยการใช้เลขสุ่ม หรือเลือกตัวอย่างแบบสุ่มจากข้อมูลทั้งหมด 2. จัดกลุ่ม: จากตัวอย่างที่สุ่มได้, นำข้อมูลมาจัดกลุ่มอย่างสุ่ม โดยไม่พิจารณาคุณลักษณะหรือลักษณะทาง สถิติ 3. การทดสอบหรือการวิเคราะห์: หลังจากที่มีการจัดกลุ่มแบบสุ่มแล้ว, สามารถทำการทดสอบหรือการ วิเคราะห์ข้อมูลเพื่อดูว่ามีความแตกต่างทางสถิติหรือลักษณะที่น่าสนใจอะไรบ้าง 4. การสรุปผล: สรุปผลลัพธ์ที่ได้จากการจัดกลุ่มแบบสุ่มและการวิเคราะห์. ผลลัพธ์นี้อาจช่วยในการค้นพบ ความแปรปรวนหรือลักษณะที่ไม่คาดคิดได้ในข้อมูล 5. การทำซ้ำ (Iterative Process): บางครั้ง, การจัดกลุ่มแบบสุ่มอาจถูกทำซ้ำเพื่อดูว่าผลลัพธ์มีความท้า ทายและมีความน่าสนใจอย่างไร. การทำซ้ำจะช่วยในการปรับปรุงวิธีการหรือเพิ่มความเป็นประจำ


7 ข้อที่ 2 ให้นักศึกษาค้นหาความหมายของการจัดกลุ่มแบบดีบีสแกน (DBSCAN Clustering) ตอบ ความหมายของการจัดกลุ่มแบบดีบีสแกน คือ การแบ่งกลุ่มข้อมูลแบบดีบีสแกน เป็นวิธีการ แบ่งกลุ่มที่ขึ้นอยู่กับความหนาแน่นของ ข้อมูลในบริเวณต่าง ๆ บริเวณที่มีข้อมูลอยู่หนาแน่นและใกล้กันจะถูกจัดให้ เป็นกลุ่มเดียวกัน ส่วนข้อมูลที่อยู่ไกลจากบริเวณที่มีข้อมูลหนาแน่นจะถูกกำหนดให้เป็นข้อมูลผิดปกติเป็นการ แบ่งกลุ่ม ที่ต้องกำหนดรัศมีความหนาแน่น (Epsilon / Eps) และจำนวนข้อมูลในช่วงรัศมีขั้นต่ำ (Minimum Points / MinPts) การวัดระยะห่างใช้การวัดระยะห่างแบบยูคลิด กระบวนการแบ่งกลุ่มข้อมูลแบบดีบีสแกนมี ขั้นตอนดังต่อไปนี้ 1) สุ่มข้อมูลเริ่มต้นจากชุดข้อมูล 2) กำหนดข้อมูลตามเงื่อนไขดังนี้ a. ถ้าในช่วงรัศมีความหนาแน่นของข้อมูลมีจำนวนข้อมูลไม่น้อยกว่าจำนวนข้อมูล ในช่วงรัศมีขั้นต่ำ ให้กำหนด ข้อมูลดังกล่าวเป็นจุดแก่น (Core Point) b. ถ้าในช่วงรัศมีความหนาแน่นของข้อมูลมีจำนวนข้อมูลน้อยกว่าจำนวนข้อมูล ในช่วงรัศมีขั้นต่ำ แต่มีจุดแก่น อยู่ในช่วงรัศมีความหนาแน่น ให้กำหนดข้อมูล ดังกล่าวเป็นจุดชายแดน (Border Point) c. ถ้าในช่วงรัศมีความหนาแน่นของข้อมูลมีจำนวนข้อมูลน้อยกว่าจำนวนข้อมูล ในช่วงรัศมีขั้นต่ำ แต่มีจุด ชายแดนอยู่ในช่วงรัศมีความหนาแน่น ให้กำหนด ข้อมูลดังกล่าวเป็นจุดชายแดนเช่นกัน d. มิฉะนั้นให้กำหนดข้อมูลดังกล่าวเป็นข้อมูลผิดปกติ 3) ข้อมูลที่ยังไม่ได้กำหนดตามเงื่อนไขข้อ (2) ซึ่งอยู่ใกล้เคียงกับข้อมูลที่กำหนดไปแล้วมา พิจารณาตามเงื่อนไขข้อ (2) ต่อไป 4) ทำซ้ำข้อ (3) จนกระทั่งไม่มีข้อมูลที่ยังไม่ถูกกำหนดตามข้อ (2) 5) แบ่งกลุ่มข้อมูลจากจุดแก่นและจุดชายแดนที่อยู่ใกล้กัน จุดเหล่านี้จะถูกกำหนดให้เป็น กลุ่มข้อมูลเดียวกัน ส่วนข้อมูลผิดปกติจะเกิดจากข้อมูลซึ่งไม่ได้อยู่ใกล้จุดชายแดน จะไม่ ถูกกำหนดให้อยู่ในข้อมูลกลุ่มใด ๆ อัลกอริทึมการแบ่งกลุ่มข้อมูลแบบดีบีสแกนสามารถจัดการข้อมูลผิดปกติได้ดีกว่าแบบเคมีน และเคมีเดียน เพราะการแบ่งกลุ่มที่ขึ้นอยู่กับความหนาแน่นของข้อมูล ทำให้อัลกอริทึมสามารถ จำแนกได้ว่าข้อมูลที่มีระยะห่าง จากบริเวณที่มีความหนาแน่นเป็นข้อมูลผิดปกติ นอกจากนี้ไม่ต้อง กำหนดค่า k เพื่อให้อัลกอริทึมแบ่งกลุ่มตามค่า k ทำให้การแบ่งกลุ่มมีความยืดหยุ่นตามความ หนาแน่น แต่อัลกอริทึมนี้มีการคำนวณความซับซ้อนมากขึ้น ซึ่ง ส่งผลให้อัลกอริทึมนี้ทำงานช้ากว่าการ แบ่งกลุ่มแบบเคมีนและเคมีเดียน เป็นวิธีการจัดกลุ่มที่ใช้หลักการของความ หนาแน่นของข้อมูล (density-based) ในการค้นหากลุ่มหรือกลุ่มที่มีความหนาแน่นสูงกว่าเป็นพิเศษ DBSCAN มี ความสามารถที่จะจัดกลุ่มข้อมูลที่มีรูปร่างที่ซับซ้อนและมีความหนาแน่นที่แตกต่างกันได้ดีลักษณะสำคัญของ DBSCAN คือการจับกลุ่มด้วยความหนาแน่น (density), ทำให้สามารถจัดกลุ่มข้อมูลที่มีความหนาแน่นสูงในพื้นที่ เดียวกัน DBSCAN จะทำการสแกนข้อมูลตามความหนาแน่นและระบุกลุ่มโดยอิงจากระยะทางระหว่างข้อมูลจาก กัน


8 1. ความหนาแน่น (Density-Based): DBSCAN ใช้ความหนาแน่นของข้อมูลเพื่อกำหนดกลุ่ม โดยไม่ต้อง กำหนดจำนวนกลุ่มล่วงหน้า กลุ่มถูกกำหนดโดยพิจารณาความหนาแน่นของข้อมูลที่ต่ำกว่าที่กำหนดไว้ (ค่าของพารามิเตอร์ epsilon) 2. การระบุกลุ่ม (Cluster Assignment): DBSCAN จะระบุกลุ่มโดยการตรวจสอบความหนาแน่นของข้อมูล หากมีข้อมูลที่มีความหนาแน่นต่ำมากพอ, ก็จะถูกจัดไว้ในกลุ่มเดียวกัน 3. การตัดสินใจเกี่ยวกับจุดข้อมูล (Noise Detection): DBSCAN สามารถตรวจจับข้อมูลที่ไม่ได้รับการจัด กลุ่ม (noise) และไม่ได้เข้าไปในกลุ่มใด ๆ ทั้งนี้อยู่ในพื้นที่ที่ความหนาแน่นต่ำ 4. การจัดกลุ่มแบบซับซ้อน (Handling Complex Shapes): DBSCAN สามารถจัดกลุ่มข้อมูลที่มีรูปร่างทาง กายภาพที่ซับซ้อนได้ดี, เช่น กลุ่มที่มีรูปแบบ "ขอบเขต" (border) หรือ "แออัด" (dense region) ที่มี ความหนาแน่นสูง 5. ป้องกันต่อตัวแปรของกลุ่ม (Robust to Cluster Variability): DBSCAN มีความทนทานต่อตัวแปรของ ขนาดหรือรูปร่างของกลุ่มมาก, ซึ่งทำให้มีประสิทธิภาพในการจัดกลุ่มข้อมูลที่มีความหนาแน่นและการ กระจายที่แตกต่างกัน ส่วนการทำงานของ DBSCAN นั้นจะใช้ 2 parameter เพื่อหากลุ่มข้อมูล 1. eps = รัศมีจากจุดศูนย์กลางวงกลม 2. MinPts = จำนวน Data point ขั้นต่ำในการกำหนด center MinPts = 6


9 ตำแหน่ง x คือ Core point และ MinPts จากภาพจะมี Neighbor point 6 จุด วิธีการแบ่งกลุ่มข้อมูลและลดปัญหาความผิดพลาดของข้อมูล คำอธิบายแต่ละตัวอักษร x y z , n ตำแหน่ง x คือ Core point มี Neighbor point 6 จุด ตำแหน่ง y คือ Border มี Neighbor point ไม่ถึง 6 จุดแต่อยู่ในรัศมีของ Core point x ตำแหน่ง z คือ Border มี Neighbor point ไม่ถึง 6 จุดแต่อยู่ในรัศมีของ Core point y ซึ่ง y นั้นก็อยู่ในรัศมี z นับเป็นกลุ่มข้อมูลเดียวกันกับ x และ y DBSCAN คือการหาบริเวณข้อมูลที่อยู่รวมกันเป็นกลุ่มโดยจะหากลุ่มข้อมูลได้จากการคำนวณที่เกิดจาก Data Point และเป็นหนึ่ง Algorithm ที่มีการจัดการกลุ่มข้อมูลแบบ Clustering รวมไปถึงการแสดงข้อมูลนั้นจะมี รูปร่างที่แตกต่างกับ K-mean และลดปัญหาข้อมูลที่ผิดพลาดออกไป ข้อดี • รูปร่างของ Cluster มีความยืดหยุ่น มากกว่า K-Means (K-Means จะทำบนสมมติฐานของ Cluster ทรงกลม เนื่องจากจัด Cluster โดยใช้ระยะทาง) • การจัดการกับ Noise สามารถระบุข้อมูลที่เป็น Outliers และพิจารณา Data Points เหล่านั้นเป็น Noise ได้ • ไม่ต้องกำหนดจำนวน Cluster ก่อน การใช้งาน DBSCAN ไม่จำเป็นต้องระบุจำนวน Cluster ก่อน ล่วงหน้า แตกต่างกับ K-Means ข้อเสีย • ความยากกับความหนาแน่นที่แตกต่างกัน ประสบปัญหาเมื่อ Clusters มีความหนาแน่นต่างกันอย่างมี นัยสำคัญ • Border Points จุด (Data Point) หนึ่ง สามารถถูกพิจารณาอยู่ใน 2 Clusters ได้ ทำให้จุดที่อยู่บริเวณ Border ไม่มีความชัดเจน • ความไวของพารามิเตอร์ (Sensitivity) ผลลัพธ์สามารถแตกต่างกันไปตาม Distance Parameter (Epsilon) และ Minimum Points


Click to View FlipBook Version