46
บทที่ 3
การใช้งานโปรแกรม RapidMiner
บ ท นี ้จ ะ บ ร ร ย า ย ถ ึง ก า ร เ ริ ่ม ต ้น ก า ร ใ ช ้ง า น โ ป ร แ ก ร ม
RapidMiner การใช้งานภาษาไทยกับโปรแกรมนี้ และวิธีการ
เตรียมข้อมูลเพื่อการวิเคราะห์
การเริ่มตน้ การใช้งาน
การเปิดโปรแกรมใหม่จะเร่ิมจาก Blank ก่อน สาหรับผู้ที่
ดาวน์โหลดใช้งานในครั้งแรกจะสามารถใช้งาน Auto Model ซึ่ง
เป็นรูปแบบการทางานที่ช่วยการทางานแบบอัตโนมัติให้ แต่มีอายุ
ประมาณ 1 ปีหลังจากนั้นหากต้องการใช้ต้องมีค่าใช้จ่ายเพิ่ม
นอกเหนือจากนั้นในส่วนของ Choose template to start form
จะเป็นต้นแบบเพื่อช่วยให้การทางานในบางลักษณะสะดวกขึ้น
เ ช ่น Churn Model, Market Basket Analysis, Medical
Fraud Detection และ Web Analytics เป็นต้น
47
เมื่อเปิดโปรแกรมใหม่ขึ้นมา ส่วนประกอบต่าง ๆ ของ
โปรแกรมมีดังนี้คือ
1. Repository : ส่วนนี้จะใช้ในการจัดการไฟล์ต่างๆ ของ
RapidMiner โดยจะเก็บไฟล์ข้อมูล หรือ Process ต่างๆ
ไว้ใน Folder เพื่อความสะดวกในการเรียกใช้งานครั้ง
ถัดไป
2. Operators : ส่วนนี้จะเก็บโอเปอร์เรเตอร์ (Operators)
ในการใช้งานต่างๆ ไว้เป็นกลุ่ม ซึ่งสามารถค้นหา
Operators ที่ต้องการได้ในช่อง Search เพื่อความ
สะดวกในการเรียกใช้งาน
48
3. Process : ส่วนนี้เป็นส่วนที่สาคัญ ของ RapidMiner
เพราะเป็นการนาเอา Operators ต่างๆ มา เชื่อมกันให้
เป็น Process ขึ้นมาใช้งานในการทางานเกี่ยวกับการ
เรียนรู้ของเคร่ือง (Machine Learning)
4. Parameters : ส่วนนี้จะเป็นส่วนที่แสดงพารามิเตอร์
(parameter) ที่เกี่ยวข้องกับแต่ละ Operator เพื่อให้
ผู้ใช้งานปรับแต่งตามที่ต้องการ
5. Help: จะเป็นคาอธิบายของเครื่องมือที่มาวางไว้ใน
Process
13 4
25
ข้อมูลตัวอย่างของโปรแกรมที่สามารถนามาทดลองใช้ได้
จ ะ อ ยู ่ใน Repository เล ือ ก Training Resources เล ือ ก
Samples เลือก Data
49
เมื่อดับเบิ้ลคลิกที่ Data จะแสดงข้อมูลตัวอย่างของ
โปรแกรมที่เตรียมไว้ สามารถเลือกข้อมูลที่ต้องการมาวางในส่วน
ของ Process เพื่อทางานต่อไปได้ ทั้งนี้ข้อมูลตัวอย่างในหนังสือน้ี
จะใช้ของโปรแกรมบางส่วนและอีกส่วนหนึ่งจะยกตัวอย่างข้อมูล
ทางด้านการประมงหรือการเพาะเลี้ยงประกอบด้วย
50
ซ่ึงในส่วนความหมายของอักษรย่อในส่วนของ Process
และ Operator มีดังต่อไปน้ีคือ
Inp (input ports) คือการนาเข้าข้อมูล
out (output ports) คือการส่งออกข้อมูล
fil (file) คือแฟ้มเอกสาร
tra (train) คือข้อมูลทดลอง
mod (model) คือแบบจาลอง
res (result) คือผลลัพธ์
wei (weight) คือค่านา้ หนัก
จากนั้นที่เมนูไฟล์ (File) สามารถเลือกเปิดกระบวนการ
ให ม่ (New Process) เป ิด ก ระบ ว น การที ่มีอ ยู่แ ล้ว (Open
Process) บ ัน ท ึก ก ระ บ วน ก าร (Save Process ห รือ Save
Process as) ก าร น าเข้าข้อ ม ูล (Import Data) ก ารน าเข้า
กระบ วน การ (Import Process) การส่งออกกระบ วน การ
(Export Process) และการออกจากโปรแกรม (Exit) เป็นต้น
51
การใช้งานภาษาไทย
ท่ีเมนูเลือก Setting เลือก Preferences
เลือก User Interface เล่ือนไปที่ Font configuration
เลือก Fonts ท่ีต่อท้ายด้วย UPC
52
การจัดเตรียมข้อมูลเพ่ือการวิเคราะห์
ข้อมูล (Data) : ข้อมูลที่มีอยู่ในตารางต่าง ๆ ที่ประกอบ
ไปด้วยแถวและคอลัมน์ ซึ่งจะเรียกในแถวเป็น ตัวอย่าง
(Example) ส่วนคอลัมพ์เรียก แอททริบิวต์ (Attribute) หรือ
คุณลักษณะ มีหน้าที่ (role) 3 แบบ คือ ID คือหมายเลขกากับ ซึ่ง
ส่วนน้ีจะไม่ถูกนาไปใช้ในการคานวณ, Attribute เป็นแอททริบิวต์
ปกติที่จะใช้ในการสร้างโมเดลหรือเรียกว่าฟีเจอร์ (feature) หรือ
53
ตัวแปรต้น (independent) , label คือเป็น Attribute ที่เป็น
คาตอบ โดยข้อมูลในคอลัมน์นี้ควรเป็นข้อมูลแบบแยกกลุ่มหรือ
ประเภท เช่น ดี พอใช้ ไม่ดี หรือมาก น้อย เหล่าน้ีเป็นต้น ซึ่งส่วน
นี้จะเป็นส่วนสาคัญโดยเฉพาะการวิเคราะห์ข้อมูลแบบมีผู้สอน
ประเภทของขอ้ มลู แตล่ ะแอททรบิ ิวต์
- polynomial เป็นข้อมูลท่ีมีต้ังแต่ 2 ค่าข้ึนไป คือข้อมูล
ประเภทท่ีเปน็ ตัวเลขและมีมากกวา่ 2 ตัวเลือก
- binominal เป็นข้อมูลท่ีสามารถจัดกลุ่ม ประเภทหรือ
หมวดหมูไ่ ด้ (Category) มี 2 ค่าเท่าน้นั
- nominal เป็นข้อมูลประเภทสามารถจัดกลุ่ม ประเภท
หรอื หมวดหมู่ได้ (Category) มมี ากกวา่ 2 คา่ ขน้ึ ไป
- numeric หรือ Integer เป็น ข้อมูลประเภ ทตัวเลข
จานวนเต็ม
- text เปน็ ข้อมูลประเภทข้อความ
- real เปน็ ข้อมูลประเภทตวั เลขทศนิยม
- date_time เป็นข้อมลู วันที่และเวลา
- date เป็นขอ้ มูลวันท่ี
- time เป็นข้อมลู เวลา
54
ชนดิ ขอ้ มลู ที่สามารถนามาใชใ้ นโปรแกรม
Excel file คอื ข้อมูลทถ่ี ูกจัดเกบ็ ใน Excel ไฟล์ โดยที่
คุณลักษณะตา่ งๆ จะเก็บไวใ้ นคอลมั น์ สว่ นแถวจะเปน็ ลาดับของ
ข้อมูล
CSV file (Comma Separated Value) คือข้อมูลที่ ใช้
เคร่ืองหมายคอมม่า ( , ) คั่นอยู่ระหว่างข้อมูล ซึ่งข้อดีของวิธีการนี้
คือประหยัดเนื้อที่ในการจัดเก็บข้อมูล ซ่ึงวิธีการจัดเก็บข้อมูลโดย
วิธีการนี้คือ เริ่มจากการเปิดโปรแกรม Notepad ซ่ึงมีอยู่ใน
คอมพิวเตอร์ทุกเคร่ืองอยู่แล้ว เรม่ิ การพิมพห์ ัวตารางและใส่ข้อมูลท่ี
ต้องการลงไปโดยใช้เคร่ืองหมาย , ในการแยกข้อมูลแต่ละตัว
ดังเช่น
ทาการบันทึก ต้ังชื่อไฟล์และบันทึกเป็น
TextDocument(*.txt)
55
การเปิดดูข้อมูลไฟล์ CSV ในโปรแกรม Microsoft Excel
โดยการเปิดไฟล์ที่ต้องการข้ึนมา
เลือก Delimited และ My data has headers
56
กด เลือก Comma
กด
57
กด ผลลัพธ์ที่ได้จะแสดงให้เห็นว่าการ
บันทึกไฟล์ด้วยการทาเป็นไฟล์ CSV สามารถนามาใช้ในโปรแกรม
Microsoft Excel ได้
การแสดงรายละเอียดของข้อมูล
วิธีการคือ เมื่อนาข้อมูลมาไว้ใน Process แล้ว สามารถ
เชื่อมจุด out ไปที่ res ได้เพื่อแสดงรายละเอียดของข้อมูล
58
กด ผลลัพธ์ที่ได้สามารถเลือกดูข้อมูล (Data) จะ
แสดงข้อมูลทั้งหมด ค่าสถิติ (Statistics) จะแสดงค่าชนิดของของ
มูล ค่าน้อยที่สุด ค่ามากที่สุด ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน
เป็น ต้น การแสดงใน รูป แบ บ กราฟ (Visualizations) ห รือ
คาอธิบายประกอบ (Annotations)
59
บทท่ี 4
การนาเขา้ และการจัดเตรยี มขอ้ มลู
ก่อนการนาเข้ามูลมาใช้ในการวิเคราะห์ควรต้องมีการ
จัดเตรียมข้อมูลให้ถูกต้องและพร้อมสาหรับการวิเคราะห์มากที่สุด
เพือ่ ใหผ้ ลการวเิ คราะหม์ คี วามถูกต้องมากทส่ี ุด
การนาเข้าขอ้ มลู
การนาข้อมูลมาใช้ในการวเิ คราะห์อาจเลือกจากขอ้ มูลทถี่ ูก
บันทึกไว้ในโปรแกรม RapidMiner แล้ว หรือนาเข้าข้อมูลใหม่ใน
รูปไฟล์ Excel หรือ CSV ซึ่งในกรณีนี้จะต้องใช้ Operator Read
Excel หรอื Read CSV
ที่ Parameters เลือก Import Configuration Wizard
เพอ่ื เปิดไปยงั ทีอ่ ยู่ของไฟล์ท่ตี ้องการ
60
กด
61
ในข้ันตอนน้ีควรเลอื ก Change Type ของขอ้ มูลใหถ้ ูกตอ้ ง
ซง่ึ ปกติโปรแกรมจะเลือกให้โดยอตั โนมตั ิ
และเลอื ก Change Role ให้ถูกต้อง ปกติแลว้ คา่ ลาดับจะ
ไมน่ ามาใชใ้ นการวเิ คราะห์ ดงั น้ัน Attribute นน้ั ควรเปล่ยี นเปน็ ID
ส่วนการวเิ คราะหแ์ บบการแยกประเภทข้อมูล(Classification) สว่ น
ท่ีต้องการทานาย Attribute นั้นควรถกู เลือกเปน็ Label
62
กดปมุ่ เสร็จส้ินการนาเข้าข้อมูล
การเตรียมขอ้ มลู
ตัวอยา่ งวิธกี ารที่นิยมใช้ เช่น
1. การเลือกข้อมูลคอลัมน์หรือคุณลักษณะ
กรณีน้ีใช้ Operator Select Attributes จะเห็นว่า
ในส่วน Parameters จะสามารถเลือก attributes filter
type ได้หลายแบบ เช่น all คือเลือกข้อมูลทุกคอลัมน์ single
คือเลือกข้อมูลเพียงหนึ่งคอลัมน์ หรือ subset คือการเลือก
ข้อมูลบางคอลัมน์ เป็นต้น
63
ในกรณีนี้จะยกตัวอย่างการเลือกแบบ subset ที่
attributes คลิก Selected Attributes
จาก Attributes ทั้งหมด จะเลือกเฉพาะ Attributes
บางส่วนคือ Humidity, Outlook และ Play เท่านั้นมาแสดงหรือ
นาไปวิเคราะห์
64
กด และกดปุ่ม ผลลัพธ์ที่ได้คือ
ข้อมูลที่จะถูกนาไปวิเคราะห์จะแสดงเฉพาะ Play, Outlook และ
Humidity ตามท่ีถูกเลือกไว้เท่าน้ัน
65
2. การเลือกเฉพาะข้อมูลที่มีคุณลักษณะเฉพาะ
วิธีการน้ีจะมีรายละเอียดมากกว่าการใช้ Operator
Select Attributes โดยในที่นี้จะใช้ Operator ท่ีเรียกว่า Filter
Examples
66
ท่ี Parameters จะเลือก condition class เป็น
custom filters
ในท่ีน้ีเลือก Add Filters เป็น Outlook equals sunny
67
กด และกดปุ่ม ผลลัพธ์ท่ีได้จะ
แสดงผลเฉพาะในกรณีที่ Outlook เป็น sunny เท่านั้น
68
3. การเปลี่ยนค่าในข้อมูล
ในกรณีน้ีใช้ Operator Map
และใน Parameters ในท่ีน้ีเลือก attribute filter type
เป็น single และเลือก attribute เป็น Wind
ในช่อง Parameter Map เล่ือนลงไปจะเห็น value
mappings เลือก Edit List และเปล่ียนค่า old values จาก
true และ false เป็น T และ F
69
กด และกด ผลลัพธ์ที่ได้คือ ค่า Wind
จากค่า True และ False จะถูกเปลี่ยนเป็นค่า T กับ F ตามที่
กาหนดใหม่
70
4. การแทนค่าข้อมูลที่สูญหาย
วิธีการน้ีจะใช้ Operator Replace Missing Values ซึ่ง
ตัวอย่างในกรณีน้ีคือค่า Temp ท่ี Row No. 6 สูญหาย (?)
71
เลือก Operator Replace Missing Values
ส่วน Parameters ในช่อง attribute filter type เลือก
เป็น single เน่ืองจากมี attribute เดียวท่ีสูญหายคือ Temp ถ้า
จะเลือกท้ังหมดให้เลือก All แต่ถ้าเลือกบางส่วนให้เลือก subset
เล่ือนตัวเลือกของ Replace Missing Values ไปด้านล่าง เลือกท่ี
ค่า default จะมีตัวเลือก
Average ใส่ค่าเฉลี่ย
None ไม่ใส่ข้อมูล
Minimum ใส่ค่าน้อยท่ีสุด
72
Maximum ใส่ค่ามากท่ีสุด
Average ใส่ค่าเฉล่ีย
Zero ใส่ค่าเท่ากับศูนย์
ซึ่งในที่นี้จะเลือกเป็น average
กด ผลลัพธ์ที่ได้คือ ช่องที่ข้อมูลสูญหายจะถูก
แทนท่ีด้วยค่าเฉล่ีย ซ่ึงจะเท่ากับ 27.944 เป็นต้น
73
5. การเช่ือมตาราง
ในกรณีน้ีต้องการเอาตารางมาเช่ือมต่อกันหรือมีการเพ่ิม
Attributes โดยใช้ Operator Join เช่น
ข้อมูลในตารางท่ี 1
74
ข้อมูลในตารางที่ 2
ในที่น้ีใช้ Operator Read Excel 2 ตัว โดยในแต่ละ
ตัวเลือกไฟล์ที่จะนามาต่อกัน
ท่ี Join parameters ที่ Key attributes คลิก Edit List
เลือก left key attributes และ right key attributes ให้ตรงกัน
ในที่น้ีเลือก Sample และกด Apply
75
กด ผลลัพธ์ที่ได้คือ ข้อมูลจากตารางทั้งสองมา
รวมอยู่ในตารางเดียวกัน
76
6. การต่อตารางข้อมูล
วิธีการนี้จะเป็นการนาข้อมูลมาเพิ่มในตารางข้อมูลเดิม
โดยไม่มีการเพิ่ม Attributes ใหม่ โดยใช้ Operator Append ใน
ที่นี้คุณสมบัติของข้อมูลต้องเหมือนกัน กรณีตัวอย่างเช่น จะนา
ข้อมูลจากตารางที่ 1 มาต่อกับข้อมูลในตารางที่ 2
ข้อมูลตารางท่ี 1
ข้อมูลตารางท่ี 2
ใช้ Operator Read Excel 2 ตัว เพ่ือใส่ข้อมูลจากทั้ง 2
ตารางท่ีจะนามาต่อกัน และใช้ Operator Append
77
กด ผลลัพธ์ที่ได้คือ ข้อมูลในตารางท่ี 2 มาต่ออยู่
ด้านล่างของข้อมูลในตารางที่ 1
78
7. การแปลงขอ้ มูลตัวเลขเปน็ กล่มุ
วธิ ีการน้ีเปน็ การแปลงข้อมลู แบบตัวเลข(Numeric) ให้เป็น
ข้อมูลแบบจัดกลุ่ม (Nominal) โดยการแบ่งข้อมูลออกเป็นช่วง ๆ
ตามเง่ือนไขที่กาหนดโดยใช้ Operator Discretize by User
Specification เช่น จากตารางข้อมูลต้องการแบ่งระดับของ DO
เป็น 2 ระดับ คอื good กับ bad โดยท่ี good มีคา่ DO มากกว่า 2
ข้ึนไป ส่วน bad มคี า่ DO ตา่ กว่าหรอื เท่ากับ 2
ท่ี Process ใช้ Operator Read Excel เพ่ือเลือกไฟล์ที่
ต้องการและ Operator Discretization by User Specification
เพอื่ แบ่งกลมุ่ ข้อมลู
ที่ Parameters ที่ attribute filter type เลื อ ก เป็ น
single และ attribute เปน็ DO
79
เลือ่ นลงไปดา้ นล่างเลอื ก classes เปน็ Edit List
กด เพื่อเพิ่มช้ันข้อมูล class name เป็น
bad และ upper limit เท่ากับ 2 และ class name เป็น good
และ upper limit เป็น infinity ในกรณีนี้หมายถึงค่าปริมาณ
ออกซิเจนท่ีละลายในน้า (DO) ซ่ึงเป็นค่าตัวเลขจะถูกเปลี่ยนเป็น
กลมุ่ bad กับ good
80
กด และกด ผลลพั ธท์ ่ไี ด้คือ คา่ DO จะ
เปล่ยี นเปน็ good กบั bad ตามทกี่ าหนดค่าไว้
81
ซ่ึงถ้าผู้ใช้งานสามารถจัดเตรียมข้อมูลเบื้องต้นได้ก่อนโดย
การใช้โปรแกรม Microsoft Excel ก็ไม่จาเป็นต้องมาเตรียมข้อมูล
โดยใช้โปรแกรม RapidMiner
82
บทที่ 5
การวิเคราะห์ข้อมูลการเรียนรู้แบบไม่มีผูส้ อนด้วย
โปรแกรม RapidMiner
ใน บ ท น้ี จ ะ น าเส น อ วิ ธี ก า ร ใช้ ก ฎ ค ว า ม สั ม พั น ธ์
(Association Rules) โด ย ใช้ เท ค นิ ค F-P Growth แ ล ะ ก า ร
แบง่ กลมุ่ (Clustering) โดยใช้ K-means
Association Rules
การหาความสัมพันธ์ หรือเรียกว่า กฎความสัมพันธ์
บางคร้ังอาจเรียกว่า Market Basket Analysis ซ่ึงมาจากการ
มองเห็นว่าคนซ้ือสินค้า1 ชิ้น แล้วน่าจะเลือกซ้ือสินค้าใดต่อไปอีก
ในทีน่ จี้ ะแสดงเฉพาะการใชง้ าน FP-Growth
FP-Growth
ก ร ะ บ ว น ก า ร นี ้จ ะ เล ือ ก ต ัว อ ย ่า ง จ า ก ต ัว โ ป ร แ ก ร ม ที่
Repository เลือก Samples เลือก Templates เลือก Market
Basket Analysis และเลือก Market Basket Analysis
83
จะได้ต้นแบบ (Template) แบบน้ีออกมา
ค่าต่าง ๆ เป็นค่าที่โปรแกรมกาหนดไว้ (Default) ซึ่ง
ผู้ใช้งานสามารถปรับได้เอง จากนั้นกด ผลลัพธ์ที่ได้
FrequentItemSets (FP=Growth) จ ะ แ ส ด ง Size, Support
และ Item ซ่ึงสามารถเปล่ียนค่าได้จากเมนูด้านซ้ายมือ
84
ช่อง AssociationRules (Create Association Rules)
จะแสดงผลเช่น 4.7 เปอร์เซ็นต์ของการทาธุรกรรมทั้งหมด
(Transection) ลูกค้าจะมีการซ้ือ Product 12 และ Product 15
พร้อมกัน และ 34.3 เปอร์เซ็นต์ของลูกค้าเมื่อซื้อ Product 12
แล้วจะซ้ือ Product 15 ด้วย
K-means
โดยการแบ่งกลุ่มสิ่งที่มีคุณลักษณะที่เหมือนกันอยู่กลุ่ม
ด้วยกัน และแบ่งเป็นกลมุ่ (Cluster) ตามท่ีกาหนด (k)
ตัวอย่างจากข้อมูลการจัดการฟาร์มเลี้ยงสัตว์น้าจานวน 9
ฟาร์ม ซึ่งมีขนาด (Size) การมีบ่อเก็บน้า (Reservoir) และการใช้
85
เครื่องให้อากาศ (Aeration) ที่แตกต่างกัน โดยที่ Reservoir
ค วาม ห ม าย ข อ ง 0 คือ ไม่ม ี แ ล ะ 1 คือ มี แล ะ Aeration
ความหมายของ 0 คือไม่มีการใช้เครื่องให้อากาศ และ 1 คือมีการ
ใช้เคร่ืองให้อากาศ
ในท่ีน้ีกาหนดให้มีการจัดกลุ่มออกเป็น 2 กลุ่ม (k = 2)
86
ก ด ผ ล ล ัพ ธ ์ที ่ได ้ ค ือ ก ลุ ่ม ที ่ 1 (Cluster_0)
ป ระ ก อ บ ด ้ว ย ข ้อ ม ูล ID 1, 2, 5, 6 แ ล ะ 9 ส่ว น ก ลุ ่ม ที ่ 2
(Cluster_1) ประกอบด้วยข้อมูล ID 3, 4, 7 และ 8 ซึ่งผลการจัด
กลุ่มจะเปล่ียนแปลงไปตามค่า k ที่กาหนด
ตารางแสดงค่า Centroid ของแต่ละกลุ่ม
Attribute Custer_0 Cluster_1
22
Size 7 1.750
1.750
Reservoir 1.200
Aeration 1.400
87
บทท่ี 6
การวิเคราะห์ขอ้ มูลการเรียนรู้แบบมีผู้สอนด้วย
โปรแกรม RapidMiner
บทนี้จะแสดงวิธีการใช้งานโปรแกรม RapidMiner กับ
การวิเคราะห์ข้อมูลแบบมีผู้สอน ซึ่งจะประกอบด้วยการแยก
ประเภทข้อมูล (Classification) โดยใช้แบบจาลองต้นไม้ตัดสินใจ
(Decision Tree Algorithm) แบบจาลองแบบเบย์อย่างง่าย
(Naïve Bayes Algorithm) เครื่องเวกเตอร์ค้ายัน (Support
Vector Machine) การสุ่มต้นไม้ (Random Forest) แบบจาลอง
แบบโครงข่ายประสาทเทียม (Neural Network หรือ Artificial
Neural Network Algorithm) ก า ร เร ีย น รู ้เ ช ิง ล ึก (Deep
Learning) และการสร้างสมการถดถอย (Regression) ซึ่งความ
แ ต ก ต ่า ง ร ะ ห ว ่า ง Classification แ ล ะ Regression ค ือ
Classification เป็นการทานายคาตอบที่ไม่ต่อเนื่องกัน (Discrete
output) เช่น ปลาทูหรือปลาลัง สูงหรือต่า มาก ปานกลางและ
น้อย เป็นต้น ส่วน Regression จะเป็นการทานายคาตอบท่ี
ต่อเนื่องกัน (Continuous output) เช่น ทานายนา้ หนักเฉลี่ยของ
88
ปลาจากระยะเวลาที่เพิ่มขึ้น หรือการทานายค่าปริมาณออกซิเจน
ท่ีละลายในน้าจากค่าความเค็มที่เพ่ิมขึ้น เป็นต้น
การใช้งานแบบจาลองแบบ Classification
Decision Tree เริ่มจากการนาเข้าข้อมูลที่ต้องการวิเคราะห์
แ ล ะ ใช ้ Operator Decision Tree ส ่ว น Parameters ข อ ง
Decision Tree สามารถเปลี่ยนแปลงค่าได้ตามต้องการเช่น
เกณฑ์ (criterion), ความลึกของกิ่งมากที่สุด (maximal depth)
และค่าความเชื่อมั่น (confidence) เป็นต้น ซึ่งในส่วนนี้จะมีการ
แสดงว่าผู้ใช้ส่วนใหญ่ใช้ค่าไหนมากที่สุดโดยดูได้จากการกดปุ่ม
ด้านข้าง
กด ผลลัพธ์ที่ได้จะแสดงเป็นรูปกราฟต้นไม้ โดยที่
ส่วนบน (Root node) จะมีอิทธิพลมากที่สุด และไล่ลงมาเรื่อยๆ
โดยค่าที่อยู่ระหว่างเส้นที่เช่ือม Node แต่ละอันจะเป็นค่าที่ใช้แยก
ความแตกต่างของแต่ละ Node โดยสุดท้าย Low กับ High คือ
คาตอบที่ต้องการ
89
Description จะแสดงการอธิบายผลลัพธ์
จะเห็นได้ว่าวิธีการนี้จะสามารถนาไปหาแนวทางปฏิบัติที่
ดีเพื่อให้ได้ผลตามความต้องการได้ และสามารถเห็นแนวทางและ
สามารถนามาอธิบายสิ่งท่ีเกิดขึ้นได้ ซึ่งหากต้องการใช้แบบจาลอง
90
แบบอื่นๆ ก็สามารถนา Operator แบบจาลองนั้นๆเข้ามาแทนท่ี
แบบจาลอง Decision Tree ได้
ในกรณีที่ต้องการหาประสิทธิภาพของแบบจาลองจะใช้
Operator Nominal Cross Validation โดยเลือกจากเมนู Edit
เลือก Insert Building Block
ที่ Parameter ของ Validation (Cross Validation) ใน
ที่นี้เลือก number of folds เท่ากับ 10 (คือแบ่งข้อมูลเป็น 10
ชุด) sampling type เป็น automatic และเลือก use local
random seed
91
ดับ เบิ ้ล ค ลิก ที ่ Validation ช ่อ ง Process ด้าน ซ้าย
(Training)ใส ่ Decision Tree ด ้าน ข ว า (Testing) ใส ่ Apply
Model แ ล ะ Performance(Classification) โ ด ย ใ น
Parameters ของ Decision Tree ในที่นี้กาหนด Maximum
Depth (ความลึกมากที่สุด) เท่ากับ 5 confidence (ระดับความ
เช่ือมั่น) เท่ากับ 0.1
กด ผลลัพธ์ที่ได้ จะแสดงค่าตาราง Confusion
matrix, accuracy, precision, recall, AUC (optimistic), AUC
และ AUC (pessimistic) ซึ่งสามารถเลือกดูผลของแต่ละค่าได้
หรือดูจาก Description
92
และในช่อง Tree(Decision Tree) ก็จะแสดงกราฟต้นไม้
ในกรณีที่จะใช้แบบจาลองแบบอื่นๆ ก็สามารถนา
แบบจาลองนั้นๆมาแทนท่ีแบบจาลอง Decision Tree ในส่วนของ
Cross Validation ได้เลย ซึ่งผลลัพธ์ที่ได้ก็จะแตกต่างกันตาม
แนวความคิดของแต่ละแบบจาลอง ตัวอย่างเช่น
Naïve Bayes
93
กด ผลลัพธ์ที่ได้คือ
Support Vector Machine (SVM)
กด ผลลัพธ์ที่ได้คือ
Random Forest
ในท่ีนี้เลือก number of trees เท่ากับ 100 criterion
ใช้ gain_ratio และ maximum depth เท่ากับ 5
94
กด ผลลัพธ์ที่ได้คือ
Neural Net
ในที่น้ีกาหนด hidden layer size เท่ากับ 2 training
cycle เท่ากับ 200 learning rate เท่ากับ 0.01 เลือก use local
random seed
กด ผลลัพธ์ท่ีได้คือ
95
ในช่อง ImprovedNeuralNet (Neural Net) จะแสดง
รูปแบบของปมประสาท
Deep Learning
ในท่ีนี้เลือกฟังก์ชัน activation แบบ Rectifier hidden
layer sizes เป็น 2 ช้ัน ชั้นละ 50 โหนด(node)