The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

คู่มือการใช้งาน RapidMiner Studio 9 เบื้องต้นครับ โดยคุณ นฤชล โรจนบุรานนท์

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by Learn Infinity, 2020-07-31 12:07:29

คู่มือการใช้งาน RapidMiner Studio 9 เบื้องต้นครับ โดยคุณ นฤชล โรจนบุรานนท์

คู่มือการใช้งาน RapidMiner Studio 9 เบื้องต้นครับ โดยคุณ นฤชล โรจนบุรานนท์

ค่มู ือการวเิ คราะห์ขอ้ มลู ดว้ ย

ในเลม่ น้จี ะแนะนำให้รจู้ กั กำรวเิ ครำะหข์ อ้ มูลดว้ ยวิธี

Data mining ซ่ึง สำมำรถทำได้ง่ำย ๆ จำก Software RapidMiner Studio9

@Rodjanaburanon Nam ค่มู อื การใชโ้งดานยRนaำpงidสMำวinนerฤSชtuลd@iโoรR9จoนdjaบnรุabำuนra1นnoทn์

@Rodjanaburanon Nam คู่มอื การใชง้ าน Rapid Miner Studio 9 2

หัวข้อต่ำง ๆ

1. แนะนำ Data Mining และ RapidMiner Studio………..1
2. เรมิ่ ต้นใช้งำน RapidMiner Studio 9…………………..……4

3. องคป์ ระกอบของ RapidMiner Studio 9…..………..….…6

4. ตัวอย่ำงกำรสรำ้ งโมเดล Decision Tree…..…………………10
5.กำรจดั กำรข้อมูล Data Manipulation…………..………….19
6.กำรทดสอบกำรทำนำย…………………………………………..…36
7. เอกสำรอำ้ งอิง……………………………………………………..

กำรทำเหมอื งขอ้ มูล (Data Mining)

เน่ืองด้วยปัจจุบันเป็นยุคที่ข้อมูลสารและสนเทศมีความสาคัญ การเผยแพร่และสื่อสารข้อมูล
ข่าวสาร ทต่ี รงกบั ความต้องการของผใู้ ช้จึงเป็นสิ่งจาเป็น การประยุกต์เทคโนโลยีสารสนเทศเพ่ือช่วยในการ
ส่ือสารข้อมูลจานวนมากให้แก่ผู้ ใช้ เช่น การให้บริการเว็บไซต์เพ่ือเผยแพร่ข้อมูลข่าวสารและแลกเปลี่ยน
ความรู้ จึงเป็นเคร่ืองมือท่สี าคญั ในการส่ือสารข้อมูลถึงผู้ใช้จานวนมาก ดังนั้นการศึกษาเก่ียวกับพฤติกรรม
ของผู้ใช้บริการเว็บไซต์ จะช่วยให้องค์กรสามารถนาข้อมูลมาใช้ในการวางแผนพัฒนาเว็บไซต์ ให้ตรงกับ
ความตอ้ งการใชง้ านหรือใช้ในการวางแผนกลยุทธ์ เพ่ือสร้างความได้เปรียบทางการแขง่ ขนั
กำรทำเหมืองขอ้ มลู (Data Mining)

การทาเหมืองข้อมูล (Data Mining) คือกระบวนการท่ีกระทากับข้อมูลจานวนมากเพื่อค้นหา
รปู แบบและความสมั พนั ธ์ ทซี่ ่อนอยู่ในชดุ ข้อมูลนั้น ในปจั จุบันการทาเหมืองขอ้ มูลได้ถกู นาไปประยุกต์ใช้ใน
งานหลายประเภท ท้ังในด้านธุรกิจที่ช่วยในการตัดสินใจของผู้บริหาร ในด้านวิทยาศาสตร์และการแพทย์
รวมทงั้ ในด้านเศรษฐกจิ และสงั คม

การทาเหมอื งขอ้ มูลเปรยี บเสมือนวิวฒั นาการหน่ึงในการจัดเก็บและตีความหมาย ข้อมูล จากเดิม
ท่ีมีการจัดเก็บข้อมูลอย่างง่ายๆ มาสู่การจัดเก็บในรูปฐานข้อมูลท่ีสามารถดึงข้อมูลสารสนเทศมาใช้จนถึง
การทาเหมอื งข้อมลู ที่สามารถค้นพบความรทู้ ซ่ี ่อนอยใู่ นข้อมูล
วิวัฒนำกำรของกำรทำเหมืองข้อมลู

- ปี 1960 Data Collection คือ การนาข้อมูลมาจัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเชื่อถือและ
ปอ้ งกนั การสูญ หายได้เป็นอยา่ งดี

- ปี 1980 Data Access คือ การนาข้อมูลที่จัดเก็บมาสร้างความสัมพันธ์ต่อกันในข้อมูลเพื่อ
ประโยชน์ใน การนาไปวเิ คราะห์ และการตดั สนิ ใจอย่างมีคุณภาพ

- ปี 1990 Data Warehouse & Decision Support คือ การรวบรวมข้อมูลมาจัดเก็บลงไปใน
ฐานข้อมลู ขนาดใหญโ่ ดยครอบคลุมทุกด้านของ องคก์ ร เพ่อื ช่วยสนบั สนนุ การตัดสนิ ใจ

- ปี 2000 Data Mining คือ การนาข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการ
สร้างแบบจาลองและความสัมพันธท์ างสถติ ิ

@Rodjanaburanon Nam ค่มู อื การใช้งาน Rapid Miner Studio 9 1

ขั้นตอนกำรทำเหมอื งข้อมูล

ประกอบด้วยขั้นตอนการทางานย่อยที่จะเปล่ียนข้อมูลดิบให้กลายเป็นความรู้ ประกอบด้วย
ขั้นตอนดงั นี้

- Data Cleaning เปน็ ขัน้ ตอนสาหรับการคดั ข้อมลู ทไี่ มเ่ ก่ียวข้องออกไป
- Data Integration เป็นขน้ั ตอนการรวมขอ้ มลู ทม่ี ีหลายแหล่งใหเ้ ปน็ ขอ้ มูลชุดเดียวกนั
- Data Selection เป็นขั้นตอนการดึงข้อมลู สาหรบั การวเิ คราะห์จากแหลง่ ท่บี นั ทึกไว้
- Data Transformation เป็นขน้ั ตอนการแปลงข้อมูลใหเ้ หมาะสมสาหรับการใชง้ าน
- Data Mining เปน็ ขน้ั ตอนการคน้ หารปู แบบท่ีเป็นประโยชน์จากข้อมูลท่มี ีอยู่
- Pattern Evaluation เป็นข้นั ตอนการประเมนิ รปู แบบท่ไี ดจ้ ากการทาเหมืองขอ้ มลู
- Knowledge Representation เป็นข้ันตอนการนาเสนอความรู้ท่ีค้นพบ โดยใช้เทคนิคในการ
นาเสนอเพอ่ื ใหเ้ ข้าใจ

@Rodjanaburanon Nam คมู่ อื การใช้งาน Rapid Miner Studio 9 2

RapidMiner Studio9

ซอฟต์แวร์ RapidMiner Studio 7 แรกเริ่มพัฒนาข้ึนจากบริษัทท่ีชื่อว่า Rapid-I ในประเทศ
เยอรมนีและเม่ือช่วงปลายปี 2013 ท่ีผ่านมาได้รับทุนก้อนโตจากนักลงทุนในประเทศสหรัฐอเมริกาจึง
เปลี่ยนช่ือบริษัทจาก Rapid-I เป็น RapidMiner แทน และย้ายสานักงานใหญ่มาอยู่ประเทศสหรัฐอเมริกา
เราสามารถดาวน์โหลดซอฟต์แวร์ RapidMiner Studio 9 ซึ่งเป็นเวอร์ชันปัจจุบันได้จากเว็บไซต์
https://rapidminer.com
ข้อดีของซอฟตแ์ วร์ RapidMiner Studio 9 สรุปไดด้ ังนี้
- รองรบั การใช้งานไฟล์ไดห้ ลายประเภท เช่น ไฟล์ Excel 2007
- สามารถแสดงขอ้ มูลได้หลายรูปแบบ เช่น scatter plot 3D
- สามารถแสดงผลโมเดลทสี่ วยงามและแก้ไขการแสดงผลให้สามารถอ่านได้งา่ ยขน้ึ
- สามารถบนั ทกึ ไฟล์โมเดลออกเปน็ ไฟลภ์ าพประเภทต่างๆ เช่น PNG, JPG หรอื PDF
- มวี ธิ กี ารเตรียมข้อมลู (preprocess) และการวเิ คราะหไ์ ดห้ ลากหลายรูปแบบ
เมือ่ เรม่ิ ต้นใชง้ ำน RapidMiner Studio 7 จะแสดงหน้ำต่ำงเร่มิ ต้นซ่งึ ประกอบด้วย 4 เมนหู ลัก ดงั นี้

LEARN เปน็ หนา้ ทร่ี วบรวมและแสดงวิธีการใช้งานของ RapidMiner Studio 7 ซงึ่ ทา Link ไปยงั
หน้าเวบ็ ทแี่ สดงการใชง้ านในรปู แบบ Document, VDO และมบี ทเรียนฝกึ หดั ให้ทาตาม 3 บท คือ

- Basic สอนพนื้ ฐานการใชง้ าน
- Data Handling สอนการจัดการข้อมลู
- Modeling, Scoring and Validation โดยสอนเกี่ยวกับการสร้างโมเดลเพ่อื ทา Prediction

การวิเคราะห์ผลและนาผลลัพธข์ อ้ มลู เชงิ ลกึ ทีค่ าดการณ์ได้มาใช้จรงิ และสอนกระบวนการ
ยนื ยันความถูกต้องของโมเดล
NEW PROCESS สร้างโปรเซสใหมเ่ พ่ือเรมิ่ การใช้งาน RapidMiner ซงึ่ ทุกครง้ั ที่ต้องการสร้าง งาน
ใหมท่ ีแ่ ตกตา่ งจะต้องสร้างโปรเซสใหม่
OPEN PROCESS เปิดโปรเซสเกา่ ทเ่ี คยสร้างไวเ้ พ่ือดูหรือแกไ้ ข โดยโปรเซสท่ีสรา้ งไว้แล้วสามารถ
Reuse ได้ หรือ ส่งใหค้ นอ่ืนได้

@Rodjanaburanon Nam คมู่ อื การใชง้ าน Rapid Miner Studio 9 3

เริ่มตน้ ใชง้ ำน RapidMiner Studio 9

เมื่อเรา Download RapidMiner Studio 9 ให้คลิกใช้งานที่ Icon หลังจากนั้นจะขึ้น
หน้าตา่ ง Welcome ของโปรแกรม RapidMiner Studio 9 ดังรปู

หลังจากเข้าสู่หน้าโปรแกรม RapidMiner Studio 9 จะให้เรา ลงทะเบียนเข้าสู่โปรแกรมซึ่ง
โปรแกรมน้ีมีให้ใช้ท้ังใช้งานฟรี และชาระเงินเพื่อใช้งานบาง function หากใครมี account ของโปรแกรม
RapidMiner Studio 9อยู่แลว้ สามารถเข้าใช้งานได้โดยใช้ account เดิมได้ หรือจะใส่ Key เพ่ือใช้งานโดย
เลือกดที่ I already an account or license key.

@Rodjanaburanon Nam คมู่ อื การใชง้ าน Rapid Miner Studio 9 4

หลังจากกด I already an account or license key. เข้ามาแล้วสามารถ เข้าสู่ account โดยการ
กรอก E-mail และ Password และเข้าใชงานได้ทันที หรือเลือก ที่ปุ่ม Manually enter license Key . เพ่ือ
ใส่ license Key ทไี่ ด้จากการซอ้ื โปรแกรมใสเ่ พ่อื ใชง้ านได้เชน่ กัน

@Rodjanaburanon Nam ค่มู ือการใชง้ าน Rapid Miner Studio 9 5

องค์ประกอบของ RapidMiner Studio 9

Repository \
Process
Parameter

Operators Help

1. Repository เป็นส่วนสาหรับจดการไฟล์ RapidMiner จะจัดการข้อมูลจาก 3 แหล่ง คือ DB ,
Local (ในเคร่ืองคอมพิวเตอร์ท่ีใช้อยู่), และ Cloud Repository โดยเก็บไฟล์ Data Set และ Process ต่าง
ๆ แยกเกบ็ ไว้คนละโฟลเดอร์

@Rodjanaburanon Nam คู่มือการใช้งาน Rapid Miner Studio 9 6

2.Operators เป็นสว่ นทใี่ ช้เกบ็ ตัวโอเปอเรเตอร์ ที่ใชใ้ นการท างานทงั้ หมด ซึ่งจดั เป็นกล่มุ ๆ โดยกล่มุ ที่
ใชง้ านคล้ายคลึงกันจะจัดอยู่ในกลมุ่ เดยี วกัน มี 8 กล่มุ คือ

2.1 Data Access
2.2 Blending
2.3 Cleansing
2.4 Modeling
2.5 Scoring
2.6 Validation
2.7 Utility
2.8 Extensions
โอเปอเรเตอรแ์ ต่ละตัวจะประกอบด้วย
- ชอ่ื ของโอเปอเรเตอร์
- อนิ พุท พอร์ต (Input port) เปน็ ส่วนรบั ข้อมูลเข้ามาประมวลผล
- เอาท์พุต พอร์ต (Output port) เปน็ ส่วนสง่ ผลลัพธท์ ป่ี ระมวลผลได้
โดยช่ืออินพุท พอรต์ และช่อื เอาท์พุต พอรต์ จะแสดงด้วยตวั อกั ษร 3 ตัวแรกของชือ่ พอรต์ เช่น exa
ย่อมาจาก example set เป็นตน้
3. Process เป็นหน้าหลักในการท างานในการสร้างโปรเซสสาหรับทา Machine Learning ของ
ซอฟตแ์ วรน์ ี้ โดยจะน าโอเปอเรเตอร์มาประกอบเพือ่ สรา้ งโปรเซสข้ึนตามวัตถุประสงค์ของโจทยท์ ่ีตงั้ ไว้

@Rodjanaburanon Nam คู่มือการใช้งาน Rapid Miner Studio 9 7

4. Parameters เป็นส่วนสาหรับแสดงพารามิเตอร์ (parameter) ที่เกี่ยวข้องกับแต่ละโอเปอเรเตอร์
เช่น โอเปอเรเตอร์ Read Excel ที่ใช้เพ่ืออ่านไฟล์ประเภท Excel จะมีพารามิเตอร์ที่เก่ียวข้อง เช่น ช่ือและท่ี
อยขู่ อง ไฟล์ Excel เปน็ ตน้

แสดงสว่ นประกอบพารามเิ ตอร์ของโอเปอเรเตอร์ Read Excel

5. Help เป็นส่วนช่วยเหลือ ซ่ึงจะแสดงรายละเอียดของตัวโอเปอเรเตอร์ที่เลือกใช้งานอยู่ ส่วน
ช่วยเหลือของ RapidMiner จะบอกเพียงหน้าที่และรายละเอียดคราว ๆ ของโอเปอเรเตอร์ หากต้องการดู
รายละเอียดมากกว่าน้ันต้องไปท่ี Jum to Tutorai Process ซ่ึงจะลิงก์ไปยังเว็บไซต์ที่มีรายละเอียดที่
เกยี่ วกบั โอเปอเรเตอรท์ ใี่ ช้อยู่

@Rodjanaburanon Nam ค่มู ือการใช้งาน Rapid Miner Studio 9 8

นอกจากท้งั 5 สว่ นใหญ่ ๆ ท่ีไดอ้ ธิบายแล้วยงั มีส่วนเมนูด้านบนเพิ่มเติมดงั นี้

เมนสู าหรับสร้าง โพรเซสใหม่
เมนสู าหรบั การโหลดไฟลต์ ่าง ๆ จาก repository
เมนูสาหรบั การบันทึก โพรเซส หรอื บันทกึ โพรเซสเป็นชื่อใหม่
เมนสู าหรับสั่งให้ โพรเซสทางาน
เมนสู าหรบั ยกเลิกการทางาน โพรเซส

1 23 4

1. แสดงหนา้ จอการออกแบบ Design
2. แสดงหน้าจอผลลัพธก์ ารทางาน Results
3. แสดงหน้าตา่ ง ออกแบบมาเพ่ือให้การเตรยี มข้อมลู ง่ายขนึ้
4. แสดงหนา้ ตา่ งการสรา้ งโมเดล อัตโนมตั ิ Auto Model

@Rodjanaburanon Nam คมู่ ือการใช้งาน Rapid Miner Studio 9 9

ตัวอย่ำงกำรสร้ำงโมเดล Decision Tree

ขอ้ มูลทีม่ ีอยู่ในตารางต่าง ๆ ท่ีประกอบไปด้วยแถวและคอลัมน์ ซ่ึงจะเรียกในแถวเป็น ตัวอย่าง (Example)
สว่ นคอลัมนเ์ รียก แอตทรบิ วิ ต(์ Attribute) มีหนา้ ท่ี 3 แบบ คือ

1. ID เปน็ แอตทรบิ วิ ตท์ ่แี สดงหมายเลขของข้อมูลหรือ primary key ในฐานขอ้ มลู
2. แอททริบิวต์ทั่วไป (Attribute) เป็นแอตทริบิวต์ปกติที่จะใช้ในการสร้างโมเดลหรือเรียกว่าฟีเจอร์
(feature) หรือตวั แปรตน้ (independent variable)
3. Label คือ แอตทริบิวต์ท่ีเป็นค าตอบที่เราต้องการจะสร้างโมเดลข้ึนมาทานาย หรือ เรียกว่า
คลาส (class) หรือตัวแปรตาม (dependent variable)

ID Label Attribute

@Rodjanaburanon Nam คู่มือการใช้งาน Rapid Miner Studio 9 10

ประเภทของข้อมลู ท่ีเก็บไวใ้ นแตล่ ะแอตทริบิวต์ มีดังน้ี
1. Polynominal เป็นขอ้ มูลประเภท Category (ข้อมูลที่ไม่ใชต่ ัวเลข) มีคา่ แตกตา่ งกันมากว่า 2 คา่
2. Binominal เป็นขอ้ มูลประเภท Category (ขอ้ มลู ที่ไม่ใชต่ วั เลข) มคี า่ เพียง 2 คา่ เทา่ น้นั
3. Numeric หรอื Integer ข้อมูลประเภทตวั เลข
4. Text ข้อมูลประเภทขอ้ ความ

ข้ันตอนกำรสร้ำง Decision Tree
1. ไปท่ี Operators>Data Access>Files>Read ลากโอเปอเรเตอร์ช่ือ Read Excel มาวางที่

Process (สามารถพิมพ์คาว่า Read ในช่อง Search for Operators เพ่ือค้นหาโอเปอเรเตอร์ Read Excel
ก็ได้) จากนั้น ลากเส้นเชื่อมจากพอร์ตที่ชื่อout (output) ของโอเปอเรเตอร์ Read Excel ไปยังพอร์ตท่ีชื่อว่า
res(result)

2. ในส่วนค่าพารามิเตอร์คลิกเลือก Import Configuration Wizard จะปรากฏหน้าต่างดังภาพ ให้
เลอื ก ข้อมูลซึง่ เปน็ ไฟลป์ ระเภท excel จากนน้ั คลกิ next

@Rodjanaburanon Nam คู่มอื การใช้งาน Rapid Miner Studio 9 11

3. หน้าน้ีจะเป็นการแสดงการเลือกไฟล์ข้อมูลหรือ Data Set ท่ีจะนามาใช้งาน โดยไฟล์ที่เราเลือก
Read เป็นไฟล์ excel ดงั นน้ั ไฟลท์ ีเ่ ราเปิดได้จะเป็นไฟล์ excel

4. หน้าน้ีเป็นหน้าตา่ งทเ่ี ราสามารถเลือกไดว้ ่าจะนะ Attribute ใดบ้างใชง้ านไดบ้ ้างหลังจากเรา
เลือก Attribute แลว้ ก็กด Next

@Rodjanaburanon Nam คู่มอื การใชง้ าน Rapid Miner Studio 9 12

5. หน้าถัดมาให้ทาการเปล่ยี นท่ีชอื่ Attribute ให้เป็น label เพื่อใช้ในการทานายผลของเรา ในที่นี้
เรากาหนด endgrade เปน็ label และกาหนด รหัสนักศึกษา เปน็ ID เพือ่ เปน็ Key ในข้อมลู จากน้นั คลิก
Finish

ID Label

@Rodjanaburanon Nam คมู่ อื การใช้งาน Rapid Miner Studio 9 13

6. หลังจากเลอื ไฟล์และกด Finish จะขน้ึ หน้าต่างการทางาน หลังจากน้ันลากเส้นเช่ือมการทางาน
ให้ได้ดงั รูป

7. หลังจากเราลากเสน้ เชือ่ มการทางานแลว้ ให้เรา คลิก Run Process จะปรากฏหน้าตา่ ง
ผลลพั ธ์ของการทางาน

@Rodjanaburanon Nam คูม่ อื การใชง้ าน Rapid Miner Studio 9 14

8. เมื่อเราสง่ั โปรแกรมทางานแล้ว มแี อตทริบิวตพ์ เิ ศษจานวน 1 แอตทริบวิ ต์ (ตวั ทเี่ ราเลอื กเป็น
labelจะมแี ถบสีเป็นสเี ขียว) และแอตทรบิ วิ ตท์ ัว่ ๆ ไป ท่ีใช้สาหรบั สร้างโมเดล ดังภาพ

B

C

A

A แสดงจานวนตัวอย่างและแอตทริบิวตท์ ี่ปรากฏในข้อมูลซ่ึงในไฟล์ตัวอย่างนี้มีจานวน 5,422
ตวั อยา่ ง 1 แอตทริบวิ ต์ประเภทลาเบล และ 1 แอตทริบิวต์ประเภท ไอดี และ 15 แอตทริบิวต์ทว่ั ไป

B สว่ นของการกรองข้อมลู (filter) ซง่ึ มีให้เลือกได้ว่าจะดขู ้อมูลท้ังหมดหรือข้อมลู ท่มี คี วาม
ผดิ พลาด (missing_attributes) อยู่

C ในสว่ นของตารางเราสามารถคลิกเลอื กท่ีชือ่ แอตทริบิวต์เพือ่ ทาการเรียงลาดับข้อมูลได้
โดย ตารางขอ้ มูลจะแบง่ แอตทริบิวตอ์ อกเป็น 3 แบบคือ

- แอตทริบิวตท์ เี่ ป็นลาเบลแสดงดว้ ยคอลมั น์สีเขียว
- แอตทรบิ ิวต์ทีเ่ ป็นไอดแี สดงคอลมั นส์ ีฟา้
- แอตทรบิ วิ ตท์ ัว่ ไปแสดงด้วยคอลมั น์ท่เี ปน็ สีเทา

@Rodjanaburanon Nam คูม่ ือการใช้งาน Rapid Miner Studio 9 15

9. คลกิ เลือก Statistics ด้านซา้ ยมือ เพ่อื แสดงค่าสรุปทางสถิติของแอตทริบิวต์ต่าง ๆ โดยจะแสดง
ชือ่ ประเภทของขอ้ มูลที่เก็บอยู่ กราฟแสดงค่าความถ่ีของข้อมูลในแตล่ ะแอตทริบวิ ตด์ ังภาพ

10. คลิกเลือกมุมมอง Design ต่อไปเราจะทาการสร้างโมเดล Decision Tree โดยการเลือก
โอเปอเรเตอร์ Decision Tree จากส่วนของ Operators โดยการพิมพ์ตรงช่องค้นหา โดยพิมพ์คาว่า
Decision กดปุ่ม Enter ก็จะปรากฏโอเปอเรเตอร์ Decision Tree ขึ้นมา หรือจะทาการเลือกจากหมวด
Modeling >> Classification and Regression >> Tree Induction

@Rodjanaburanon Nam คู่มอื การใชง้ าน Rapid Miner Studio 9 16

11. ลากโอเปอเรเตอร์ Decision Tree มาวางในส่วนของ Process ตรงเส้นท่ีเชื่อมต่อเดิมที่
โอเปอเรเตอร์ Read Excel ลากไว้ (โปรแกรมจะทาการเชื่อมโอเปอเรเตอร์ทั้งสองตัวทันทีจากพอร์ต out
ของโอเปอเรเตอร์ Read Excel ไปยังพอร์ต tra (training) ของโอเปอเรเตอร์ Decision Tree เพ่ือเป็นการส่ง
ขอ้ มูลไปสร้างโมเดล

12. ลากเส้นเชื่อมจากพอร์ต mod (model) และพอร์ต exa (example) ของโอเปอเรเตอร์
Decision Tree ไปยังพอร์ต res (result) ทั้งสองพอร์ต เพื่อไปแสดงในส่วนของหน้าจอผลลัพธ์โดยพอร์ต
mod จะทาการส่งโมเดล Decision Tree ท่ีสร้างออกไปแสดงในรูปต้นไม้ และพอร์ต exa จะส่งข้อมูลท่ี
import เข้ามาไปแสดงในรปู แบบตาราง

@Rodjanaburanon Nam ค่มู อื การใชง้ าน Rapid Miner Studio 9 17

13. จากน้ันคลิก Run Process จะได้รูปโมเดลต้นไม้ ซ่ึงโมเดลต้นไม้ที่สร้างได้มีส่วนประกอบ
สาคญั 3 ส่วน คือ

- ในโมเดล Decision Tree จะมีโหนดตา่ ง ๆ 2 ประเภท คือ
o โหนดท่ีเป็นแอตทริบวิ ต์แสดงด้วยรูปสีเ่ หล่ียมท่มี ีมุมโค้ง
o โหนดลาเบลแสดงด้วยรูปสเ่ี หลีย่ มที่มีกราฟแสดงสตี ่าง ๆ อยูด่ ว้ ย ในตวั อยา่ ง

น้มี ีหลาย label แตห่ ากมกี ารกาหนดเกณฑ์มาตรฐานของคะแนนในตัวอย่างไล่เป็นระดับตามเกรด
ตวั label กจ็ ะมีคาตอบตามลากับท่ีเราตงั้ ค่าไว้ จะมีกราฟสนี ้าเงนิ

- สว่ นของ Zoom ใชส้ าหรบั ยอ่ ขยายรูปโมเดล
- ส่วนของ Mode จะใชส้ าหรับปรบั โหมดของการใชง้ านเมาส์

14. ในหนา้ ต่าง Description จะเปน็ โคด๊ ข้อความท่เี ราสามารถนามาเขียนโปรแกรมเพ่ือใชใ้ นการทานายได้

@Rodjanaburanon Nam คมู่ ือการใชง้ าน Rapid Miner Studio 9 18

กำรจัดกำรข้อมลู (Data Manipulation)

หลังจากทีเ่ ราลองทา Decision Tree แลว้ เราจานาโมเลที่เราสรา้ งมาทาการทานาย แตเ่ ราจะทานายไม่ได้หากยังมี

Missng รวมถึงเราตอ้ งเลือกใชเ้ พียงแอตทรบิ วิ ต์บางตวั ที่จามาใชใ่ นการทานายเทา่ นน้ั ในทน่ี ย้ี ังมี แอตทรบิ ิวต์บางตวั ที่ตดิ
Missng อยู่ดงั น้นั เราจะนาตวั ทตี่ ิด Missng ออกเนอ่ื งจากกวา่ ตวั ท่ีเรานาออกน้ันไมไ่ ดม้ ีผลตอ่ การทานาย แต่หากว่าแอตทริบิวต์ที่
ติด Missng มผี ลต่อการทานายเราอาจะใชเ้ ปน็ คา่ เฉลีย่ หรอื การแทนค่าเขา้ ไปแทน

@Rodjanaburanon Nam คู่มอื การใชง้ าน Rapid Miner Studio 9 19

1. พิมพ์ค้นหาคาว่า Select Attributes แล้วลาก Operators มาวางที่หน่างการทางาน และลากเส้นเช่ือม
ระหวา่ ง Out ของ Excel มาท่ี exa ของ Select Attributes

2. เลือกที่ Parameters ของ Select Attributes แล้วเลือก Attributes filter type เป็น subset หลังจากน้ัน
เลือก Select Attributes

@Rodjanaburanon Nam คู่มอื การใชง้ าน Rapid Miner Studio 9 20

3.หลังจากท่ีเราเลอื ก Select Attributes จะมหี นา้ ต่างข้ึนมาให้เราเลือก Attributes ท่ีเราต้องการท่ีจาใช้ใน
การทานาย เม่ือเลอื กข้อมูลที่ต้องการไดก้ ด Apply และ สั่งรันโปรแกรมใหโ้ ปรแกรมทางาน

4. หลังจากรันการทางานของโปรแกรมแล้ว จะแสดงเฉพาะ Attributes ท่ีเราเลือกเท่านั้นเพ่ือนามาใช้งาน
หากว่าเราต้องการทานายแล้วยังไม่ได้กาหนด label สามารถกาหนด label โดยกาพิมพ์ค้นหา Set Row ได้ในช่อง
Operation

@Rodjanaburanon Nam คมู่ อื การใชง้ าน Rapid Miner Studio 9 21

5. หลงั จากไดข้ ้อมลู เบื้อตน้ แล้ว ให้กาหนด ค่าของตวั เลขเป็นขอ้ ความแบ่งระดับ โดยจะแบง่ ระดับ เป็น
- ดมี าก = 4
- ปานกลาง = 3
- ต่า =2

การต้ังค่าเพื่อให้ง่ายต่อการใช้งานโดยการ คลิกขวาเลือก Insert Operator >> Cleansing >> Binning
>> Discretize by User Specification

6. เมื่อได้ Operator แล้วเลือกตัว Operator แล้วเลือก Attributes filter type เป็น subset หลังจากน้ัน
เลือก Select Attributes เพ่ือเลือก Attributes ที่ต้องการแทนท่ีค่า เมื่อเลือก Attributes ที่ต้องการเสร็จแล้วกด
apply

@Rodjanaburanon Nam คู่มือการใชง้ าน Rapid Miner Studio 9 22

7. หลังจากน้ันกาหนดเกณฑ์ที่ต้องการเทียบกับคะแนน เพ่ือแปลงเป็นระดับที่เราตั้งไว้ ในช่อง Classes
เลือก Edit List

8. เมอ่ื กดเขา้ ไปจะมหี นา้ ต่าง ใหเ้ รากาหนดเกณฑ์ เมือ่ เรากาหนดเกณฑ์แล้วกด Apply

@Rodjanaburanon Nam คมู่ ือการใช้งาน Rapid Miner Studio 9 23

9. หลังจากกด apply แล้ว กด play ให้โปรแกรมทางาน หลังจากทางานแล้วเกรดแต่ละตัวที่เป็นตัวเลขจะ
โดนแปลงเปน็ ขอ้ ความยกเวน้ ช่อง endgrade เพราะเรากาหนดเป็น label เราต้องแกไ้ ขทีหลงั

10. หลังจากนั้นเซฟไฟล์ เป็น CSV. เพ่ือท่ีจะสามารถนามาใช้แล้วนามาปรับแก้ได้ โดยพิมพ์ค้นหาท่ี
operator วา่ write Csv.

@Rodjanaburanon Nam ค่มู อื การใช้งาน Rapid Miner Studio 9 24

11. นา Operator write Csv. มาวางที่หน้าจอการทางาน แลว้ ลากเส้นเชือ่ มกนั ตามรูป
12. หลงั จากลากเส้นแลว้ เลอื ก Operator write Csv. แลว้ เลอื กที่ Save ไฟล์

@Rodjanaburanon Nam ค่มู อื การใชง้ าน Rapid Miner Studio 9 25

13. เม่อื กดเข้ามาที่ Csv file แล้วจะขึ้นหน้าตา่ งให้เราเลือก Save file ลงท่ีตาแหนง่ ทเ่ี ราต้องการ หลงั จาก
น้นั ต้งั ชื่อไฟลแ์ ละจากน้ันกด Open เมอ่ื เสร็จแลว้ กด Run โปรแกรมให้โปรแกรมทางาน ไฟล์ Csv. ก็จะถูกบนั ทกึ

14. หลังจากน้ัน เปิด file ข้ึนมาใหม่ ในชอ่ ง Operater พิมพ์ read Csv. เพือ่ ดงึ ไฟล์ Csv. ขึน้ มาใชง้ าน
ดบั เบิลคลกิ ท่ตี วั Read Csv.

@Rodjanaburanon Nam คู่มือการใชง้ าน Rapid Miner Studio 9 26

15. โปรแกรมจะแสดงหนา้ ต่างใหเ้ ราเลือกไฟล์ Csv. ทีเ่ ราบันทึไวก้ ่อนหน้านเ้ี พ่ือนามาใช้งาน

16. หนา้ ตา่ งน้จี ะแสดง Attributes ทเ่ี ราสามารถเลือกท่ีจะนามาใช้ได้

@Rodjanaburanon Nam คมู่ ือการใช้งาน Rapid Miner Studio 9 27

17. หน้าตา่ งนี้จะเป็นหน้าต่างคุณสมบตั ิของ Attributes แตเ่ รายงั ไมต่ ้องกาหนดเพราะเราต้องการเปล่ียน
ค่าของ endgrade ใหเ้ ป็นไปตามเกณฑ์ท่เี รากาหนดไว้ หลงั จากนน้ั กด finish

18. เมื่อเข้าสู้หน้าต่าง ลากเส้นเชื่อมเพียงเส้นเดียวดังรูป แล้วโปรแกรมลองกด Run Program หน้าต่างจะ
แสดงรายการเช่นเดยี วกบั ไฟล์ excel ท่ีเราบันทึกมาก่อนนา้ น้าน้ี

@Rodjanaburanon Nam คมู่ ือการใช้งาน Rapid Miner Studio 9 28

19. หนา้ ตา่ งโปรแกรม หลังจากกด Run โปรแกรม

20.หลงั จากได้ข้อมลู เบื้อต้นแล้วกลบั มาทหี่ นา้ ตา่ ง design เพอ่ื ทาให้ endgrade เปลยี่ นคา่ ของตัวเลขเปน็
ข้อความแบง่ ระดับ โดยจะแบง่ ระดับ เปน็

- ดมี าก = 4
- ปานกลาง = 3
- ตา่ =2
การตั้งค่าเพ่ือให้ง่ายต่อการใช้งานโดยการ คลิกขวาเลือก Insert Operator >> Cleansing >> Binning
>> Discretize by User Specification

@Rodjanaburanon Nam คู่มือการใชง้ าน Rapid Miner Studio 9 29

21. เม่ือได้ Operator แล้วเลือกตัว Operator แล้วเลือก Attributes filter type เป็น subset หลังจากนั้น
เลือก Select Attributes เพ่ือเลือก Attributes ท่ีต้องการแทนที่ค่า เม่ือเลือก Attributes ที่ต้องการเสร็จแล้วกด
apply

22. หลังจากน้ันกาหนดเกณฑ์ที่ต้องการเทียบกับคะแนน เพ่ือแปลงเป็นระดับท่ีเราตั้งไว้ ในช่อง Classes
เลอื ก Edit List

@Rodjanaburanon Nam คู่มือการใช้งาน Rapid Miner Studio 9 30

23. เม่ือกดเข้าไปจะมีหน้าต่าง ใหเ้ รากาหนดเกณฑ์ เมอ่ื เรากาหนดเกณฑแ์ ล้วกด Apply

24. หลังจากตง้ั คา่ เสร็จ กด Apply แล้วสง่ั โปรแกรม Run จะไดผ้ ลตามภาพ endgrade เปลีย่ นเปน็
ข้อความ

@Rodjanaburanon Nam คมู่ อื การใชง้ าน Rapid Miner Studio 9 31

25. หลังจากน้นั เราจะต้องตัง้ ค่า endgrade ให้เปน็ label เพ่ือใช้ในการทานาย โดยพมิ พ์คน้ หาท่ี
operator วา่ Set Role และลาก Operator Set Row มาวา่ งท่หี น้าตา่ งการทางาน และลากเสน้ ให้เชอื่ มตอ่
กัน ดงั รูป

26. หลงั จากนน้ั คลิกท่ี operator Set Role แลว้ เลอื ก attribute name เป็น endgrade เลือก
target role เปน็ label หลงั จากนั้นลากเสน้ เชอื่ มเสน้ สุดท้าย และ กด Run โปรแกรม ตัว endgrade กจ็ ะ
เป็นเณฑ์เดียวกับ Attributes อ่นื ๆ

@Rodjanaburanon Nam คูม่ ือการใชง้ าน Rapid Miner Studio 9 32

27.หลังจากนัน้ เลอื กมุมมอง Design ต่อไปเราจะทาการสรา้ งโมเดล Decision Tree โดยการเลือก
โอเปอเรเตอร์ Decision Tree จากส่วนของ Operators โดยการพมิ พต์ รงช่องค้นหา โดยพมิ พ์คาว่า Decision กด
ปุม่ Enter ก็จะปรากฏโอเปอเรเตอร์ Decision Tree ขึ้นมา หรอื จะทาการเลือกจากหมวด Modeling >>
Classification and Regression >> Tree Induction

11. ลากโอเปอเรเตอร์ Decision Tree มาวางในส่วนของ Process ตรงเส้นที่เชื่อมต่อเดิมท่ี
โอเปอเรเตอร์ Read Excel ลากไว้ (โปรแกรมจะทาการเช่ือมโอเปอเรเตอร์ทั้งสองตัวทันทีจากพอร์ต out
ของโอเปอเรเตอร์ Read Excel ไปยังพอร์ต tra (training) ของโอเปอเรเตอร์ Decision Tree เพ่ือเป็นการส่ง
ข้อมูลไปสรา้ งโมเดล

@Rodjanaburanon Nam คู่มือการใชง้ าน Rapid Miner Studio 9 33

12. ลากเส้นเช่ือมจากพอร์ต mod (model) และพอร์ต exa (example) ของโอเปอเรเตอร์
Decision Tree ไปยังพอร์ต res (result) ท้ังสองพอร์ต เพื่อไปแสดงในส่วนของหน้าจอผลลัพธ์โดยพอร์ต
mod จะทาการส่งโมเดล Decision Tree ที่สร้างออกไปแสดงในรูปต้นไม้ และพอร์ต exa จะส่งข้อมูลท่ี
import เขา้ มาไปแสดงในรูปแบบตาราง

13. จากน้ันคลิก Run Process จะได้รูปโมเดลต้นไม้ ซึ่งโมเดลต้นไม้ท่ีสร้างได้มีส่วนประกอบ
สาคัญ 3 ส่วน คอื

- ในโมเดล Decision Tree จะมีโหนดตา่ ง ๆ 2 ประเภท คอื
o โหนดทเ่ี ป็นแอตทรบิ วิ ตแ์ สดงดว้ ยรปู สเี่ หลี่ยมทีม่ มี ุมโคง้
o โหนดลาเบลแสดงด้วยรปู ส่เี หลีย่ มท่ีมีกราฟแสดงสีตา่ ง ๆ อยู่ดว้ ย ในตัวอยา่ ง

น้ีมี 2 ลาเบล คอื ดมี าก และ ปานกลาง
- สว่ นของ Zoom ใช้สาหรับย่อขยายรูปโมเดล
- ส่วนของ Mode จะใชส้ าหรบั ปรบั โหมดของการใช้งานเมาส์

@Rodjanaburanon Nam คมู่ ือการใช้งาน Rapid Miner Studio 9 34

14. ในหนา้ ต่าง Description จะเป็นโค๊ดขอ้ ความที่เราสามารถนามาเขยี นโปรแกรมเพอ่ื ใชใ้ นการทานายได้

@Rodjanaburanon Nam คู่มอื การใชง้ าน Rapid Miner Studio 9 35

กำรทดสอบกำรทำนำย

1.การทดสอบการทานายโดยใช้ Cross Validation ใช้งานโดย คลิกขวาเลือก Insert Operator
>> Validation >> Cross Validation หลังจากนั้นดับเบิลคลิกเข้าไปที่ Cross Validation จะแสดง
หนา้ ต่างดงั รูป

2. ทางด้านซ้ายของช่องใหน้ า โมเดล Decision Tree มาวาง และลากเส้นเช่ือม ทางด้านขวา ลาก
Apply Model และ Performance มาวาง และลากเสน้ ดงั รปู

@Rodjanaburanon Nam ค่มู ือการใชง้ าน Rapid Miner Studio 9 36

3. ที่หนา้ ตา่ ง design กจ็ ะมีการใช้ Operator ตา่ ง ๆ ดงั น้ี

@Rodjanaburanon Nam ค่มู อื การใชง้ าน Rapid Miner Studio 9 37

4.ผลกาตรวจสอบคุณภาพของการทานาย หาก% ผลการทานายย่งิ มากความถูกต้องกย็ ่ิงมากขึ้น
ตามไปด้วย

@Rodjanaburanon Nam ค่มู ือการใชง้ าน Rapid Miner Studio 9 38

การทดสอบความถกู ตอ้ งของผลการทานายอีกแบบหนงึ่ คือการใช้ Split โดยการพิมพ์คน้ หาที่
Operator ว่า Split Validation แล้วเลอื กคลิกมาว่างที่หน้าตา่ งการทางานแล้วลากเส้นเชื่อมต่อดงั ภาพ
หลังจากน้ันดับเบิลคลิกเข้าไปจะเจอหนา้ ตา่ งการทางาน

หลงั จากดับเบิลคลิกเข้ามาที่หน้าต่างแลว้ จะเจอหน้าตา่ งดงั ภาพ

@Rodjanaburanon Nam คมู่ ือการใช้งาน Rapid Miner Studio 9 39

หลงั จากเขา้ มาแล้วให้พิมพ์ค้นหาในช่อง Operator และนา Operator ทางด้านซ้ายของช่องให้นา
โมเดล Decision Tree มาวาง และลากเส้นเช่ือม ทางด้านขวา ลากApply Model และ Performance มา
วาง และลากเส้นดงั รูป

เมื่อกดรันผลการทานายจะเปน็ ดงั รูป

@Rodjanaburanon Nam คู่มือการใช้งาน Rapid Miner Studio 9 40

เอกสำรอำ้ งอิง

http://dataminingtrend.com/2014/wp-content/uploads/2014/02/chapter1.pdf (25-2-62)
http://dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdf (25-2-62)
https://behavior.lbl.gov/?q=node/11 (25-2-62)
http://compcenter.bu.ac.th/news-information/data-mining(25-2-62)

@Rodjanaburanon Nam คมู่ ือการใช้งาน Rapid Miner Studio 9 41

@Rodjanaburanon Nam คู่มอื การใชง้ าน Rapid Miner Studio 9 42


Click to View FlipBook Version