The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

“การทำเหมืองข้อมูลด้านการประมงและเพาะเลี้ยงสัตว์น้ำด้วย RapidMiner” เขียนโดย รศ.ดร.วราห์ เทพาหุดี อาจารย์ประจำสังกัดภาควิชาเพาะเลี้ยงสัตว์น้ำ คณะประมง มหาวิทยาลัยเกษตรศาสตร์

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by Fish_KU, 2022-10-26 08:44:08

การทำเหมืองข้อมูลด้านการประมงและเพาะเลี้ยงสัตว์น้ำด้วย RapidMiner

“การทำเหมืองข้อมูลด้านการประมงและเพาะเลี้ยงสัตว์น้ำด้วย RapidMiner” เขียนโดย รศ.ดร.วราห์ เทพาหุดี อาจารย์ประจำสังกัดภาควิชาเพาะเลี้ยงสัตว์น้ำ คณะประมง มหาวิทยาลัยเกษตรศาสตร์

96

กรณีต้องการเพ่ิมชั้นสามารถกดเพิ่มได้ที่
และใส่จานวนโหนด (Node) เข้าไป หรือถ้าต้องการลบช้ันก็กด

จากน้ันกด

กด ผลลัพธ์ท่ีได้คือ


97

ซึ่งในที่นี้เราสามารถเอาผลของประสิทธิภาพของแต่ละ
แบบจาลองมาเปรียบเทียบกันได้ว่าแบบใดดีที่สุด และเลือก
แบบจาลองน้ันไปใช้ประโยชน์ต่อไป

การแยกประเภทของรูป (Image classification)
การเร่ิมใช้งานต้องทาการดาวน์โหลดส่วนขยายที่ชื่อว่า

Image Mining Extension for RapidMiner (IMMI) จาก
http://splab.cz/download/software/immi-
rapidminer-
extenison#formBuilderCSSIDDownload_Form หรือท่ี
shorturl.at/twX07 ก่อน จากน้ันคัดลอกไฟล์
rapidminer-ImageMiner-1.4.1.jar ไปวางไว้ท่ี c:\Program
Files\RapidMiner\RapidMiner Studio\lib\plugins ปิดและ
เปิดโปรแกรม RapidMiner อีกครั้ง

ซึ่งหลักการการทางานคือจะมีการแปลงภาพเป็นแบบ
gray scale จ า ก นั ้น จ ะ ใ ช ้ค ่า Mean, Median, Standard


98

Deviation, Skewness, Kurtosis, Peak, Min gray value,
Max gray value, Normalized center of mass, Area
fraction และ Edginess มาทาการวิเคราะห์เปรียบเทียบ

ทั้งนี้รูปสิ่งของหรือวัตถุเดียวกันต้องทาการบันทึกภาพใน
แฟ้มเอกสาร (Folder) เดียวกัน เช่น ต้องการแยกรูประหว่างปลา
ทูกับปลาลัง ต้องมีการจัดเก็บรูปปลาทูไว้หนึ่งแฟ้มและรูปปลาลัง
ไว้อีกหนึ่งแฟ้ม ซึ่งโดยปกติการที่มีรูปตัวอย่างมากจะทาให้ค่าการ
ทานายมีค่าสูงข้ึนตามไปด้วย

ตัวอย่างนี้จะทาการแยกระหว่างภาพปลาทูกับปลาลัง
เริ่มจากการบันทึกภาพต้นแบบ (Training) ของปลาทูและปลาลัง
ลงในแฟ้ม (Folder) ท่ีแยกออกจากกัน

วิธีการ
เลือก Operator Multiple Color Image Opener
(MCIO) และที่เมนู Edit เลือก Insert Building Block เลือก
Nominal Cross Validation


99
ท่ี MCIO Parameters images คลิก EditList ต้ังช่ือ
(class name) และในส่วน directory เลือกแฟ้มต้นแบบของรูป
กรณีต้องการเพิ่ม class name คลิกท่ี

ที่ MCIO Parameters เลือก assign label เมื่อเสร็จแล้ว
กด

ดับเบิ้ลคลิก MCIO เลือก Operator Global Feature
Extractor from a Single Image


100

ดับเบิ้ลคลิกท่ี Operator Global Feature Extractor
from a Single Image เลือก Operator Global statistics

จากนั้นดับเบ้ิลคลิกท่ี Nominal Cross Validation ด้าน
Training ในกรณีน้ีเลือก Decision Tree และด้าน Testing เลือก
Apply Model และ Performance Classification

กด ผลลัพธ์ที่ได้ จะแสดงผลการทานายมีความ
ถูกต้อง 99.51 เปอร์เซ็นต์ และแสดงกราฟต้นไม้ตัดสินใจดังภาพ


101

การวิเคราะห์การถดถอย
แบบเส้นตรง (linear Regression)
จากตัวอย่างข้อมูลราคาสินค้าท่ีเปล่ียนแปลงตามเดือน

ใช้ Operator Read Excel (กาหนดให้ Price เป็น
Label) และ Linear Regression


102

กด ผลลัพธ์ท่ีได้ ในส่วน Description คือสมการ
เส้นตรง Price = 5.600 * Month + 18.667

ในกรณีที่ต้องการทราบค่าประสิทธิภาพของแบบจาลอง
สามารถทาได้โดยใช้ Operator Read Excel และ Numerical
Cross Validation (เลือกจากเมนู Edit เลือก Insert Building
Block และเลือก Numerical Cross Validation)


103

ดับเบิ้ลคลิกที่ Validation ส่วน Training ใส่ Linear
Regression ส่วน Testing ใส่ Apply Model และ
Performance(Regression)

กด ผลลัพธ์ท่ีได้ในส่วน Description คือค่า
root_mean_squared_error เท่ากับ 9.586 ± 0.000 และ
squared_error เท่ากับ 91.901 ± 82.717


104

บทที่ 7
การใช้เทคนิคอื่น ๆ ในการวิเคราะห์ขอ้ มลู ด้วย

โปรแกรม RapidMiner

นอกเหนือจากการวิเคราะห์ข้อมูลเบื้องต้นด้วยเทคนิคท่ี
ผ่านมาแล้ว ยังมีเทคนิคอื่นๆ ที่สามารถนามาวิเคราะห์ให้ผลมี
ความแม่นยาสูงขึ้นได้ ตัวอย่างเช่น การใช้เทคนิคการใช้เสียงส่วน
ใหญ่ (Ensemble หรือ Vote) การหาลาดับความสาคัญของปัจจัย
ห รือ ค ุณ ส ม บ ัต ิ (Weight by Tree Importance) ก า ร ป รับ
แบบจาลองให้เหมาะสม (Optimization) และการเปรียบเทียบ
ประสิทธิภาพระหว่างแบบจาลอง (Model Comparison) เป็นต้น
การทา Ensemble (Vote)

วิธีการน้ีคือการนาหลาย ๆ แบบจาลองมาช่วยในการ
ทานายหรือตัดสินใจ โดยใชห้ ลักของเสียงส่วนใหญ่ ซึ่งปกติจะให้
ผมความถูกต้องในการทานายมากกว่าการใช้แบบจาลองใด
แบบจาลองหน่ึงเพียงอย่างเดียว

Operator ที่นามาใช้คือ Optimize Parameters (Grid)


105

ดับเบิ้ลคลิกใน Optimize Parameters (Grid) ท่ีเมนู
Edit เลือก Insert Building Block เลือก Nominal Cross
Validation

ดับเบ้ิลคลิกใน Validation ด้าน Training ใส่
Operator Vote ด้าน Testing ใส่ Operator Apply Model
และ Performance Classification


106
ดับเบ้ิลคลิกที่ Vote ในกรณีนี้จะใช้แบบจาลอง 3 แบบ
คือ Decision Tree, Naïve Bayes และ Neural network

ที่ Optimize Parameters (Grid) ที่ Parameters คลิก
Edit Parameter Setting


107

ในท่ีนี้เลือก Decision Tree.maximal_depth, Naïve
Bayes.laplace_correction และ Neural
Net.use_local_random_seed ซ่ึงผู้ใช้สามารถเลือกปรับค่า
ต่างๆได้ตามต้องการ

กด จากน้ันกด ผลลัพธ์ท่ีได้คือ

Decision Tree.maximal_depth เท่ากับ 2, Naïve

Bayes.laplace_correction เท่ากับ true และ Neural

Net.use_local_random_seed เท่ากับ false


108

ผลลัพธ์มีความถูกต้อง 89.11 เปอร์เซ็นต์

การหาลาดับความสาคัญของปัจจัยหรือคุณสมบัติ (Weight by
Tree Importance)

ในกรณีน้ีจะใช้ Operator Weight by Tree
Importance มาใช้ และใช้แบบจาลองแบบ Random Forest ใน


109

การทดสอบ เพื่อต้องการทราบว่าคุณสมบัติไหนมีความสาคัญหรือ
อิทธิพลต่อการทานายมากน้อยอย่างไร กรณีนี้จะทาให้ทราบว่า
คุณสมบัติไหนที่สาคัญ ซึ่งต้องมีการจัดการหรือเฝ้าระวังใหด้ ี หรือ
ว่าคุณสมบัติใดท่ีมีความสาคัญน้อยอาจลดการตรวจวัดลงหรือ
ดาเนินการน้อยลง เพื่อประหยัดค่าใช้จ่ายเป็นต้น

กด ผลลัพธ์ท่ีได้ แสดงว่า DOPM มีอิทธิพลมาก
ที่สุด (3.476) ส่วน TRANS มีอิทธิพลน้อยที่สุด (0.878)


110

การปรับแบบจาลองให้เหมาะสม (Optimization)
วิธีการปรับปรุงประสิทธิภาพของแบบจาลองน้ันๆให้ได้

สูงสุดใช้ Operator Split Data และ Optimization Parameter
(Grid)

โดยใน Split Data ในที่น้ีใช้ 0.7 : 0.3 (70% : 30%)


111

ดับเบิ้ลคลิกที่ Optimization Parameter (Grid) ใส่
Operator Split Data, Decision Tree, Apply Model และ
Performance Classification

กลับไปที่ Optimize Parameters (Grid) ท่ี
Parameters คลิก Edit Parameter Setting ในท่ีนี้เลือก
Decision Tree.maximal_depth, Decision Tree.confidence
และ Decision Tree.minimal_leaf_size ซ่ึงผู้ใช้สามารถเลือก
ปรับค่าต่างๆได้ตามต้องการ


112

กด จากนั้นกด ผลลัพธ์ที่ได้จากการทา
Optimization ของแบบจาลอง Decision Tree คือ Decision
Tree.maximum_depth เท่ากับ 60, Decision
Tree.confidence เท่ากับ 0.35 และ Decision
Tree.minimal_leaf_size เท่ากับ 1


113

ซึ่งได้ความถูกต้อง (accuracy) เท่ากับ 100 เปอร์เซ็นต์

การเปรียบเทียบประสิทธิภาพระหว่างแบบจาลอง (Model
Comparison)

ใช้ Operator Multiply และต่อด้วย Nominal Cross
Validation ซึ่งได้ม าจาก ที ่เม น ู Edit เลือ ก Insert Building
Block…


114

นามาเชื่อมต่อกับ Multiply จานวน validation ขึ้นกับ
จานวนแบบจาลองท่ีต้องการมาเปรียบเทียบ


115

ดับเบิ้ลคลิกท่ีแต่ละ validation และช่อง Training ใส่
แบบจาลองที่ต้องการทดสอบเข้าไป ส่วนด้าน Testing จะมี
Operator Apply Model และ Performance อยู่แล้ว ใน
ตัวอย่างนี้เปรียบเทียบระหว่างแบบจาลอง Decision Tree,
Naive Bayes และ Neural Net


116
กด ผลลัพธ์ท่ีได้ในแต่ละแบบจาลองจะอยู่ใน
PerformanceVector (Performance) ช่องต่างๆ ดังตัวอย่าง
Decision Tree

Naive Bayes

Neural Net


117

บทท่ี 8
ตัวอย่างการนาแบบจาลองไปใช้ประโยชน์

ในที่นี้จะยกตัวอย่างบางกรณีคือ การแบ่งกลุ่มโดยใช้
แบบจาลอง K-means, การแยกประเภทข้อมูลด้วยแบบจาลอง
Decision Tree, การใช้ True to rules และการแยกรูปภาพ
(Image Classification)
การแบ่งกลุ่มโดยใช้แบบจาลอง K-means

จากข้อมูลในบทที่ 5 เรื่องการใช้งานแบบจาลอง K-
means โดยใช้ข้อมูลการจัดการฟาร์มเล้ียงสัตว์น้าจานวน 9 ฟาร์ม
ซึ่งมีขนาด (Size) การมีบ่อเก็บน้า (Reservoir) และการใช้เครื่อง
ให ้อ า ก า ศ (Aeration) ที ่แ ต ก ต ่า ง ก ัน โ ด ย ที ่ Reservoir
ค วาม ห ม าย ข อ ง 0 คือ ไม่ม ี แ ล ะ 1 คือ มี แล ะ Aeration
ความหมายของ 0 คือไม่มีการใช้เครื่องให้อากาศ และ 1 คือมีการ
ใช้เคร่ืองให้อากาศ


118

ในที่น้ีกาหนดให้มีการจัดกลุ่มออกเป็น 2 กลุ่ม (k = 2)
ผลลัพธ์ท่ีได้ คือกลุ่มท่ี 1 (Cluster_0) ประกอบด้วย
ข้อมูล ID 1, 2, 5, 6 และ 9 ส่วนกลุ่มที่ 2 (Cluster_1)
ประกอบด้วยข้อมูล ID 3, 4, 7 และ 8
ในกรณีท่ีมีข้อมูลชุดใหม่และต้องการทราบว่าข้อมูลนี้จะ
ถูกจัดอยู่ในกลุ่มใด วิธีการคือการเพิ่มข้อมูลใหม่เข้าไปต่อท้าย
ข้อมูลชุดเก่า ซ่ึงจากตัวอย่างมีการเพิ่มข้อมูล ID ที่ 10 และ 11
เข้าไปและทาการทดสอบอีกคร้ัง


119

ผลลัพธ์ที่ได้คือ ข้อมูล ID 10 จะถูกจัดกลุ่มในกลุ่มที่ 2
(Cluster_1) แ ล ะ ข ้อ ม ูล ID 11 จ ะ ถ ูก จ ัด ก ลุ ่ม ใน ก ลุ ่ม ท่ี
1(Cluster_0)


120

การแยกประเภทข้อมูลด้วยแบบจาลอง Decision Tree
จากข้อมูลในบทที่ 6 ในกรณีใช้แบบจาลอง Decision

Tree ในการทานายอัตราการตายของสัตว์น้า(กาหนดไว้ว่าอัตรา
การตายสูงคือมากกว่า 10 ตัวต่อวัน ในขณะที่อัตราการตายที่ต่า
คือน้อยกว่า 10 ตัวต่อวัน) ใน Read Excel เป็นข้อมูลที่เรานามา
สร้างแบบจาลอง (Training) ส่วนข้อมูลใน Read Excel(2) เป็น
ข้อมูลที่จะทาการทานาย (Prediction) ทั้งนี้ใช้ Operator Apply
Model มาใช้ ดังภาพ

ตัวอย่างข้อมูลชุดใหม่ท่ีจะนามาทานายคือ


121

กด ผลลัพธ์ที่ได้แสดงผลการทานายดังนี้คือ ผล
ของคุณภาพน้าในกรณีที่ 1, 2, 4 และ 5 สัตว์น้าจะมีอัตราการ
ตายสูงคือมากกว่า 10 ตัวต่อวัน ในขณะที่กรณีที่ 3 สัตว์น้าจะมี
อัตราการตายท่ีต่าคือน้อยกว่า 10 ตัวต่อวัน

ในกรณีที่จะใช้แบบจาลองแบบอื่นๆ ก็สามารถทาได้
เช่นกัน คือเปล่ียนจากแบบจาลอง Decision Tree ไปเป็นแบบอ่ืน
ๆ ต่อไป


122
การหาความสัมพันธ์คุณคา่ ทางอาหารเบื้องต้นกับรสชาติ

จากข้อมูลตัวอย่าง

ใช้ Operator Read Excel และ Nominal Cross
Validation

ดับเบิ้ลคลิก Validation ในส่วน Training ใส่ Decision
Tree ในส่วน Testing ใส่ Apply Model และ Performance
(Classification)


123

ก ด ผ ล ลัพ ท ธ์ที ่ได้ แ ส ด งค ว าม ถูก ต ้อ ง 40
เปอร์เซ็นต์ และแสดงกราฟต้นไม้

อธิบายผลว่าถ้าเนื้อสัมผัสได้คะแนนน้อยกว่าหรือเท่ากับ
6.19 รสชาติจะไม่ดี (bad) ถ้าคะแนนเนื้อสัมผัสมากว่า 6.19 และ
โปรตีนมากกว่า 19.53 รสชาติจะดี แต่ถ้าโปรตีนน้อยกว่าหรือ
เท่ากับ 19.53 ถ้ามีความช้ืนมากกว่า 72.935 รสชาติจะปานกลาง
และถ้ามีความชื้นน้อยกว่าหรือเท่ากับ 72.935 รสชาติจะดี

การใช้ True to Rules เพอ่ื สร้างกฎ if-then
วิธีก ารนี ้ใช ้ Operator Read Excel, Tree to Rules

และ Decision Tree เริ่มจากการนาไฟล์ที่ต้องการทาที่อยู่ในรูป


124

ไฟล์ Excel เข้ามาโดยใช้ Read Excel เชื่อมต่อกับ Tree to
Rules

ดับเบิ้ลคลิกท่ี Tree to Rules นาเอา Decision Tree
มาใส่

กด ผลลัพธ์ที่ได้จะแสดงเป็นกฎ if-then ซ่ึง
สามารถนาไปพัฒนาเป็นโปรแกรมต่อไปได้

การจาแนกภาพ
จากผลในบทที่ 6 มีการสร้างต้นแบบการจาแนกภาพขึ้น

มาแล้ว คือแฟ้มภาพปลาทูและแฟ้มภาพปลาลัง ในกรณีท่ี
ต้องการทดสอบการแยกภาพปลาทูหรือปลาลังซึ่งเป็นภาพใหม่


125

และไม่เคยถูกแยกมาก่อน สามารถดาเนินการได้ดังนี้คือ เริ่มจาก
การสร้างแฟ้มรูปที่ต้องการทดสอบขึ้นมาและบันทึกไว้ ใช้
Operator MCIO ที่ Parameters images คลิก EditList ตั้งชื่อ
(class name) และในส่วน directory เลือกแฟ้มรูปที่ต้องการ

ทดสอบ เมื่อเสร็จแล้วกด

ดับเบ้ิลคลิก MCIO เลือก Operator Global Feature

Extractor from a Single Image

ดับเบิ้ลคลิกท่ี Operator Global Feature Extractor
from a Single Image เลือก Operator Global statistics

ต่อจากน้ันใช้ Operator Write Excel ท่ี Parameter
ของ Write Excel ช่อง excel file เลือกท่ีจัดเก็บและต้ังช่ือไฟล์

กด ผลลัพธ์คือ ไฟล์จะถูกจัดเก็บไว้ในตาแหน่งที่กาหนด


126
การเริ่มทาการทดสอบรูปโดยเริ่มจากการนากระบวนการ
จาแนกภาพปลาทูและปลาลังท่ีได้ทาไว้แล้วในบทที่ 6 มาใช้

แต่มีการเพ่ิม Operator Read Excel และ Apply
Model ขึ้นมา

ที่ Operator Read Excel เลือกแฟ้มเอกสารที่ต้องการ
ทดสอบที่ได้บันทึกไว้ดังข้างต้น โดยเลือกที่ Parameter excel
file หรือ excel file


127

กด ผลลัพธ์ที่ได้ จะมีการทานายภาพที่นามา
ทดสอบดังภาพดังนี้คือ ภาพลาดับที่ 1 ถึง 5 เป็น R. kanagurta
ส่วนภาพท่ี 6 ถึง 10 เป็น R. brachysoma


128

เอกสารอ้างองิ

ยทุ ธ ไกยวรรณ. (2555). หลักการและการใชก้ ารวิเคราะหก์ าร
ถดถอยโลจสิ ตคิ สาหรับการวจิ ัย วารสารวจิ ยั
มหาวทิ ยาลัยเทคโนโลยรี าชมงคลศรีวชิ ยั 4(1) : 1-12.

ศูนย์เทคโนโลยีสารสนเทศและการสื่อสาร. (2564). Big Data.
สานักงานปลัดกระทรวงการอุดมศึกษา
วิทยาศาสตร์ วิจัยและนวัตกรรม.
https://www.ops.go.th/main/index.php/knowled
ge-base/article-pr/657-big-data)

เอกสิทธิ์ พัชรวงศ์ศักดา. 2562. Practical Data Mining with
RapidMiner Studio 9. เอเชีย ดิจิตอลการพิมพ์ จากัด.
386 หน้า.

Agrawal, R. and R. Srikant. 1994. Fast Algorithms for
Mining Association Rules in Large Databases.
Proceedings of the 20th International
Conference on Very Large Data Bases, Santiago
de Chile, 12-15 September 1994, 487-499.

Che, D., Safran, M., & Peng, Z. (2013). From Big Data to


129

Big Data Mining: Challenges, Issues, and
Opportunities. In Hong, B., Meng, X., Chen, L.,
Winiwarter, W., & Song, W. (eds). Database
Systems for Advanced Applications. DASFAA
2013. Lecture Notes in Computer Science, vol
7827. Springer, Berlin, Heidelberg.
https://doi.org/10.1007/978-3-642-40270-8_1
Halil, B., Kilinc, O., Ugur, A., Xu, X., & Tuzcu, V. (2011).
Diagnosis of long QT syndrome via support
vector machines classification. J. Biomedical
Science and Engineering. 444036. 264-271.
10.4236/jbise.2011.44036.
Han, J., J. Pei, and Y. Yin. 2000. Mining frequent
patterns without candidate generation.
International Conference on Management of
Data, p. 1-12.
Szymik, B. (2011). Neuron Anatomy. ASU - Ask A
Biologist. Retrieved December 29, 2021 from
https://askabiologist.asu.edu/neuron-anatomy.


130


Click to View FlipBook Version