คมู่ อื การวเิ คราะห์ขอ้ มูลดว้ ย
WEKA 3.8.5
ในเลม่ นจ้ี ะแนะนำให้รจู้ ักการวิเคราะห์ขอ้ มูล
จาก Weka 3.8.5
โดย
1 นางสาว นนั ทนทั หงษท์ อง 624285008
นาย ศกั ดสิ์ ทิ ธิ์ แซ่ลิม้ 624285020
2
หัวข้อตา่ งๆ 4
5
แนะนำ Weka 8
หนา้ เว็บในการดาวนโ์ หลด 10
การโหลดขอ้ มลู เขา้ 11
การลบแอตทรบิ วิ ต์ 15
การตั้งค่าข้อมลู การทดสอบ 23
การจัดกลุ่ม
กฎของความสมั พนั ธ์
Feature Selection
3
Weka – บทนำ
Weka ยอ่ มาจาก Waikato Environment for Knowledge Analysis เริม่ พัฒนามาตั้งแตป่ ี 1997 โดย
มหาวทิ ยาลัย Waikato ประเทศนิวซแี ลนด์ เป็นซอฟต์แวรส์ ำเรจ็ ภาพประกอบประเภทฟรแี วร์ ซึ่งโปรแกรม Weka
ได้ถูกพฒั นามาจากภาษาจาวาทั้งหมด ซึ่งเขียนมาโดยเนน้ กบั งานทางดา้ นการเรียนรดู้ ้วยเครอ่ื ง หรือ Machine
Learning และ การทำเหมืองขอ้ มูล (Data Mining) โปรแกรมจะประกอบไปด้วยโมดูลยอ่ ย ๆ สาหรับใชใ้ นการ
จดั การข้อมลู และเป็นโปรแกรมทีส่ ามารถใช้ GUI หรอื Graphic User Interface และ ใช้คำสัง่ ในการให้ซอฟต์แวร์
ประมวลผล และสามารถรนั ไดห้ ลายระบบปฏิบัติการ และสามารถพัฒนาต่อยอดโปรแกรมได้ เป็นเคร่ืองมือที่ใช้
ทำงานในดา้ นการทำ Data Mining ทรี่ วบรวมแนวคดิ อลั กอรทิ ึมมากมาย ซึ่งอัลกอรทิ ึมสามารถเลือกใชง้ านโดยตรง
ไดจ้ าก 2 ทางคอื จากชดุ เคร่ืองมือทม่ี ีอลั กอรทิ ึมมาให้ หรือเลอื กใช้จากอลั กอริทมึ ท่ีไดเ้ ขยี นเปน็ โปรแกรมลงไปเป็น
ชุดเครอ่ื งมือเพมิ่ เติม และชุดเครอ่ื งมือมีฟังกช์ ันสาหรับการทำงานรว่ มกับขอ้ มูล ไดแ้ ก่ Pre-Processing ,
Classification , Regression, Clustering , Association rules , Selection และ Visualization สว่ นในเรื่อง
ของการ Import ข้อมลู โดยขอ้ มลู นน้ั จะต้องอย่ใู นรปู แบบ ASCII อาจเปน็ arff , csv , c45
ความสามารถของ Weka
1. เป็นซอฟตแ์ วรเ์ สรีท่สี ามารถดาวน์โหลดไดฟ้ รี
2. สามารถทำงานได้ทกุ ระบบปฏบิ ตั กิ าร
3. เชอื่ มต่อ SQL Database โดยใช้ Java Database Connectivity
4. มกี ารเตรียมข้อมูลและเทคนิคในการสร้างแบบจาลองที่ครอบคลุม
5. มลี ักษณะที่ง่ายต่อการใชง้ านเน่อื งจากใช้
6. สนบั สนุนเกีย่ วกบั การทำเหมืองข้อมลู (Data Mining)
7. การเตรียมข้อมลู (Data Preprocessing)
8. การทำเหมืองข้อมลู ด้วยเทคนิคการจำแนกข้อมูล (Classification)
9. การทำเหมืองขอ้ มูลดว้ ยเทคนิคการจัดกลุ่ม (Clustering)
10. การทำเหมืองขอ้ มลู ดว้ ยเทคนิคการวเิ คราะหค์ วามสัมพนั ธ์ (Associating)
11. เทคนิคการคัดเลือกขอ้ มูล (Selecting Attributes)
12. เทคนิคการนำเสนอขอ้ มูลดว้ ยรูปภาพ (Visualization)
4
หนา้ เว็บในการดาวน์โหลด
https://sourceforge.net/projects/weka/
ทำการโหลดเสร็จแล้วจึงทำการเปิดโปรแกรม หลงั จากน้ันกจ็ ะขึ้นหนา้ ตา่ ง Weka GUI Chooser ดังรูป
1. Explorer เปน็ โปรแกรมทอ่ี อกแบบในลกั ษณะ
GUI
2. Experimenter เป็นโปรแกรมทอ่ี กแบบการ
ทดลองและทดสอบผล
3. KnowledgeFlow เป็นโปรแกรมออกแบบผงั
การไหลของความรู้
4. Simple CLI (command Line Interface)
เป็นโปรแกรมรับคำส่ังการทำงานผา่ นการพิมพ์
5
หน้าต่างของโปรแกรม WEKA
1
2
3
1.สว่ นบนสุดจะเปน็ แท็บ (tab) ซงึ่ มดี ้วยกันทั้งหมด 6 แท็บวางเรียงกันอยู่ทางดา้ นบน ซง่ึ แท็บตา่ งๆ เหลา่ นี้จะเปน็
เมนูใหผ้ ูใ้ ชส้ ามารถใชง้ านเทคนิคตา่ งๆของ Weka ไดน้ ่นั เอง
2.ส่วนที่อย่ตู รงกลางซึ่งจะเปลี่ยนไปตามการกดแท็บตา่ งๆ สว่ นนเี้ ปน็ ส่วนของการเลือก option ตา่ งๆใน การ
วเิ คราะหข์ ้อมลู และส่วนการแสดงผลลัพธ์หลงั จากทำการวิเคราะหข์ ้อมลู เสร็จแลว้
3.ส่วนทอี่ ยู่ดา้ นล่างสุด จะเป็นสว่ นท่บี อกสถานะ ของการทำงานในแตล่ ะขน้ั ตอน
6
จากสว่ นท่ี 1 แต่ละแทบ็ มกี ารทำงานดังน้ี
Preprocess สำหรับเลือกชดุ ขอ้ มลู เพ่ือทำการวิเคราะห์
Classify เปน็ สว่ นสำหรับนำขอ้ มูลไปวเิ คราะหห์ รอื ทำนาย โดยมวี ิธีการทำนายมากมายใหเ้ ลอื กใช้
Cluster เป็นสว่ นวิเคราะหข์ ้อมลู โดยจัดข้อมูลเป็นกล่มุ ตามความคลา้ ยกนั
Associate เป็นส่วนวิเคราะหข์ ้อมูลโดยหาความสัมพนั ธ์ของข้อมูล
Select attributes เป็นสว่ นหาตัวแปรทสี่ ำคญั และไมส่ ำคญั โดยจะกำจัดตวั แปรทไ่ี มส่ ำคญั ทิง้ และเกบ็ ตัวแปรท่ี
สำคญั ไปทำการวเิ คราะห์
Visualize เป็นส่วนที่ plot ขอ้ มูลในรปู แบบ 2 มิติ
ขน้ั ตอนการใชง้ านในการวเิ คราะห์ขอ้ มลู
ตัวอย่างของข้อมลู เป็นการทำนายพยากรณ์อากาศ ก่อนการแข่งขนั กีฬา ซึ่งการพยากรณ์อากาศเปน็ ส่ิง
สำคัญเพราะการแข่งขันกีฬาบางประเภทต้องการอาศยั สภาพอากาศที่เหมาะสมอีกดว้ ย
7
การโหลดขอ้ มูลเข้า
ขนั้ ตอน
1. คลกิ open file เพ่ือทำการเลอื กไฟล์ input ทจี่ ะทำการใช้ในการทดสอบ ในการทดสอบครงั้ นี้ใช้ไฟลท์ ่เี ปน็
นามสกลุ .csv แลว้ ทำการคลิกป่มุ open
2. จะแสดงว่าชุดขอ้ มูลของเรามอี ะไรบา้ ง 3
4
1
2
8
1. Current relation Instances - จำนวนแถวในตารางซงึ้ ข้อมูลของเรามี 14 แถว
Attributes – จำนวนฟลิ ด์ 5 รายการ
2. อธบิ ายฐานขอ้ มูลทีม่ ีทั้งหมด 5 ฟลิ ด์ดังน้ี Outlook, Temperrature, Humidity. Windy, Play
3. Selected Attribute เมื่อเราเลอื กไปที่ ฟิลดใ์ ดก็จะข้นึ คำอธบิ ายตา่ งๆใน Selected Attribute
• name : ชอ่ื และประเภทของแอตทริบวิ ต์ที่เราเลือกดู
• type : ประเภทของแอตทริบวิ ต์ท่เี ราเลอื กดู
• Missing :จำนวนของค่าทีห่ ายไป
• Distinct : ค่าทีแ่ ตกตา่ งกนั โดยไมม่ ีค่าท่ีไม่ซำ้ กนั
• underneath : ตารางด้านลา่ งข้อมลู น้แี สดงคา่ เล็กน้อยสำหรับฟิลด์นี้
• นอกจากนย้ี ังแสดงจำนวนและนำ้ หนกั เป็นเปอรเ์ ซ็นต์สำหรับค่าที่ระบแุ ตล่ ะค่า
9
4.ที่ด้านล่างของหนา้ ตา่ ง คุณจะเหน็ การแสดงค่า ของ class
หากคณุ คลิกที่ ปุ่ม Visualize All คุณจะสามารถดูคณุ ลกั ษณะทั้งหมดในหนา้ ต่างเดียวดงั ทีแ่ สดงท่นี ่ี
-
การลบแอตทริบิวต์
หลายครงั้ ท่ขี ้อมูลที่เราอาจจะไม่ต้องการใช้สำหรับการสร้างแบบจำลองที่มาพร้อมกับฟิลด์ทไ่ี ม่เกยี่ วข้อง
ตัวอย่างเช่น ฐานข้อมลู ลกู ค้าอาจมีหมายเลขโทรศัพทม์ ือถือท่เี กี่ยวข้องกับการวิเคราะห์อันดับเครดติ ของเขา เรา
สามารถทีจ่ ะเลอื กแล้วกด Remove ได้เลย
10
การตง้ั คา่ ขอ้ มลู การทดสอบ
ข้นั ตอน
1. คลกิ ท่ีแท็บ Classify หน้าตาของ workspace จะเปลย่ี นไปเปน็ ส่วนของแทบ็ Classify แล้วคลกิ ท่ี ปุ่ม Choose
จะมลี ิสต์ (list) แสดงเทคนิคตา่ งๆ ของการ Classify ใหค้ ลิกเลือกทีเ่ มนู trees หลังจากนัน้ ให้ เลือกที่เทคนิคการ
จำแนกข้อมูลด้วย J48 โดยคลกิ ท่ีเมนูJ48 หลงั จากนัน้ คลิกทีป่ ุ่ม Start Weka จะ ทำงานและแสดงผลลพั ธ์การ
ทำงาน
11
2.หลงั จากนั้นจะเหน็ ส่วนของ Classifier output ทางด้านขวาจะเปลย่ี นไป โดยจะแสดงผลการวเิ คราะหใ์ นรูป
แบบของ decision tree และขอ้ มูลทางสถิตอิ ่นื ๆ เชน่ คา่ ความถูกต้องในการทำนาย (Correctly Classified
Instances) เปน็ ตน้ ซ่งึ ขอ้ มูลทเ่ี ห็นน้ีเปน็ ผลทไี่ ด้จากการวเิ คราะหข์ ้อมลู ดว้ ยเทคนคิ J48
Correctly Classified Instances สว่ นนี้บอกวา่ จากขอ้ มูลท่ีมี 8 instance นน้ั มีการทํานายขอ้ มูลถูกต้อง
คิดเป็น 57.1429ของข้อมลู ทั้งหมด
Incorrectly Classified Instances สว่ นน้บี อกวา่ จากข้อมลู ท่ีมี 6 instance น้ัน มีการทํานายข้อมูลไม่
คิดเป็น 42.8571 %ของข้อมูลทั้งหมด
12
3. ในช่อง Result list ทางด้านซา้ ยเมื่อเราทำการคลิกขวาและเลือกเมนู Visualize treeจะปรากฏหน้าจอ Tree
View ขึน้ มา ซง่ึ ต้นไม้ (tree) ท่ีแสดงนจ้ี ะเรียกว่า ต้นไมช้ ่วยตดั สินใจ หรอื decision tree ซึง่ เปน็ ต้นไม้ที่ใชใ้ น การ
สรา้ งกฏเพ่ือนำไปทำนายข้อมูลใหมใ่ นอนาคต ตัวอย่างของกฎทส่ี รา้ งไดจ้ ากตน้ ไมช้ ว่ ยตดั สินใจนีเ้ ช่น ถ้ามีฝนตก
(rainy) และ มีลมแรง (windy) กไ็ ม่ควรจะแข่งขันกีฬา เป็นต้น
ผลลพั ธ์ของการ Visualize tree
13
ผลลพั ธ์ของการ Cost/Benefit analysis
ผลลพั ธ์ของการ Visualize classifier errors
14
การจัดกลุม่
การจดั กลมุ่ (Clustering) คือ การจดั กลุม่ เปน็ หนง่ึ ในอัลกอริทมึ ท่ีใช้ในการจดั การในส่วนของการทำงานที่มีการ
รวมกล่มุ กนั หรอื เพื่อแยกกลุม่ ใหด้ งู า่ ยและชดั เจน การจดั การกลมุ่ ข้อมลู เปน็ หน่งึ ใน method ของ Unsupervised
Learning และในสว่ นของการ Cluster จะมี Algorithm อยู่ 2 Algorithm ท่ีเหมาะสมกบั การจำแนกกลุ่ม
ขนั้ ตอน
1.ให้เลอื กแทบ็ Preprocess คลิกที่ Open file และเลือก ไฟล์ iris.arff หนา้ จอจะมีลักษณะดงั ท่ีแสดงดา้ นล่าง
1. Current relation Instances - จำนวนแถวในตารางซึ้งข้อมลู ของเรามี 150 แถว
Attributes – จำนวนฟิลด์ 5 รายการ
2. อธิบายฐานขอ้ มูลที่มที งั้ หมด 5 ฟิลด์ดังน้ี sepallength , sepalwidth , petallength , petalwidth , class
3. Selected Attribute เมื่อเราเลอื กไปที่ ฟิลด์ใดก็จะขน้ึ คำอธิบายต่างๆใน Selected Attribute
• name : ช่ือและประเภทของแอตทรบิ วิ ต์ทีเ่ ราเลือกดู
• type : ประเภทของแอตทริบิวตท์ ีเ่ ราเลือกดู
• Missing :จำนวนของค่าท่ีหายไป
15
• Distinct : ค่าท่แี ตกต่างกนั โดยไม่มีค่าท่ีไมซ่ ำ้ กนั
• underneath : ตารางด้านลา่ งขอ้ มลู น้ีแสดงค่าเล็กน้อยสำหรบั ฟลิ ด์
• นอกจากนีย้ ังแสดงจำนวนและน้ำหนักเป็นเปอร์เซน็ ตส์ ำหรับคา่ ท่ีระบุแต่ละค่า
2.คลิกที่ Cluster เพ่อื ใชอ้ ลั กอริธมึ การทำคลัสเตอรก์ ับข้อมลู คุณจะเหน็ หนา้ จอต่อไปน้ี
16
3.เลอื กEMเป็นอัลกอริทึมการจัดกลมุ่ จากน้นั ใหเ้ ลือกดูในชอ่ ง Cluster mode จากน้ันในตก๊ิ ไปท่ี Classes to
clusters evaluation
17
3.คลกิ ที่ ปุม่ Start เพื่อประมวลผลข้อมลู ผลลัพธจ์ ะปรากฏบนหนา้ จอ
การตรวจสอบผลลพั ธ์
- ตรวจพบอนิ สแตนซค์ ลสั เตอร์ 5 รายการ
ในฐานขอ้ มลู
- Cluster 0 แสดงถึง setosa
- Cluster 1แสดงถึง virginica
- Cluster 2แสดงถงึ versicolor
- Cluster 3 , Cluster 4 แสดงถึง No class
18
4.เลอ่ื นหน้าตา่ งผลลัพธข์ ้นึ คุณจะเหน็ สถิตบิ างอยา่ งท่ใี ห้ค่ากลางและคา่ เบี่ยงเบนมาตรฐานสำหรับแตล่ ะแอตทริ
บวิ ตใ์ นกลุ่มตา่ งๆ แสดงในภาพหนา้ จอด้านลา่ ง
การสรา้ งภาพคลัสเตอร์
ให้คลกิ ขวาที่ผลลัพธ์ EM ดูที่ช่อง Result list จากน้นั เลอื ก Visualize cluster assignments คุณจะเห็น
ตวั เลือกตอ่ ไปน้ี
19
ผลลัพธข์ องการ Visualize cluster assignments
ในส่วนของ Hierarchical Clustering เป็นการจำแนกกลุ่มตามความคลา้ ยกันของขอ้ มูล ขอ้ มลู จะแสดงในแผน
กราฟเป็นจดุ และมสี ีจะสงั เหตุเหน็ เป็นกลุ่มก้อนแบบกระจายตัวแต่ยงั สามารถสงั เกตุเห็นเปน็ กลุ่มได้
การใช้คลสั เตอร์แบบลำดับช้ัน
อัลกอรธิ ึมการจดั กลมุ่ รูปแบบอน่ื ใน WEKA ให้เลือก HierarchicalClusterer เปน็ อัลกอริทึม
20
เลอื กการเลือก Cluster mode แล้วตกิ๊ ท่ี Classes to cluster evaluation
แล้วคลกิ ปุ่ม Start คณุ จะเห็นผลลัพธ์ตอ่ ไปนี้
21
การสรา้ งภาพ
ให้คลกิ ขวาท่ีผลลพั ธ์ EM ดูท่ีช่อง Result list จากนั้นคลิกขวาเลอื ก Visualize tree คณุ จะเหน็ ตวั เลือกต่อไปนี้
ผลลัพธ์ของการ Visualize tree
22
กฎของความสัมพนั ธ์
เป็นเทคนคิ ทใ่ี ช้ค้นพบองค์ความร้หู รอื สารสนเทศใหม่ ดว้ ยการเช่ือมโยงข้อมูลหรือกลมุ่ ข้อมลู ท่ีเกิดขน้ึ ในเหตกุ ารณ์
เดียวกันเข้าดว้ ยกัน ตัวอย่างเชน่ การสำรวจพฤติกรรมการซือ้ ของลกู ค้าวา่ ซ้ือสนิ คา้ อะไรบา้ งพรอ้ มกัน ในใบเสรจ็
เดยี วกนั เช่น ลูกค้าทุกคนเม่ือซื้อนมเปรีย้ ว ขนมปัง มักซื้อน้ำเปล่า เสมอ ในใบเสรจ็ เดียวกนั จากตวั อย่างบริษัท
สามารถนำข้อมูลความสมั พันธ์ในการซอ้ื ไปจัดการส่งเสริมการขาย หรือจัดรูปแบบของการวางสินคา้ ในรา้ นได้ เพ่ือ
เปน็ การเพิ่มยอดขายให้กบั บริษทั
ข้นั ตอน
1.ทำการดึงข้อมูลมา ข้อมลู ท่ีเราใช้คือ supermarket ให้เปดิ แทบ็ Preprocess คลกิ ทปี่ ุ่มOpen file และเลือก
ฐานข้อมลู Supermarket.arff จากโฟลเดอรก์ ารติดตั้ง คณุ จะเห็นหนา้ จอต่อไปน้ี
1. Current relation Instances - จำนวนแถวในตารางซง้ึ ข้อมลู ของเรามี 4627 แถว
Attributes – จำนวนฟิลด์ 217 รายการ
2. อธบิ ายฐานขอ้ มลู ทมี่ ีทงั้ หมด 5 ฟลิ ด์ดงั น้ภี าพ
23
3. Selected Attribute เม่ือเราเลือกไปที่ ฟลิ ดใ์ ดก็จะขน้ึ คำอธิบายต่างๆใน Selected Attribute
• name : ชอื่ และประเภทของแอตทริบิวตท์ เี่ ราเลือกดู
• type : ประเภทของแอตทริบิวต์ทีเ่ ราเลือกดู
• Missing :จำนวนของคา่ ที่หายไป
• Distinct : ค่าที่แตกต่างกนั โดยไมม่ ีคา่ ที่ไม่ซำ้ กัน
• underneath : ตารางดา้ นล่างข้อมูลนแ้ี สดงค่าเล็กน้อยสำหรับฟลิ ด์
• นอกจากนี้ยงั แสดงจำนวนและน้ำหนักเปน็ เปอรเ์ ซ็นต์สำหรับคา่ ท่ีระบุแต่ละคา่
2.คลกิ ท่ี Associate และคลิกท่ปี ุ่ม Select เลือก Apriori ตามทแ่ี สดงในภาพหนา้ จอ
24
3.ตง้ั คา่ พารามิเตอร์สำหรับอัลกอรทิ ึม Apriori ให้คลิกท่ีช่ือ หนา้ ต่างจะปรากฏข้ึนดังท่ีแสดงด้านลา่ งซ่ึงช่วยให้คุณ
ตง้ั คา่ พารามเิ ตอร์
4.หลงั จากทค่ี ุณตั้งค่าพารามเิ ตอรแ์ ลว้ ให้คลกิ ปุ่ม Start อีกสกั คร่คู ุณจะเห็นผลลัพธ์ดงั แสดงในภาพหนา้ จอ
ดา้ นลา่ ง
คณุ จะพบกฎการเช่ือมโยงท่ดี ีทสี่ ุดท่ตี รวจพบ นี้จะชว่ ยให้ซเู ปอร์มาร์เกต็ ในสต็อกสินค้าในชนั้ วางท่เี หมาะสม
25
Feature Selection
Filter approach เปน็ การคัดเลอื กฟีเจอร์โดยใช้การคำนวณหาคา่ นำ้ หนักซึ่งอาจจะเป็นคา่ ความสมั พนั ธ์ระหวา่ ง
แตล่ ะฟีเจอร์และคลาสต่าง ๆ และจะเลือกฟีเจอร์โดยเรยี งลำดับตามค่านำ้ หนักที่คำนวณได้แล้วเลอื กฟีเจอรท์ ี่มคี า่
นำ้ หนักมากกวา่ ทต่ี ้องการมาใข้งานต่อไป วิธกี ารนจ้ี ะไม่มีการสรา้ งโมเดลเพือ่ คัดเลือกฟีเจอร์ เทคนคิ ในการคำนวณ
ค่านำ้ หนักของฟีเจอรต์ ่างๆ
ข้ันตอน
1.แท็ก Preprocess ให้เลือก ไฟล์ labor.arff คณุ จะเหน็ หน้าจอตอ่ ไปน้ี
1. Current relation Instances - จำนวนแถวในตารางซงึ้ ข้อมูลของเรามี 57 แถว
Attributes – จำนวนฟลิ ด์ 17 รายการ
2. อธิบายฐานขอ้ มลู ทีม่ ีท้ังหมด 5 ฟลิ ดด์ งั นภี้ าพ
3. Selected Attribute เมื่อเราเลอื กไปท่ี ฟลิ ด์ใดก็จะขน้ึ คำอธิบายตา่ งๆใน Selected Attribute
• name : ช่ือและประเภทของแอตทริบิวต์ท่เี ราเลอื กดู
• type : ประเภทของแอตทริบิวตท์ ่ีเราเลอื กดู
• Missing :จำนวนของค่าท่ีหายไป
26
• Distinct : คา่ ทแ่ี ตกตา่ งกันโดยไม่มีคา่ ท่ีไมซ่ ำ้ กนั
• underneath : ตารางดา้ นล่างขอ้ มลู น้ีแสดงค่าเล็กนอ้ ยสำหรบั ฟลิ ด์
• นอกจากนยี้ งั แสดงจำนวนและนำ้ หนักเป็นเปอร์เซ็นต์สำหรับค่าทรี่ ะบุแต่ละค่า
2.คลิกท่แี ท็บ Select attributes คุณจะเหน็ หน้าจอต่อไปนี้
Attribute Evaluator และ Search Method คณุ จะพบตวั เลือกต่างๆ
3.เลือกแอตทริบิวตใ์ ห้ใช้จากน้ันคลกิ ที่ปุม่ Start เพ่ือประมวลผลชุดข้อมลู คณุ จะเหน็ ผลลพั ธต์ ่อไปน้ี
27
เอกสารอ้างอิง
https://www.tutorialspoint.com/weka/index.htm
http://www.thaiall.com/weka/weka_kku_wichuda_1.pdf
http://www.wiwatchin.com/page/article/Apriori_Weka.pdf
https://www.glurgeek.com/education/howto-weka/#google_vignette
28