Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1
ASSOCIATION RULES
PADA TEXT MINING
Budi Susanto
versi 1.2
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2
Tujuan
• Memahami algoritma Apriori dan FP-Growth
• Memahami penerapannya pada penambangan dokumen
• Memamahmi algoritma GSP
• Memahami penerapannya pada penambangan dokumen
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 3
Pendahuluan
• Analisis aturan asosiasi merupakan tugas dasar pada
data mining.
• Tujuannya:
• Menemukan hubungan kemunculan bersamaan (asosiasi) diantara
item-item data.
• Aplikasi klasik yang menggunakan metode ini adalah
market basket data analysis.
• Tujuannya: menemukan bagaimana item-item barang yang dibeli
oleh pelanggan diasosiasikan.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 4
Pendahuluan
• Contoh:
• Sabun Mandi è Pasta Gigi
• [support: 40%, confidence = 80%]
• 40% pelanggan membeli Sabun Mandi dan Pasta Gigi bersamaan
• 80% pelanggan membeli Sabun Mandi juga membeli Pasta Gigi.
• Dalam text mining, association rules dapat digunakan
untuk menemukan hubungan kemunculan kata.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 5
Konsep Dasar Association Rules
I = {i1, i2,..., im } Himpunan item
T = {t1, t2,..., tn } Himpunan transaksi
Ti adalah himpunan item dimana ti ⊆ I
Bentuk implikasi pada association rules:
X èY, dimana X ⊂ I,Y ⊂ I, X ∩Y = 0
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 6
Ukuran
• Support
• Seberapa sering aturan yang dihasilkan berlaku pada himpunan
transaksi T.
• Confidence
• Dilihat sebagai probabilitas kondisional terhadap aturan.
• Aturan yang terpilih adalah aturan yang memenuhi
minimum support dan minimum confidence
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 7
Contoh
• Terdapat himpunan transaksi I:
• Chicken, Clothes → Milk [sup = 3/7, conf = 3/3]
• Clothes → Milk, Chicken [sup = 3/7, conf = 3/3]
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 8
Algoritma Apriori
• Terdapat dua tahap utama:
• Hasilkan semua frequent itemsets (itemset yang memiliki support >
minsupport)
• Hasilkan semua aturan asosiasi dari frequent itemsets (confident >
minconfident)
• Jumat item dalam sebuah itemset ditentukan, k.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 9
Apriori: pembentukan itemset
• Apriori menganut prinsip downward closure property
• Jika sebuah itemset memiliki support minimum, maka setiap subset
non-empty dari itemset tersebut juga memiliki support minimum.
• Item-item dalam I, sudah dalam keadaan terurutkan
secara lexicographic order.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 10
Algoritma Apriori
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 11
Algoritma Apriori: pembentukan kandidat
itemset
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 12
Contoh: Data
TID Item-item
001 1,2,3,5
002 2,3,4
003 2,3,6
004 1,2,4
005 1,3,4,5
006 2,3,5
007 1,3
008 1,2,3,5
009 1,2,3
010 1,2,3,4,5
Min Support: 40%, dan Min Confident: 60%
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 13
Contoh: Kandidat 2-itemsets
C2 itemsets Support Count
{1, 2} 5
{1, 3} 6
{1, 4} 3
{1, 5} 4
{2, 3} 7
{2, 4} 3
{2, 5} 4
{3, 4} 3
{3, 5} 5
{4, 5} 2
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 14
Pruning 2-itemsets
C2 itemsets Support Count
{1, 2} 5
{1, 3} 6
{1, 5} 4
{2, 3} 7
{2, 5} 4
{3, 5} 5
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 15
Kandidat 3-itemsets
C3 itemsets Support Count
{1, 2, 3} 4
{1, 3, 5} 4
{2, 3, 5} 4
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 16
Pruning 3-itemsets
C3 itemsets Support Count
{1, 2, 3} 4
{1, 3, 5} 4
{2, 3, 5} 4
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 17
Algoritma: pembentukan rule
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18
Contoh Pembentukan Rule
• Candidate Rule 1:
• Rule1: {1,2} è {3}
• Support: 4/10
• Confident: 4/5
• Rule 2: {1,3} è {2}
• Support: 4/10
• Confident: 4/6
• Rule 3: {2,3} è {1}
• Support: 4/10
• Confident: 4/7
• H1 = {{2}, {3}}, sehingga H2 = {2,3}
• Rule 4: {1} è {2,3}
• Support: 4/10
• Confident: 4/7
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 19
FP-Tree
• Menghasilkan frequent items tanpa perlu membuat
kandidat-kandidatnya.
• Kepadatan struktur tinggi
• Tidak perlu melakukan penelurusan database keseluruhan setiap
saat
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 20
FP-Tree: Algoritma
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 21
Contoh
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 22
Contoh
Item Support Count
3 9
2 8
1 7
5 5
4 4
6 1
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 23
Asosiasi untuk Kategori
• Metode asosiasi, seperti Apriori dan FP-Tree, tidak
memiliki sasaran pada klausa consequent.
• Klausa consequent ditentukan juga dari itemset dalam transaksi.
• Jika asosiasi dilakukan terhadap suatu consequent
dengan target tertentu, Y, maka metode yang digunakan
disebut sebagai class association rules.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 24
Asosiasi untuk Kategori
• T adalah himpunan transaksi sebanyak n.
• Setiap transaksi diberi label y.
• I adalah himpunan semua item dalam T, dan Y adalah
himpunan label class (target) dan I ∩ Y = θ.
• Sebuah Class Association rule (CAR) adalah bentuk
implikasi dari
X → y, X ⊂ I, y ∈ Y
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 25
Contoh
I = {Student, Teach, School, City, Game, Baseball,
Basketball, Team, Coach, Player, Spectator}
Y = {Education, Sport}.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 26
Contoh
• Misal minsup = 20% dan minconf = 60%, maka:
• Student, School → Education
• [sup= 2/7, conf = 2/2]
• Game → Sport
• [sup= 2/7, conf = 2/3]
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 27
Pembangkit Rule
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 28
Contoh CAR
• F1: {({School},
Education):(3,
3),
({Student},
Education):(2,
2),
({Teach},
Education):(2,
2),
({Baseball},
Sport):(2,
2),
({Basketball},
Sport):(3,
3),
({Game},
Sport):(3,
2),
({Team},
Sport):(2,
2)}
• CAR1: [sup = 3/7, conf = 3/3]
• School → Education
• Student → Education [sup = 2/7, conf = 2/2]
• Teach → Education [sup = 2/7, conf = 2/2]
• Baseball → Sport [sup = 2/7, conf = 2/2]
• Basketball → Sport [sup = 3/7, conf = 3/3]
• Game → Sport [sup = 2/7, conf = 2/3]
• Team → Sport [sup = 2/7, conf = 2/2]
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 29
Contoh CAR
• C2: {
• ({School, Student}, Education),
• ({School, Teach}, Education),
• ({Student, Teach}, Education),
• ({Baseball, Basketball}, Sport),
• ({Baseball, Game}, Sport),
• ({Baseball, Team}, Sport),
• ({Basketball, Game}, Sport),
• ({Basketball, Team}, Sport),
• ({Game, Team}, Sport)
}
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 30
Contoh CAR
• F2: {
• ({School, Student}, Education):(2, 2),
• ({School, Teach}, Education):(2, 2),
• ({Game, Team}, Sport):(2, 2)
}
• CAR2:
• School, Student → Education
• [sup = 2/7, conf = 2/2]
• School, Teach → Education
• [sup = 2/7, conf = 2/2]
• Game, Team → Sport
• [sup = 2/7, conf = 2/2]
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 31
Lift Ratio
• Jika suatu rule memiliki confidence tinggi, berarti rule
tersebut mencirikan aturan asosiasi yang kuat.
• Pemilihan rule berdasar confidence bisa menipu, sebab
jika (A)ntecedent/(C)onsequent memiliki support yang
tinggi, maka rule dapat memiliki confidence tinggi,
walaupun sebetulnya independen.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 32
Lift Ratio
• Ukuran yang lebih baik untuk mengukur kekuatan aturan
asosiasi adalah
• Membandingkan confidence rule dengan confidence yang
diharapkan.
• Kemunculan consequent itemset dalam transaksi bersifat independen
terhadap kemunculan antecedent tiap rulenya.
• Support consequent dibagi dengan jumlah transaksi.
• Expected confidence dari sebuah rule adalah perkalian
support antecedence dan consequence dibagi dengan
support dari antecedence.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 33
Lift Ratio
• Sebuah lift ratio > 1.0 menyatakan Ant dan Cons muncul
lebih sering dari yang diharapkan
• kemunculan rule Ant memiliki efek positif terhadap kemunculan
Cons
• Sebuah lift ratio < 1.0 menyatakan Ant dan Cons muncul
lebih jarang dari yang diharapkan
• kemunculan rule Ant memiliki efek negatif terhadap kemunculan
Cons
• Sebuah list ratio ≈ 1.0 menyatakan Ant dan Cons muncul
hampir selalu bersamaan seperti yang diharapkan
• kemunculan rule Ant hampir tidak memiliki pengaruh terhadap
kemunculan Cons
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 34
Lift Ratio
c ( A ⇒ C ) = P (C | A) = s (A∪C)
s(A)
c '(A ⇒ C) = s(A) × s(C)
s(A)
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 35
Contoh Lift Ratio
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 36
Contoh Lift Ratio
A C c(A) s(C) c(A U C) conf lift
{1,2} {5} 2/4 18/8
{1,5} {2} 4 2/9 2 2/2 9/7
{2,5} {1} 2/2 9/6
{1} {2,5} 2 7/9 2 2/6 9/6
{2} {1,5} 2/7 9/7
{5} {2,1} 2 6/9 2 2/2 9/4
{1,2} {3} 2/4 9/12
{1,3} {2} 6 2/9 2 2/4 18/28
{2,3} {1} 2/4 9/12
{1} {2,3} 7 2/9 2 2/6 9/12
{2} {1,3} 2/7 9/14
{3} {1,2} 2 4/9 2 2/6 9/12
4 6/9 2
4 7/9 2
4 6/9 2
6 4/9 2
7 4/9 2
6 4/9 2
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 37
Konsep Sequence Pattern
• Association Rule tidak memperhatikan urutan dari
transaksi.
• I = {i1, i2, ..., im} adalah himpunan item
• Sebuah sequence adalah daftar urutan dari itemset.
• X ⊆ I, dimana X adalah itemset.
• s = 〈a1a2...ar〉, ai adalah sebuah itemset (elemen dari s).
• ai = {x1, x2, ..., xk}, dimana xj ∈ I adalah item.
• Sebuah item hanya dapat muncul sekali dalam suatu sequence.
• Ukuran suatu sequence adalah jumlah itemset dalam sequence
• Panjang suatu sequence adalah jumlah item dalam suquence.
• k-sequence adalah sequence dengan panjang k.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 38
Konsep Sequence Pattern
• s1 = 〈a1a2...ar〉 adalah sebuah subsequence s2 =
〈b1b2...bv〉, atau s2 adalah supersequence dari s1, jika
terdapat integer 1≤j1
<j2
<...<jr-‐1<jr
≤
v sehinga a1
⊆ bj, a2 ⊆ bj, ..., ar ⊆ bjr.
• Kita juga mengatakan s2 berisi s1.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 39
Konsep Sequence Pattern
• c adalah subsequence dari s jika memenuhi salah satu
kondisi berikut:
• c diturunkan dari s dengan membuang sebuah item dari salah satu
sequence baik s1 atau sn.
• c diturunkan dari s dengan membuang sebuah item dari sebuah
elemen sj yang memiliki minimum 2 item.
• c adalah contiguous subsequence dari ċ dan ċ adalah contiguous
subsequence dari s.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 40
Contoh
• I = {1, 2, 3, 4, 5, 6, 7, 8, 9}
• s1 = 〈{3}{4, 5}{8}〉
• Ukuran = 3
• Panjang = 4
• s2 = 〈{6} {3, 7}{9}{4, 5, 8}{3, 8}〉
• s1 subsequence s2 karena
• {3} ⊆ {3, 7}, {4, 5} ⊆ {4, 5, 8}, dan {8} ⊆ {3, 8}
• Sedangkan 〈{3}{8}〉 bukan subsequence 〈{3, 8}〉, demikian
juga sebaliknya.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 41
Contoh
SID sequence • Bagaimana dengan:
10 <a(abc)(ac)d(cf)>
• <a(bc)dc>
20 <(ad)c(bc)(ae)>
30 <(ef)(ab)(df)cb> • <(ab)c>
40 <eg(af)cbc>
Data sequence Subsequence Contain?
< {2,4} {3,5,6} {8} > < {2} {3,5} > Yes
< {1} {2} > No
< {1,2} {3,4} > < {2} {4} > Yes
< {2,4} {2,4} {2,5} >
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 42
Contoh
Object Timestamp Events Minsup = 50%
A 1 1,2,4 Examples of Frequent Subsequences:
A 2 2,3
A 3 5 < {1,2} > s=60%
B 1 1,2
B 2 2,3,4 < {2,3} > s=60%
C 1 1, 2 < {2,4}> s=80%
C 2 2,3,4 < {3} {5}> s=80%
C 3 2,4,5 < {1} {2} > s=80%
D 1 2 < {2} {2} > s=60%
D 2 3, 4 < {1} {2,3} > s=60%
D 3 4, 5
E 1 1, 3 < {2} {2,3} > s=60%
E 2 2, 4, 5 < {1,2} {2,3} > s=60%
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 43
Contoh Transaksi
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 44
Contoh Sequence
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 45
Contoh Pola Sequence
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 46
Algoritma GSP
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 47
TERIMA KASIH.
Akhir pertemuan #4