The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.
Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by , 2017-07-25 00:52:37

Algoritma

Algoritma

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1

ASSOCIATION RULES
PADA TEXT MINING

Budi Susanto
versi 1.2

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2

Tujuan

•  Memahami algoritma Apriori dan FP-Growth
•  Memahami penerapannya pada penambangan dokumen
•  Memamahmi algoritma GSP
•  Memahami penerapannya pada penambangan dokumen

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 3

Pendahuluan

•  Analisis aturan asosiasi merupakan tugas dasar pada
data mining.

•  Tujuannya:

•  Menemukan hubungan kemunculan bersamaan (asosiasi) diantara
item-item data.

•  Aplikasi klasik yang menggunakan metode ini adalah
market basket data analysis.

•  Tujuannya: menemukan bagaimana item-item barang yang dibeli
oleh pelanggan diasosiasikan.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 4

Pendahuluan

•  Contoh:

•  Sabun Mandi è Pasta Gigi

•  [support: 40%, confidence = 80%]

•  40% pelanggan membeli Sabun Mandi dan Pasta Gigi bersamaan
•  80% pelanggan membeli Sabun Mandi juga membeli Pasta Gigi.

•  Dalam text mining, association rules dapat digunakan
untuk menemukan hubungan kemunculan kata.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 5

Konsep Dasar Association Rules

I = {i1, i2,..., im } Himpunan item

T = {t1, t2,..., tn } Himpunan transaksi

Ti adalah himpunan item dimana ti ⊆ I

Bentuk implikasi pada association rules:

X èY, dimana X ⊂ I,Y ⊂ I, X ∩Y = 0

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 6

Ukuran

•  Support

•  Seberapa sering aturan yang dihasilkan berlaku pada himpunan
transaksi T.

•  Confidence

•  Dilihat sebagai probabilitas kondisional terhadap aturan.

•  Aturan yang terpilih adalah aturan yang memenuhi
minimum support dan minimum confidence

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 7

Contoh

•  Terdapat himpunan transaksi I:

•  Chicken, Clothes → Milk [sup = 3/7, conf = 3/3]
•  Clothes → Milk, Chicken [sup = 3/7, conf = 3/3]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 8

Algoritma Apriori

•  Terdapat dua tahap utama:

•  Hasilkan semua frequent itemsets (itemset yang memiliki support >
minsupport)

•  Hasilkan semua aturan asosiasi dari frequent itemsets (confident >
minconfident)

•  Jumat item dalam sebuah itemset ditentukan, k.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 9

Apriori: pembentukan itemset

•  Apriori menganut prinsip downward closure property

•  Jika sebuah itemset memiliki support minimum, maka setiap subset
non-empty dari itemset tersebut juga memiliki support minimum.

•  Item-item dalam I, sudah dalam keadaan terurutkan
secara lexicographic order.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 10

Algoritma Apriori

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 11

Algoritma Apriori: pembentukan kandidat
itemset

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 12

Contoh: Data

TID Item-item
001 1,2,3,5
002 2,3,4
003 2,3,6
004 1,2,4
005 1,3,4,5
006 2,3,5
007 1,3
008 1,2,3,5
009 1,2,3
010 1,2,3,4,5

Min Support: 40%, dan Min Confident: 60%

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 13

Contoh: Kandidat 2-itemsets

C2 itemsets Support Count
{1, 2} 5
{1, 3} 6
{1, 4} 3
{1, 5} 4
{2, 3} 7
{2, 4} 3
{2, 5} 4
{3, 4} 3
{3, 5} 5
{4, 5} 2

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 14

Pruning 2-itemsets

C2 itemsets Support Count
{1, 2} 5
{1, 3} 6
{1, 5} 4
{2, 3} 7
{2, 5} 4
{3, 5} 5

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 15

Kandidat 3-itemsets

C3 itemsets Support Count
{1, 2, 3} 4
{1, 3, 5} 4
{2, 3, 5} 4

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 16

Pruning 3-itemsets

C3 itemsets Support Count
{1, 2, 3} 4
{1, 3, 5} 4
{2, 3, 5} 4

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 17

Algoritma: pembentukan rule

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18

Contoh Pembentukan Rule

•  Candidate Rule 1:

•  Rule1: {1,2} è {3}

•  Support: 4/10
•  Confident: 4/5

•  Rule 2: {1,3} è {2}

•  Support: 4/10
•  Confident: 4/6

•  Rule 3: {2,3} è {1}

•  Support: 4/10
•  Confident: 4/7

•  H1 = {{2}, {3}}, sehingga H2 = {2,3}

•  Rule 4: {1} è {2,3}

•  Support: 4/10
•  Confident: 4/7

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 19

FP-Tree

•  Menghasilkan frequent items tanpa perlu membuat
kandidat-kandidatnya.

•  Kepadatan struktur tinggi

•  Tidak perlu melakukan penelurusan database keseluruhan setiap
saat

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 20

FP-Tree: Algoritma

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 21

Contoh

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 22

Contoh

Item Support Count
3 9
2 8
1 7
5 5
4 4
6 1

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 23

Asosiasi untuk Kategori

•  Metode asosiasi, seperti Apriori dan FP-Tree, tidak
memiliki sasaran pada klausa consequent.

•  Klausa consequent ditentukan juga dari itemset dalam transaksi.

•  Jika asosiasi dilakukan terhadap suatu consequent
dengan target tertentu, Y, maka metode yang digunakan
disebut sebagai class association rules.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 24

Asosiasi untuk Kategori

•  T adalah himpunan transaksi sebanyak n.

•  Setiap transaksi diberi label y.

•  I adalah himpunan semua item dalam T, dan Y adalah

himpunan label class (target) dan I ∩ Y = θ.

•  Sebuah Class Association rule (CAR) adalah bentuk
implikasi dari

X → y, X ⊂ I, y ∈ Y

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 25

Contoh

I = {Student, Teach, School, City, Game, Baseball,
Basketball, Team, Coach, Player, Spectator}

Y = {Education, Sport}.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 26

Contoh

•  Misal minsup = 20% dan minconf = 60%, maka:

•  Student, School → Education

•  [sup= 2/7, conf = 2/2]

•  Game → Sport

•  [sup= 2/7, conf = 2/3]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 27

Pembangkit Rule

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 28

Contoh CAR

•  F1: {({School},
 Education):(3,
 3),
 ({Student},
 
Education):(2,
 2),
 ({Teach},
 Education):(2,
 

2),
 ({Baseball},
 Sport):(2,
 2),
 ({Basketball},
 

Sport):(3,
 3),
 ({Game},
 Sport):(3,
 2),
 

({Team},
 Sport):(2,
 2)}

•  CAR1: [sup = 3/7, conf = 3/3]

•  School → Education

•  Student → Education [sup = 2/7, conf = 2/2]

•  Teach → Education [sup = 2/7, conf = 2/2]

•  Baseball → Sport [sup = 2/7, conf = 2/2]

•  Basketball → Sport [sup = 3/7, conf = 3/3]

•  Game → Sport [sup = 2/7, conf = 2/3]

•  Team → Sport [sup = 2/7, conf = 2/2]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 29

Contoh CAR

•  C2: {

•  ({School, Student}, Education),
•  ({School, Teach}, Education),
•  ({Student, Teach}, Education),
•  ({Baseball, Basketball}, Sport),
•  ({Baseball, Game}, Sport),
•  ({Baseball, Team}, Sport),
•  ({Basketball, Game}, Sport),
•  ({Basketball, Team}, Sport),
•  ({Game, Team}, Sport)

}

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 30

Contoh CAR

•  F2: {

•  ({School, Student}, Education):(2, 2),

•  ({School, Teach}, Education):(2, 2),

•  ({Game, Team}, Sport):(2, 2)

}

•  CAR2:

•  School, Student → Education

•  [sup = 2/7, conf = 2/2]

•  School, Teach → Education

•  [sup = 2/7, conf = 2/2]

•  Game, Team → Sport

•  [sup = 2/7, conf = 2/2]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 31

Lift Ratio

•  Jika suatu rule memiliki confidence tinggi, berarti rule
tersebut mencirikan aturan asosiasi yang kuat.

•  Pemilihan rule berdasar confidence bisa menipu, sebab
jika (A)ntecedent/(C)onsequent memiliki support yang
tinggi, maka rule dapat memiliki confidence tinggi,
walaupun sebetulnya independen.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 32

Lift Ratio

•  Ukuran yang lebih baik untuk mengukur kekuatan aturan
asosiasi adalah

•  Membandingkan confidence rule dengan confidence yang
diharapkan.

•  Kemunculan consequent itemset dalam transaksi bersifat independen
terhadap kemunculan antecedent tiap rulenya.

•  Support consequent dibagi dengan jumlah transaksi.

•  Expected confidence dari sebuah rule adalah perkalian
support antecedence dan consequence dibagi dengan
support dari antecedence.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 33

Lift Ratio

•  Sebuah lift ratio > 1.0 menyatakan Ant dan Cons muncul
lebih sering dari yang diharapkan

•  kemunculan rule Ant memiliki efek positif terhadap kemunculan
Cons

•  Sebuah lift ratio < 1.0 menyatakan Ant dan Cons muncul
lebih jarang dari yang diharapkan

•  kemunculan rule Ant memiliki efek negatif terhadap kemunculan
Cons

•  Sebuah list ratio ≈ 1.0 menyatakan Ant dan Cons muncul
hampir selalu bersamaan seperti yang diharapkan

•  kemunculan rule Ant hampir tidak memiliki pengaruh terhadap
kemunculan Cons

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 34

Lift Ratio

c ( A ⇒ C ) = P (C | A) = s (A∪C)
s(A)

c '(A ⇒ C) = s(A) × s(C)

s(A)

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 35

Contoh Lift Ratio

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 36

Contoh Lift Ratio

A C c(A) s(C) c(A U C) conf lift
{1,2} {5} 2/4 18/8
{1,5} {2} 4 2/9 2 2/2 9/7
{2,5} {1} 2/2 9/6
{1} {2,5} 2 7/9 2 2/6 9/6
{2} {1,5} 2/7 9/7
{5} {2,1} 2 6/9 2 2/2 9/4
{1,2} {3} 2/4 9/12
{1,3} {2} 6 2/9 2 2/4 18/28
{2,3} {1} 2/4 9/12
{1} {2,3} 7 2/9 2 2/6 9/12
{2} {1,3} 2/7 9/14
{3} {1,2} 2 4/9 2 2/6 9/12

4 6/9 2

4 7/9 2

4 6/9 2

6 4/9 2

7 4/9 2

6 4/9 2

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 37

Konsep Sequence Pattern

•  Association Rule tidak memperhatikan urutan dari
transaksi.

•  I = {i1, i2, ..., im} adalah himpunan item
•  Sebuah sequence adalah daftar urutan dari itemset.

•  X ⊆ I, dimana X adalah itemset.
•  s = 〈a1a2...ar〉, ai adalah sebuah itemset (elemen dari s).
•  ai = {x1, x2, ..., xk}, dimana xj ∈ I adalah item.
•  Sebuah item hanya dapat muncul sekali dalam suatu sequence.

•  Ukuran suatu sequence adalah jumlah itemset dalam sequence

•  Panjang suatu sequence adalah jumlah item dalam suquence.

•  k-sequence adalah sequence dengan panjang k.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 38

Konsep Sequence Pattern

•  s1 = 〈a1a2...ar〉 adalah sebuah subsequence s2 =
〈b1b2...bv〉, atau s2 adalah supersequence dari s1, jika
terdapat integer 1≤j1
 <j2
 <...<jr-­‐1<jr
 ≤
 v sehinga a1
⊆ bj, a2 ⊆ bj, ..., ar ⊆ bjr.

•  Kita juga mengatakan s2 berisi s1.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 39

Konsep Sequence Pattern

•  c adalah subsequence dari s jika memenuhi salah satu
kondisi berikut:

•  c diturunkan dari s dengan membuang sebuah item dari salah satu
sequence baik s1 atau sn.

•  c diturunkan dari s dengan membuang sebuah item dari sebuah
elemen sj yang memiliki minimum 2 item.

•  c adalah contiguous subsequence dari ċ dan ċ adalah contiguous
subsequence dari s.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 40

Contoh

•  I = {1, 2, 3, 4, 5, 6, 7, 8, 9}

•  s1 = 〈{3}{4, 5}{8}〉

•  Ukuran = 3

•  Panjang = 4

•  s2 = 〈{6} {3, 7}{9}{4, 5, 8}{3, 8}〉
•  s1 subsequence s2 karena

•  {3} ⊆ {3, 7}, {4, 5} ⊆ {4, 5, 8}, dan {8} ⊆ {3, 8}

•  Sedangkan 〈{3}{8}〉 bukan subsequence 〈{3, 8}〉, demikian
juga sebaliknya.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 41

Contoh

SID sequence •  Bagaimana dengan:
10 <a(abc)(ac)d(cf)>
•  <a(bc)dc>
20 <(ad)c(bc)(ae)>
30 <(ef)(ab)(df)cb> •  <(ab)c>

40 <eg(af)cbc>

Data sequence Subsequence Contain?
< {2,4} {3,5,6} {8} > < {2} {3,5} > Yes
< {1} {2} > No
< {1,2} {3,4} > < {2} {4} > Yes
< {2,4} {2,4} {2,5} >

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 42

Contoh

Object Timestamp Events Minsup = 50%

A 1 1,2,4 Examples of Frequent Subsequences:
A 2 2,3
A 3 5 < {1,2} > s=60%
B 1 1,2
B 2 2,3,4 < {2,3} > s=60%
C 1 1, 2 < {2,4}> s=80%
C 2 2,3,4 < {3} {5}> s=80%
C 3 2,4,5 < {1} {2} > s=80%
D 1 2 < {2} {2} > s=60%
D 2 3, 4 < {1} {2,3} > s=60%
D 3 4, 5
E 1 1, 3 < {2} {2,3} > s=60%
E 2 2, 4, 5 < {1,2} {2,3} > s=60%

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 43

Contoh Transaksi

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 44

Contoh Sequence

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 45

Contoh Pola Sequence

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 46

Algoritma GSP

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 47

TERIMA KASIH.

Akhir pertemuan #4


Click to View FlipBook Version