SEARCH ENGINE
MENERAPKAN TEKNIK PENELUSURAN SEARCH
ENGINE
INDRA BAGUS PURNAMA ALAM 12 / X-TKJ
PENGERTIAN
Mesin pencari web atau mesin telusur web (bahasa Inggris: web search engine) adalah program
komputer yang dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan dalam
layanan www, ftp, publikasi milis, ataupun news group dalam sebuah ataupun sejumlah
komputer peladen dalam suatu jaringan. Mesin pencari merupakan perangkat penelusur informasi dari
dokumen-dokumen yang tersedia. Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang
sering kali diurutkan menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang
disebut sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam
jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. Beberapa mesin
pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan dalam suatu basis
data ataupun direktori web. Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang
menggunakan algoritme kepemilikan dan basis data tertutup, diantaranya yang paling populer adalah
safari Google (MSN Search dan Yahoo!). Telah ada beberapa upaya menciptakan mesin pencari
dengan sumber terbuka (open source), contohnya adalah Htdig, Nutch, Egothor dan OpenFTS.[1]
KOMPONEN SEARCH ENGINE
1.Query Interface
Query interface adalah komponen penting pertama yang merupakan bentuk tampilan atau format situs yang menyediakan fasilitas searching engine. Bentuk yang paling sederhana adalah tersedianya sebuah
kotak kosong di situs dimana user dapat menuliskan data atau informasi yang ingin dicari (lihat situs Yahoo.com atau Altavista.com). Yang harus diketahui oleh user adalah bahwa tidak semua situs memiliki
kemampuan yang sama dalam membantu user untuk mengekspresikan jenis data atau informasi yang ingin dicari. Dalam bahasa kompu ter cara mengekspresikan ini disebut sebagai query. Contohnya adalah
seseorang yang ingin mencari data atau informasi mengenai hal-hal yang berkaitan dengan kesehatan ibu dan anak, dapat menggunakan query semacam: “kesehatan” and “ibu” and “anak”.Walaupun secara
internasional telah diusulkan dan ditentukan standar baku dalam menuliskan sebuah query, namun terlihat bahwa masing -masing situs menawarkan beragam cara yang berbeda. Yang utama bagi user adalah
bahwa Query Interface yang ditawarkan mudah dipergunakan dan efektif.
2. Query Engine
Komponen kedua adalah Query Engine, merupakan sebuah program yang bertugas untuk menterjemahkan keinginan user ke dalam bahasa yang dimengerti oleh mesin komputer. Secara teknis, perusahaan-
perusahaan penyedia searching engine berlomba-lomba membuat query engine yang baik sehingga selain tepat dalam mengekspresikan k einginan user, dapat pula melakukan tugas pencarian secara cepat.
Query Engine ini pulalah yang segera melakukan pencarian arsip dan dokumen yang tepat di dalam sistem basis data (database) y ang bersangkutan
3. Database
Database pada dasarnya merupakan kumpulan atau daftar dari dokumen maupun arsip dari seluruh situs yang ada di internet. Semakin besar skala internet, akan semakin besar pula kapasitas penyimpan yang
dibutuhkan.
4. Spider
Spider merupakan komponen terpenting dalam sebuah searching engine. Secara berkala dan kontinyu, spider akan mendata setiap situs yang ada di internet, baik yang baru maupun yang lama. Terhadap
masing-masing situs, selain alamatnya, akan diambil kata-kata kunci dari arsip maupun dokumen yang ditemukan. Katakanlah dari situs Bidanku.com akan diambil setiap kata pada kalimat judul artikel, disinilah
sebenarnya persaingan antara situs terjadi, yaitu strategi dan teknik apa yang dipergunakan dalam melakukan sampling terhadap kata-kata yang akan menjadi kunci dalam pencarian arsip dan dokumen.
Harap diingat bahwa tidak semua situs melakukan proses updating dan sampling ini secara kontinyu (24 jam sehari), yang dapat menyebabkan telah hilangnya beberapa arsip dan dokumen dari internet saat
user mencarinya.
5. Indexer
Indexer merupakan sebuah program untuk mempercepat proses pencarian. Filosofi yang dipergunakan mirip dengan prinsip penggunaan indeks pada kamus atau buku-buku. Perang antar situs pun terjadi di sini,
karena teknik melakukan indeks akan sangat berpengaruh terhadap kecepatan pencarian data atau informasi. Biasanya yang terjad i di sini adalah adu algoritma (alur logika sebuah program) antar para
programmer yang direkrut oleh masing-masing perusahaan.
JENIS SEARCH ENGINE
1. Human Organized Search Engine
Mesin pencari yang dikelola sepenuhnya oleh tangan manusia. Mesin pencari ini menggunakan metode dengan memilah -milih informasi yang relevan dan dikelompokan sedemikian
rupa sehingga lebih bermakna dan bermanfaaat bagi penggunannya. Situs ini dalam prakteknya memperkerjakan para pakar dalam bidang-bidang tertentu, kemudian para pakar
tersebut dapat mengkelompokan situs-situs tertentu sesuai dengan bidangnnya atau kategori situs itu sendiri.
Contoh: Yahoo!(www.yahoo.com), LooKSmart (www.looksmart.com), About (www.about.com) , Open Directory (Dmoz.org).
2. Computer Created Search Engine
Search engine kategori ini banyak memiliki kelebihan karena banyak menyajikan inforrmasi walaupun kadang-kadang ada beberapa informasi yang tidak relevan tidak seperti yang
kita inginkan. Search engine ini telah menggunakan software laba-laba atau spider software yang berfungsi menyusup pada situs-situs tertentu, kemudian mengumpulkan data serta
mengelompokan dengan sedikit bantuan tangan manusia.
Contoh: WebCrawler (www.webcrawler.com), Excite (www.excite.com), Inktomi (www.inktomi.com), Northen Light (www.northenlight.com), Fast Search (www.altheweb.com).
3. Hybrid Seacrh Engine
Merupakan gabungan antara tangan manusia dengan computer, sehingga menghasilkan hasil pencarian yang relative akurat. Peran manusia dalam hal ini adalah sebagai penelaah
dalam proses pengkoleksian database halaman web. Sebenarnya tipe ini lah yang paling mudah pembuatannya karena dapat didesain sesuai dengan keinginan kita.
Contoh: Google (www.google.com), Lycos (www.lycos.com), AltaVista (www.altavista.com), HotBot (www.hotbot.com), Go To (www.goto.com), Snap (www.snap.com), Direct Hit
(www.directhit.com), Go (go.com).
4. MetaCrawler/Metasearch
Merupakan perantara dari mesin pencari yang sebenarnya. Mesin ini hanya akan mengirimkan permintaan pencarian ke berbagai mesin pencari serta menampilkan hasilnya satu di
layer browser sehingga akan menampilkan banyak sekali hasil dari ber bagai mesin pencari yang ada.
Contoh: SavvySearch (savvysearch.com), Dogpile (www.dogpile.com), The Big Hub (www.infind.com), C4 Total Search (www.snap.com).
CARA KERJA SEARCH ENGINE
Program Search Engine dalam menjalankan fungsinya sebenarnya bekerja bersamaan dengan Browser. Ketika kita mengetikkan sesuatu lalu Enter, Search Engine-lah yang
bekerja melakukan pencarian di database. Hasil yang didapat diberikan kembali ke Browser, lalu Browser menampilkannya untuk kita dalam format yang mudah kita
mengerti. Sebenarnya Search Engine tidak tampak, ia bekerja di balik layar. Search Engine juga sebenarnya bekerja dengan tema n-temannya
yaitu crawler atau indexer atau robot atau bot.
Sederhananya, proses yang berlangsung adalah: saat user membuka Browser, dan memerintahkan pencarian, maka browser minta tolong Search Engine untuk mencarikan.
Jika sudah didapat, hasilnya dikembalikan ke Browser dan Browser menampilkannya untuk user. Semuanya berlangsung sangat cepat sehingga kita tidak mengetahui proses
sesungguhnya yang terjadi.
Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil secara langsung dari www. Halaman ini di ambil dengan web
crawler-browser web yang otomatis mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya kata-kata di
ambil dari judul, subjudul, atau field khusus yang di sebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian
selanjutnya.
Sebagian mesin pencari seperti Google, menyimpan seluruh atau sebagian halaman sumber (yang disebut cache) maupun informasi tentang halaman web itu sendiri. Ketika
seorang pengguna menggunakan mesin pencari dan memasukan query, biasanya dengan memasukan kata kunci, mesin mencari akan meng indeks dan memberikan daftar
halaman web yang paling sesuai dengan kriterianya. Daftar ini biasanya disertai ringkasan singkat menggenai judul dokumen dan terkadang sebagian teks dari hasil
pencarian yang kita cari.
Sangat banyak hasil data yang akan di munculkan oleh mesin pencari ketika pengguna mengetikan sebuah kata kunci, urutan yang ada di paling atas atau halaman
pertamalah yang mempunyai isi paling akurat. Keakuratan sebuah mesin pencari dalam menyajikan data dan informasi yang dicari oleh pengguna dapat menjadi tolak ukur
kualitas sebuah mesin pencari. Semakin tinggi keakuratan data yang disajikan maka semakin baik mesin pencarian tersebut. Untuk mencari sebuah informasi pada sebuah
laman web, juga bisa dituliskan pada query web yang telah kita buka.
Secara umum, cara kerja mesin pencarian dimulai saat user menulis alamat website (URL). Saat alamat web terisi, maka spider d ari search engine akan menerima dan
menganalisa URL. Secara otomatis spider memutuskan web yang didaftar layak diterima atau tidak. Jika layak, maka spider langsung menambahkan alamat URL tersebut ke
sistem database. Rangking segera ditetapkan dengan algoritma dan caranya masing-masing. Jika tidak layak maka users terpaksa bersabar dan mengulangi pendaftaran
diwaktu yang lain.
MESIN PENCARIAN GOOGLE
Google merupakan sebuah perusahaan publik Amerika Serikat, berperan dalam pencarian Internet, Cloud Computing, serta teknologi iklan online &
perangkat lunak (mesin pencari terbesar di dunia). Alamat web (http://www.google.com).
Selain pencarian web, Google juga menyediakan jasa pencarian gambar, pencarian berita serta pencarian pada arsip USENET (newsgroup), serta
direktori, seperti Yahoo! Kelemahannya terletak pada tidak tersedianya pencarian file, video, dan audio. Keunggulan Google te rutama adalah pada
pencarian teks, terutama dari algoritma PageRank, database-nya yang besar serta banyaknya jenis file yang diindeksnya.
Kelebihan:
Kecepatan dan kemudahan dalam mencari
lebih canggih dengan fitur yang dimilikinya
Tampilan yang sederhana
Google merupakan satu-satunya mesin pencari yang memilki cach. Dengan adanya cache ini, si pencari dapat menghemat waktu pencarian, karena
hasil pencarian yang akan ditampilkan
Dapat mencari segala informasi seperti gambar, berita artikel, hiburan dll.
Kekurangan:
Dengan kelebihan yang dimilikinya, ternyata mesin pencari ini jadi bidikan para spamer untuk menampilkan iklan-iklan yang tidak diperlukan.
Mereka memanfaatkan setiap celah yang ada pada sistem algoritma Google untuk memaksa iklan mereka tampil pada halaman terdepan. Maka,
pencarian pun terasa tergangggu.
FITUR PENCARIAN GOOGLE
Secara umum, jenis pencarian pada mesin pencarian/website ada dua yaitu: Basic
Search dan Advanced Search. Basic Search adalah fitur pencarian yang sudah biasa kita gunakan
yaitu ketika mengakses langsung, missal pada google.com. Sedangkan Advanced
Search menyediakan berbagai pilihan fitur pencarian baik untuk operator dasar, file format yang
ingin kita cari, bahasa, region, dsb.
Sebenarnya masih sangat banyak fitur pencarian yang bisa kita gunakan, tapi tidak terdapat di
menu pilihan Advanced Search. Dengan kata lain kita harus memasukannya query di form
pencarian di Basic Search langsung. Di bawah ini akan disajikan permainan query dan operator
pencarian.
FITUR PENCARIAN DASAR
• FRASE: Mencari informasi yang mengandung frase yang dicari dengan menggunakan tanda “”. Contoh: “kesehatan
reproduksi”
• SINONIM (~): Mencari kata beserta sinonim-sinonimnya. Contoh di bawah akan membawa hasil pencarian: bayi
baru lahir (infant) dan sinonimnya. Contoh: ~infant
• ASTERIK (*): Karakter pengganti kata. Dari contoh di bawah, hasil yang didapat bisa: ikan bakar pedas, ikan
goreng pedas, ikan masak pedas, dsb. Contoh: ikan * pedas
• TANDA TITIK (.): Karakter pengganti huruf, angka dan karakter tunggal. Dari contoh di bawah, hasil yang didapat
bisa: kopi, koki, kodi, dsb. Contoh: ko.i
• CASE INSENSITIVE: Pencarian di Google menganggap kapital dan bukan kapital sebagai sesuatu yang sama.
Jadi, kehamilan aterm, Kehamilan Aterm, KEHAMILAN aterm, akan membawa hasil pencarian yang sama
• PENGABAIAN KATA: Google mengabaikan keyword berupa karakter tunggal dan kata-kata berikut: a, about, an,
and, are, as, at, b, by, from, how, i , in, is, it, of, on, or, that, the, this, to, we, what, when, where, which, with . Apabila
kita masih tetap menginginkan pencarian kata tersebut, bisa dengan menggunakan karakter + di depan kata yang
dicari (contoh: Love Rain Episode +I), atau bisa juga dengan menganggapnya sebagai frase (contoh: “Love Rain
Episode I”)
• I’M FEELING LUCKY: Akan membawa kita langsung menuju ke hasil pencarian pertama dari query kita.
FITUR PENCARIAN LANJUTAN
• DEFINE: Mencari definisi dari sebuah terminologi. Dari contoh di bawah, hasil yang didapat adalah berbagai definisi tentang e-learning dari berbagai
sumber. Contoh: define:e-learning
• CACHE: Menampilkan situs web yang telah diindeks oleh Google meskipun sudah tidak aktif lagi. Contoh di bawah akan menghasilkan pencarian
kata php pada situs bidanku.com yang ada di indeks Google. Contoh: cache:bidanku.com php
• LINK: Menampilkan daftar link yang mengarah ke sebuah situs. Contoh di bawah akan menampilkan daftar link yang mengarah ke situs bidanku.com.
Contoh: link:bidanku.com
• RELATED: Menampilkan daftar situs yang serupa, mirip atau memiliki hubungan dengan suatu situs. Contoh: related:oshigita.wordpress.com
• INFO: Menampilkan informasi yang Google ketahui tentang sebuah situs. Contoh: info:oshigita.wordpress.com
• SITE: Menampilkan pencarian khusus di suatu situs yang ditunjuk. Contoh: java site:bidanku.com
• FILETYPE: Menampilkan hasil pencarian berupa suatu jenis (ekstensi) file tertentu. Jenis file yang bisa dicari adalah: doc, xls, rtf, swf, ps, lwp, wri, ppt, pdf,
mdb, txt, dsb. Contoh di bawah akan menampilkan hasil pencarian berupafile PDF yang mengandung keyword preeklamsi berat. Contoh: preeklamsi berat
filetype:pdf
• ALLINTITLE: Menampilkan seluruh kata yang dicari dalam TITLE halaman. Contoh di bawah akan menghasilkan halaman yang memiliki title mola hidatidosa.
Allintitle ini tidak dapat digabungkan dengan operator (sintaks) lain. Gunakan intitle untuk keperluan itu. Contoh: allintitle:mola hidatidosa
• INTITLE: Menampilkan satu kata yang dicari dalam TITLE halaman. Contoh di bawah akan menghasilkan halaman yang memiliki title kehamilan dan isi
halaman yang mengandung kata perdarahan. Contoh: intitle:kehamilan perdarahan
• ALLINURL: Menampilkan seluruh kata yang dicari di dalam URL. Contoh di bawah akan menghasilkan daftar URL yang mengandung
kata imunisasi dan bayi. Allinurl ini tidak dapat digabungkan dengan operator (sintaks) lain. Gunakan inurl untuk keperluan itu. Contoh: allinurl:imunisasi bayi
• INURL: Menampilkan satu kata yang dicari di dalam URL. Contoh di bawah akan menghasilkan daftar URL yang mengandung kata kontrasepsi dan isi
halaman yang mengandung kata hormonal. Contoh: inurl:kontrasepsi hormonal
BOOLEAN LOGIC
Boolean logic adalah suatu pencarian pelacakan yang menyatakan tentang hubungan antara variabel yang dicari
dengan variabel terkait. Boolean logic juga merupakan identifikasi spesifik tentang artikel yang akan dicari. Boolean
logic dikembangkan oleh George Boole (1815-1864), adalah suatu metode pencarian informasi, yang memfokuskan
hasil penelusuran dimana pencarian datanya menggunakan kata kunci.
Boolean logic terdiri dari operasi logika AND, OR dan NOT. Pada fitur pencarian Google, operasi ini merupakan
bagian dari fitur pencarian dasar. Penggunaan operasi logika ini dapat memudahkan user dalam mendapatkan
informasi yang diinginkan. Boolean logic merupakan operasi logika yang digunakan untuk mendapatkan informasi di
PubMed (NCBI).
:
AND: Mencari informasi yang mengandung kedua kata yang dicari. Bisa menggunakan salah satu dari tiga alternatif
berikut. Contoh: kehamilan gemelli , kehamilan AND gemeli, kehamilan+gemelli
OR: Mencari informasi yang mengandung salah satu dari kedua kata. Bisa menggunakan salah satu dari dua alternatif
berikut. Contoh: kembar OR gemelli, kembar | gemelli
NOT: Hasil pencarian mengandung kata yang di depan, tapi tidak yang dibelakang minus (-). Contoh di bawah akan
mencari informasi yang mengandung kata kontrasepsi tapi bukan suntik. Contoh: kontrasepsi –suntik.
Pencarian yang kita lakukan akan semakin efektif apabila kita mencoba menggabungkan beberapa operator baik
yang ada di fitur pencarian dasar, pencarian lanjut, maupun Boolean logic. Misalnya, kita ingin mencari file PDF
tentang kehamilan ektopik (ectopic pregnancy) yang ada di situs www.ncbi.nlm.nih.gov. Maka kita gabungkan tiga
operator menjadi; Contoh: ectopic AND pregnancy filetype:pdf site:www.ncbi.nlm.nih.gov.