Cara Kerja Search Engine

Posted: July 9, 2009 in Computer
Tags: ,

Search-Engine-Submission

Apa itu search engine?

Search Engine atau Mesin pencari adalah program komputer yang dirancang untuk membantu seseorang menemukan file-file yang disimpan dalam komputer, misalnya dalam sebuah server umum di web (WWW) atau dalam komputer sendiri. Mesin pencari memungkinkan kita untuk meminta content media dengan kriteria yang spesifik (biasanya yang berisi kata atau frasa yang kita tentukan) dan memperoleh daftar file yang memenuhi kriteria tersebut. Mesin pencari biasanya menggunakan indeks (yang sudah dibuat sebelumnya dan dimutakhirkan secara teratur) untuk mencari file setelah pengguna memasukkan kriteria pencarian.

Dalam konteks Internet, mesin pencari biasanya merujuk kepada WWW dan bukan protokol ataupun area lainnya. Selain itu, mesin pencari mengumpulkan data yang tersedia di newsgroup, database besar, atau direktori terbuka seperti DMOZ.org. Karena pengumpulan datanya dilakukan secara otomatis, mesin pencari berbeda dengan direktori Web yang dikerjakan manusia.

Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritma kepemilikan dan database tertutup – yang paling populer adalah Google (MSN Search dan Yahoo! tertinggal sedikit di belakang). Telah ada beberapa upaya menciptakan mesin pencari dengan sumber-terbuka (open-source), contohnya adalah Htdig, Nutch, Egothor dan OpenFTS.

Situs “search engine” selalu dipakai para pengguna internet untuk mencari arti atau uraian dalam dari sebuah kata kunci. Search engine dan direktori-direktorinya tidaklah seragam antara satu dengan lainnya. Perbedaannya terletak pada cara membuat daftar hasil kompilasinya.

Search engines memiliki tiga komponen penting yaitu:

  1. Crawler
  2. Index
  3. Software Search Engine

Elemen yang pertama disebut laba-laba (spider) juga disebut crawler. Elemen spider mengerjakan akses (kunjungan) ke situs-situs web, membaca isinya, dan kemudian mengikuti link-link yang ada pada situs. Elemen ini mengakses situs-situs web secara periodik satu atau dua bulan untuk melihat apakah ada perubahan dari situs-situs tersebut. Crawler, browser web otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya. Sebagian mesin pencari, seperti Google, menyimpan seluruh atau sebagian halaman sumber (yang disebut cache) maupun informasi tentang halaman web itu sendiri.

Tiap-tiap yang dijumpai elemen spider selalu akan dituliskan dalam sebuah index. Index merupakan elemen kedua dari search engine. Index sering pula disebut katalog yang mirip sebuah buku raksasa, berisikan copy dari setiap situs yang dikunjungi elemen spider. Jika elemen spider menemukan perubahan dari sebuah situs web, maka informasi dari situs web yang ada dalam katalog ini segera diperbaiki (up date).

Kadang-kadang diperlukan sebuah penulisan halaman baru sesuai dari temuan elemen spider pada situs web. Sehingga ada kemungkinan informasi baru dari sebuah situs web yang telah diakses oleh elemen spider tidak tertulis dalam index katalog.

Search Engine melakukan pengindeksan berdasarkan apa yang ada di situs (natural language). Tidak ada penyaringan lagi (kecuali untuk Meta Tag). Karena itulah search engine paling tepat jika digunakan untuk mencari informasi/konsep yang sudah jelas terdefinisi dan konsep tersebut sudah banyak digunakan. Kita tinggal menyebutkan konsep/istilahnya, kemudian search engine akan memberitahu dimana konsep itu berada. Namun ada juga search engine yang memiliki fasilitas tambahan, seperti Excite yang memiliki fasilitas penggunaan sinonim. Jadi, bila Anda mencari informasi cycling, Excite juga akan mencari bicycling Di lain pihak, search engine juga memiliki informasi yang sudah tidak up-to-date lagi. Penyebabnya adalah search engine belum melakukan pengecekan ulang lagi.  Keterbatasan search engine lainnya: tidak dapat memberikan informasi on-the-fly (yang dibuat karena eksekusi program).

Software search engine adalah elemen ketiga. Program inilah yang memilah ribuan data dalam katalog yang berisi copy halaman-halaman situs web tadi, dan mencocokannya sesuai permintaan user internet, dan menampilkan datanya ke layar monitor dan menyusunnya dalam daftar sesuai dengan ranking-nya.

Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya, biasanya disertai ringkasan singkat mengenai judul dokumen dan terkadang sebagian teksnya.

Ada jenis mesin pencari lain: mesin pencari real-time, seperti Orase. Mesin seperti ini tidak menggunakan indeks. Informasi yang diperlukan mesin tersebut hanya dikumpulkan jika ada pencarian baru. Jika dibandingkan dengan sistem berbasis indeks yang digunakan mesin-mesin seperti Google, sistem real-time ini unggul dalam beberapa hal: informasi selalu mutakhir, (hampir) tak ada pranala mati, dan lebih sedikit sumberdaya sistem yang diperlukan. (Google menggunakan hampir 100.000 komputer, Orase hanya satu.) Tetapi, ada juga kelemahannya: pencarian lebih lama rampungnya.

Manfaat Search Engine

Manfaat mesin pencari bergantung pada relevansi hasil-hasil yang diberikannya. Meskipun mungkin ada jutaan halaman web yang mengandung suatu kata atau frase, sebagian halaman mungkin lebih relevan, populer, atau autoritatif daripada yang lain. Kebanyakan mesin pencari menggunakan berbagai metode untuk menentukan peringkat hasil pencarian agar mampu memberikan hasil “terbaik” lebih dahulu. Cara mesin menentukan halaman mana yang paling sesuai, dan urutan halaman-halaman itu diperlihatkan, sangat bervariasi. Metode-metodenya juga berubah seiring waktu dengan berubahnya penggunaan internet dan berevolusinya teknik-teknik baru.

Sebagian besar mesin pencari web adalah usaha komersial yang didukung pemasukan iklan dan karenanya sebagian menjalankan praktik kontroversial, yaitu membolehkan pengiklan membayar agar halaman mereka diberi peringkat lebih tinggi dalam hasil pencarian.

Faktor-faktor yang menentukan kehandalan Search Engine :

  1. Ukuran database : Banyaknya URL dan kata-kata yang diindeks.
  2. Jenis Resource yang diliput : Apakah hanya informasi dari web atau termasuk  newsgroup dan ftp
  3. Kedalaman Pengindeksan : Tidak mungkin seluruh internet bisa diindeks. Oleh karena itu, beberapa spider hanya membatasi pengindeksan untuk beberapa dokumen dalam satu situs. Ada juga yang hanya mencatat paragraf pertama, halaman pertama atau hanya 100 kata pertama.
  4. Fasilitas : Kini search engine berlomba menawarkan penggunaan yang termudah. Mereka pun kini berlomba-lomba untuk menambah fasilitas-fasilitasnya yang lain.

Search Engine Paling Sering Digunakan

Dari sekian banyak search engine yang sering digunakan, PCWorld menempatkan Google sebagai peringkat pertama dari kategori search engine. Apabila dibandingkan dengan search engine Yahoo, Google lebih unggul dikarenakan banyakna hasil dari pencarian dan penampilan yang sangat minimal dan lebih mementingkan dari segi Conten (isi) dari web tersebut, sehingga Google akan jauh lebih cepat diakses dibandung dengan Yahoo.

Comments
  1. caw miaow says:

    data nya lengkp bgt lho,aq syhaluuuut….. pi da yg tntang web browser nya ga? aq gi disruh bkin tgs ttng web tu……

  2. army128bit says:

    sip infonya….
    kalo bisa sertakan tautan yang terkait mengenai search engine atau lebih detilnya mengarah ke IR (information retrieval).
    Ada source code untuk buat search engine sederhana nggak bro? kalo ada, bolehlah dibagi….
    smangat….

  3. army128bit says:

    matap bro…
    aku suka tulisanmu…
    untuk contoh search engine, saya menggunakan web sphider, yang merupakan web crawling/spider juga. dapat di lihat dan di download di Sphider Engine web.
    numpang crop tulisannya ya bro….
    makasih atas infonya….

  4. […] Selengkapnya dapat dibaca di sini […]

  5. Zaf says:

    nice impo gan :)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s