Selasa, Februari 10, 2009 | Posted in

Bagaimana Search Engine Bekerja - Crawling & Indexing

Hi, Bersama Saya lagi  Mas Yoyok di hari yang cerah ini.. Hari ini kita akan belajar lagi lanjutan - tentang bagaimana search engine bekerja - crawling & indexing.. Semoga bermanfaat bagi Anda semua, dan bagi yang sudah mengetahuinya semoga mendapatkan ide baru atau tips baru dari DVD ini. Mari kita mulai…..

Fungsi Search Engine adalah Spidering , Indexing, dan Analisis Link. .Dan akan mengembalikan hasil berupa urutan website berdasarkan hasil yang dikerjakan oleh hasil crawling dari spider search engine tersebut. Hal yang paling pertama kita lihat dalam indexing adalah URL(uniform resources locator).

So, jadi bagaimana Search Engine menemukan website Anda :

  • Submission via web form (Google)
  • Submission via XML sitemap (”Big 4″)
  • Paid Inclusion (Yahoo)
  • Found Links (All)

Tapi pada saat ini , memasukkan website Anda ke search engine submission adalah “membuang-buang waktu” Anda. So, Peter bagaimana cara tercepat ?? Adalah dengan membuat linkback ke website kita. XML juga adalah hal yang bagus, karena dia memberikan kepada search engine one-stop “Change List” kepada page yang terupdate. Terkadang banyak yang salah dalam penggunaan XML sitemap ini, orang berpikir bahwa mereka bisa mendapatkan special priority pada halaman tertentu, XML sitemap ini tidak akan mengatakan kepada search engine halaman mana yang ingin Anda prioritaskan

Mari kita lanjutkan , kita bicara sekarang tentang spider & crawling.. Spider, robot, crawler adalah hal yang sama, hanya memiliki nama berbeda, mereka adalah software yang dikirimkan oleh search engine untuk mengecek website. Tetapi dalam website Anda ada yang di maksud dengan Follows “Robot Exclusion Protocol” (akan dibicarakan tentang hal ini di materi-materi berikutnya), dimana fungsinya adalah untuk mengatakan kepada spider search engine untuk page mana yang boleh di-cek dan tidak boleh di-cek. Setelah Spider melakukan hal ini, maka dia akan menyimpan semua informasi tersebut untuk nantinya di index.

Kencangkan sabuk pengaman Anda, sekarang kita lebih kearah technical… HTTP , Hyper Text Transfer Protocol, adalah bagian dari rule lainnya yang dipergunakan oleh spider, karena HTTP adalah bahasa rahasia dari sebuah web. Ini adalah protocol yang digunakan oleh web browser Anda, yang Anda tidak menyadari bahwa spider mengikuti protocol tersebut. Mereka memiliki HEAD Request, GET Request dan POST Request. Dalam hal ini spider mengrimkan request ke website Anda dan website Anda mejawab dengan statis code.Anda bisa mengecek server response dengan WebBug di www.cyperspyder.com (tips : gunakan HTTP/1.1 Saja), Atau Anda bisa melihatnya di Firefox dengan menggunakan pluggin “Live HTTP Headers”. ini bukan hal yang mesti Anda dalami, tapi cukup bagus jika Anda mengetahuinya sedikit tentang ini.

Request yang biasanya dilakukan oleh Spider Search Engine biasanya seperti ini :

  • Get somepage.html
  • Host : www.URLAnda.com
  • Jika-Dimodifikasi-Sejak (Check Terakhir)
  • User-Agent : (GoogleBot, etc)

Dan Biasanya respon yang akan di berikan oleh website kita adalah :

  • 200 OK - server mengirimkan pagenya
  • 301 - Dipindahkan secara permanen (ke URL baru)
  • 302 - Ditemukan (pada URL “sementara”)
  • 304 - Ditemukan (Tidak Berubah, sejak terakhir di cek)
  • 404 - Tidak ditemukan / 410 Hilang

Mari kita bergerak lagi untuk topic selanjutnya, tentang parsing dan indexing.. atau apa yang terjadi setelah spider ini menemukan website kita. Pertama yang dilakukan adalah memproses website kita :

  • strip out Java script
  • strip out  most formatting
  • strip out IFRAME
  • Hanya melihat beberapa tags yang sangat berarti dalam proses indexing : title, meta description keyword, H1-H6, A,IMG

Konten yang tersimpan didalam proses pengindexan. Pada dasarnya proses pengindexan hanya berdasarkan “Kata-kata”, tidak ada gambar.. Dalam proses penyimpanan link di webpage Anda, semua link yang diduplikasikan dan dengan no-follow, akan tidak disimpan di special index oleh robot search engine. Hal yang perlu Anda waspada adalah kualitas dari link Anda, jangan sampai link Anda ada yang menuju ke halaman webpage dengan status 404/410/5xx, karena akan menurunkan kualitas website Anda.

Mari kita akhiri dengan Beberapa hal yang perlu Anda ketahui,

  • Search Engine tidak menyimpan web pages - mereka mengindex text di semua halamannya
  • Search Engine tidak melakukan Pencarian Web - Mereka hanya mencari dalam web yang sudah ter-Index oleh mereka

Semoga bermanfaat, Saya tunggu feedback Anda di Comment.. Thanks

Thanx buat Mas Kohar

Category:
��

Comments

0 responses to "Tips SEO"