Skip to main content

Cara memperbaiki masalah di indeks meski diblokir robot.txt


Selamat Datang di Blog Orang IT. Dibeberapa forum blogger saya sering melihat orang-orang mengeluh terkait permasalahan di indeks meskipun diblokir oleh robots.txt pada laman google search console khususnya bagi pengguna platform blogger. Bagaimana cara memperbaikinya dan apa pengaruhnya bagi blog ?

Kalau menurut saya pribadi sebaiknya anda abaikan saja pesan " di index meskipun diblokir oleh robot.txt" , mengapa ? sekarang coba buka alat GSC > cakupan indeks > geser ke tab status dengan peringatan > scroll kebawah dibagian detail klik pada peringatan ; diindeks , mesipun diblokir oleh robots.txt

masalah di indeks meski diblokir robot.txt

Sekarang anda lihat baik-baik , halaman yang dikenai peringatan rata-rata berisi semua halaman pencarian berupa

Halaman label :
https://www.helmykediri.com/search/label/Info

Halaman pencarian :
https://www.helmykediri.com/search?q=Cara+membuat+blog

Halaman arsip :
https://www.helmykediri.com/search?updated-max=2015-09-06T16:36:00%2B07:00&max-results=11

Seperti peringatan yang muncul , halaman-halaman tersebut memang di indeks oleh mesin pencari meskipun diblokir oleh pengaturan robots.txt . Hal ini dikarenakan pengaturan robots.txt yang digunakan oleh blogger secara default terlihat seperti ini :

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: https://www.helmykediri.com/sitemap.xml

Untuk melihat pengaturan robots.txt yang anda gunakan , tambahkan robots.txt dibelakang root domain contoh https://www.helmykediri.com/robots.txt

Seperti yang anda lihat pada aturan robots.txt diatas bahwa semua bot mesin pencari * di ijinkan untuk merayap pada halaman kecuali dengan format namadomain.com/search tetapi bukan berarti itu tidak di indeks

Di indeks, meski diblokir oleh robots.txt: Halaman sudah diindeks, meskipun diblokir oleh robots.txt (Google selalu mematuhi robots.txt, namun tidak berlaku jika seseorang mencoba menaut ke halaman tersebut). Kondisi ini ditandai sebagai peringatan karena google tidak yakin apakah Anda sengaja memblokir halaman dari hasil penelusuran.

Jika Anda memang ingin memblokir halaman ini, robots.txt bukanlah mekanisme yang tepat untuk mencegah agar halaman tidak diindeks. Agar halaman tidak diindeks, sebaiknya gunakan 'noindex' atau wajibkan autentikasi untuk melarang akses anonim. Anda dapat menggunakan penguji robots.txt untuk menentukan aturan mana yang memblokir halaman ini. Karena robots.txt, semua cuplikan yang ditampilkan untuk halaman mungkin akan kurang optimal. Jika tidak ingin memblokir halaman ini, perbarui file robots.txt agar pemblokiran halaman dibatalkan.

Intinya halaman tersebut tetap di indeks ke mesin pencari google tetapi mungkin saat bot lain mencoba untuk terhubung melalui tautan link itu akan ditolak dan bot tidak akan bisa mendapatkan hasil data dari halaman tersebut karena diblokir saat proses perayapan oleh robots.txt akibatnya meskipun di indeks google tetapi tidak ada data yang ditampilkan

Cara memperbaiki masalah di indeks meski diblokir

Untuk mengatasi hal ini ada 2 cara :

1. Membolehkan bot mesin pencari untuk merayapi halaman "/search" dan mengijinkan perayapan bagi bot untuk mengekstract data pada halaman tersebut dengan membuka aturan pada file robots.txt

Caranya buka dashboard blogger > menu setelan > preferensi penelusuran > robots.txt khusus > aktifkan > pastekan robots.txt berikut tanpa /search

User-agent: *
Disallow: 
Allow: /

Sitemap: https://www.helmykediri.com/sitemap.xml

Lihat gambar , kalau sudah silahkan disimpan

Cara memperbaiki masalah di indeks meski diblokir robot.txt
Hapus "/seach"
Kenapa saya menghapus user agent dari bot adsense ?

User-agent: Mediapartners-Google
Disallow: 

Sebenarnya itu tidak berguna coba anda lihat pada robots.txt bawaan blogger default dibaris pertama mereka mengijinkan Mediapartners-Google (bot adsense) untuk merayap kemudian pada baris ketiga mereka menyebut * (semua bot) di ijinkan untuk merayap, jadi sebaiknya dihapus saja

Penjelasannya bisa dibaca di >
https://support.google.com/adsense/answer/10532?hl=id

Kemudian untuk sitemap dibaris paling akhir ada banyak versi, ada yang menambahkan semua versi sitemap kedalam robots.txt 

Sitemap: https://www.helmykediri.com/sitemap.xml
Sitemap: https://www.helmykediri.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.helmykediri.com/feeds/posts/default
Sitemap: https://www.helmykediri.com/sitemap-pages.xml

Dan ada juga yang menggunakan 1 versi saja yang sudah mencakup semua url didalam peta situs

Sitemap: https://www.helmykediri.com/sitemap.xml (semua url postingan)

Kalau pakai versi > Sitemap: https://www.helmykediri.com/feeds/posts/default (cuma dibatasi 50 url terbaru )

Kalau versi > https://www.helmykediri.com/sitemap-pages.xml ( untuk pos halaman statis )

Untuk versi > https://www.helmykediri.com/atom.xml?redirect=false&start-index=1&max-results=500 ( dibatasi url pos 1-500 )

Meski saya cuma menggunakan 1 sitemap saja : https://www.helmykediri.com/sitemap.xml bukan berarti postingan dihalaman statis tidak terindeks hanya saja kurang menjadi prioritas 

Oh ya anda juga harus mengirimkan robots.txt yang baru ke halaman search console > https://www.google.com/webmasters/tools/robots-testing-toolsiteUrl=https://www.helmykediri.com/
klik submit

2. Memblokir halaman pencarian agar tidak terindex google dengan tag nofollow

Seperti yang anda tau bahwa halaman /search biasanya digunakan untuk arsip , pencarian , label jadi itu tidak dicari orang digoogle alias tidak perlu di indeks kan ke mesin pencari google

Mengapa demikian ? karena itu cuma membuang crawl budget 

Setiap harinya website anda menerima kuota perayapan yang terbatas dari googlebot yang akan memberikan nilai otoritas pada seluruh halaman yang ada dibawah root domain anda, dengan banyaknya jumlah postingan disertai halaman lain (yang tidak penting) akan membuang crawl budget anda 

Halaman-halaman penting dan postingan terbaru yang seharusnya menjadi proritas malah kekurangan nilai karena skor pagerank/otoritas halaman dibagi terlalu banyak

Bagaimana cara agar googlebot tidak mengindeks halaman search ini ? tambahkan sepotong kode berikut tepat dibawah tag head

<!-- Noindex halaman pencarian, label, dan arsip -->
<b:if cond='data:blog.pageType in {&quot;archive&quot;} or data:blog.searchLabel or data:blog.searchQuery'>
<meta content='noindex,nofollow' name='robots'/>
</b:if>

Simpan template 

Setelah melakukan salah satu dari 2 cara yang saya berikan diatas selanjutnya buka kembali halaman google search console > menu coverage > geser ke tab berlaku dengan peringatan > scroll kebawah dibagian detail klik pada peringatan ; diindeks , meskipun diblokir oleh robots.txt > validate fix

di indeks meski diblokir robot.txt

Terakhir silahkan menunggu yahh mungkin sekitar 3-7 hari nanti kalau sudah fix saya update gambarnya dibawah :

Bagaimana cukup mudahkan memperbaiki masalah laporan perayapan digoogle search console terkait di indeks meskipun diblokir oleh robots.txt , ini statusnya bukan "masalah" tetapi "peringatan" bahwa googlebot berusaha memastikan halaman tersebut di indeks tetapi diblokir oleh robots.txt sehingga mungkin menolak tautan dari sumber lain jadi apabila anda ingin agar halaman tersebut tidak di indeks bukan melalui robots.txt melainkan melalui tag noindex

Sekian dan terimakasih
Jika Anda merasa bahwa artikel-artikel di blog ini bermanfaat, Anda bisa memberikan donasi melalui Paypal.

Diperbolehkan menyalin artikel diblog ini dengan syarat mencantumkan sumber link (teks langsung). Blog anda tidak akan dihapus , deindex , adsense tidak akan menerima keluhan hak cipta dari saya dsb
Buka Komentar
Tutup Komentar