Cara memperbaiki masalah di indeks meski diblokir robot.txt
Selamat Datang di Blog Orang IT. Dibeberapa forum blogger saya sering melihat orang-orang mengeluh terkait permasalahan di indeks meskipun diblokir oleh robots.txt pada laman google search console khususnya bagi pengguna platform blogger. Bagaimana cara memperbaikinya dan apa pengaruhnya bagi blog ?
Kalau menurut saya pribadi sebaiknya anda abaikan saja pesan " di index meskipun diblokir oleh robot.txt" , mengapa ? sekarang coba buka alat GSC > cakupan indeks > geser ke tab status dengan peringatan > scroll kebawah dibagian detail klik pada peringatan ; diindeks , mesipun diblokir oleh robots.txt
Sekarang anda lihat baik-baik , halaman yang dikenai peringatan rata-rata berisi semua halaman pencarian berupa
Halaman label :
https://www.helmykediri.com/search/label/Info
Halaman pencarian :
https://www.helmykediri.com/search?q=Cara+membuat+blog
Halaman arsip :
https://www.helmykediri.com/search?updated-max=2015-09-06T16:36:00%2B07:00&max-results=11
Seperti peringatan yang muncul , halaman-halaman tersebut memang di indeks oleh mesin pencari meskipun diblokir oleh pengaturan robots.txt . Hal ini dikarenakan pengaturan robots.txt yang digunakan oleh blogger secara default terlihat seperti ini :
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://www.helmykediri.com/sitemap.xml
Untuk melihat pengaturan robots.txt yang anda gunakan , tambahkan robots.txt dibelakang root domain contoh https://www.helmykediri.com/robots.txt
Seperti yang anda lihat pada aturan robots.txt diatas bahwa semua bot mesin pencari * di ijinkan untuk merayap pada halaman kecuali dengan format namadomain.com/search tetapi bukan berarti itu tidak di indeks
Di indeks, meski diblokir oleh robots.txt: Halaman sudah diindeks, meskipun diblokir oleh robots.txt (Google selalu mematuhi robots.txt, namun tidak berlaku jika seseorang mencoba menaut ke halaman tersebut). Kondisi ini ditandai sebagai peringatan karena google tidak yakin apakah Anda sengaja memblokir halaman dari hasil penelusuran.
Jika Anda memang ingin memblokir halaman ini, robots.txt bukanlah mekanisme yang tepat untuk mencegah agar halaman tidak diindeks. Agar halaman tidak diindeks, sebaiknya gunakan 'noindex' atau wajibkan autentikasi untuk melarang akses anonim. Anda dapat menggunakan penguji robots.txt untuk menentukan aturan mana yang memblokir halaman ini. Karena robots.txt, semua cuplikan yang ditampilkan untuk halaman mungkin akan kurang optimal. Jika tidak ingin memblokir halaman ini, perbarui file robots.txt agar pemblokiran halaman dibatalkan.
Jika Anda memang ingin memblokir halaman ini, robots.txt bukanlah mekanisme yang tepat untuk mencegah agar halaman tidak diindeks. Agar halaman tidak diindeks, sebaiknya gunakan 'noindex' atau wajibkan autentikasi untuk melarang akses anonim. Anda dapat menggunakan penguji robots.txt untuk menentukan aturan mana yang memblokir halaman ini. Karena robots.txt, semua cuplikan yang ditampilkan untuk halaman mungkin akan kurang optimal. Jika tidak ingin memblokir halaman ini, perbarui file robots.txt agar pemblokiran halaman dibatalkan.
Intinya halaman tersebut tetap di indeks ke mesin pencari google tetapi mungkin saat bot lain mencoba untuk terhubung melalui tautan link itu akan ditolak dan bot tidak akan bisa mendapatkan hasil data dari halaman tersebut karena diblokir saat proses perayapan oleh robots.txt akibatnya meskipun di indeks google tetapi tidak ada data yang ditampilkan
Untuk mengatasi hal ini ada 2 cara :
1. Membolehkan bot mesin pencari untuk merayapi halaman "/search" dan mengijinkan perayapan bagi bot untuk mengekstract data pada halaman tersebut dengan membuka aturan pada file robots.txt
Caranya buka dashboard blogger > menu setelan > preferensi penelusuran > robots.txt khusus > aktifkan > pastekan robots.txt berikut tanpa /search
User-agent: *
Disallow:
Allow: /
Sitemap: https://www.helmykediri.com/sitemap.xml
Lihat gambar , kalau sudah silahkan disimpan
![]() |
Hapus "/seach" |
Kenapa saya menghapus user agent dari bot adsense ?
User-agent: Mediapartners-Google
Disallow:
Sebenarnya itu tidak berguna coba anda lihat pada robots.txt bawaan blogger default dibaris pertama mereka mengijinkan Mediapartners-Google (bot adsense) untuk merayap kemudian pada baris ketiga mereka menyebut * (semua bot) di ijinkan untuk merayap, jadi sebaiknya dihapus saja
Penjelasannya bisa dibaca di >
https://support.google.com/adsense/answer/10532?hl=id
https://support.google.com/adsense/answer/10532?hl=id
Kemudian untuk sitemap dibaris paling akhir ada banyak versi, ada yang menambahkan semua versi sitemap kedalam robots.txt
Sitemap: https://www.helmykediri.com/sitemap.xml
Sitemap: https://www.helmykediri.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.helmykediri.com/feeds/posts/default
Sitemap: https://www.helmykediri.com/sitemap-pages.xml
Dan ada juga yang menggunakan 1 versi saja yang sudah mencakup semua url didalam peta situs
Sitemap: https://www.helmykediri.com/sitemap.xml (semua url postingan)
Kalau pakai versi > Sitemap: https://www.helmykediri.com/feeds/posts/default (cuma dibatasi 50 url terbaru )
Kalau versi > https://www.helmykediri.com/sitemap-pages.xml ( untuk pos halaman statis )
Untuk versi > https://www.helmykediri.com/atom.xml?redirect=false&start-index=1&max-results=500 ( dibatasi url pos 1-500 )
Meski saya cuma menggunakan 1 sitemap saja : https://www.helmykediri.com/sitemap.xml bukan berarti postingan dihalaman statis tidak terindeks hanya saja kurang menjadi prioritas
Oh ya anda juga harus mengirimkan robots.txt yang baru ke halaman search console > https://www.google.com/webmasters/tools/robots-testing-toolsiteUrl=https://www.helmykediri.com/
klik submit
klik submit
2. Memblokir halaman pencarian agar tidak terindex google dengan tag nofollow
Seperti yang anda tau bahwa halaman /search biasanya digunakan untuk arsip , pencarian , label jadi itu tidak dicari orang digoogle alias tidak perlu di indeks kan ke mesin pencari google
Mengapa demikian ? karena itu cuma membuang crawl budget
Setiap harinya website anda menerima kuota perayapan yang terbatas dari googlebot yang akan memberikan nilai otoritas pada seluruh halaman yang ada dibawah root domain anda, dengan banyaknya jumlah postingan disertai halaman lain (yang tidak penting) akan membuang crawl budget anda
Halaman-halaman penting dan postingan terbaru yang seharusnya menjadi proritas malah kekurangan nilai karena skor pagerank/otoritas halaman dibagi terlalu banyak
Bagaimana cara agar googlebot tidak mengindeks halaman search ini ? tambahkan sepotong kode berikut tepat dibawah tag head
<!-- Noindex halaman pencarian, label, dan arsip -->
<b:if cond='data:blog.pageType in {"archive"} or data:blog.searchLabel or data:blog.searchQuery'>
<meta content='noindex,nofollow' name='robots'/>
</b:if>
Simpan template
Setelah melakukan salah satu dari 2 cara yang saya berikan diatas selanjutnya buka kembali halaman google search console > menu coverage > geser ke tab berlaku dengan peringatan > scroll kebawah dibagian detail klik pada peringatan ; diindeks , meskipun diblokir oleh robots.txt > validate fix
Terakhir silahkan menunggu yahh mungkin sekitar 3-7 hari nanti kalau sudah fix saya update gambarnya dibawah :
Bagaimana cukup mudahkan memperbaiki masalah laporan perayapan digoogle search console terkait di indeks meskipun diblokir oleh robots.txt , ini statusnya bukan "masalah" tetapi "peringatan" bahwa googlebot berusaha memastikan halaman tersebut di indeks tetapi diblokir oleh robots.txt sehingga mungkin menolak tautan dari sumber lain jadi apabila anda ingin agar halaman tersebut tidak di indeks bukan melalui robots.txt melainkan melalui tag noindex
Sekian dan terimakasih
Posting Komentar untuk "Cara memperbaiki masalah di indeks meski diblokir robot.txt"
Diperbolehkan menyalin artikel yang ada diblog ini dengan syarat menyertakan sumber. Blog anda tidak akan dihapus , deindex , adsense tidak akan menerima keluhan hak cipta dari saya.