Indexed, though blocked by robots txt adalah salah satu isu website yang cukup sering terjadi. Jika suatu website memiliki masalah ini, biasanya pemilik akan mendapatkan notifikasi di dashboard Google Search Consolenya. Pertanyaannya, apa maksud dari diindeks meskipun diblokir oleh robots.txt ini?.
Ulasan yang kami bagikan kali ini akan fokus menyoroti penyebab dan juga sekaligus solusi cara mengatasi masalah indexing ini. Selengkapnya, langsung saja, simak ulasan yang telah kami siapkan di bawah!
Apa Itu robots txt?
Robots.txt adalah sebuah file yang memuat berbagai kumpulan instruksi yang digunakan oleh web crawler sebagai panduan dalam melakukan crawling (perayapan) sebuah halaman website.
Dalam hal ini, Anda dapat membuat robot.txt yang dapat memberikan instruksti kepada web crawler terkait apa yang boleh dan tidak boleh dilakukan pada halaman website Anda.
File robots.txt ini sendiri biasanya dapat Anda manfaatkan untuk membatasi akses sejumlah halaman penting, yang memang hanya khusus untuk pengguna (tidak seharusnya terindeks ke SERP). Contohnya seperti halaman login pengguna. Halaman ini seharusnya tidak boleh terindex di SERP.
Demi mencegah indexing tersebut, Anda dapat menambahkan robots.txt untuk memberitahu web crawler agar tidak mengindeksnya.
Baca Juga: Apa itu Robots.txt dan Bagaimana Cara Menggunakannya?
Apa Maksud dari Diindeks Meskipun Diblokir oleh Robots.txt?
Seperti yang telah kami sebutkan sebelumnya, keberadaan robots.txt dapat memerintahkan web crawler untuk tidak menampilkan suatu atau beberapa halaman website. Namun, terdapat case, di mana web crawler tidak mengindahkan perintah tersebut dan tetap melakukan indexing terhadap halaman terkait.
Hal inilah yang menyebabkan masalah indexed, though blocked by robots txt muncul di dashboard Google Search Console.
Jika peringatan masalah indexing ini muncul di Google Search Console Anda, maka hal tersebut mengindikasikan bahwa terdapat halaman penting yang seharusnya bersifat private, terindeks oleh web crawler.
Cara Mengatasi Isu Indexed, though blocked by robots txt
Setelah membahas mengenai apa maksud dari diindeks meskipun diblokir oleh robots.txt, mari lanjut ke solusi dari masalah indexing ini!
Ketika isu ini terjadi pada suatu halaman website, terdapat dua jenis penanganan yang dapat Anda lakukan berdasarkan kondisi tertentu. Lebih jelasnya, berikut adalah penjelasan mengenai cara mengatasi masalah indexing ini!
1. Kondisi 1: URL Tidak Perlu Terindeks
Jika halaman website dengan isu ini pada dasarnya memang tidak seharusnya terindeks ke SERP, berikut beberapa tindakan yang dapat Anda lakukan.
a. Memeriksa File Robots.txt
Cara paling dasar untuk mencegah suatu halaman website terayapi dan terindeks adalah dengan memeriksa file robots.txt nya. Dalam hal ini, Anda harus memastikan bahwa halaman yang ingin Anda batasi dari pengindeksan memiliki disallow statement.
Meskipun hal ini merupakan basic, namun masih banyak blogger yang terkadang lupa untuk mengatur statement ini pada halaman yang ingin mereka cegah untuk index.
b. Menggunakan Noindex Directive
Seperti yang diketahui, bahwa crawling dan indexing merupakan dua proses yang berbeda. Dalam hal ini, crawling merujuk pada kondisi yang mana web crawler telah menemukan dan merayapi halaman website. Di lain sisi, indexing adalah kondisi yang mana halaman website telah web crawler simpan untuk tampil di SERP.
Jika apa maksud dari diindeks meskipun diblokir oleh robots.txt ini muncul sebagai salah satu isu di Google Search Console Anda, Anda dapat mengatasinya dengan menambahkan tag noindex pada halaman yang memiliki isu tersebut.
Dengan adanya tag ini, maka meskipun halaman website berhasil web crawler rayapi, namun mesin pencari tidak akan mengindeks halaman tersebut.
c. Memutus Link dengan Halaman Lain
Pada beberapa kasus, terindeksnya halaman website yang seharusnya bersifat private di SERP terjadi karena adanya backlink yang menuju halaman tersebut. Jadi, web crawler merayapi dan mengindeks halaman terkait melalui backlink tersebut.
Maka dari itu, Anda harus memastikan bahwa tidak terdapat halaman luar atau backlink yang mengarah ke halaman website yang tidak ingin Anda indeks. Jika memang terdapat backlink yang mengarah ke halaman tersebut, maka Anda harus menghapus tautan di sumber backlink tersebut.
2. Kondisi 2: URL Perlu Terindeks
Jika halaman yang memiliki isu indexing ini memang sebelumnya Anda niatkan untuk terindeks, maka Anda perlu memeriksa pengaturan crawling halaman website Anda. Pasalnya, halaman tersebut index di SERP, namun web crawler tidak merayapinya. Khusus kondisi ini, Anda dapat mengikuti langkah penanganan berikut ini!
a. Memeriksa Crawl Block di Robots.txt
Langkah penanganan pertama yang dapat Anda lakukan adalah melakukan pemeriksaan crawl block di robots.txt Anda. Di bagian ini, Anda harus memastikan apakah robots.txt memblokir akses halaman yang ingin Anda index.
File robots,txt ini sendiri dapat Anda akses dengan mengetik “namadomainanda.com/robots.txt”. Jika pada crawl block, Anda menemukan bahwa terdapat disallow statement, maka Anda harus mengganti statement tersebut menjadi allow.
b. Memeriksa User Agent Block
Website dapat saja memblokir akses user agent, sepeti Ahrefsbot atau Googlebot, sehingga bot tersebut tidak dapat melakukan perayapan.
Saat hal ini terjadi, Anda hanya tidak dapat menemukan hasil pencarian halaman website Anda di hasil penelusuran search engine yang akses botnya terblokir. Namun, halaman website Anda masih akan muncul pada hasil penelusuran mesin pencari lain.
Biasanya, permasalahan ini terjadi karena terdapatnya blokir dari sistem website, seperti htaccess, CDN, server configuration, firewall, dan lainnya. Khusus bagian ini, tindakan terbaik yang dapat Anda lakukan adalah menghubungi penyedia hosting atau CDN untuk mencari asal letak blocking tersebut.
c. Memeriksa Intermittent Block
Tindakan lainnya yang juga dapat Anda lakukan untuk mengatasi apa maksud dari diindeks meskipun diblokir oleh robots.txt ini adalah dengan melakukan pemeriksaan intermittent block.
Intermittent block ini adalah kondisi saat penyebab masalah crawling sulit untuk dapat Anda pastikan. Pada bagian ini, Anda harus memeriksa history dari robots.txt website Anda.
Anda dapat menggunakan tool seperti GSC robots.txt tester untuk melihat versi file sebelumnya dan memastikan apakah terdapat instruksti yang tidak tepat? Solusi untuk isu ini sendiri dapat beragam, tergantung dari penyebab kondisi intermittent block ini.
Misalnya, penyebab kondisi ini adalah penggunaan cache, yaitu akibat blokir dari robots.txt ketika cache mode pengujian aktif. Solusi untuk isu ini adalah menghilangkan file robots.txt dari cache pada mode pengujian.
3. Menggunakan Tag Header Robot
Masalah Indexed, though blocked by robots txt pada dasarnya muncul karena web crawler mengabaikan perintah dari robots.txt untuk tidak mengindeks halaman terkait. Masalah ini juga dapat Anda selesaikan dengan menggunakan tag header robot untuk menginstruksikan web crawler, agar tidak mengindeks halaman terkait.
Hingga hari ini, Google sendiri masih mendukung tag header robot. Jadi, web crawler tidak akan mengabaikan instruksi dari tag header robot ini, seperti pada kasus file robots.txt.
Sebelumnya, perintah tag header robot ini dapat Anda pasang secara melalui secara otomatis fitur “tag tajuk robot khusus”. Namun, belakangan ini kami mendapati bahwa fitur ini telah tidak berfungsi.
Maka dari itu, Anda harus memasang tag header robot ini secara manual. Bagaimana caranya? Caranya cukup sederhana, yang mana Anda harus memasang kode html di bawah pada bagian <head> halaman website terkait. Di bawah ini cara penulisannya!
<!-- Meta Robot -->
<b:if cond="data:view.isSearch or data:view.isArchive">
<meta content='noindex, noarchive' name='robots'/>
</b:if>
Selanjutnya, Anda dapat menghapus disallow statement, yaitu Disallow:/search di file robot.txt Anda. Bagian ini harus Anda lakukan, pasalnya Google tidak dapat membaca perintah dari tag meta robot yang terpasang, jika statement tersebut masih tersedia.
Khusus untuk blogger, Anda dapat menghapus statement tersebut melalui menu setting – Crawler dan pengindeksan – Aktifkan fitur robots.txt kustom.
Selanjutnya, klik pada bagian robots.txt kustom dan masukkan kode berikut ini!
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /
Sitemap: https://namadomainanda.com/sitemap.xml
4. Memeriksa IP Block
Jika Anda telah melakukan semua tindakan di atas, namun masalah itu tetap muncul sebagai status di GSC Anda, maka kemungkinan penyebabnya adalah terdapatnya masalah pemblokiran pada IP Address.
Solusi untuk menyelesaikan masalah IP Address ini adalah dengan menghubungi penyedia hosting atau CDN website Anda. Pasalnya, masalah IP Block ini termasuk masalah teknis yang sulit untuk dilacak.
Jadi, Anda membutuhkan bantuan pihak penyedia hosting atau CDN untuk menemukan sumber pemblokiran dan solusi menyelesaikannya.
Masalah Indexing Selain Indexed, though blocked by robots txt
Setelah lengkap membahas mengenai apa maksud dari diindeks meskipun diblokir oleh robots.txt. Sebagai penutup, kami juga akan sedikit membahas mengenai isu indexing lainnya yang sering muncul di Google Search Console. Adapun sejumlah isu tersebut meliputi
1. Anomali crawling
Isu Anomali crawling ini biasanya muncul saat terdapat URL halaman website yang awalnya telah terindeks, namun telah di hapus dari website. Masalah ini sebenarnya bukan masalah critical, jadi Anda dapat mengabaikannya.
Jika Anda memang ingin memperbaikinya, Anda dapat melakukan redirect halaman yang bermasalah ke halaman baru.
2. Crawled – currently not indexed
Crawled – currently not indexed adalah masalah indexing lainnya yang juga kerap muncul di Google Search Console. Masalah ini umumnya terjadi akibat terdapat URL RSS Feed yang tidak dapat tampil di SERP. Sama dengan sebelumnya, masalah ini juga bukan termasuk masalah critical. Jadi, Anda dapat mengabaikannya.
Baca Juga: Artikel Terkena Deindex Google? Ini Solusi yang Dapat Anda Coba!
Telah Paham tentang Apa Maksud dari Diindeks Meskipun Diblokir oleh Robots.txt?
Jadi, apa maksud dari diindeks meskipun diblokir oleh robots.txt adalah isu atau masalah indexing, dimana web crawler tidak mengindahkan perintah robots.txt untuk tidak mengindeks halaman website.
Penyebab masalah indexing ini sendiri dapat beragam, mulai dari kesalahan pengaturan statement, terdapatnya backlink yang mengarah ke halaman terkait, hingga kondisi intermittent block.
Jika Anda website Anda mengalami masalah ini, Anda dapat mengikuti beberapa solusi di atas, mulai dari memeriksa file Robots.txt hingga memeriksa IP block untuk menyelesaikannya. Semoga ulasan ini bermanfaat.
I’m an experienced SEO Specialist who can grow a website through organic channel. I’m also passionate about digital marketing and web development