Crawl Budget Optimization

Cara Fix "Discovered - Currently Not Indexed" di GSC

Panduan Lengkap: Strategi "Pipa Besar" untuk mengatasi URL macet di antrean index website berskala masif.

Fundamental

Mengapa "Discovered" Terjadi?

Analogi: Gerbang Tol Macet

Bayangkan website Anda adalah jalan tol. Discovered berarti Googlebot (mobil) sudah melihat gerbang tol Anda di peta (Sitemap/Link), tapi antrean di gerbang sangat panjang atau penjaganya (Server) lambat bekerja.

Bot memutuskan untuk "Pulang dulu, nanti balik lagi kalau sepi". Masalahnya bukan pada konten (seperti di kasus Crawled), tapi pada KAPASITAS JALAN.

Crawl Budget Habis

Setiap website memiliki "jatah kuota" harian. Jika website Anda punya 1 juta halaman tapi server lambat, Google mungkin hanya sempat merayapi 1.000 halaman per hari.

Status sudah berubah jadi "Crawled"? Cek panduan ini:
Solusi Crawled Not Indexed

Deep Dive

Mekanisme Crawl Budget

Crawl Budget bukan angka acak. Ia dipengaruhi oleh dua faktor utama yang saling tarik-menarik:

1. Crawl Rate Limit (Kesehatan Server)

Googlebot bertanya: "Seberapa cepat server Anda merespons?"

Jika respons < 200ms = Bot akan ngebut (Budget naik).
Jika respons > 600ms = Bot akan mengerem (Budget turun).
Jika sering Error 5xx = Bot berhenti datang.

2. Crawl Demand (Popularitas)

Googlebot bertanya: "Seberapa penting URL ini?"

URL populer (banyak trafik/backlink) diprioritaskan.
URL baru di sitemap diprioritaskan.
URL "sampah" (duplikat/kosong) menurunkan demand.

Step 1: Efisiensi

Stop Pemborosan Budget di Robots.txt

Musuh utama website e-commerce dan portal berita adalah Faceted Navigation (Filter Produk). Bot bisa terjebak merayapi jutaan kombinasi filter yang tidak berguna.

Action: Blokir Parameter Sampah

Tambahkan aturan di robots.txt untuk mencegah bot masuk ke lorong tak berujung.

robots.txt

User-agent: Googlebot
# Blokir filter harga, sorting, dan session ID
Disallow: /*?sort=
Disallow: /*?price=
Disallow: /*?filter=
Disallow: /*?sid=
Disallow: /search/
Disallow: /cart/
Disallow: /wishlist/

Step 2: Black Box

Analisis Log Server

Mengapa Log File?

GSC hanya memberi tahu "Status Akhir". Server Log memberi tahu "Peristiwa". Dengan membaca Log Akses (Access Log), Anda bisa melihat apakah Googlebot benar-benar mencoba mengakses URL tersebut dan kode error apa yang diterimanya.

Cara Cek (cPanel)

Masuk cPanel > Raw Access Logs.
Download log untuk domain Anda.
Buka di Excel/Text Editor.
Filter baris yang mengandung Googlebot.
Cek kolom status code. Apakah banyak 503 (Server Busy) atau 429 (Too Many Requests)?

Step 3: Kebersihan

Content Pruning (Pangkas Bobot)

Mempunyai 10.000 halaman "Zombie" (halaman tanpa trafik, tanpa nilai) akan membebani crawl budget. Google sibuk merayapi sampah sehingga tidak sempat merayapi konten baru Anda.

Strategi Hapus & Redirect

Lakukan audit konten setahun sekali:

Halaman Kosong/Stok Habis Permanen: Hapus (Status 410 Gone) agar bot berhenti datang selamanya.
Halaman Duplikat/Mirip: Gabungkan ke satu halaman utama, lalu Redirect 301.
Tag/Kategori Kosong: Hapus dan pasang noindex pada halaman arsip yang tidak penting.

Step 4: Efisiensi Jalur

Hapus Redirect Chains

Rantai pengalihan membuang waktu bot. Setiap lompatan mengurangi jatah crawl.

Bingung cara setting redirect di server? Baca panduan teknis:
tutorial redirect 301 htaccess dengan regex

❌ Rantai Buruk

Halaman A -> (301) -> Halaman B -> (301) -> Halaman C
(Bot lelah di tengah jalan)

✅ Langsung (Direct)

Halaman A -> (301) -> Halaman C
(Efisien & Cepat)

Troubleshooting FAQ

Discovered: Bot belum sempat berkunjung (masalah antrean/server).
Crawled: Bot sudah berkunjung tapi tidak suka isinya (masalah kualitas).

Tidak wajib jika tidak ada perubahan struktur. Lebih baik fokus pada perbaikan kecepatan server dan internal link. Resubmit sitemap tidak menambah crawl budget.

Sangat membantu. CDN (seperti Cloudflare) menangani request aset statis (gambar/CSS), sehingga beban server utama berkurang drastis dan bisa melayani Googlebot lebih cepat.