Indexace filtrační navigace: Kompletní SEO rozhodovací matice
Když na velkém e-shopu necháte vyhledávací roboty volně procházet veškeré kombinace filtrů, koledujete si o vážný technický problém. Filtrační navigace (v angličtině faceted navigation) je skvělá pro uživatele, ale pro vyhledávače představuje obrovské riziko v podobě tzv. kombinatorického výbuchu. Jediná kategorie s osmi aktivními filtry nevygeneruje osm dalších stránek, nýbrž matematickou kombinaci všech těchto stavů vynásobenou stránkováním a řazením.
Mnoho e-shopových platforem a vývojářů řeší tento problém plošně – buď vše zakážou v robots.txt, nebo naopak na všechny parametry nasadí značku noindex. Oba přístupy jsou však extrémní a nesprávné. Správné řízení indexace vyžaduje podrobnou analýzu parametrů případ od případu. Jako specialista na technické SEO se s těmito chybami setkávám velmi často a jejich vyřešení bývá klíčem k tomu, aby vyhledávače začaly správně procházet a indexovat vaše hlavní produktové stránky.
Klíčová statistická data o filtrační navigaci
Proč byste měli filtrační navigaci věnovat zvýšenou pozornost? Následující data z reálných případových studií a vyjádření zástupců Googlu ukazují rozsah celého problému:
| Statistický údaj | Hodnota / Zjištění | Zdroj / Kontext |
|---|---|---|
| Podíl na chybách procházení Googlu | ~50 % všech chyb | Gary Illyes (Google, 2023). Akční parametry (košík, řazení) tvoří dalších 25 %. |
| Poměr zbytečného procházení (Crawl waste) | 39 : 1 | Případová studie Ahrefs. Na 1 indexovatelnou URL připadlo 39 neindexovatelných. |
| Kombinatorický nárůst URL | Přes 500 000 000 URL | Případová studie Botify. E-shop s méně než 200k produkty vygeneroval 500M+ botům přístupných URL. |
| Dlouhý chvost vyhledávání (Long-tail) | 39,33 % celkové hledanosti | Ahrefs data. Až 99,84 % klíčových slov má hledanost pod 1000/měsíc, ale tvoří téměř 40 % poptávky. |
Crawl Budget a jeho dvě složky
Abychom pochopili dopad filtrů na vyhledávače, musíme si správně definovat crawl budget. Podle oficiální dokumentace Google Search Central se skládá ze dvou hlavních složek:
- Crawl capacity limit (Limit kapacity procházení): Maximální zatížení, které web zvládne bez zpomalení serveru. Pokud server reaguje pomalu, Googlebot okamžitě sníží frekvenci procházení.
- Crawl demand (Poptávka po procházení): Jak často vyhledávač považuje za nutné vaše stránky reindexovat. Je určena popularitou stránek a frekvencí jejich aktualizací.
Nekontrolovaná filtrační navigace poškozuje obě tyto složky. Googlebot plýtvá kapacitou na procházení bezcenných kombinací parametrů (např. ?color=cervena&size=xl&price-max=500) a zároveň dochází k naředění poptávky, protože vyhledávač nevidí jasné priority. Vše o analýze a správném nastavení průchodnosti webu řeším pro klienty v rámci kompletní SEO analýzy.
Čtyři kontrolní signály: Co máte k dispozici?
Pro řízení procházení a indexace parametrů máme čtyři hlavní nástroje. Každý dělá jinou práci a jejich záměna je nejčastější příčinou SEO katastrof:
- Robots.txt Disallow (Zákaz procházení): Zabraňuje robotům vůbec odeslat požadavek na dané URL. Šetří crawl budget. Pozor: Blokované URL může být stále indexováno bez popisku, pokud na něj vedou silné zpětné odkazy.
- URL fragmenty (#): Vše za znakem mřížky vyhledávače ignorují. Přesun stavu filtrů do fragmentů je nejčistší technické řešení pro moderní weby, protože nevytváří žádná nová URL pro roboty.
- rel=canonical (Kanonizace): Slučuje rankovací signály na autoritativní (rodičovskou) kategorii. Googlebot však kanonizované parametry přesto prochází – nešetří tedy crawl budget, je to pouze doporučení pro indexaci.
- meta noindex (Zákaz indexace): Definitivně odstraňuje stránku z indexu. Vyžaduje však, aby robot stránku nejprve navštívil a přečetl si tento tag. Nešetří crawl budget a spotřebovává výkon serveru.
Rozhodovací matice pro filtrační navigaci
Tato tabulka slouží jako technický návod. Najděte si svůj typ parametru a aplikujte doporučené nastavení:
| Typ parametru / URL | Doporučený signál | Chování a nejčastější chyby |
|---|---|---|
?sort=price-asc (Řazení) |
Robots.txt Disallow | Parametry řazení nepřináší žádný unikátní obsah. Zablokujte procházení. Chyba: Nekombinujte robots.txt disallow s meta noindex na stejném URL. |
?sessionid= / ?utm= |
Robots.txt Disallow | Session ID a trackovací parametry jsou čistý odpad. Zablokujte je. Ideálně je vůbec negenerujte do odkazů v HTML. |
?color=modra (Nízká poptávka) |
Canonical na rodiče | Filtr s nízkou hledaností nepatří do indexu. Kanonizujte jej na základní kategorii, čímž konsolidujete PageRank. |
/skinny-jeans (Vysoká poptávka) |
Index + Self-canonical | Pokud má filtr (např. značka nebo konkrétní střih) hledanost, vytvořte z něj plnohodnotné URL s unikátním H1, textem a vlastním kanonickým odkazem. Tyto cenné vstupní stránky je pak nutné udržovat stále aktuální, k čemuž slouží naše matice prioritizace obnovy obsahu. |
?color=modra&size=xl&... (Kombinace) |
Robots.txt / Noindex | Hluboké kombinace filtrů s nulovou poptávkou. Zablokujte je v robots.txt pro úsporu crawl budgetu, nebo použijte noindex,follow. Nikdy obojí najednou. |
/wide-leg-skinny-jeans |
Index + Self-canonical | Vícekriteriální kombinace s doložitelnou hledaností (tzv. Zalando model). Vyžaduje statické URL a unikátní obsah, ne surové parametry. |
| Filtr s 0 výsledky | HTTP 404 | Stránky filtrů, které nevrací žádné produkty, by měly vracet stavový kód 404, nikoliv soft-200 nebo přesměrování. |
| JS filter (Bez změny URL) | Netřeba řešit | Klientské filtrování přes AJAX, kde se nemění URL nebo se mění pouze fragmenty za #. Vyhledávače tyto stavy nevidí a neprochází. Zlatý standard moderního vývoje. |
Zásadní omyl: Robots.txt versus Noindex
Tato část je kriticky důležitá. Většina vývojářů dělá osudovou chybu: ve snaze vyčistit index nasadí na parametry filtračních stránek tag <meta name="robots" content="noindex"> a současně tyto parametry zablokují v souboru robots.txt.
Proč to nefunguje a škodí?
Pokud robots.txt zakazuje procházení parametru ?sort=, Googlebot se na tuto stránku nikdy nepodívá. Tím pádem si nemůže přečíst značku noindex, která se nachází v HTML kódu této stránky. Výsledkem je, že stránky s těmito parametry zůstanou v indexu Googlu po celou dobu, často bez popisku (tzv. "indexed without snippet").
Pravidlo je jednoznačné: Vyberte vždy pouze jeden signál. Pokud chcete stránku dostat z indexu, musíte ji nechat přístupnou pro procházení a nasadit noindex. Jakmile z indexu zmizí, můžete ji teprve zablokovat v robots.txt pro úsporu crawl budgetu.
Kdy má smysl crawl budget aktivně řídit?
Ne každý web musí optimalizaci procházení řešit do detailu. Pro malé weby je to spíše otázka hygieny, u velkých portálů se však jedná o prioritu první kategorie:
| Velikost webu | Hranice / Indikátor | SEO Akce |
|---|---|---|
| Malé weby | Do 10 000 indexovatelných stran | Crawl budget není hlavním problémem. Nastavte základní kanonické tagy a sledujte stav „Indexováno, ale není v souboru sitemap“. |
| Střední a velké e-shopy | 10 000+ stran a denní aktualizace | Crawl budget začíná být klíčový. Aktivně řiďte parametry řazení a monitorujte stav „Procházeno – neindexováno“. |
| Enterprise e-shopy | 1 000 000+ stran | Crawl budget je kritický. Je nutné agresivně blokovat filtry v robots.txt, analyzovat serverové logy a eliminovat crawl waste. |
| Libovolný web | Vysoké „Objeveno – neindexováno“ | Varovný signál vyčerpání crawl budgetu v GSC. Bez ohledu na velikost webu je nutné okamžitě zahájit audit parametrů. |
Nezapomeňte, že Google v březnu 2022 definitivně odstranil nástroj URL Parameters ze Search Console (který sloužil k ručnímu nastavení chování parametrů). Google tehdy uvedl, že pouze 1 % konfigurací v tomto nástroji bylo užitečných a crawleři se dnes učí zpracovávat parametry sami. Pro nás to však znamená jediné: musíme se spoléhat výhradně na čistou implementaci robots.txt, kanonických značek a meta robots.
Jak provést audit filtrační navigace?
Předtím, než začnete upravovat konfigurační soubory, doporučuji provést audit procházení ve 4 krocích:
1. Simulace procházení (Screaming Frog)
Spusťte crawl webu a v záložce URL -> Parameters sledujte, které parametry vyhledávač nachází nejčastěji. V nastavení programu můžete simulovat blokování parametrů a sledovat, jak se změní celkový počet nalezených stránek.
2. Analýza stavů indexace v GSC
V přehledu stránek (Index Coverage Report) se zaměřte na tři stavy: „Indexováno, ale není v souboru sitemap“ (může značit nechtěné indexované filtry), „Procházeno – neindexováno“ a „Objeveno – neindexováno“.
3. Analýza serverových logů
Nejspolehlivější metoda. Získejte přístup k logům webového serveru a spočítejte, kolikrát Googlebot přistoupil na URL s parametry vs na běžná produktová a kategoriální URL. Poměr mezi nimi určuje vaše plýtvání rozpočtem procházení.
4. Ověření poptávky pro indexované filtry
Než nějaký filtr (např. konkrétní barvu či materiál) necháte indexovat, ověřte si v nástroji na analýzu klíčových slov (např. Ahrefs, Collabim nebo Google Keyword Planner), že daná kombinace má reálnou hledanost a stojí za to pro ni držet unikátní přistávací stránku.
Závěr a doporučení
Řízení indexace filtrační navigace není otázkou jednoho kliknutí nebo plošného zákazu. Je to proces neustálého vyvažování mezi tím, co potřebuje uživatel (bohaté možnosti filtrů) a co zvládne vyhledávač. Správná architektura filtrů a eliminace crawl waste vám zajistí, že se vaše nové produkty a změny na webu projeví ve vyhledávání v řádu hodin, nikoliv týdnů.
Pokud si nejste jisti, jak váš web v tomto ohledu funguje, nebo bojujete s velkým množstvím neindexovaných stránek v Search Console, rád vám pomohu. V rámci svých služeb se specializuji na technické SEO a audity velkých e-shopů. Můžeme se také domluvit na individuálním školení technického SEO pro váš vývojářský tým.
Líbil se vám článek?
Ujistěte se, že vaše technické základy jsou v pořádku a vyhledávače prochází váš web efektivně.
Přidat do preferovaných zdrojů na Googlu