Je tomu pár dní, co Google přestal podporovat operátor info:, který slouží ke kontrole indexace URL ve výsledcích vyhledávání, čímž hodil pořádné klacky pod nohy SEO specialistům a vlastníkům webových stránek, kteří chtějí hromadně kontrolovat indexaci svého webu.
Na dotazy, co mají tedy vlastně SEO specialisté v takových případech dělat, odpověděl John Mueller - webmaster trends analyst z Google komunitě, že mohou využít nástroj Inspect URL v Google Search Console:
The blog post mentions the Inspect URL tool -- that's what we'd recommend for checking individual URLs manually.
— John (@JohnMu) March 26, 2019
Ale přiznejte se, komu z vás, se chce kontrolovat URL po jedné, když jich potřebujete zkontrolovat tisíce? Řešení, které Google poskytl, je naprosto nedostatečné a využitelné pouze pro váš vlastní web, resp. web, který máte ověřený v Search Console (a to nemluvím o tom, že když nemáte v Search Console tzv. Domain property, tak se můžete dotazovat pouze na specifickou variantu protokolu a subdomény, kde řešíte problém s HTTP vs HTTPS a www vs non-www).
Vyzkoušejte Marketing Miner nyní:
Rozhodli jsme se situaci vyřešit
Jakmile Google ohlásil, že bude ukončovat podporu operátoru info:, věděli jsme, že máme málo času na to otestovat pořádně, jaká by mohla být jeho alternativa a jakým způsobem se dostat co nejblíže realitě. Jakmile přestane tento operátor fungovat, nebude už možnost jak jednoduše testovat přesnost alternativních řešení.
Takže z toho nakonec byla jedna opravdu dlouhá a bezesná noc… ale stála za to.
Postupným testováním jsme došli ke kombinaci parametrů a operátorů vyhledávání, které se velmi blíží realitě, ohledně indexovanosti URL. Při testech jsme schválně používali v některých případech URL se speciálními znaky, mnoha parametry, apod. Níže uvádím pár statistik z testování nad datasetem URL, u kterých jsme věděli, že jsou indexované:
Metoda |
Počet testovaných URL |
Úspěšně nalezených |
Úspěšnost |
site: (příklad) |
200 |
154 |
77% |
inurl: (příklad) |
300 |
243 |
81% |
cache: (příklad) |
50 |
33 |
66% |
Pouze URL (příklad) |
200 |
189 |
94,5% |
Naše metoda |
500 |
496 |
99,2% |
Nejsou to žádné obrovské objemy, ale dost se toho kontrolovalo ručně a vše se muselo zvládnout od 6 večer do 6 ráno. Ty metody, ve kterých jsme neviděli žádnou budoucnost, jsme přestávali v průběhu testovat.
Ptáte se nyní, jaké že to naše řešení vlastně je? Konkurence se dívá a nespí, a prozatím bychom si rádi tento postup nechali jako možnou konkurenční výhodu. Co ale mohu prozradit (a dá se to asi i vyčíst) je, že jde o použití volné shody URL, kromě speciálních případů URL, kdy aplikujeme jiný postup.
Pár poznatků z testování:
- Operátor site: funguje celkem dobře, pokud v URL není žádný parametr.
- Operátor cache: nefunguje vůbec u URL, které jsou nově v indexu. Jakýkoli čerstvý obsah se do cache Google dostává delší dobu. Zároveň pokud Google danou URL příliš nevyužívá ve výsledcích vyhledávání, tak se do cache ani nemusí dostat.
- Operátor inurl: jako samostatný operátor funguje asi nejlépe
- Volná shoda URL funguje ve většině případů. Problém ji dělají pouze URL s mnoha parametry nebo diakritikou.
S testováním operátorů a parametrů vyhledávání a celkově s objevováním temných zákoutí indexace (a hledání tzv. edge-cases) nám pomáhal Jarda Hlavinka, kterému tímto patří velký dík.
Zde je pak test, který prováděl před pár dny Darren Shaw, především nad nově vzniklými články (je v něm krásně vidět, jak operátor cache: nepokryje nový obsah):
I used this script https://t.co/rl4HZtffqL to test the various methods of checking indexation. I changed the URL in the script each time. Looks like inurl: is the winner. @seanmalseed @NickLeRoy @GrindstoneSEO @DanLeibson @darth_na @CPBarnard pic.twitter.com/4IXbF03XKV
— Darren Shaw (@DarrenShaw_) March 22, 2019
Co to znamená pro Marketing Miner?
Že v kontrole indexace stránek pokračujeme dále!
Do výstupu Fulltext Index Checkeru se tak nově nebude vypisovat sloupec URL in results a Same as input a ve sloupci Indexed, se bude zobrazovat buď yes (URL je indexována), nebo canonicalized or not indexed (URL pravděpodobně indexovaná není nebo vyhledávač používá její kanonickou verzi). Nicméně nedoporučuji již na 100% spoléhat pouze na výstup mineru a udělat si ještě ruční kontrolu výstupů, které se mohou zdát podezřelé.
Ukázka výstupu Fulltext index checkeru
Nevýhody aktuálního řešení
- Toto řešení nedokáže nalézt kanonické URL. Tedy na výstupu víme pouze jestli je daná URL indexovaná, nebo není. Nevíme ale, jestli například Google místo dané URL nepoužívá jinou (kanonickou) URL.
- Pro získání informace o indexaci se dotazujeme na Google velmi podezřele (a občas násobně kvůli jediné URL). Zatím si nejsme jistí, jaké dopady toto bude mít na odhalení robota při získávání dat.
Poznámka pod čarou: Levá ruka neví, co dělá pravá
Google nám na analýzu problému a jeho řešení dal pouze 2 dny (26.3.2019 vyhlášeno, že se bude rušit info: operátor, 28.3.2019 celosvětově nefunkční), za které se nám podařilo úspěšně na situaci zareagovat.
Poslední dobou začíná házet klacky pod nohy SEO specialistům čím dál více. Ať už jde nyní o info: operátor, jehož stažení stihli za dva dny (kéž by se jim takto dařilo i řešit nahlášené chyby nebo návrhy webmasterů na nové funkce), tak o podporu rel="next" a rel="prev". Ten ještě před pár dny sám John Mueller doporučoval a pár dní na to přišel s novinkou, že vlastně tento způsob označení stránkování již několik let nepodporují (což podle mého názoru a dat, která mám k dispozici, není pravda, ale co už...). A dnes (28.3.2019) právě končí podpora staré Google Search Console a k dispozici bude pouze nová, ve které ještě mnoho věcí webmasterům chybí.
Google by měl trochu nad posledními kroky zpytovat svědomí. Ale chápu, že u takto velkého kolosu, je něco takového těžké uřídit. Držím palce pánové a věřím, že se komunikační linka mezi webmastery a Google opět zlepší!