Hogyan dolgozza fel a tartalmakat egy LLM?

A hagyományos kereső rangsorol és listáz. Az LLM válaszol, és a válaszhoz forrásokból merít. Két csatornán keresztül dolgozik: egyrészt a tanítási adatbázisából, amiből a modellt eredetileg betanították, másrészt valós idejű kereséssel, amit RAG-nak hívnak (Retrieval-Augmented Generation). Ezt használja például a Perplexity vagy a ChatGPT böngészési és keresési módja.

Ha mindkét csatornán jelen vagy, vagyis a tartalmaid bekerültek a tanítási adatokba, és a friss crawlerek is megtalálnak, akkor jó eséllyel hivatkoznak rád. Ha sem a tanítási adatokban nem szerepelsz, sem a crawlereknek nem vagy emészthetően strukturálva, akkor maradtál a klasszikus keresőtalálatoknál. Ami egyre kisebb szelete a felfedezésnek.

Struktúra: az LLM-ek nem találgatni akarnak

Az LLM-ek sokkal jobban boldogulnak jól tagolt, egyértelmű hierarchiájú tartalmakkal. Ez első hallásra azonos a klasszikus SEO-tanáccsal, és nagyrészt az is. De van néhány különbség.

A heading-struktúra legyen következetes: H1 a cím, H2 a fő szekciók, H3 az alszekciók. Ne használj headinget dekoratív célból, és ne legyen az egész oldal egyetlen tagolatlan szövegfolyam. A lényeg az, hogy az AI ki tudjon ragadni egy-egy bekezdést a szövegkörnyezetből, és az önmagában is értelmes maradjon.

Listák, összehasonlító táblázatok, számozott lépések: ezeket az LLM-ek kifejezetten kedvelik. Könnyen feldolgozható, egyértelmű adatpontok, amelyeket magabiztosabban lehet idézni egy válaszban.

Az llms.txt: amit még kevesen használnak, de érdemes

Van egy viszonylag friss, terjedő javaslat: az llms.txt. Gondolj rá úgy, mint egy AI-barát tartalomtérképre. Egy egyszerű Markdown fájl, amit a weboldalad gyökérkönyvtárába raksz, és amiben összefoglalod az oldal lényegét: miről szól, mik a legfontosabb aloldalak, hol találhatók a kulcsdokumentumok.

Lényegében térképet adsz az LLM-nek, ahelyett, hogy magának kellene kitalálnia a struktúrát a nyers HTML-ből. A formátuma minimális: egy H1 cím, egy rövid összefoglaló, majd linkek rövid leírásokkal.

Ha WordPress-t használsz, a Yoast SEO már támogatja az automatikus generálását. Máshol kézzel kell elkészíteni, de ez sok weboldalnál legfeljebb egy-két óra munka.

Schema markup: legyen gépileg is olvasható a tartalom

A JSON-LD alapú Schema.org struktúrált adatok az LLM-optimalizálásban különösen felértékelődnek. A schema megmondja az AI-nak, hogy ez itt egy blogbejegyzés, ez egy FAQ-oldal, ez egy cég bemutatkozója. Kontextust ad, ami nélkül a modellnek magának kell következtetnie.

Ami az LLM-eknek különösen hasznos: szerzői információk, dátumok, frissítési dátumok és entitáskapcsolatok. Ki írta a cikket? Mikor készült? Mikor frissítették? Melyik szervezethez tartozik a tartalom? Ezek mind befolyásolják, mennyire tekinti a modell megbízható forrásnak az oldalt.

Minimum, amit érdemes megvalósítani: Article vagy BlogPosting schema cikkeknél, Organization schema a cégoldalon, FAQ schema a gyakori kérdéseknél.

Hitelesség: az E-E-A-T logika AI-kontextusban

A Google E-E-A-T keretrendszere (Experience, Expertise, Authoritativeness, Trustworthiness) az LLM-eknél is érvényes, csak más módon jelenik meg. Amikor egy AI eldönti, hogy melyik forrásból merítsen, azt vizsgálja, hogy a tartalom mennyire konzisztens más megbízható forrásokkal, és van-e mögötte azonosítható szerzői szaktudás.

Szerzői profilok, hivatkozások, szakmai publikációkban való megjelenés: ezek mind erősítik az AI-s láthatóságot. Nem azért, mert az LLM közvetlenül úgy méri a backlinkjeidet, mint egy klasszikus keresőmotor, hanem mert a tanítási adatokban és a valós idejű forrásokban is megbízható entitásként jelensz meg.

Tartalomfrissítés: nem opcionális

A RAG-alapú rendszerek figyelnek arra, mikor frissült egy tartalom utoljára. Egy két éve írt, azóta nem karbantartott cikk kisebb eséllyel kerül be egy friss AI-válaszba, mint egy nemrég aktualizált forrás.

Ez nem azt jelenti, hogy havonta újra kell írni mindent. De a fontosabb oldalakat negyedévente érdemes átnézni: van-e elavult adat, nem működő hivatkozás, kiegészítendő szempont? A dateModified mező a schema markupban ezt jelzi a crawlereknek.

Technikai alapok

Néhány dolog, ami nélkül a legjobb tartalom sem segít:

  • robots.txt: Ellenőrizd, hogy nem blokkolod-e az AI crawlereket véletlenül. OpenAI esetén például az OAI-SearchBot a ChatGPT keresési láthatósághoz, a GPTBot pedig a modelltréninghez kapcsolódik. Google oldalon a Google-Extended külön robots.txt token, Anthropicnál pedig külön botok kezelik a tréninget, a keresési indexelést és a felhasználói lekéréseket.
  • JavaScript rendering: Sok AI-s crawler korlátozottan vagy egyáltalán nem futtat JavaScriptet. Ha az oldalad erősen JS-alapú (React, Next.js SPA), a server-side rendering vagy statikus export biztonságosabb megoldás, mint a kizárólag kliens oldali renderelés.
  • Sitemap: Legyen naprakész sitemap.xml-ed. Különösen fontos azoknál a rendszereknél, amelyek keresőindexekből és crawler adatokból dolgoznak.
  • Meta description: Ne hagyd üresen. Az AI crawlerek számára ez az első, magas jelzésértékű összefoglaló az oldalról; egy jól megírt meta description közvetlenül befolyásolhatja, hogy a modell belenéz-e a tartalomba.

A lényeg

A hagyományos SEO nem hal meg. De mellé jön egy új réteg, amit egyre inkább GEO-nak (Generative Engine Optimization) vagy AEO-nak (Answer Engine Optimization) hívnak.

A jó hír az, hogy a két terület nagyrészt átfedi egymást: ami jó a Google-nek, az általában jó az LLM-eknek is. Az extra lépések, mint az llms.txt, a finomhangolt schema és a rendszeres frissítési stratégia nem óriási befektetések, de komoly versenyelőnyt adnak azokkal szemben, akik még nem gondoltak erre.

A kérdés tehát nem az, hogy SEO vagy LLM SEO. Hanem az, hogy a tartalmad érthető, strukturált, hiteles és gépileg feldolgozható-e. Ha nem, akkor az AI-korszakban könnyen láthatatlanná válhatsz.