Az online információkereső rendszerekben a felhasználónak nem feltétlenül kell ismernie a keresőrendszer működését ahhoz, hogy használni tudja információ keresésére. "Olyan felhasználói felületet kell létrehozni, amelynek szemiotikai struktúrája az adott kultúra megszokott, mindennapi jelrendszerének felel meg, azaz a természetes, laikus gondolkodásnak." (Ungváry, 2000a 3.o.) A felhasználónak csak erre a végfelületre ("end user interface") van szüksége, de ez nem jelenti azt, hogy a könyvtárosnak, az információs szakembernek nem kell ismernie, mi folyik a háttérben.
A HTML dokumentumokhoz való hozzáférést egyrészt a kliensoldali böngészők, másrészt a szerveroldali keresőszolgáltatások biztosítják. A böngészők (pl.: Internet Explorer, Opera...) a felhasználó gépén működnek, a keresőszolgáltatások pedig a szolgáltatók szervergépein. A böngészők gyakorlatilag azt teszik lehetővé, hogy a felhasználó HTML dokumentumokat nézhessen meg a weben. A szerveroldali szoftverek a háttérben működnek, s a felhasználó mindig csak a kliensoldali visszakeresőn, nézegetőn keresztül kerül kapcsolatba a szerveroldali programokkal. Ezt az egymást feltételező szoftverszerkezetet nevezik kliens-szerver rendszernek (Ungváry-Vajda, 2002 és Ungváry, 2000a).
"Az információkeresés és - osztályozás szempontjából a keresőszolgáltatások két fő típusa létezik: az indexelő (vagy "keresőgépes") szolgáltatások, és a saját adatbázist kezelő, a piacon az előbbinél valamivel korábban megjelent internetkatalógusok (vagy böngészőszolgáltatások). Számos szolgáltatásban egyre inkább mindegyik típussal találkozhatunk. Az indexelőszolgáltatások az analitikus (individualizáló, nem hierarchikus, posztkoordinált), az internetkatalógusok pedig a szintetikus (generalizáló, hierarchikus, prekoordinált) tartalmi feldolgozást és keresést teszik lehetővé." (Ungváry, 2000a, 9.o.) Az indexelő szolgáltatásokon belül egy külön változatot képviselnek a többszörösen indexelő szolgáltatások, a gyűjtő- és a metakeresők. A metakeresőkben egyszerre több szolgáltatásban végezhetjük el a keresésünket (Ungváry-Vajda, 2002 és Ungváry, 2000a).
Az internetkatalógusok tulajdonképpen az ETO (Egyetemes Tizedes Osztályozás) szellemiségén alapulva jöttek létre. Meghatározott számú, könnyen áttekinthető főosztályból állnak, s azokon belül számos alosztály található. Jellemző az alá-fölé rendeltségi kapcsolat. Ezzel szemben Cutter természetes nyelven alapuló tárgyszórendszerének elvileg végtelen sok hierarchiacsúcsa van, akárcsak a web indexelő rendszereinek. Az összetett tárgyszavakon belül ugyan kezdetben érvényesült valamiféle hierarchia, de idővel a tárgyszavakat egyre szabadabban kezdték alkalmazni. Így fokozatosan kialakultak a deszkriptoros információkereső nyelvek és szótáraik a tezauruszok. A tezauruszok deszkriptorai tetszés szerinti deszkriptorral kombinálhatók. Az indexelő szolgáltatásokban az egyedi szavakat tartalmazó indexek alapján végezhetjük a keresést, és egyre gyakoribb, hogy ehhez segítséget is nyújtanak kötött keresőszótárak, tezauruszok alkalmazásával (Ungváry, 2000a).
Az indexelőszolgáltatások a "keresőgépek" működésén alapulnak. Rendszerint az egész szolgáltatást hibásan keresőgépnek nevezik, pedig az csak egy része a szolgáltatásnak. Ezek a keresőgépek állandóan pásztázzák a hálózatot a HTML dokumentumok csatolóin (linkjein) keresztül, és indexelik a dokumentumokat. Egy részük a teljes szöveget, más részük csak meghatározott számú (pl.: az első 20-25) sort indexelnek. Léteznek olyanok is, amelyek a metaadatokat is figyelembe veszik (Ungváry-Vajda, 2002).
"Az indexelőszolgáltatások fontos jellemzője a gyűjtőkör és a kiválasztási-indexelési módszer." (Ungváry, 2000a, 11.o.) A gyűjtőkörre általában találunk információt a szolgáltatás kezdőlapján, vagy legalábbis van lehetőség a szolgáltatás céljának megismerésére. A kiválasztási-indexelési módszerről csak közvetetten tájékozódhatunk. Eldöntik, hogy milyen szervereket kutat át a keresőgép, s azon belül is milyen dokumentumok indexelését részesítik előnyben. Így az indexelt egységek száma szolgáltatásonként eltérő. A szervergépen adatbázisban tárolják a begyűjtött adatokat, s lekérdezni az indexek alapján lehet a kliensoldali nézegetőkkel. A találatokat általában relevancia szerint rendezve kapjuk (Ungváry, 2000a). Az indexelőszolgáltatásokban a felhasználók analitikusan keresnek. A keresés módszereire a későbbiekben részletesebben kitérek.
Fontos kérdés továbbá az indexelőrendszerek frissítése, ugyanis a HTML dokumentumok sokszor nagyon hamar avulnak, megszűnnek, átalakulnak. Az indexelő szolgáltatásokban elvileg egyszerűbben megoldható a frissítés, mint az intellektuálisan osztályozott internetkatalógusokban, mégis kialakulnak ún. halott tételek. Elemzések szerint a halott tételek száma egyes szolgáltatásoknál 20-30% is lehet (Ungváry, 2000a). Indexelőszolgáltatás pl. a Google (http://www.google.com), a Heuréka (http://www.heureka.hu), a HotBot (http://www.hotbot.com), az Infoseek (http://www.infoseek.com).
Az ún. metakeresők több indexelő keresőszolgáltatást kapcsolnak össze, s így a felhasználónak nem kell több szolgáltatást is igénybe vennie, ha a lehető legnagyobb teljességre törekszik. A metakeresők a kijelölt indexelő szolgáltatásokat a keresőkérdések alapján párhuzamosan fésülik át, majd normalizálás után közös listában jelenítik meg a találatokat.
A metakeresők másik nagy előnye, hogy az indexelőszolgáltatásokkal ellentétben nem csak a látható weben keresnek, hanem az ún. invisible web-en (A definíciót lásd a glosszáriumban!) is. Az interneten elérhető adatbázisokat, a dinamikus oldalakat a hagyományos indexelőszolgáltatások nem indexelik. A BrightPlanet internet kutató cég arra a következtetésre jutott, hogy a láthatatlan web valójában körülbelül 500-szor nagyobb, mint a látható (Hecks, 2001).
Az első ilyen rendszerek 1995-ben készültek. Mára
már kialakultak ezeknek a szolgáltatásoknak a kritériumai
is (Ungváry, 2000a):
· Párhuzamos keresés.
· Eredmény-összefésülés.
· Többszörözések kezelése.
· ÉS ill. VAGY operátorok működése.
· Információveszteség nélküli működés.
· Forrásrendszer-elfedés: a felhasználónak
nem kell semmit tudnia az egyes indexelőszolgáltatások
speciális tulajdonságairól.
· Teljesség: a keresésnek addig kell tartania, amíg
a megjelölt szolgáltatásokból találatok nyerhetők.
1. ábra: A MetaGer kezdőlapja
Ilyen metarendszer például a MetaCrawler (http://www.metacrawler.com) és a MetaGer (http://www.metager.de), vagy a most készülő ToxPortal (http://toxseek.nlm.nih.gov).
"Az internetkatalógusok (directories, browsing services) hierarchikus
osztályozási rendszert tartalmazó keresőszolgáltatások,
melyek adatbázisa a túlnyomórészt intellektuálisan
osztályozott HTML dokumentumok rekordjait tartalmazza, valamint egyéb
adatbázisok információtételeit." (Ungváry,
2000b, 55.o.)
Ismertebb rendszerek pl. Excite (http://www.excite.com), Magellán (http://magellan.fotexnet.hu),
Northern Light (http://www.northernlight.com), Yahoo! (http://www.yahoo.com),
Magyarországon az Origo.AltaVizsla (http://vizsla.origo.hu/katalogus/index.html)
és a HUDIR (http://www.hudir.hu).

2. ábra: A Yahoo! főosztályai
Az osztályozást és kiválasztást
intellektuális, vagy automatikus eljárással végzik.
A kiválasztás kritériumai általában ismeretlenek.
Mondhatnánk, hogy sok esetben csak "spontán érkeztetés"
zajlik. A weblapok fenntartói maguk is kérhetik felvételüket
egy-egy internetkatalógusba, ilyenkor ők határozzák
meg weblapjuk besorolását. A katalógusba kerülésnek
mégis általában vannak kritériumai. Pl.: a forrás előreláthatóan nem rövid
életű, a tartalma
hihető, létrehozója hiteles a tartalom vonatkozásában,
megvannak bizonyos metaadatai, gyakran utalnak rá más források,
sok a látogatója, ingyenes (Ungváry, 2000b).
3. ábra: A Yahoo! alosztályai az "Education" főosztályon belül
A katalógusokban a főosztályok, alosztályok alapján böngészhetünk, és lehetőség van keresőszó megadására is, amivel elérhetünk a kívánt osztályig. Léteznek olyan internetkatalógusok, amik indexelőszolgáltatásként is működnek. Ritkán tezaurusz is kiegészíti a rendszert, ilyen pl. az AltaVizsla esetében. A katalógusok adatbázisai lényegesen kisebbek, mint az indexelőszolgáltatásokéi, viszont a keresés általában sokkal kisebb zajjal jár, mivel a feldolgozás legtöbb esetben intellektuális, és csak néhány rendszer esetében automatikus (pl.: Scorpion, Gerhard) (Ungváry-Vajda, 2002). Mint már említettem, az indexelőszolgáltatásokban természetes nyelvi kifejezésekkel, tárgyszavakkal deszkriptorokkal és a Boole-operátorokkal kereshet a felhasználó, míg az internetkatalógusok elsősorban böngészésre kínálnak lehetőséget. Az állományuk frissítése azonban általában az indexelőszolgáltatásokénál is ritkább, így a katalógusokban sokkal több az ún. halott rekord, amelyből kiindulva az eredeti dokumentum már nem érhető el (Ungváry, 2000b). Vannak hagyományos (pl.: ETO, Dewey Tizedes Osztályozása, Kongresszusi Könyvtár osztályozása) és önálló osztályozási rendszert alkalmazó internetkatalógusok. Ez utóbbi természetesen nagyobb számban fordul elő (Ungváry, 2000b).
A webes keresőszolgáltatások általában a teljességre (recall) törekszenek, s a pontosság (precision) háttérbe szorul. A keresés során alkalmazható módszerek, stratégia meglehetősen változatosak, de a szolgáltatások jelentős részénél az alapértelmezésen túlmenő lehetőségek (részletes, összetett keresés) nincsenek előtérben, a laikus sokszor észre sem veszi őket (Ungváry, 2000a). Kérdés, hogy szüksége lenne-e rá, vagy jobban tesszük, ha megkíméljük a bonyolultabb lehetőségektől.
Keresési módszerek, stratégiák
lehetnek (Ungváry, 2000a és Góth, 2000):
· Egyedi szavakkal keresünk.
· Boole-operátorokat, helyzeti operátorokat használunk.
· "Szólánc" keresés (stringsearch): idézőjelek
közé tesszük a láncot, vagy legördülő
menün minősítjük.
· Kereshetünk csonkoltan vagy pontosan.
· Egyes rendszerekben (pl.: AltaVista) a kis és nagybetűt
is megkülönböztethetjük.
· Nyelvi ill. dokumentumtípus szerinti szűkítést
is alkalmazhatunk egyes szolgáltatásokban (pl.: Lycos).
· Néhány szolgáltatás (pl.: AltaVista) ún.
idézetes keresést (citation indexing) is lehetővé
tesz. Megadja azokat az összetett kifejezéseket, amelyekben a keresett
szó előfordul, így ezek által szűkíthetjük
a keresésünket.
· Van, ahol megadhatjuk, hogy hol kívánunk keresni: csak
a HTML-címben, az összefoglalásban vagy a teljes szövegben.
· Bizonyos keresőkben az elvégzett keresés eredményhalmazán
is végezhetünk másodlagos keresést (relevance feedback,
find simiral pages, related topics).
· Az Infoseek ún. specifikus keresést is biztosít,
miszerint egy átfogó jelentésű kifejezés után
½ jellel megadhatjuk a specifikus kifejezést.
· A fejlettebb rendszerekben azt is beállíthatjuk, hogy
ellenőrizzék, hogy egyáltalán élnek-e még
a talált tételek.
· Dátum, fájltípus vagy terület szerint is
szűkíthetünk bizonyos rendszerekben.
- 
4. ábra: A Google egyszerű, és összetett keresési felülete
A kereső szolgáltatásokból sok esetben hiányzik, hogy a keresést korlátozhassuk mezőkre, valamint hogy a találatokat különböző szempontok alapján sorba rendeztethessük. A keresési végfelület a legtöbb szolgáltatásban nagyon egyszerű, s nem tartalmaz segítséget a kereséshez. Csak kevés olyan kereső van, amelyik az első oldalon megadja az eszközök teljes választékát. Általában a kezdő felhasználóra számítanak, nem akarják elijeszteni a kereső személyt. Ezzel szemben azonban nagyon kevés segítséget adnak, keresési példáik elég szegényesek (Ungváry, 2000a).
Az indexelőszolgáltatások általában relevancia
szerint jelenítik meg a talált rekordokat. Némely esetben
kérhetünk csak dátum vagy betűrend szerinti rendezést
(pl.: Lycos). Az egyszerre megjelenített találatok számát
rendszerint megadhatjuk. A rekord megjelenítése többnyire
egyszerű, de semmilyen szabvány nem vonatkozik rá, ebből
kifolyólag szolgáltatásonként különböző
lehet a közölt információk formája, sorrendje,
mennyisége.
A következő adatok segítségével összehasonlíthatjuk
a Google, a Heuréka és az AltaVizsla találatainak megjelenítését.
Mindhárom esetben a "kisalföldi könyvtáros"-ra
kerestem, s az első találatot emeltem át ide. A három
közül csak a Google nem jelölte a relevancia értékét,
de a megjelenítés sorrendjénél itt is ezt veszik
figyelembe. A Google nem mutat dátumot, viszont egy tárolt változatot
is felkínál. További találatokat csak a Heuréka
nem ajánl a találat után.
Google (http://www.google.com):
Kisalföldi KönyvtárosKisalföldi Könyvtáros
HU-ISSN 0209-7788. Raktári jelzetea Könyvtártudományi
Szakkönyvtárban: P 1462. ... www.oszk.hu/szerv/ki/tartj/kisalf.htm
- 2k - Tárolt változat - Hasonló oldalak
Heuréka (http://www.heureka.hu):
[77%] Kisalföldi Könyvtáros KISALFÖLDI KÖNYVTÁROS
HU-ISSN 0209-7788 1999. 1-2. szám Horváth S. Domonkos: A kulturális
javak fokozottabb büntetőjogi védelme 1 Dr. Horváth
József:...http://www.oszk.hu/szerv/ki/tartj/kk9912.htm - hossz: 2521
- 2001 Mar 08
AltaVizsla (http://vizsla.origo.hu/katalogus/index.html):
Kisalföldi Könyvtáros99% KISALFÖLDI KÖNYVTÁROS.
HU-ISSN 0209-7788. 2000. 2. szám: Horváth Csaba: Bemutatkozik
a soproni Széchenyi István Városi Könyvtár
igazgatója. 1. Horváth Sándor Domonkos: A szerzői
... 2002.11.04http://www.oszk.hu/szerv/ki/tartj/kk002.htm További találatok
a szerverről
A találatok relevancia értékét egyrészt
annak segítségével állapítják meg,
hogy a keresőszó a HTML dokumentum címfejében (<title>),
metaadataiban szerepel-e, vagy a tartalmi kivonatban, illetve a szövegben,
és az utóbbiban milyen gyakorisággal. Másrészt
használnak automatikus indexelési módszereket is. A talált
tételek rendszerint meglehetősen vegyes minőségűek.
Gyakran zsákutcába vezetnek azzal, hogy már nem élő
tartalomszolgáltatásra mutatnak. A találatok egy része
pedig irreleváns, mivel az indexelt szó nem a HTML dokumentum
tartalmát írta le. Bizonyos tartalomszolgáltatók
ezt kihasználva dokumentumaik fejlécébe olyan kifejezéseket
írnak be, amiket a felhasználók gyakran keresnek, s így
az indexelőszolgáltatások az első találatok
között fogják hozni. Ezzel azonban maguk a tartalomszolgáltatók
rontják a találatok minőségét (Ungváry,
2000a).