3. Az interneten való információkeresés elmélete

3.1. A web keresőeszközei és keresőszolgáltatásai

Az online információkereső rendszerekben a felhasználónak nem feltétlenül kell ismernie a keresőrendszer működését ahhoz, hogy használni tudja információ keresésére. "Olyan felhasználói felületet kell létrehozni, amelynek szemiotikai struktúrája az adott kultúra megszokott, mindennapi jelrendszerének felel meg, azaz a természetes, laikus gondolkodásnak." (Ungváry, 2000a 3.o.) A felhasználónak csak erre a végfelületre ("end user interface") van szüksége, de ez nem jelenti azt, hogy a könyvtárosnak, az információs szakembernek nem kell ismernie, mi folyik a háttérben.

A HTML dokumentumokhoz való hozzáférést egyrészt a kliensoldali böngészők, másrészt a szerveroldali keresőszolgáltatások biztosítják. A böngészők (pl.: Internet Explorer, Opera...) a felhasználó gépén működnek, a keresőszolgáltatások pedig a szolgáltatók szervergépein. A böngészők gyakorlatilag azt teszik lehetővé, hogy a felhasználó HTML dokumentumokat nézhessen meg a weben. A szerveroldali szoftverek a háttérben működnek, s a felhasználó mindig csak a kliensoldali visszakeresőn, nézegetőn keresztül kerül kapcsolatba a szerveroldali programokkal. Ezt az egymást feltételező szoftverszerkezetet nevezik kliens-szerver rendszernek (Ungváry-Vajda, 2002 és Ungváry, 2000a).

"Az információkeresés és - osztályozás szempontjából a keresőszolgáltatások két fő típusa létezik: az indexelő (vagy "keresőgépes") szolgáltatások, és a saját adatbázist kezelő, a piacon az előbbinél valamivel korábban megjelent internetkatalógusok (vagy böngészőszolgáltatások). Számos szolgáltatásban egyre inkább mindegyik típussal találkozhatunk. Az indexelőszolgáltatások az analitikus (individualizáló, nem hierarchikus, posztkoordinált), az internetkatalógusok pedig a szintetikus (generalizáló, hierarchikus, prekoordinált) tartalmi feldolgozást és keresést teszik lehetővé." (Ungváry, 2000a, 9.o.) Az indexelő szolgáltatásokon belül egy külön változatot képviselnek a többszörösen indexelő szolgáltatások, a gyűjtő- és a metakeresők. A metakeresőkben egyszerre több szolgáltatásban végezhetjük el a keresésünket (Ungváry-Vajda, 2002 és Ungváry, 2000a).

Az internetkatalógusok tulajdonképpen az ETO (Egyetemes Tizedes Osztályozás) szellemiségén alapulva jöttek létre. Meghatározott számú, könnyen áttekinthető főosztályból állnak, s azokon belül számos alosztály található. Jellemző az alá-fölé rendeltségi kapcsolat. Ezzel szemben Cutter természetes nyelven alapuló tárgyszórendszerének elvileg végtelen sok hierarchiacsúcsa van, akárcsak a web indexelő rendszereinek. Az összetett tárgyszavakon belül ugyan kezdetben érvényesült valamiféle hierarchia, de idővel a tárgyszavakat egyre szabadabban kezdték alkalmazni. Így fokozatosan kialakultak a deszkriptoros információkereső nyelvek és szótáraik a tezauruszok. A tezauruszok deszkriptorai tetszés szerinti deszkriptorral kombinálhatók. Az indexelő szolgáltatásokban az egyedi szavakat tartalmazó indexek alapján végezhetjük a keresést, és egyre gyakoribb, hogy ehhez segítséget is nyújtanak kötött keresőszótárak, tezauruszok alkalmazásával (Ungváry, 2000a).


3.1.1. Indexelőszolgáltatások ("keresőgépek")

Az indexelőszolgáltatások a "keresőgépek" működésén alapulnak. Rendszerint az egész szolgáltatást hibásan keresőgépnek nevezik, pedig az csak egy része a szolgáltatásnak. Ezek a keresőgépek állandóan pásztázzák a hálózatot a HTML dokumentumok csatolóin (linkjein) keresztül, és indexelik a dokumentumokat. Egy részük a teljes szöveget, más részük csak meghatározott számú (pl.: az első 20-25) sort indexelnek. Léteznek olyanok is, amelyek a metaadatokat is figyelembe veszik (Ungváry-Vajda, 2002).

"Az indexelőszolgáltatások fontos jellemzője a gyűjtőkör és a kiválasztási-indexelési módszer." (Ungváry, 2000a, 11.o.) A gyűjtőkörre általában találunk információt a szolgáltatás kezdőlapján, vagy legalábbis van lehetőség a szolgáltatás céljának megismerésére. A kiválasztási-indexelési módszerről csak közvetetten tájékozódhatunk. Eldöntik, hogy milyen szervereket kutat át a keresőgép, s azon belül is milyen dokumentumok indexelését részesítik előnyben. Így az indexelt egységek száma szolgáltatásonként eltérő. A szervergépen adatbázisban tárolják a begyűjtött adatokat, s lekérdezni az indexek alapján lehet a kliensoldali nézegetőkkel. A találatokat általában relevancia szerint rendezve kapjuk (Ungváry, 2000a). Az indexelőszolgáltatásokban a felhasználók analitikusan keresnek. A keresés módszereire a későbbiekben részletesebben kitérek.

Fontos kérdés továbbá az indexelőrendszerek frissítése, ugyanis a HTML dokumentumok sokszor nagyon hamar avulnak, megszűnnek, átalakulnak. Az indexelő szolgáltatásokban elvileg egyszerűbben megoldható a frissítés, mint az intellektuálisan osztályozott internetkatalógusokban, mégis kialakulnak ún. halott tételek. Elemzések szerint a halott tételek száma egyes szolgáltatásoknál 20-30% is lehet (Ungváry, 2000a). Indexelőszolgáltatás pl. a Google (http://www.google.com), a Heuréka (http://www.heureka.hu), a HotBot (http://www.hotbot.com), az Infoseek (http://www.infoseek.com).

3.1.1.1. Gyűjtő- és többszörösen indexelő szolgáltatások (metakeresők)

Az ún. metakeresők több indexelő keresőszolgáltatást kapcsolnak össze, s így a felhasználónak nem kell több szolgáltatást is igénybe vennie, ha a lehető legnagyobb teljességre törekszik. A metakeresők a kijelölt indexelő szolgáltatásokat a keresőkérdések alapján párhuzamosan fésülik át, majd normalizálás után közös listában jelenítik meg a találatokat.

A metakeresők másik nagy előnye, hogy az indexelőszolgáltatásokkal ellentétben nem csak a látható weben keresnek, hanem az ún. invisible web-en (A definíciót lásd a glosszáriumban!) is. Az interneten elérhető adatbázisokat, a dinamikus oldalakat a hagyományos indexelőszolgáltatások nem indexelik. A BrightPlanet internet kutató cég arra a következtetésre jutott, hogy a láthatatlan web valójában körülbelül 500-szor nagyobb, mint a látható (Hecks, 2001).

Az első ilyen rendszerek 1995-ben készültek. Mára már kialakultak ezeknek a szolgáltatásoknak a kritériumai is (Ungváry, 2000a):
· Párhuzamos keresés.
· Eredmény-összefésülés.
· Többszörözések kezelése.
· ÉS ill. VAGY operátorok működése.
· Információveszteség nélküli működés.
· Forrásrendszer-elfedés: a felhasználónak nem kell semmit tudnia az egyes indexelőszolgáltatások speciális tulajdonságairól.
· Teljesség: a keresésnek addig kell tartania, amíg a megjelölt szolgáltatásokból találatok nyerhetők.

1. ábra: A MetaGer kezdőlapja

Ilyen metarendszer például a MetaCrawler (http://www.metacrawler.com) és a MetaGer (http://www.metager.de), vagy a most készülő ToxPortal (http://toxseek.nlm.nih.gov).


3.1.2. Internetkatalógusok ("directory"-k)

"Az internetkatalógusok (directories, browsing services) hierarchikus osztályozási rendszert tartalmazó keresőszolgáltatások, melyek adatbázisa a túlnyomórészt intellektuálisan osztályozott HTML dokumentumok rekordjait tartalmazza, valamint egyéb adatbázisok információtételeit." (Ungváry, 2000b, 55.o.)
Ismertebb rendszerek pl. Excite (http://www.excite.com), Magellán (http://magellan.fotexnet.hu), Northern Light (http://www.northernlight.com), Yahoo! (http://www.yahoo.com), Magyarországon az Origo.AltaVizsla (http://vizsla.origo.hu/katalogus/index.html) és a HUDIR (http://www.hudir.hu).


2. ábra: A Yahoo! főosztályai

Az osztályozást és kiválasztást intellektuális, vagy automatikus eljárással végzik. A kiválasztás kritériumai általában ismeretlenek. Mondhatnánk, hogy sok esetben csak "spontán érkeztetés" zajlik. A weblapok fenntartói maguk is kérhetik felvételüket egy-egy internetkatalógusba, ilyenkor ők határozzák meg weblapjuk besorolását. A katalógusba kerülésnek mégis általában vannak kritériumai. Pl.: a forrás előreláthatóan nem rövid életű, a tartalma hihető, létrehozója hiteles a tartalom vonatkozásában, megvannak bizonyos metaadatai, gyakran utalnak rá más források, sok a látogatója, ingyenes (Ungváry, 2000b).

3. ábra: A Yahoo! alosztályai az "Education" főosztályon belül

A katalógusokban a főosztályok, alosztályok alapján böngészhetünk, és lehetőség van keresőszó megadására is, amivel elérhetünk a kívánt osztályig. Léteznek olyan internetkatalógusok, amik indexelőszolgáltatásként is működnek. Ritkán tezaurusz is kiegészíti a rendszert, ilyen pl. az AltaVizsla esetében. A katalógusok adatbázisai lényegesen kisebbek, mint az indexelőszolgáltatásokéi, viszont a keresés általában sokkal kisebb zajjal jár, mivel a feldolgozás legtöbb esetben intellektuális, és csak néhány rendszer esetében automatikus (pl.: Scorpion, Gerhard) (Ungváry-Vajda, 2002). Mint már említettem, az indexelőszolgáltatásokban természetes nyelvi kifejezésekkel, tárgyszavakkal deszkriptorokkal és a Boole-operátorokkal kereshet a felhasználó, míg az internetkatalógusok elsősorban böngészésre kínálnak lehetőséget. Az állományuk frissítése azonban általában az indexelőszolgáltatásokénál is ritkább, így a katalógusokban sokkal több az ún. halott rekord, amelyből kiindulva az eredeti dokumentum már nem érhető el (Ungváry, 2000b). Vannak hagyományos (pl.: ETO, Dewey Tizedes Osztályozása, Kongresszusi Könyvtár osztályozása) és önálló osztályozási rendszert alkalmazó internetkatalógusok. Ez utóbbi természetesen nagyobb számban fordul elő (Ungváry, 2000b).


3.2. Keresési módszerek, stratégiák

A webes keresőszolgáltatások általában a teljességre (recall) törekszenek, s a pontosság (precision) háttérbe szorul. A keresés során alkalmazható módszerek, stratégia meglehetősen változatosak, de a szolgáltatások jelentős részénél az alapértelmezésen túlmenő lehetőségek (részletes, összetett keresés) nincsenek előtérben, a laikus sokszor észre sem veszi őket (Ungváry, 2000a). Kérdés, hogy szüksége lenne-e rá, vagy jobban tesszük, ha megkíméljük a bonyolultabb lehetőségektől.

Keresési módszerek, stratégiák lehetnek (Ungváry, 2000a és Góth, 2000):
· Egyedi szavakkal keresünk.
· Boole-operátorokat, helyzeti operátorokat használunk.
· "Szólánc" keresés (stringsearch): idézőjelek közé tesszük a láncot, vagy legördülő menün minősítjük.
· Kereshetünk csonkoltan vagy pontosan.
· Egyes rendszerekben (pl.: AltaVista) a kis és nagybetűt is megkülönböztethetjük.
· Nyelvi ill. dokumentumtípus szerinti szűkítést is alkalmazhatunk egyes szolgáltatásokban (pl.: Lycos).
· Néhány szolgáltatás (pl.: AltaVista) ún. idézetes keresést (citation indexing) is lehetővé tesz. Megadja azokat az összetett kifejezéseket, amelyekben a keresett szó előfordul, így ezek által szűkíthetjük a keresésünket.
· Van, ahol megadhatjuk, hogy hol kívánunk keresni: csak a HTML-címben, az összefoglalásban vagy a teljes szövegben.
· Bizonyos keresőkben az elvégzett keresés eredményhalmazán is végezhetünk másodlagos keresést (relevance feedback, find simiral pages, related topics).
· Az Infoseek ún. specifikus keresést is biztosít, miszerint egy átfogó jelentésű kifejezés után ½ jellel megadhatjuk a specifikus kifejezést.
· A fejlettebb rendszerekben azt is beállíthatjuk, hogy ellenőrizzék, hogy egyáltalán élnek-e még a talált tételek.
· Dátum, fájltípus vagy terület szerint is szűkíthetünk bizonyos rendszerekben.

-

4. ábra: A Google egyszerű, és összetett keresési felülete

A kereső szolgáltatásokból sok esetben hiányzik, hogy a keresést korlátozhassuk mezőkre, valamint hogy a találatokat különböző szempontok alapján sorba rendeztethessük. A keresési végfelület a legtöbb szolgáltatásban nagyon egyszerű, s nem tartalmaz segítséget a kereséshez. Csak kevés olyan kereső van, amelyik az első oldalon megadja az eszközök teljes választékát. Általában a kezdő felhasználóra számítanak, nem akarják elijeszteni a kereső személyt. Ezzel szemben azonban nagyon kevés segítséget adnak, keresési példáik elég szegényesek (Ungváry, 2000a).


3.3. A keresés eredményének megjelenítése

Az indexelőszolgáltatások általában relevancia szerint jelenítik meg a talált rekordokat. Némely esetben kérhetünk csak dátum vagy betűrend szerinti rendezést (pl.: Lycos). Az egyszerre megjelenített találatok számát rendszerint megadhatjuk. A rekord megjelenítése többnyire egyszerű, de semmilyen szabvány nem vonatkozik rá, ebből kifolyólag szolgáltatásonként különböző lehet a közölt információk formája, sorrendje, mennyisége.
A következő adatok segítségével összehasonlíthatjuk a Google, a Heuréka és az AltaVizsla találatainak megjelenítését. Mindhárom esetben a "kisalföldi könyvtáros"-ra kerestem, s az első találatot emeltem át ide. A három közül csak a Google nem jelölte a relevancia értékét, de a megjelenítés sorrendjénél itt is ezt veszik figyelembe. A Google nem mutat dátumot, viszont egy tárolt változatot is felkínál. További találatokat csak a Heuréka nem ajánl a találat után.


Google (http://www.google.com):

Kisalföldi KönyvtárosKisalföldi Könyvtáros HU-ISSN 0209-7788. Raktári jelzetea Könyvtártudományi Szakkönyvtárban: P 1462. ... www.oszk.hu/szerv/ki/tartj/kisalf.htm - 2k - Tárolt változat - Hasonló oldalak

Heuréka (http://www.heureka.hu):
[77%] Kisalföldi Könyvtáros KISALFÖLDI KÖNYVTÁROS HU-ISSN 0209-7788 1999. 1-2. szám Horváth S. Domonkos: A kulturális javak fokozottabb büntetőjogi védelme 1 Dr. Horváth József:...http://www.oszk.hu/szerv/ki/tartj/kk9912.htm - hossz: 2521 - 2001 Mar 08

AltaVizsla (http://vizsla.origo.hu/katalogus/index.html):
Kisalföldi Könyvtáros99% KISALFÖLDI KÖNYVTÁROS. HU-ISSN 0209-7788. 2000. 2. szám: Horváth Csaba: Bemutatkozik a soproni Széchenyi István Városi Könyvtár igazgatója. 1. Horváth Sándor Domonkos: A szerzői ... 2002.11.04http://www.oszk.hu/szerv/ki/tartj/kk002.htm További találatok a szerverről

A találatok relevancia értékét egyrészt annak segítségével állapítják meg, hogy a keresőszó a HTML dokumentum címfejében (<title>), metaadataiban szerepel-e, vagy a tartalmi kivonatban, illetve a szövegben, és az utóbbiban milyen gyakorisággal. Másrészt használnak automatikus indexelési módszereket is. A talált tételek rendszerint meglehetősen vegyes minőségűek. Gyakran zsákutcába vezetnek azzal, hogy már nem élő tartalomszolgáltatásra mutatnak. A találatok egy része pedig irreleváns, mivel az indexelt szó nem a HTML dokumentum tartalmát írta le. Bizonyos tartalomszolgáltatók ezt kihasználva dokumentumaik fejlécébe olyan kifejezéseket írnak be, amiket a felhasználók gyakran keresnek, s így az indexelőszolgáltatások az első találatok között fogják hozni. Ezzel azonban maguk a tartalomszolgáltatók rontják a találatok minőségét (Ungváry, 2000a).

<vissza - tovább>