Ajánló rendszerek

Az ajánló rendszereknek már több mint egy évtizedes kutatási története van, de csak napjainkban kezdenek beépülni a hétköznapokba. Milyen területeken találkozhatunk velük napjainkban? Milyen alkalmazások képzelhetők el segítségükkel a jövőben? Egyetemi dolgozat.

1. Bevezetés

A kutatókat és az internetes vállalkozásokat régóta foglalkoztatja az a kérdés, hogy hogyan lehet minél hatékonyabban eligazodni nagy méretű adathalmazokban. Ezen probléma feloldására az évtizedek során nagyon sok különböző megközelítésű javaslat született.

Az első kézenfekvő módszer a szabad szavas keresés volt, ám ennek jól használható megoldására is egészen a 90-es évek végéig kellett várni. A web linkstruktúráját kihasználva a Google PageRank technológiája lehetővé tette a népszerűbb tartalmak kiemelését a többi közül, ami minőségi ugrást eredményezett a keresésben. Azonban így is csak egy kereshető ranglistát kaptunk, ami egyáltalán nem veszi figyelembe személyes érdeklődésünket, és felveti azt a problémát is, hogy mi történik akkor, ha nem ismerjük a megfelelő kulcsszavakat.

A keresőkkel párhuzamosan egy másik technológia is folyamatosan fejlődött a 90-es évektől, mely nem mindig igényli a felhasználó aktív részvételét a szűrési folyamatban. Az ajánló rendszerek a felhasználóról létrehozott profil alapján nyújtanak számára valószínűleg lényeges információt. Ezen rendszerek jelenlegi leghatékonyabb megvalósítása a közösségi szűrés (collaborative filtering), mely sok felhasználó profilja alapján von le következtetést az adott felhasználóra vonatkozólag.

A keresők és a közösségi szűrés nem egymás ellenfelei, hanem hasznos kiegészítői. Az utóbbi olyan tartalmakra hívhatja fel a figyelmünket, melyekre egyébként nem jutna eszünkbe kereső kifejezést megfogalmazni. A dolgozatban a közösségi szűrés történetét, technikai hátterét és jövőbeni lehetőségeit tekintem át.

2. Első lépések

A közösségi szűrés területén az első jelentős publikáció Upendra Shardanand és Pattie Maes nevéhez fűződik, akik az MIT Media Lab munkatársai voltak. 1995-ös írásukban egy Ringo névre keresztelt zenei ajánló rendszer készítése során megszerzett tapasztalataikat foglalják össze. A kísérleti projekt a kezdeti hibák után egyre jobb zenei ajánlatokat nyújtott, ami remekül mutatja a módszer erejét, hogy az ajánlatok annál pontosabbakká válnak, minél több felhasználó használja a rendszert. Itt tehát nem szembesülünk az informatika területén gyakori skálázhatósági problémával.

Bár ez volt a módszer első sikeres bemutatkozása, de hasonló ajánló rendszerek már korábban is léteztek. A University of Minnesota GroupLens csoportja már 1992 óta foglalkozik a közösségi ajánlás kutatásával, de MovieLens névre keresztelt filmes ajánló rendszerük nem ért el akkora sikert, mint a Ringo.

A technológia sokáig csak tudományos körökben terjedt, amikoris az Amazon.com online könyváruház alkalmazni kezdte webes felületén. Az áruház minden egyes termékének lapján megjelent azon termékek listája, melyeket sokan vásároltak meg az aktuális termékkel együtt. Az új funkció hamarosan rendkívül népszerű lett, így a cég további ajánló szolgáltatások kifejlesztésébe fogott. Ma már teljesen személyre szabott ajánlatokat is kaphatunk a termékekhez kapcsolt ajánlatok mellett.

Elsőként tehát az internetes áruházak vették hasznát az új technológiának, de napjainkban már más környezetben is sikerrel alkalmazzák. Mielőtt azonban ezekre részletesen kitérnénk, vizsgáljuk meg a módszer technikai hátterét.

3. Technikai háttér

A keresők egyik nagy hátránya, hogy szövegen alapulnak, így nehezen alkalmazhatók nem szövegalapú tartalmak esetén. A közösségi szűrés ezzel szemben objektumok közti kapcsolatok rendszeréből vonja le a következtetést, így könnyedén alkalmazható zenék vagy videók esetén is.

Vegyünk egy egyszerűsített modellt: egy páros gráf bal oldalon levő csomópontjai felhasználókat, a jobb oldalon lévők valamilyen terméket (pl. könyv, zene, film) jelölnek. Egy felhasználó és termék között akkor fut él, ha a felhasználó szereti az adott terméket. Ebből a hálózatból levonhatjuk azt a következtetést, hogy ha A, B és C felhasználó ugyanazt az 5 terméket kedveli, és van egy 6. termék, amit A és B kedvel, de C nem ismeri, akkor azt a terméket ajánlhatjuk C-nek, hiszen valószínűleg kedvelni fogja. Az elv lényege hétköznapi módon valahogy így fogalmazható meg: Akik a múltban gyakran egyetértettek, azok valószínűleg a jövőben is egyet fognak érteni.

Természetesen a valós megoldásokban használt gráfok az előbbinél sokkal bonyolultabbak. Az egyes éleknek különböző (akár negatív) súlya lehet, ezzel sokkal finomabb különbségek is jól modellezhetők. A módszer egy matematikai hasonlóság-függvényt definiál az objektumok között, amely lehetőséget ad felhasználó-felhasználó és termék-termék közötti hasonlóság meghatározására is, mint ezt az Amazon oldalán is tapasztalhatjuk.

Komoly kihívást jelent az ajánlások alapjául szolgáló gráf felépítése. Mint már korábban láttuk, az ajánlások annál pontosabbak, minél több felhasználót és terméket tartalmaz a rendszer, és az is fontos, hogy az élek száma sokszorosa legyen az objektumok számának. A Ringo és MovieLens projektekben úgy hozták létre a kezdeti adatbázist, hogy különböző levelezőlistákon embereket kértek meg az adott zenészek illetve filmek értékelésére. Ez a módszer meglehetősen kis adatmennyiséget biztosított, hiszen a felhasználók aktív részvételét igényelte, véleményüket explicit módon adták meg. Ennél sokkal több adat beszerzésére is lehetőség van, amennyiben az adatokat implicit módon, a felhasználó viselkedését figyelve gyűjtjük össze. Az Amazon ennek megfelelően a vásárlási adatokra építette első rendszerét, más cégek a még több adat reményében a felhasználók oldalletöltési szokásait is figyelni kezdték. Ha egy felhasználó többször megtekinti egy termék adatlapját, akkor valószínűleg tetszik neki a termék, így ezt a tudást is felhasználhatjuk az ajánlatok számításánál.

Bár az adatok implicit gyűjtése sokkal nagyobb adathalmazt eredményez, azonban ezen adatok kevésbé megbízhatóak. A böngészést végezhette a felhasználó egyik családtagja, vagy az is lehet, hogy csak ajándékot keresett egy teljesen más érdeklődésű ismerőse számára. Ezért hasznos lehet, hogyha az ajánló rendszer lehetőséget biztosít az implicit adatok explicit felülbírálására, így a két megközelítés remekül kiegészíti egymást.

Pages: 1 2

Leave a Reply

You must be logged in to post a comment.