Igor Gubaidulin

2010-03-03 - 3 comments

Apsaugos nuo reklamos būdai

Egzistuoja daug būdu kaip svetainės lankytojo neįtraukti į kovą tarp robotų ir sistemos programuotojų. Šiandien pabandysiu apžvelgti, mano manymu, geriausius. Prieš aprašant kiekvieną algoritmą ar apsaugos būdą atskirai, norėčiau dar kartą pažymėti, kad kiekvienas algoritmas turi savo minusų, tačiau visi žemiau išvardinti algoritmai turi vieną savybę - jie palengvina lankytojo dalią. Be to, vėlgi pasikartosiu, manau, kad nereikia bandyti atpažinti ar lankytojas yra robotas ar žmogus, o kovoti su tam tikrais nepageidautinais veiksmais (pvz. reklamos skleidimas). Svarbu ne kas daro, o ką daro.

Pvz. kam reikalingas Captcha kodas registracijos metu? Tegul robotas užsiregistruoja, bet, jei jis neturės normalios galimybės parašyti komentarą, jis nepadarys didelės žalos, o po tam tikro laiko bus ištrintas dėl neaktyvumo.

Be abejo, kovoti galima keliais frontais - neleisti robotams rašyti, registruotis kol nebus įrodyta, kad rašo žmogus bei atlikti tam tikrų veiksmų prevenciją (pvz. reklamos skleidimas), bet turėtų visiems būti aiškus vienas faktas - lankytojo geriausia neįtraukti į šią kovą.

Pirmasis būdas yra Bajeso teoremos naudojimas. Bajeso filtrai gali savarankiškai, nedaug nusileisdami žmogaus sugebėjimams, atpažinti „blogą“ žinutę. Šį metodą kartais naudoja elektroninio pašto žinučių šlamšto (angl. spam) filtrams sukurti. Metodas yra pakankamai geras, tačiau reikalauja pakankamai didelio įdirbio. Vikipedijos skelbia, kad po mokymo ir didelio įdirbio pasiseka atrinkti iki 95 –97 proc. spamo.

Blokavimas pagal žodį ar jo kaukę - internetinės cenzūros mechanizmas kaip blokuojami tam tikri pranešimai turintys nepageidaujamų žodžių. Šis metodas dažnai nepasiteisina (žr. Scunthorpe problem) kai yra naudojamas vienas, tačiau jo panaudojimais kartu su kitais metodais gali atnešti pakankamai gerų rezultatų.

UPD: Atsiprašau, netyčia paskelbiau viešai šį įrašą, nors jis nebuvo iki galo pabaigtas. Šiek tiek vėliau pratęsiu apie galimus alternatyvius Captcha kodams apsaugos nuo reklamos ir fludo būdus. Laukite pratęsimo ;)

Published by: Igor in Interneto svetainių kūrimas

Vilmantas
2010-03-03 at 17:16

Atsakyti

Bajeso filtras apsimoko iš didelio kiekio informacijos (spamo teksto, jo antraščių), tačiau jis visada atsilieka nuo spamarių, nes šie prigalvoja vis naujų būdų, naudoja kitus žodžių derinius, tiek laiškuose, tiek antraštėse. Beje dabar dažnai tekstą rašo tiesiog paveiksliukuose, tad spamo filtrui reikia ir OCR (optinio atpažinimo sistemos, kuri iš paveikslo išpeštų tekstą ir priskirtų arba ne spamui).

Captcha apsaugo nuo fludinimo, jei kiekvienas naujas komentaras reikalaujo kodo. Tekstą robotai jau apeina, tačiau yra ir naujesnių Captcha versijų (http://server251.theory.cs.cmu.edu/cgi-bin/sq-pix), tad norim nenorim, nuo botų fludinimo reikalinga žmogaus/boto patikra.

Igor
2010-03-03 at 20:27

Aš nekalbu apie el. laiškus. Bajeso filtrus galima panaudoti ir svetainėje, kur jų panaudojimas labiau pagrįstas ir šiek tiek veiksmingesnis nei el. laiškuose.

Žmogaus/boto patikra nereikalinga, jei kovojama su nepageidaujamais veiksmais.

Igor
2010-03-03 at 20:25

Ups… Nežinau kodėl, bet šis įrašas atsirado tarp publikuotų. Nenorėjau jo skelbti, nes jis dar nebaigtas. Bet kai jau paskelbiau, tai tegul būna, parašysiu pratęsimą vėliau.

Blog Archives

Latest Posts

Monthly

Categories

Apsaugos nuo reklamos būdai

Comments

Leave a Reply to IgorCancel reply