1. Et kui teha
selline otsingurobot, mis suudab otsida
suvalisest interneti protokollist.
http,https,ldap,news.Kaasa arvatud nendest
mis on parooliga kaitstud, foorumid, news grupid jne..
2. Kui kasutada sellise roboti tegemisel inimlikku kogemust asjade otsimisel.
Mul on olemas eesnimede andmebaas
ja perenimede
andmebaas.
3. Foorumitesse ja new groupidesse
tuleb teha kasutajad ja spider logib selle jrägi
sisse.
Ja sedasi on võimeline
suvalise infot otsimda, mida tavaliste
otsingumootorite kaudu kätte ei saa.
4. Emailide otsing, emailid on peidetud hetkeseisuga igasuhu nippidega
nimi (at) firmanimi.ee jne... Kui lasta sellised
infod .ee, at, (at) läbi inimliku faktori
ja õpetada
robot neid tundma.
Siis on võimalik
näiteks kogu eesti avalik internet läbi kammida.
5. See otsingumootori võib programmeerida suvalist infot internetist kätte saama.
Leitud tulemuse põhjal
saab inimene
seda robotit suunata ja programmeerida.
Sisuliselt oleks koostöö
inimloovuse ja
roboti tehniliste võimaluste vahel.
Ehk loovad mõtted rakendab inimene on madaltaseme protokollide progemises.
6. Võimaliki läbi kammida terve
internet, kuna eestis on olemas .ee domeenidest
list.
7. Lisaväärtus oleksi see inimvfaktor mis teeb igasugu
foorumitesse kasutajaid,
mille kaudu sinna sisse saaks pugeda.
Ja info struktureeritus ja just õigele infole pihta saamine,
mis tänapäeva otsingumootorite juures on kohati hästi aeglane.
8. Otsimine sotsiaalsetes võrgustikes orkut.com, facebook.com jne..
9. Otsingumootori tulemuste optimeerimine.
9.1. Näiteks www.google.com annab tavaliselt vastuseks 1000-ndeid linke.
Nüüd oleks vaja
peale esimest
otsingu esitada kitsendus ala
leitud linkidest vaid
need milles sisaldub veel üks võtme
sõna või võtmesõnade kombinatsioon
või võtmesõnade eitus.
9.2 Juurde on võimalik tuua eitus
ja jaatus
ja muud loogilise
operatsioonid stringitöötlusest.
9.3 Hägusloogilised konstruktsioonid.
Leida lehed milles võtmesõna läheb kokku teatud
tõenäosusega.
Mitme võtmesõna kokkuminemine teatud tõenäosusega.
Mingi loogilise konstruktsioon
Eitus ja
JAatus otsingusõnade kaudu ja
iga otsingusõna on teatud lähedase tõenäosusega.
9.4 GEO IP lisamise
võimalus, robot leiab teatud piirkonna, riigi maakonnna või linna asukoha
IP-de järgi.
Ning leida teatud piirkonna IP-de järgi teatud info, Füüsiliselt selles piirkonnas asuvatest serveritest.
9.5 Otsingumootori tulemuste vastustest käib robot ise edasi otsimas.
9.6 Deep internet scan, robot pannakse
tööle ja
Google tulemused skännib meie robot läbi.
JA teeb inimese jaoks väärtusliku
töö ära, mille peale muidu
aega ei jätkuks
ja infouputuse korral inimene upuks sellesse.
ET deepscan interneti otsing pannakse tööle ja inimene
mingi X aja pärast saab oma
vastuse.
See robot mis
otsimas käib treenitakse välja läbi inimliku loogika
rakendamise robotitele.
Ehk sisuliselt
robot jäljendab inimese tegevust info otsimisel. See inimese tegevus kuidas inimene otsib
pannakse roboti programmi
loogikasse. Iga ilmev viga või ebakõla lahendatakse
jooksvalt.
Sedasi treenitakse
robot või intelligentne
agent meie jaoks parima tulemuse jaoks välja.
9.5 Internet Deep scan sügavus,
on võimalik öelda robotile mis suundas
saidilt edasi minna, mitu linki
edasi ronida.
See sügavus võib osutada ala 2-3 levelit edasi. Siis oleks võimalik
inimesel teatud tulemuste hulgast ala 100-1000 välja valida teed,
mis on rohkem potensiaalsed
ja lasta robotil edasi skännida.
Ehk sisuliselt robot, mille teed otsimisel inimene juhib.
See lisab süsteemile ekstra väärtuse.
10. Potensiaalsed internetiprotokollid mis oleks vaja süvatasandil
tundma õppida:
HTTP
HTTPS
NNTP
FTP
11. Süsteemi tuum peab tulema
võimalikult lihtne ja tavakasutajale
intuitiivselt taibatav.
Samas tuleb süsteemi
lihtsuse otsa ehitada võimalus kasutajal süsteemi ise konfigureerida ja suunata
otsinguroboti tööd.
1. HTTP otsing etteantud aadressidel.
2. HTTP otsing google.com tulemuse järgi(vajalik etteanda google otsingustring ja sealt edasise
otsingureeglid)
3. HTTPS ehk parooliga kaitstud saitidel otsing(vajalik on roboti
jaoks või roboti poolt kasutajatunnus)
4. NNTP ehk new-si otsing( otsimine newsGruppidest,
etteantud listist newsgruppidest, ka parooliga kaitstud newsgruppidest)
5. FTP ehk failide otsing(otsingustringi etteandmine ja ftp serverite listi etteandmine, file listingu
search,
kaasatud on ka parooliga kaitstud FTP-d, tavakasutaja aga peab tegema
oma parooli kui tahab infole
ligi)
Lihtsalt antkse vihje
kust potensiaalselt mingi fail asub.
12.
Ma tegin hiljuti ühe internetisaidi
promo projekti.
Ja pidin selle
käigus ära lollitama ühe internetiteenuse
serveri, et ta ei saaks aru,
et tegemist on robotiga.
Kui õppisin katsetamise
käigus süsteemi toimimise selgeks, siis sain programmeerida
sellise roboti, et sait
arvas, et tegemist on inimesega. Kuna nüüd robot toimib võrreldes inimesega praktiliselt olematu ajaga
jA ma panin 11 robotit parraleelselt tööle, sis kokkuvõttes oli tulemus ülivõimas.
Ehk 5 öö jagu
progemisega ja
kasutades oma inimkogemusest tulenevat infot sain tulemuse,
et ka ise ei suutnud uskuda.
SELLEST SIIS TULI SIIN
VÄLJAPAKUTU ALGIDEE.
13.
Kus seda süsteemi
kasutada ja
kellele seda pakkuda?
13.1
Google otsingutulemuse optimeerimine.
Esiteks igal inimesel on tihti vaja otsingumootoritest info kätte saad.
Vahel kulub selleks
meeletu aeg, et õiget infot
kätte saada.
Googles inimene vaatab näiteks tavaliselt esimene 5-10 tulemust, harva ka 20 tulemust.
Ja seejärel paneb
uue otsingukriteeriumi.
Vaja oleks aga
nii et saaks
otsida esimese google otsingutulemuse seest.
Sisestades uusi kitsendusi,
nii et loogiliselt
eelmised kehtivad.
Saaks sisestada tingimusi,
mis oleksid keerulisemad kui googlesse saab
sisestada.
13.2
Andmekaevandamise süvaülesanded.
Näitkes on vaja ühel firmal või
eraisikul kätte saada teatud toote
või inimese või bärndi kohta
kogu avalik internetis olev info.
Google annab
näiteks ainult välja info saitide kohta, mis pole parooliga kaitstud.
Samas saab
paljudesse kohtadesse sisse kui robot ise sinna parooliga
läheb.
Ehk on 1-2 levelit sügavam otsimine kui GOOGLE puhul ja tihti
tuleb nii välja üllatav info mida muidu poleks
kätte saadud.
Saab siis teha eraldi robotit
nätieks orkuti jaoks rate jaoks, igasugu eestis oleva spetsiifiliste foorumite kohta.
13.2
Turuuuringud ja internetiturundus.
Saab otsida
välja vajalike firmade inimeste emailid kontaktid, kes tegelevad teatud
alaga, kellele on mõtet pakkumisi saata.
Sisuliselt inimesed kes
on konreetses teemas sees, need ei pahnda
kui neile saadetakse ajalikku oma ala kohta.
Samas koguneb ka endale teadmusbaas, kus sa saad kogu info konkreetse ala kohta internetist kätte.
JA saab
kätte suht väärtusliku info, ehk ei pea kulutama aega lõputulse googeldamisele.
Argo Vilberg
argovilberg@gmail.com
56206727