Intelligentsed otsingurobotid, interneti süvaotsing, interneti andmekaevandamine


1. Et kui teha selline otsingurobot, mis suudab otsida suvalisest interneti protokollist.
http,https,ldap,news.Kaasa arvatud nendest mis on parooliga kaitstud, foorumid, news grupid jne..

2. Kui kasutada sellise roboti tegemisel inimlikku kogemust asjade otsimisel.
Ala leida webilehed kus esineb see või too eesnimi või perenimi.
Mul on olemas eesnimede andmebaas ja perenimede andmebaas.

3. Foorumitesse ja new groupidesse tuleb teha kasutajad ja spider logib selle jrägi sisse.
Ja sedasi on võimeline suvalise infot otsimda, mida tavaliste otsingumootorite kaudu kätte ei saa.

4. Emailide otsing, emailid on peidetud hetkeseisuga igasuhu nippidega 
nimi (at) firmanimi.ee jne... Kui lasta sellised infod .ee, at, (at) läbi inimliku faktori ja õpetada robot neid tundma.
Siis on võimalik näiteks kogu eesti avalik internet läbi kammida.

5. See otsingumootori võib programmeerida suvalist infot internetist kätte saama.
Leitud tulemuse põhjal saab inimene seda robotit suunata ja programmeerida.
Sisuliselt oleks koostöö inimloovuse ja roboti tehniliste võimaluste vahel.
Ehk loovad mõtted rakendab inimene on madaltaseme protokollide progemises.

6. Võimaliki läbi kammida terve internet, kuna eestis on olemas .ee domeenidest list.

7. Lisaväärtus oleksi see inimvfaktor mis teeb igasugu foorumitesse kasutajaid, mille kaudu sinna sisse saaks pugeda.
Ja info struktureeritus ja just õigele infole pihta saamine, mis tänapäeva otsingumootorite juures on kohati hästi aeglane.


8. Otsimine sotsiaalsetes võrgustikes orkut.com, facebook.com jne..

9. Otsingumootori tulemuste optimeerimine.
9.1. Näiteks www.google.com annab tavaliselt vastuseks 1000-ndeid linke.
Nüüd oleks vaja peale esimest otsingu esitada kitsendus ala
leitud linkidest vaid need milles sisaldub veel üks võtme sõna või võtmesõnade kombinatsioon
või võtmesõnade eitus. 
9.2 Juurde on võimalik tuua eitus ja jaatus ja muud loogilise operatsioonid stringitöötlusest.
9.3 Hägusloogilised konstruktsioonid.
Leida lehed milles võtmesõna läheb kokku teatud tõenäosusega.
Mitme võtmesõna kokkuminemine teatud tõenäosusega.
Mingi loogilise konstruktsioon Eitus ja JAatus otsingusõnade kaudu ja 
iga otsingusõna on teatud lähedase tõenäosusega.
9.4 GEO IP lisamise võimalus, robot leiab teatud piirkonna, riigi maakonnna või linna asukoha IP-de järgi.
Ning leida teatud piirkonna IP-de järgi teatud info, Füüsiliselt selles piirkonnas asuvatest serveritest.
9.5 Otsingumootori tulemuste vastustest käib robot ise edasi otsimas.
9.6 Deep internet scan, robot pannakse tööle ja Google tulemused skännib meie robot läbi.
JA teeb inimese jaoks väärtusliku töö ära, mille peale muidu aega ei jätkuks ja infouputuse korral inimene upuks sellesse.
ET deepscan interneti otsing pannakse tööle ja inimene mingi X aja pärast saab oma vastuse.
See robot mis otsimas käib treenitakse välja läbi inimliku loogika rakendamise robotitele.
Ehk sisuliselt robot jäljendab inimese tegevust info otsimisel. See inimese tegevus kuidas inimene otsib
pannakse roboti programmi loogikasse. Iga ilmev viga või ebakõla lahendatakse jooksvalt.
Sedasi treenitakse robot või intelligentne agent meie jaoks parima tulemuse jaoks välja.
9.5 Internet Deep scan sügavus, on võimalik öelda robotile mis suundas saidilt edasi minna, mitu linki edasi ronida.
See sügavus võib osutada ala 2-3 levelit edasi. Siis oleks võimalik inimesel teatud tulemuste hulgast ala 100-1000 välja valida teed,
mis on rohkem potensiaalsed ja lasta robotil edasi skännida.
Ehk sisuliselt robot, mille teed otsimisel inimene juhib.
See lisab süsteemile ekstra väärtuse.


10. Potensiaalsed internetiprotokollid mis oleks vaja süvatasandil tundma õppida:
HTTP
HTTPS
NNTP
FTP



11. Süsteemi tuum peab tulema võimalikult lihtne ja tavakasutajale intuitiivselt taibatav.
Samas tuleb süsteemi lihtsuse otsa ehitada võimalus kasutajal süsteemi ise konfigureerida ja suunata otsinguroboti tööd.
1. HTTP otsing etteantud aadressidel.
2. HTTP otsing google.com tulemuse järgi(vajalik etteanda google otsingustring ja sealt edasise otsingureeglid)
3. HTTPS ehk parooliga kaitstud saitidel otsing(vajalik on roboti jaoks või roboti poolt kasutajatunnus)
4. NNTP ehk new-si otsing( otsimine newsGruppidest, etteantud listist newsgruppidest, ka parooliga kaitstud newsgruppidest)
5. FTP ehk failide otsing(otsingustringi etteandmine ja ftp serverite listi etteandmine, file listingu search, 
kaasatud on ka parooliga kaitstud FTP-d, tavakasutaja aga peab tegema oma parooli kui tahab infole ligi)
Lihtsalt antkse vihje kust potensiaalselt mingi fail asub.






12. 
Ma tegin hiljuti ühe internetisaidi promo projekti.
Ja pidin selle käigus ära lollitama ühe internetiteenuse serveri, et ta ei saaks aru, et tegemist on robotiga.
Kui õppisin katsetamise käigus süsteemi toimimise selgeks, siis sain programmeerida sellise roboti, et sait
arvas, et tegemist on inimesega. Kuna nüüd robot toimib võrreldes inimesega praktiliselt olematu ajaga
jA ma panin 11 robotit parraleelselt tööle, sis kokkuvõttes oli tulemus ülivõimas.
Ehk 5 öö jagu progemisega ja kasutades oma inimkogemusest tulenevat infot sain tulemuse, et ka ise ei suutnud uskuda.
SELLEST SIIS TULI SIIN VÄLJAPAKUTU ALGIDEE.



13. 
Kus seda süsteemi kasutada ja kellele seda pakkuda?


13.1 
Google otsingutulemuse optimeerimine.
Esiteks igal inimesel on tihti vaja otsingumootoritest info kätte saad. 
Vahel kulub selleks meeletu aeg, et õiget infot kätte saada.
Googles inimene vaatab näiteks tavaliselt esimene 5-10 tulemust, harva ka 20 tulemust.
Ja seejärel paneb uue otsingukriteeriumi.
Vaja oleks aga nii et saaks otsida esimese google otsingutulemuse seest.
Sisestades uusi kitsendusi, nii et loogiliselt eelmised kehtivad.
Saaks sisestada tingimusi, mis oleksid keerulisemad kui googlesse saab sisestada.


13.2 
Andmekaevandamise süvaülesanded.
Näitkes on vaja ühel firmal või eraisikul kätte saada teatud toote või inimese või bärndi kohta kogu avalik internetis olev info.
Google annab näiteks ainult välja info saitide kohta, mis pole parooliga kaitstud.
Samas saab paljudesse kohtadesse sisse kui robot ise sinna parooliga läheb.
Ehk on 1-2 levelit sügavam otsimine kui GOOGLE puhul ja tihti tuleb nii välja üllatav info mida muidu poleks kätte saadud.
Saab siis teha eraldi robotit nätieks orkuti jaoks rate jaoks, igasugu eestis oleva spetsiifiliste foorumite kohta.


13.2 
Turuuuringud ja internetiturundus.
Saab otsida välja vajalike firmade inimeste emailid kontaktid, kes tegelevad teatud alaga, kellele on mõtet pakkumisi saata.
Sisuliselt inimesed kes on konreetses teemas sees, need ei pahnda kui neile saadetakse ajalikku oma ala kohta.
Samas koguneb ka endale teadmusbaas, kus sa saad kogu info konkreetse ala kohta internetist kätte.
JA saab kätte suht väärtusliku info, ehk ei pea kulutama aega lõputulse googeldamisele.


Argo Vilberg
argovilberg@gmail.com
56206727