Meklētājprogrammu darbs

Daudzi iesācēju tīmekļa pārziņi un vienkārši interneta sērfotāju fani ir saistīti ar jautājumu: kā darbojas meklētājprogrammas? Meklētājprogrammu pamatprincipi šodien izskatīs Padomju valsti.




Mūsdienu meklētājprogramma ir viss komplekss, kas sastāv no vissarežģītākajām programmām un algoritmiem, kas strādā ar pārsteidzošu ātrumu. Iedomājieties, jaunais meklēšanas algoritms Google kofeīns spēj apstrādāt informāciju, kas ir līdzvērtīga 3 kilometru A4 loksnēm, tikai 1 sekundi!



Visās meklētājprogrammās programmatūras komponentus var iedalīt piecās galvenajās grupās:



  • "Zirnekļi"

  • "Ceļojošie zirnekļi"

  • indeksētāji

  • datubāzes

  • rezultātu sistēmas



Zirnekļi - zirnekļi (zirnekļi) - ar viņu darba algoritmu līdzinās pārlūkprogrammām, bet tiem nav vizuālu komponentu. Spider ielādē lapas html kodu, izmantojot http protokolus.



Robotā pieprasījums serverim ietver komandu"Get / path / document" un dažas citas HTTP pieprasījuma komandas. Uz šo pieprasījumu zirneklis saņem servera atbildi kā teksta plūsmu, kurā ir pakalpojuma informācija par dokumentu un pašu dokumentu. Zirneklis ir daļa no meklētājprogrammu indeksēšanas moduļa.



"Ceļojošais zirneklis" - Rāpuļprogramma - ir vēl viens komponentsindeksēšanas modulis. Rāpuļprogramma automātiski pārklāj visas hipersaites, kuras lapas ir atradis zirneklis, tādējādi meklējot dokumentus, kas meklētājprogrammai vēl nav zināmi.



Robotu indeksētājs (indeksētājs) strādā tieši ar lapu saturu, ko ielādē zirnekļa roboti. Indeksētājs veic lapu morfoloģisku, leksisku analīzi, sadalot tās atsevišķās daļās.



Datu bāzes (datu bāze) ir īpaša programmatūra, kas paredzēta indeksēto dokumentu uzglabāšanai un indeksēšanai pēc komponentiem.



Meklētājprogrammas rezultātu dzinējs - rezultātu izsniegšanas sistēma ir viena no svarīgākajāmmeklētājprogrammas sastāvdaļas. Tas ir ar izejas sistēmu, ar kuru gala lietotājs nodarbojas, kas ievada vaicājumu meklēšanas virknē. Rezultātu rezultātu sistēma, pamatojoties uz vairāk nekā divdesmit dažādiem kritērijiem, izvēlas tos rezultātus, kas visvairāk atbilst meklēšanas mērķiem.



Šādas atlases algoritmu parasti sauc par algoritmu vai ranga mehānisms. Lai izvairītos no tīmekļa pārziņu krāpšanas, lai ietekmētu emisiju rezultātus, precīzs algoritmu meklētājprogrammas tiek turētas visstingrākajā slepenībā.



Tomēr ir vairāki zināmi kritēriji, kas tiek ņemti vērā meklētājprogrammu darbā, optimizējot to, kā tīmekļa pārzinis var "juridiski" ietekmēt meklēšanas rezultātus. Piemēram, Meklētājprogramma, analizējot lapu, ņem vērā:




  • vai lapas nosaukumā ir atslēgvārds (virsraksts)

  • Vai atslēgvārds parādās lapas URL?

  • vai galvenajā slejā H1-H6 ir atslēgvārds, STRONG, B, EM, I

  • kāds ir atslēgvārdu blīvums lapā (Blīvums)

  • Vai atslēgvārds eksistē meta tagos: atslēgvārdi, apraksts

  • Vai lapā ir iekšējās un ārējās saites?



Lietotājs mijiedarbojas ar meklētājprogrammu caur meklēšanas serveri. Saņemts meklēšanas vaicājums no lietotājaServeris apstrādā un nodod rangu moduli kā parametra ievadu. Savukārt modulis veic dokumentu apstrādi, kuru informācija tiek saglabāta meklētājstruktūras datu bāzē, un noformē lapu, kas atbilst lietotāja pieprasījumam.



Tālāk sistēma ģenerē fragmentu - teksta informāciju, kas lietotājam tiek parādīta SERP formātā (meklētājprogrammas rezultātu lapa). meklēšanas rezultātu lapas.



Tādējādi, pat īss apraksts par galvenoMeklēšanas sistēmu meklēšanas principi parāda, cik cieši visas sistēmas programmatūras sastāvdaļas savstarpēji ir savstarpēji savienotas un cik labi meklētājprogramma ir jādarbojas un skaidri jādarbojas, lai nodrošinātu lietotājam visātrāko un uzticamāko informāciju par viņa meklēšanas vaicājumu.



Meklētājprogrammu darbs
Komentāri 0