Hoe werkt Google?


Publicatie datum:

Een heldere uitleg van de werking van Google.

Gesponsorde koppelingen

Als we spreken over Google hebben we het in de meeste gevallen over de zoekmachine die het gelijknamige Amerikaanse technologiebedrijf heeft ontwikkelt. Één van de meest efficiënte zoekmachines die er bestaan nota bene. Bijna 90% van alle zoekopdrachten in Europa worden via Google uitgevoerd, mede omdat de zoekmachine van Google een ster is in het presenteren van zijn zoekresultaten. Beeld je maar eens in hoe ingewikkeld het proces moet zijn om miljarden websites te indexeren, en te doorzoeken op willekeurig ingegeven woorden (die de gebruiker als zoekopdracht geeft), om de resultaten van de zoektocht vervolgens zo te presenteren dat de meest relevante en meest interessante websites bovenaan verschijnen. Hoe werkt de software van Google? Hoe krijgen ze het voor mekaar?

Gesponsorde koppelingen

Wat is een ‘Google’?

Google is een actueel begrip geworden in onze hedendaagse maatschappij. Zelfs niet-internetgebruikers (ze zijn nog niet uitgestorven), hebben van het fenomeen gehoord en iedereen ziet de wonderwebsite als de leidraad voor iedere ‘surfsessie’. Wie echter Google alleen als een zoekmachine ziet, die loopt achter. Google –als we het hebben over het bedrijf achter de zoekmachine- is een technologiebedrijf dat vele types software, utiliteitsprogramma’s en nog wat losse ontwikkelingen heeft voortgebracht. Het is Googles missie om niet alleen de zoekresultaten te kunnen domineren, maar ook webmasters en eigenaren van websites te voorzien van handige (gratis) software waarmee iedere website goedkoop en efficiënt kan opereren. Uiteraard hebben deze programma’s wel weer tot doel dat Google verrijkt wordt met eenvoudig te verkrijgen informatie over ’s werelds websites. Maar de kracht van Google is altijd geweest dat ze zich weten te verrijken ( financieel en qua ontwikkeling) zonder de gebruikers van zich te vervreemden. En dat is een knappe positionering van een product.

Alle werkzaamheden hangen dus samen met de zoekmachine; het ‘weten’ van wat er overal ter wereld op internet gebeurt. Het resultaat voor de consument is een spectrum van handige programma’s, waar de zoekmachine er slechts één van is, die vrij te gebruiken zijn en bijzonder nuttig bovendien. Met deze programma’s wordt praktisch niets verdiend, hoewel alle productiviteit hierop gericht is. Het zijn de advertenties- de welbekende betaalde links- die geld in het laatje brengen bij Google.

Hoe gaat een zoekopdracht in zijn werk?

Een zoekopdracht in Google duurt gemiddeld een halve seconde. Binnen die halve seconde zijn miljarden websites doorzocht op de door jouw ingetypte zoekwoorden. De websites zijn onderzocht op relevantie en daarnaar gerangschikt. Het achterliggende proces is ongelofelijk complex, en moeilijk te doorgronden. Zeker aangezien het feit dat Google de meeste informatie over de werking van de software perfect geheim weet te houden. We kennen wel het proces in grote lijnen.

Google maakt gebruik van een kleine half miljoen servers, die verspreid over de hele wereld staan opgesteld. Een groot gedeelte van deze servers zijn de indexservers, waarop een doorzoekbare index staat van de database van alle websites die in Google zijn opgenomen. Daarnaast zijn er een flink aantal databaseservers waarop kopieën worden bewaard van letterlijk alle pagina’s die in de index zijn opgenomen. Ten slotte is er een kleiner gedeelte webservers waarop de website van Google draait. De index van Google wordt opgebouwd door de zogenaamde Googlebot, een crawler of spidersoftware die iedere twee weken het internet afspeurt naar nieuwe websites en veranderingen op bekende websites. Alles wat de spidersoftware aan verandering waarneemt wordt opgenomen in de index en gekopieerd naar de database. Op het moment je een zoekopdracht uitvoert wordt er dus niet gezocht op internet, maar op de indexservers van Google. Nu begint het te dagen waarom een zoekopdracht zo snel gaat, want de rekenkracht van 500.000 servers is natuurlijk enorm. Uit de indexering filtert de zoeksoftware alle relevante webpagina’s, vervolgens wordt uit de database een stukje tekst gekozen van iedere webpagina waarin de zoekwoorden van de gebruiker terugkomen. Vervolgens moeten de resultaten in een relevante volgorde worden geplaatst. Het is natuurlijk niet nuttig om de resultaten in een willekeurige volgorde weer te geven. Een alfabetische of chronologische volgorde heeft ook geen zin, de gebruiken wil een volgorde van relevantie zien. Google is daar met zijn zoeksoftware verreweg kampioen in, dit is de reden waarom Google zo populair is.

De volgorde –ook wel ranking genoemd- wordt bepaald aan de hand van een aantal factoren. Ten eerste is er de tekst van een website, waarin een bepaalde dichtheid te vinden is van de zoekwoorden. De mate van dichtheid bepaald voor een gedeelte de toegekende relevantie. Daarna is er de waarde van de links op de pagina. Als in de titels van de links veel zoekwoorden terugkomen, krijgt de pagina een hogere ranking. Tot slot volgens sommigen de belangrijkste factor, de PageRank (PR). De pagerank wordt bepaald op het aantal backlinks dat een pagina heeft. Dit zijn verwijzingen naar een pagina vanaf externe websites. Backlinks kennen verschillende waarderingen. Zo is de relevantie van een externe website belangrijk. Er dient overeenkomst te zijn in onderwerp (zoekwoorden). Ook de PageRank van een andere website is van belang, hoe hoger de PR, hoe meer de backlink gewaardeerd wordt. Ten slotte is de kwantiteit van backlinks op de andere pagina ook van belang; heeft de externe website veel verwijzingen naar andere websites, dan is de waardering lager dan wanneer alleen jouw link daar staat. Een backlink die hoog gewaardeerd wordt, wordt een kwalitatieve backlink genoemd. Een website met veel kwalitatieve backlinks krijgt een hoge PR. De PR wordt in een schaal van 0-10 weer gegeven, waarbij PR10 het hoogst haalbare is (PR0 wordt niet in de zoekresultaten weergegeven om welke reden dan ook). Voor zover bekend is er maar één website die een PR10 heeft, en dat is Google zelf met ruim 30 miljoen backlinks.

Nu weet je dus hoe een zoekopdracht in elkaar steekt, het vergt heel wat meer dan een halve seconde om het proces (nog oppervlakkig) weer te geven.

Google is God

Veel mensen die met Google of internet werken beweren dit, en in zekere zin is dat niet dom uitgedrukt. Door het marktaandeel van Google is het voor commerciële websites van levensbelang om goed vindbaar te zijn, en jaarlijks wordt er dan ook alleen al in Nederland miljarden verdiend aan het optimaliseren van websites voor zoekmachinemarketing. De methodologie van Google is een streng bewaakt geheim, terecht ook, want wie inzage zou hebben in de formules die de zoeksoftware van het bedrijf gebruikt zou zonder moeite zijn webpagina bovenaan in de zoekresultaten kunnen plaatsen. Google beheert een bepaalde ‘wetmatigheid’ die bepaalt hoe je om moet gaan met optimalisatie. Hierdoor dwingen ze webmasters en ontwerpteams om doordacht om te gaan met de invulling van een website, ze stimuleren de kwaliteit van internet dus. Een nobel doel, maar de uitdrukking dat Google als God is verwijst dus naar het wereldwijde aantal commerciële websites, en iedereen die daarmee gemoeid is, die naar de pijpen van Google dansen.

Actuele ontwikkeling bij Google

Tot 2008 was er enige kritiek op Google omdat niet alle webpagina’s die er bestaan geïndexeerd konden worden. Websites met zogenaamde dynamische inhoud, inhoud die regelmatig verandert en wordt aangepast door grote databases, konden door de Googlebot niet geïndexeerd worden. Hierdoor zijn dynamische databases, zoals nieuwssites, grote webforums, blogs en communities, meestal onvindbaar in Google. Dit probleem was enorm complex, en het duurde dan ook jaren voor Google met een antwoord kwam. In 2009 wordt de nieuwste update geïntroduceerd, die op basis van zogenaamde ‘pingbacks’ (meldingen van verandering aan een database aan geregistreerde bezoekers) de websites kan indexeren. Dit introduceert ook de mogelijkheid voor Google om een nieuwe dimensie aan de ranking toe te kennen; namelijk die van actualiteit. Websites die met grote regelmaat nieuwe inhoud publiceren zullen op den duur in ranking stijgen. De relevantie van actualiteit behoeft geen uitleg, deze verandering zal de markt weer een nieuwe dimensie geven.

 

 

[Noot van de schrijver: De actuele ontwikkelingen bij Google zijn mij bij feiten slecht bekend. Mocht u aanvulling hebben op dit onderwerp nodig ik u van harte uit deze in een reactie uit de doeken te doen.]


Auteursinformatie


Geschreven artikelen: 8
Leden aangebracht: 0

Meer uit de categorie computers

Basisprincipes Access 2003

Basisprincipes Access 2003

De werking van een 3D-printer

De werking van een 3D-printer. Hoe gaat het afdrukken van ruimtelijke objecten in zijn werk?

Alles kijken op uw TV via uw laptop of computer!

Lees hier alles over TV kijken via uw laptop of computer.

De datum vinden waarop een website voor de eerste keer online was

Hoe oud is een bepaalde website? In dit artikel zal ik je via een handig trucje uitleggen hoe je de eerste datum vindt waarop een webpagina online was.

Bouw je eigen computer.

Hoe bouw je je eigen computer, waar haal je de onderdelen en hoe weet je wat je nodig hebt?