Cum functioneaza algoritmul Google – Google Algo

In acest articol nu descifram codul Google. Incercam sa prezentam ilustrat modul de functionare a algoritmului Google dar si a update-urilor atat de mult vehiculate pana acum.

Nu este chiar o chestie de genul „Algoritm”, este mai mult ce credem noi despre aceasta- un fel de bloc monolitic de cod pe care Google il “pisca” ocazional. In constinta noastra colectiva Algoritmul (sau The Algo – cum mai este denumit), arata ceva de genul:

1

Deci, in principiu, cand Google anunta un “update”, tot ce vedem este o nebuloasa, nimic concret. Auzim despre un update al algoritmului principal o data la o luna, doua, iar pana acum Google a confirmat circa 665 de update-uri (in termini tehnici acestia au folosit cuvantul “lansari” ) in 2012- evident. Evident ca aici este vorba de mai mult decat schimbarea catorva linii de cod in vreun mega-program.

Intrari si iesiri

Evident, un algoritm trebuie sa faca ceva, deci ne trebuie intrari si iesiri. In cazul unei cautari, intrarea fundamentala este index-ul Google-ului pentru world wide web, iar iesirea sunt paginile care rezulta din cautare (SERPs = Search engine results page) :

2

 

Destul de simplu, nu? Paginile web intra, [se intampla ceva], iar rezultatele cautarii ies. Insa, poate nu este chiar atat de simplu. Evident, algortimul ca atare este incredibil de complicat (vom ajunge la aceasta imediat), dar nici macar intrarile nu sunt atat de simple cum va imaginati.

In primul rand, index-ul este reprezentat de aproximativ o duzina de centre de date raspandite in toata lumea, iar fiecare centru de date este un oras in miniatura, legate una de alta de una dintre cele mai impresionante retele de fibra optica construita vreodata. Deci, haideti, in final, sa adaugam ceva culoare si sa spunem ca totul arata mai degraba asa:

4

Adresa link-ului, datele locale si ale hartilor, graficul social (preponderant Google+) si “knowledge Graph”- in esenta o colectie de baze de date – toate cuprind intrarile majore care exista pe langa indexul de baza(esenta) al Google-ului. Din nou, acesta este doar un concept (Nu pretind sa cunosc modul in care fiecare din acestea sunt structurate ca date fizice) , dar fiecare din aceste intrari sunt unice si reprezinta piese importante in puzzle-ul cautarii.

Pentru binele acestui articol, o sa las personalizarea, care are intrarile sale personale (ca istoricul cautarilor voastre si locatia). Personalizarea este, fara doar si poate, importanta, dar are impact in mai multe zone ale acestei ilustrari si poate fi mai degraba considerata un strat decat o singura piesa a puzzle-ului.

Relevanta, clasamentul si reclasarea

Ca experti SEO, suntem atenti (vreau sa spun obsedati) de locul pe care il ocupam in clasament, dar uitam ca locul ocupat in clasament este doar o parte din treaba algoritmului. Eu cred ca este util sa imparti procesul in doi pasi: (1) relevanta si (2) clasamentul. Pentru ca o pagina sa fie pozitionata in Google, trebuia ca mai intai sa faca o prima miscare ca sa fie inclusa in lista. Sa spunem ca e ceva de genul asta:

5

Cu alte cuvinte, prima data Google trebuie sa aleaga care pagini se potrivesc cautarii, iar apoi sa aleaga ordinea in care paginile vor fi afisate. Pasul (1) se refera la relevanta- o pagina poate sa aiba toate link-urile, +1s si sa fie citata in lume, dar daca nu se incadreaza cerintei, nu va intra in clasament. Pagina Wikipedia pentru Mihai Eminescu nu va intra niciodata in clasament pentru “cele mai bune carcase iPhone”, indiferent cata autoritate are Wikipedia.

In 2013, este posibil ca factorii de pe pagina sa fie inca necesari pentru relevanta, dar nu sunt suficienti pentru locurile de top ale clasamentului. Cu alte cuvinte, pagina ta trebuie sa fie dedicata unei anumite teme pentru a da rezultate, dar asta nu inseamna ca daca pagina este dedicata unei teme specifice se va clasa pe un loc bun.

Chiar realizarea clasamentului nu este un simplu proces. O sa incerc sa acopar un topic incredibil de complicat in cateva propozitii, un topic pe care-l voi numi “reclasare”. In esenta, Google determina un clasament brut si ii putem considera un rezultat “pur” organic. Apoi, apar algortimii de rang secundar- acestia includ rezultate locale, rezultate sociale si rezultate verticale (ca stirile si imaginile). Acesti algoritmi de rang secundar rescriu sau reclaseaza rezultatele originale:

6

Aceasta diagrama este doar varful ghetarului- Bill Slawski are o trilogie excelenta pe tema reclasarii care acopera 40 de moduri diferite prin care Google reclaseaza rezultatele.

 Intrari speciale: penalizari si dezaprobari

Sunt de asemenea intrari speciale (in lipsa unui termen mai bun). De exemplu, daca Google emite o penalizare manuala impotriva unui site, care este marcat undeva si introdus in sistem. Aceasta ar putea fi o parte din index, dar din moment ce acest proces este gestionat manual si legat la Google Webmaster Tools, cred ca este util sa il privesti ca pe un concept separat.

De asemenea, Google’s disavow tool este o intrare separata, in acest caz una care este partial controlata de catre webmaster-i. Aceasta data trebuie sa fie periodic procesata si apoi trimisa inapoi in algoritm si/sau in link graph. Probabil ca exista un process editorial semi-automat implicat sa verifice si sa curate datele trimise de acest utilizator. Deci, aceea ne da ceva de genul acesta:

7

Bineinteles, sunt multe intrari care alimenteaza celelalte parti ale sistemului. De exemplu, hartile site-urilor de tip XML in Google Webmaster Tools ajuta la modelarea indexului. Scopul meu este sa va ofer o idee despre conceptele majore. Dupa cum poti vedea, chiar si versiunea “simpla” devine rapid din ce in ce mai complicata.

Update-uri: Panda, Penguin si Hummingbird

In sfarsit, avem update-urile algoritmului pe care il cunoastem cu totii si il iubim. In multe cazuri, un update este doar o schimbare sau o adaugare a unor mici parti la codul Google. In ultimii ani, update-urile algorritmului au devenit ceva mai interesante.

Sa incepem cu Panda, lansat in Februarie 2011. Update-ul Panda a fost mai mult decat o mica modificare- a fost (si probabil inca este) un sub-algoritm cu propriile lui structuri de date, functionand in afara algoritmului principal (conceptual vorbind). In fiecare luna, sau asa ceva, algoritmul Panda ar fi re-rulat, datele Panda ar fi reinnoite, iar acele date ar putea alimenta ceea ce poti numi factorul Panda al clasamentului in algoritmul principal. Este posibil ca Penguin sa opereze similar, un sub-algoritm si un set separat date . Le vom pune in afara ovalului mare, albastru:

8

Nu spun ca Panda si Penguin sunt acelasi lucru – ele opereaza in moduri diferite. Doar sugerez ca ambele update-uri ale acestor algoritmi se bazeaza pe propriul lor cod si sursele proprii de date si sunt doar periodic trimise inapoi in sistem.

De ce Google nu a rescris pur si simplu algoritmul de calcul in loc sa creeze Panda si/sau Penguin ? O parte din raspuns il constituie posibilitatile de calcul- sursele necesare procesarii acestei date sunt dincolo de ce poate infrastructura sa manevreze in zilele noastre. In timp ce Google devine mai rapid si mai puternic, acesti sub-algortimi pot deveni integrati total (si Panda este probabil mult mai integrat decat a fost vreodata). Celalalt motiv ar putea implica testarea si atenuarea impactului. Este posibil ca Google doar sa actualizeze Penguin periodic datorita imensului impact al primului update. Acesta nu ar trebui sa fie un process pe care sa il lase sa se destinda in timp real.

Deci, ce e cu update-ul recent Hummingbird? Inca sunt foarte mult despre care nu stim, dar Google a aratat destul de clar ca Hummingbird este o rescriere fundamentala a modului in care functioneaza algortimul de baza. Eu personal, nu cred ca am vazut impactul total al Hummingbird inca, potentialul acestui nou cod poate sa fie realizat in luni, chiar ani, dar vorbim despre algoritmii principali. Ceea ce ne duce catre imaginea finala:

9

Rezultatul final m-a surprins chiar si pe mine cand l-am creat. Aceasta este imaginea de baza, fara sa fie exagerata sau prea simplista. Realitatea Google-ului de azi depaseste cu mult aceasta diagrama- fiecare bucata este formata din zeci de bucati mai mici. Sper ca aceasta imagine da un sens despre ce anume este algoritmul si ce anume face el.

Resurse suplimentare

Daca esti nou in domeniul algortimului si ti-ai dori sa inveti mai multe, Google detine o resursa, “How Search Works” care este destul de interesanta (arunca o privire si la sub-sectiuni, nu doar la capitolele mari). As recomanda si categoria noastra de SEO si noutati din domeniu „Articole SEO„.

 

 

Comenteaza