Surabaya – Halo, guys! Ada berita hot yang bikin dunia SEO geger. Jadi, dokumen rahasia tentang cara kerja algoritma Google Search baru aja bocor ke public.
Nah, ceritanya, ada dokumen internal Google yang bocor ke publik tentang Content Warehouse API mereka. Bayangin aja, informasi ini nggak sengaja dipublikasikan ke repository kode.
Meski kesalahan ini udah diperbaiki pada 7 Mei, dokumentasi otomatisnya masih bisa diakses. Yang lebih gokil lagi, semua kode dalam repository itu pakai lisensi Apache 2.0, jadi siapa aja yang nemu bisa pakai, modifikasi, dan distribusiin sesuka hati.
Dalam dokumen ini, ada sekitar 14 ribu atribut (atau fitur) yang dipakai buat ngatur hasil pencarian di Google. Modul-modul ini ngatur mulai dari YouTube, Assistant, buku, video search, sampai link web dan infrastruktur crawl. Bahkan ada juga sistem kalender internal dan People API. Ini bikin kita makin ngerti cara Google bekerja di balik layar.
Google sering banget bilang nggak pake yang namanya “domain authority“, tapi dokumen ini ngungkap kalo mereka punya yang namanya “siteAuthority”.
Jadi, meski mereka bilang nggak pake domain authority ala Moz, ternyata mereka tetap punya sistem yang ngukur otoritas suatu situs secara keseluruhan. Ini bener-bener mindblowing karena selama ini Google selalu ngeklaim sebaliknya.
Google selalu ngeklaim nggak pake data klik buat ngatur ranking, tapi di dokumen ini ada modul yang namanya NavBoost. Sistem ini jelas-jelas pake data klik buat nge-boost atau nurunin ranking.
Jadi, beneran deh, klik dan perilaku setelah klik tuh berpengaruh banget ke ranking. Testimoni dari Pandu Nayak di sidang antitrust DOJ juga mengungkap kalau sistem ini udah ada sejak 2005 dan pake data klik selama 13 bulan terakhir buat ngatur ranking. Ini bener-bener ngungkap kalo klik sangat penting dalam SEO.
Google juga sering bilang nggak ada “sandbox” buat website baru, tapi ada atribut yang namanya “hostAge” buat nge-sandbox spam baru. Jadi, emang ada sandbox, guys! Ini juga ngasih bukti kalau situs-situs baru bisa jadi mengalami penurunan ranking sementara waktu.
Google juga bilang nggak pake data dari Chrome buat ranking, tapi ada modul yang ngukur views dari Chrome. Jadi, data dari Chrome tetep dipake juga buat ngatur ranking. Ini mengindikasikan bahwa aktivitas pengguna di browser Chrome juga ikut diperhitungkan dalam algoritma pencarian Google.
Beberapa sistem yang dijelasin di dalam bocoran dokumen algoritma google ini antara lain:
– Trawler. Sistem buat crawling web. Sistem ini ngatur jadwal crawl, kecepatan crawl, dan seberapa sering halaman-halaman di-crawl ulang.
– Alexandria. Sistem inti buat indexing. Ini adalah jantung dari Google Search yang ngumpulin dan nyimpen data dari web.
– NavBoost. Re-ranking berdasarkan klik. Sistem ini ngatur ulang ranking berdasarkan data klik pengguna, memastikan hasil pencarian yang paling relevan muncul di atas.
– SnippetBrain. Sistem buat bikin snippet hasil pencarian. Sistem ini ngebantu Google buat nampilin cuplikan informasi yang relevan dari situs web di hasil pencarian.
Salah satu aspek menarik lainnya dari bocoran algoritma google ini adalah apa yang disebut sebagai “Twiddlers”. Twiddlers adalah fungsi re-ranking yang berjalan setelah algoritma pencarian utama selesai.
Mereka berfungsi mirip seperti filter dan aksi di WordPress, di mana informasi yang ditampilkan disesuaikan tepat sebelum disajikan ke pengguna.
Twiddlers bisa mengatur skor informasi retrieval dari sebuah dokumen atau mengubah ranking dokumen tersebut. Banyak eksperimen langsung dan sistem yang dikenal publik diimplementasikan dengan cara ini.
Misalnya, Twiddlers bisa menawarkan pembatasan kategori, artinya keragaman hasil pencarian bisa ditingkatkan dengan membatasi jenis hasil tertentu.
Google bilang kalau Panda bukan bagian dari algoritma inti mungkin karena diluncurkan sebagai Twiddler, sebuah kalkulasi boost atau demotion yang kemudian dipindahkan ke fungsi penilaian utama. Pikirkan ini seperti perbedaan antara rendering sisi server dan sisi klien.
Secara konseptual, kita mungkin berpikir tentang “algoritma Google” sebagai satu hal besar, sebuah persamaan raksasa dengan serangkaian faktor penilaian yang tertimbang.
Pada kenyataannya, algoritma google ini adalah serangkaian microservices di mana banyak fitur diproses terlebih dahulu dan tersedia pada waktu berjalan untuk menyusun SERP.
Dalam presentasi “Building Software Systems at Google and Lessons Learned” oleh Jeff Dean, dia menyebutkan bahwa iterasi awal Google mengirim setiap query ke 1000 mesin untuk memproses dan merespons dalam waktu kurang dari 250 milidetik.
Dia juga menunjukkan diagram abstraksi arsitektur sistem sebelumnya. Diagram ini menggambarkan bahwa Super Root adalah otak dari Google Search yang mengirim query dan menyatukan semuanya pada akhirnya.
Jadi, bocoran ini bener-bener buka mata soal gimana cara Google ngatur hasil pencarian kita. Banyak hal yang selama ini kita kira-kira doang, ternyata beneran ada. Gimana menurut kalian tentang bocoran ini? Yuk, share pendapat kalian di kolom komentar.