To, w jaki sposób funkcjonują pewne systemy cyfrowe, często jest największą tajemnicą, jaką firmy technologiczne próbują strzec. W przypadku „rosyjskiego Google” oraz wielu usług i aplikacji Yandex, pewne ważne dane nie stanowią już tajemnicy.
45 gigabajtów danych
Za wyciek odpowiedzialny jest jeden z użytkowników forum Breached. 25 stycznia tego roku zasoby firmy Yandex zostały udostępnione w postaci torrenta, natomiast aktualność kodu datuje się na okres pomiędzy lutym a lipcem 2022 roku. Programista Arsenij Szestakow, choć nie pracował nigdy w Yandexie, zna osoby związane teraz lub w przeszłości z firmą. Potwierdziły one prawdziwość kodu oraz dokumentacji prowadzącej do wewnętrznych zasobów firmy.
Serwis Bleeping Computer przekazał informację od Yandexu, który twierdzi, że nie doszło do ataku hakerskiego, tylko do wyniesienia danych przez byłego pracownika. Grigorij Bakunow, który piastował dawniej w firmie stanowiska m.in. dyrektora ds. technologii rozprzestrzeniania oraz starszego administratora systemów twierdzi, że motyw wycieku był czysto polityczny, a pracownik odpowiedzialny za wyniesienie kodu nie próbował sprzedać go konkurencji.
Bakunow dodaje, że pliki nie zawierają żadnych danych należących do użytkowników, więc nie ma mowy o zagrożeniu ich prywatności i bezpieczeństwa. Wyciek nie doprowadził też bezpośrednio do wydostania się jakiejkolwiek zastrzeżonej technologii.
Repozytorium, które wyciekło zawiera tylko kod; druga ważna część to dane. Kluczowe elementy, jak wagi modeli (parametr w sieci neuronowej, który przekształca dane wejściowe w ukrytych warstwach sieci) itp. są nieobecne, więc całość jest prawie bezużyteczna. Mimo to, jest tam wiele interesujących plików o nazwach takich jak „blacklist.txt”, które potencjalnie mogą ujawnić działające usługi. Grigorij Bakunow w rozmowie z Bleeping Computer
Bakunow zauważa jednak, że kod może posłużyć hakerom do znalezienia luk w bezpieczeństwie i stworzenie ukierunkowanych exploitów – jest to wyłącznie kwestia czasu.
Co zawiera wyciek z Yandexu?
Konsultant SEO (Search Engine Optimization), Martin McDonald opisał natomiast wyciek jako „prawdopodobnie najciekawszą rzecz, jaka przytrafiła się SEO od lat”. Szczegółowo sytuację przedstawił w obszernych wpisach na Twitterze Alex Buraks, kierownik ds. rozwoju w Discover Cars. Przeanalizował on kod i rozłożył pewne fragmenty na czynniki pierwsze. Pierwszą sprawą, jaką wziął na tapet Buraks są podobieństwa między Yandexem a Google:
- Algorytm uczenia maszynowego podobny do Google RankBrain – MatrixNet;
- Wykorzystywanie przez obu gigantów PageRank – metody nadawania indeksowanym stronom internetowym określonej wartości liczbowej;
- Podobieństwo tekstowych algorytmów.
Autor zauważa, że wyszukiwarka Yandex powstała jako klon Google. Ponadto specjaliści SEO w Rosji używają tych samych taktyk SEO w Yandexie jak i w Google, a wielu byłych pracowników giganta z Mountain View znalazło zatrudnienie w jego rosyjskim odpowiedniku.
W praktyce wszystkie te elementy skutkują tym, że wyniki z Yandexu oraz Google pokrywają się w 70% procentach. Co zatem jest najważniejsze dla współczesnej wyszukiwarki internetowej? Buraks wymienia ponad 30 czynników. Pierwsza dziesiątka opisana przez niego wygląda następująco:
- Wiek odnośnika – im młodszy, tym lepiej;
- Organiczny ruch – więcej unikalnych odwiedzin witryny ma znacznenie;
- Liczba numerów i „slashy” w URL – im mniej, tym lepiej;
- Zoptymalizowany kod;
- Hosting na niezawodnych serwerach;
- Strony Wikipedii lub zawierające odnośniki do niej;
- Zachowanie użytkownika – współczynnik klikalności, „ostatni klik” czy czas spędzony na stronie;
- Średnia pozycja domeny we wszystkich wyszukiwaniach;
- Crawl depth – ile stron musi „przeklikać” bot, aby dostać się do treści, zaczynając od strony głównej;
- Odnośniki wewnętrzne – te z głównej strony są ważniejsze od „bardziej ukrytych”.
Nie jest to pierwszy raz kiedy, Yandex padł ofiarą wycieku danych. W 2015 roku jeden z pracowników wyniósł kod, próbując sprzedać go na czarnym rynku za 28 tys. dolarów w celu ufundowania własnego projektu. Cena, jaką zaproponował udowadnia, że nie miał on pojęcia, ile całość może być warta. Pracownik został jednak złapany i skazany na dwa lata więzienia w zawieszeniu, a kod nie ujrzał światła dziennego. Tym razem Yandex nie miał tyle szczęścia.