Yandex arama motorunun nasıl çalıştığına dair en basit açıklama. Arama motoru yandex ru Ana arama motoru yandex

Bu yazıda Yandex arama motorunun bu arama motorunun çalışmasıyla ilgili ne olduğundan bahsedecek ve Yandex arama motorunun sıralamada sınırladığı site örneklerine dikkat çekeceğim.

Yandex arama motoru, popülaritesi açısından dünyada 20. sırada ve Rusya'da 1. sırada yer alıyor. Resmi olarak Yandex, 1997 yılında 23 Eylül'de onaylandı, gelişimi Comp Tek International şirketi içinde başladı ve 2000 yılında Yandex ayrı bir şirket olarak var olmaya başladı.

Şirketin kurucuları, genel müdür olan Arkady Yuryevich Volozh ve Yandex'in kurucusu ve teknoloji ve geliştirme yöneticisi Ilya Valentinovich Segalovich (1964-2013). Yandex'in tarihine biraz aşina olduk, şimdi arama motorundan bahsedelim.

Ve bu nedenle Yandex'in ana yönü, ayırt edici bir özelliği arama sorgusunun ince ayarının yapılması olan arama motorudur. Yandex arama motoru, morfolojik yazımlarını dikkate alarak seçtiğiniz talebinizi Rusça, Ukraynaca, Belarusça, Tatarca, Kazakça, İngilizce, Türkçe, Almanca ve Fransızca dillerinde aramanıza olanak tanır.

Yandex ayrıca, farklı kodlamalarda kopyaları hariç tutularak belgelerin alaka düzeyini ve kontrol etme ilkesini değerlendirmek için kapsamlı bir algoritma geliştirdi. Google'ın aksine, PR - PageRank sıralama algoritmasından daha doğrusu, Yandex arama motoru için bir diğer önemli nokta, tematik bir alıntı indeksi - TIC'in tanıtılmasıdır.

Yandex arama motoru

http://www.yandex.ru
Yandex arama motorunda, sitelerin alaka düzeyini kontrol etmek için özel bir program olan robotlar vardır. Arama robotları siteye doğrudan bağlantılar kullanarak gider, yeni sayfaları indeksler ve bunları veritabanlarına kaydeder. Sitenin indekslenmiş sayfasının TOP'a ulaşması için çok önemli, sayfadaki anahtar kelimelerin sıklığı, sitenize giden harici bağlantıların sayısı ve Yandex TIC gibi bir gösterge ile ölçülen sitenin toplam ağırlığı gibi indekslemenin bu yönlerini dikkate almak gerekir.

Yandex sisteminin sıralamada sınırladığı sitelere bir örnek

Diğer sitelerden kopyalanmış veya yeniden yazılmış benzersiz olmayan içeriğe sahip siteler.

Gruplar halinde yoğun bir şekilde birbirine bağlanan siteler.

Anlamsız içeriğe sahip siteler.

Aldatıcı teknoloji kullanan web siteleri.

Çok fazla bağlantı spam'i içeren forumlar ve mesaj panoları.

Yazarı kaynağını ziyaret etmeye davet etmeyen harici bağlantılar yerleştirerek alaka düzeyi kazanmaya çalışan siteler.

İyi günler, SEO blogumun değerli okuyucuları ... Bu makale hakkında yandex arama motoru nasıl çalışır siteleri sıralamak için hangi teknolojileri ve algoritmaları kullandığı, kullanıcılara bir yanıt hazırlamak için ne yaptığı. Pek çok insan, Rus araştırmasının bu amiral gemisinin Runet'in tonunu belirlediğini, Avrasya'nın en büyük veri tabanına sahip olduğunu, bir milyardan fazla sayfalık içerik üzerinde çalıştığını ve her sorunun cevabını bildiğini biliyor. Ağustos 2012 Liveinternet verilerine göre Yandex'in Rusya'daki payı% 60,5. Portalın aylık izleyicisi 48,9 milyon kişidir. Ama bizim için en önemli şey blogcular, arama motorunun taleplerimizi nasıl aldığı, nasıl işlediği ve nasıl bir sonuç alındığıdır. Bir yandan, bu bilgileri bilmek ve anlamak, tüm Yandex kaynaklarını kullanmamızı kolaylaştırırken, diğer yandan bloglarımızı tanıtmak daha kolay. Bu nedenle, Runet'teki en iyi arama motorunun en önemli teknolojilerine benimle bakmayı öneriyorum.

Bir İnternet kullanıcısı bilgi almak için ilk önce bir arama motoruna başvurmak istediğinde, bir sorusu olabilir: "Arama nasıl gerçekleşir?" Ama onu aldığında, bu soru genellikle başka bir soruya dönüşür: "Neden bu kadar çabuk?" Nitekim, neden bir bilgisayardaki bir dosyayı aramak 20 saniye sürüyor, ancak dünyadaki tüm bilgisayar ağından gelen bir sorgunun sonucu bir saniyede görünüyor? En ilginç olan şey, ilk iki sorunun (aramanın nasıl gerçekleştiği ve neden 1 saniye) tek bir cevapta olabilmesidir - arama motoru önceden kullanıcının isteği için hazırlanmıştır.

Yandex'in, diğer arama motorları gibi nasıl çalıştığını anlamak için, bir telefon rehberi ile bir benzetme yapalım. Herhangi bir telefon numarasını bulmak için, abonenin soyadını bilmeniz gerekir ve bu durumda herhangi bir arama en fazla bir dakika sürer, çünkü dizinin tüm sayfaları sürekli bir alfabetik dizindir. Ancak aramanın, telefon numaralarının numaralara göre sıralanacağı başka bir seçeneğe göre gittiğini hayal edin. Daha uzun süre sürüklenecek bu tür aramalardan sonra, arayanın gözünün önündeki rakamlar çok uzun süre ayakta kalacaktır. 🙂

Böylece arama motoru İnternet'teki tüm bilgileri uygun bir forma yerleştirir. Ve en önemlisi, tüm bu veriler, bir ziyaretçi istekleriyle gelmeden önce onun dizinine önceden yerleştirilir. Yani Yandex'e bir soru sorduğumuzda cevabımızı zaten biliyor. Ve bunu bize bir saniye içinde verir. Ancak bu ikinci, şimdi ayrıntılı olarak ele alacağımız bir dizi önemli süreci içerir.

İnternetin endekslenmesi

Yandex ru, internette ulaşabildiği tüm bilgileri toplar. Özel ekipman yardımı ile görsel parametrelere göre görüntüler dahil tüm içerik görüntülenir. Bir arama motoru bu tür bir toplamayla meşguldür ve veri toplama ve hazırlama sürecine indeksleme denir. Böyle bir makinenin temeli, aynı zamanda arama robotu olarak da adlandırılan bir bilgisayar sistemidir. Düzenli olarak dizine eklenen siteleri tarar, yeni içerik olup olmadığını denetler ve ayrıca interneti silinmiş sayfalar için tarar. Böyle bir sayfanın artık mevcut olmadığını veya indekslemeden kapatıldığını keşfederse, onu aramadan kaldırır.

Bir arama robotu yeni siteleri nasıl bulur? Öncelikle, diğer sitelerden gelen bağlantılar sayesinde. Çünkü, zaten dizine eklenmiş bir siteden yeni bir web kaynağına bir bağlantı yerleştirilirse, ikincisini bir sonraki ziyaretinizde, robot ilkini de ziyaret edecektir. İkinci olarak, popüler olarak "addurilka" olarak adlandırılan harika bir hizmet var (İngilizce -addurl ifadesinden - bir adres ekleyin). İçinde, bir süre sonra arama robotu tarafından ziyaret edilecek olan yeni sitenizin adresini girebilirsiniz. Üçüncüsü, özel bir program olan "Yandex.Bar" yardımıyla, onu kullanan kullanıcıların ziyaretleri izlenir. Buna göre, bir kişi yeni bir web kaynağına inerse, yakında orada bir robot görünecektir.

Tüm sayfalar aramaya gidiyor mu? Her gün milyonlarca sayfa indeksleniyor. Bunların arasında, benzersiz içerikten katıksız çöplere kadar farklı bilgiler içerebilen farklı kalitede sayfalar vardır. Dahası, istatistiklere göre internette çok daha fazla çöp var. Arama robotu, özel algoritmalar kullanarak her belgeyi analiz eder. Kullanıcının isteğine cevap verip veremeyeceğini, herhangi bir yararlı bilgiye sahip olup olmadığını belirler. Aksi takdirde, bu tür sayfalar "astronot" olarak alınmaz, evet ise, aramaya dahil edilir.

Bir robot bir sayfayı ziyaret ettikten ve kullanışlılığını belirledikten sonra, arama motoru deposunda görünür. İşte otomatik merkezin ustalarının dediği gibi, çarklar için herhangi bir belgenin en temel bilgilerinin analizi. Sayfa html işaretlemesinden temizlenir, temiz metin tam bir envanterden geçer - her kelimenin yeri sayılır. Böylesi demonte bir biçimde, sayfa, aksi takdirde indeks olarak adlandırılan, sayı ve harflerden oluşan bir tabloya dönüşür. Şimdi, bu sayfayı içeren web kaynağına ne olursa olsun, son kopyası her zaman aramadadır. Site artık mevcut olmasa bile, belgelerinin kopyaları bir süre internette saklanır.

Her indeks, belge türleri, kodlama, dil, kopyalarla birlikte verilerle birlikte, makyaj arama tabanı ... Periyodik olarak güncellenir, bu nedenle arama motoru kullanıcılarının isteklerinin işlendiği özel sunucularda bulunur.

İndeksleme süreci ne sıklıkla gerçekleşir? Bu, öncelikle site türlerine bağlıdır. İlk web kaynağı türü, sayfalarının içeriğini çok sık değiştirir. Yani bu sayfalara her seferinde bir arama robotu geldiğinde, her seferinde farklı içerik barındırıyorlar. Bir dahaki sefere bunlarla ilgili hiçbir şey bulamayacağınız için bu tür siteler dizine dahil edilmemiştir. İkinci tür siteler, sayfalarında indirilecek belgelere bağlantıların periyodik olarak eklendiği veri ambarlarıdır. Böyle bir sitenin içeriği genellikle değişmez, bu nedenle robot onu çok nadir ziyaret eder. Diğer siteler, içerik güncellemelerinin sıklığına bağlıdır. Şunu kastediyorum - sitede yeni içerik ne kadar hızlı görünürse, arama robotu o kadar sık \u200b\u200bgelir. Ve öncelik öncelikli olarak en önemli web kaynaklarına verilir (örneğin bir haber sitesi herhangi bir blogdan çok daha önemlidir).

İndeksleme, bir arama motorunun ilk işlevini - İnternet'teki yeni sayfalarda bilgi toplama - gerçekleştirmenize olanak sağlar. Ancak Yandex'in ikinci bir işlevi de vardır - önceden hazırlanmış bir arama tabanında bir kullanıcının isteğine bir yanıt aramak.

Yandex bir yanıt hazırlıyor

Bir talebin işlenmesi ve ilgili yanıtların verilmesi süreci, bilgisayar sistemi "Metaseoisk" ... Çalışması için önce tüm girdi bilgilerini toplar: talebin hangi bölgeden yapıldığı, hangi sınıfa ait olduğu, talepte herhangi bir hata var mı vb. Bu tür bir işlemden sonra, meta arama, veritabanının aynı parametrelerle tam olarak aynı sorguları içerip içermediğini kontrol eder. Cevap evet ise, sistem kullanıcıya önceden kaydedilmiş sonuçları gösterir. Veritabanında böyle bir soru yoksa, meta arama, dizin verilerini içeren arama veritabanına döner.

Ve burası harika şeylerin olduğu yerdir. Arama robotları tarafından işlenen tüm İnternet'i depolayan süper güçlü bir bilgisayar olduğunu hayal edin. Kullanıcı bir istek belirler ve isteğe dahil olan tüm belgelerin aranması bellek hücrelerinde başlar. Cevap bulundu ve herkes mutlu. Ama vücutlarında aynı kelimeleri içeren çok sayıda sorgu olduğunda başka bir durumu ele alalım. Sistem her seferinde aynı bellek hücrelerinden geçmelidir, bu da veri işleme süresini birkaç kez artırabilir. Buna göre, bir kullanıcının kaybına yol açabilecek zaman artar - yardım için başka bir arama motoruna dönecektir.

Bu tür gecikmeleri önlemek için site dizinindeki tüm kopyalar farklı bilgisayarlara dağıtılır. İsteği gönderdikten sonra, meta arama bu tür sunuculara kendi metin parçalarını aramaları talimatını verir. Bundan sonra, bu makinelerden gelen tüm veriler merkezi bilgisayara geri döndürülür, elde edilen tüm sonuçları birleştirir ve kullanıcıya en iyi on cevabı verir. Bu teknoloji ile aynı anda bir taşla iki kuş öldürülür: arama süresi birkaç kez azalır (cevap bir saniyede alınır) ve sitelerdeki artış sayesinde bilgi kopyalanır (ani arızalar nedeniyle veriler kaybolmaz). Yinelenen bilgilere sahip bilgisayarların kendileri veri merkezini oluşturur - bu, sunucuları olan bir odadır.

Bir arama motorunun kullanıcısı sorgusunu sorduğunda, 100'den 20'sinde sorudaki belirsiz hedeflere ulaşılır. Örneğin, arama satırına "Napolyon" kelimesini yazarsa, o zaman ne yanıt beklediği henüz bilinmiyor - bir pasta tarifi veya büyük komutanın biyografisi. Veya "Grimm Kardeşler" ifadesi - peri masalları, filmler, müzik grubu. Böylesine olası bir hedef hayranını belirli cevaplara daraltmak için Yandex'in özel bir teknolojisi var Aralık... Arama sorgusu istatistiklerini kullanan kullanıcıların ihtiyaçlarını dikkate alır. Yandex'de ziyaretçiler tarafından sorulan tüm sorulardan Spectrum, içlerindeki çeşitli nesneleri vurgular (kişi adları, kitap adları, araba modelleri vb.) Bu nesneler belirli kategorilere ayrılmıştır. Şu anda, bu tür 60'tan fazla kategori var. Bunların yardımıyla, arama motorunun temelinde kullanıcı sorgularında kelimelerin farklı anlamları vardır. İlginç bir şekilde, bu kategoriler periyodik olarak kontrol edilir (analiz haftada birkaç kez yapılır), bu da Yandex'in sorulan soruları daha doğru yanıtlamasını sağlar.

Spectrum teknolojisine dayalı olarak Yandex, iletişim istemleri düzenledi. Kullanıcının belirsiz sorgusunu yazdığı arama kutusunun altında görünürler. Bu satır, soru nesnesinin ait olabileceği kategorileri yansıtır. Daha fazla arama sonucu, kullanıcının böyle bir kategori seçimine bağlıdır.

Yandex arama motorunun tüm kullanıcılarının% 15 ila 30'u yalnızca yerel bilgileri (yaşadıkları bölgenin verileri) almak istiyor. Örneğin, şehrinizdeki sinemalardaki yeni filmler hakkında. Bu nedenle böyle bir talebin cevabı her bölge için farklı olmalıdır. Bu bağlamda Yandex, teknolojisini kullanıyor bölgelere göre arama ... Örneğin, Oktyabr sinemalarında film repertuvarı arayan sakinler aşağıdaki cevapları alabilir:

Ancak bu, Stavropol şehrinin sakinlerinin aynı talep için alacağı sonuçtur:

Kullanıcının bölgesi öncelikle ip adresi tarafından belirlenir. Bazen bu veriler doğru değildir, çünkü bir dizi sağlayıcı aynı anda birkaç bölge için çalışabilir ve bu nedenle kullanıcıları için ip adreslerini değiştirebilir. Temel olarak, bu sizin başınıza geldiyse, bölgenizi arama motorundaki ayarlardan kolayca değiştirebilirsiniz. Sonuçlar sayfasının sağ üst köşesinde listelenir. Değiştirebilirsin.

Arama motoru Yandex ru - yanıt sonuçları

Metasearch bir cevap hazırladığında, Yandex arama motoru bunu sonuçlar sayfasında göstermelidir. Her biri hakkında çok az bilgi içeren bulunan belgelere bağlantıların bir listesidir. Sonuçları yayınlamak için teknolojinin görevi, kullanıcıya mümkün olduğunca bilgilendirici en ilgili cevapları sağlamaktır. Böyle bir bağlantının şablonu şuna benzer:

Sonucun bu şeklini daha ayrıntılı olarak ele alalım. İçin arama sonucu başlığı Yandex genellikle sayfa başlığının başlığını kullanır (optimize ediciler başlık etiketine ne yazarlar). Değilse, makalenin veya gönderinin başlığındaki kelimeler burada görünür. Başlık metni büyükse, arama motoru bu alana verilen sorguyla en alakalı bölümünü koyar.

Bu çok nadirdir, ancak başlığın isteğin içeriğiyle eşleşmediği görülür. Bu durumda Yandex, makale veya gönderideki metni kullanarak arama sonucu başlığını oluşturur. Kesinlikle isteğin sözlerine sahip olacaktır.

İçin pasajı arama motoru sayfadaki tüm metni kullanır. İsteğe bir yanıtın olduğu tüm parçaları seçer ve ardından bunlardan en alakalı olanı seçer ve form alanına belgenin bağlantılarını ekler. Bu yaklaşım sayesinde, yetkin bir optimize edici, bir pasajı gördükten sonra onu yeniden yapabilir ve böylece bağlantının çekiciliğini artırabilir.

Kullanıcının isteğine ilişkin sonucun daha iyi algılanması için başlıklar, metinde bağlantılar olarak biçimlendirilir (altını çizerek maviyle vurgulanır). Web kaynağının çekiciliği ve tanınması için küçük bir kurumsal site simgesi olan bir favicon eklenir. Başlıktan önceki ilk satırda metnin solunda görünür. Cevapta talepte yer alan tüm kelimeler, okuma kolaylığı açısından da kalın yazılmıştır.

Son zamanlarda Yandex arama motoru, pasajına çeşitli bilgiler ekledi ve bu da kullanıcının cevabını daha hızlı ve daha doğru bulmasına yardımcı olacak. Örneğin, bir kullanıcı talebinde bir kuruluşun adını yazarsa, o zaman Yandex parçacığına adresini, iletişim numaralarını ve coğrafi haritalardaki konuma bir bağlantı ekleyecektir. Arama motoru, kullanıcı için cevabı olan bir belgenin bulunduğu bir sitenin yapısına aşina ise, kesinlikle gösterecektir. Ayrıca Yandex, böyle bir web kaynağının en çok ziyaret edilen sayfalarını anında pasaja ekleyebilir, böylece istenirse ziyaretçi ihtiyaç duyduğu bölüme anında gidebilir ve zamandan tasarruf edebilir.

Bir çevrimiçi mağaza için bir ürünün fiyatını, yıldız biçiminde bir otel veya restoran derecelendirmesini ve arama belgelerindeki nesneler hakkında çeşitli sayılarla diğer ilginç bilgileri içeren pasajlar vardır. Bu tür bilgilerin görevi, kullanıcının ilgisini çeken konular veya nesneler hakkında eksiksiz bir veri listesi vermektir.

Genel olarak, zaten çeşitli örneklerle, cevapların bulunduğu sayfa şöyle görünecektir:

Sıralama ve değerlendiriciler

Yandex'in görevi sadece olası tüm cevapları aramak değil, aynı zamanda en iyi (alakalı) cevapları seçmektir. Sonuçta, kullanıcı Yandex'in kendisine bir arama sonucu olarak sağlayacağı tüm bağlantıları karıştırmayacaktır. Arama sonuçlarını düzenleme sürecine sıralaması ... Yani önerilen cevapların kalitesini belirleyen sıralamadır.

Yandex'in ilgili sayfaları belirlediği kurallar vardır:

  • sonuçlar sayfasındaki konumların düşürülmesi, arama kalitesini düşüren siteleri beklemektedir. Genellikle bunlar, sahipleri arama motorunu kandırmaya çalışan web kaynaklarıdır. Örneğin, bunlar anlamsız veya görünmez metin içeren sayfalara sahip sitelerdir. Elbette, arama robotu için görülebilir ve anlaşılabilir, ancak bu belgeyi okuyan ziyaretçi için değil. Veya SERP'deki bir bağlantıya tıklandığında kullanıcıyı hemen tamamen farklı bir siteye aktaran siteler.
  • erotik içerik barındıran siteler sonuçlarda görünmüyor veya sıralamada büyük ölçüde düşüyor. Bunun nedeni, bu tür web kaynaklarının genellikle agresif tanıtım yöntemleri kullanmasıdır.
  • virüs bulaşmış siteler arama sonuçlarında azalmaz ve arama sonuçlarından çıkarılmaz - bu durumda, kullanıcıya özel bir simge kullanılarak tehlike hakkında bilgi verilir. Bunun nedeni, Yandex'in bu tür web kaynaklarının bir arama motoru ziyaretçisinin talebi üzerine önemli belgeler içerebileceğini varsaymasıdır.

Örneğin, Yandex "elma" sorgusu için siteleri şu şekilde sıralar:

Yandex, sıralama faktörlerine ek olarak, arama motoru kullanıcılarının en uygun olduğunu düşündüğü sorular ve cevapları içeren özel örnekler kullanır. Şu anda hiçbir makine bu tür numuneler yapamaz - bu insanın ayrıcalığıdır. Yandex'de bu tür uzmanlara denir değerlendiriciler ... Görevleri, tüm arama belgelerini tam olarak analiz etmek ve verilen sorgulara verilen yanıtları değerlendirmektir. En iyi cevapları seçerler ve özel bir eğitim örneği oluştururlar. Arama motoru, ilgili sayfalar ve özellikleri arasındaki ilişkiyi görür. Yandex, bu bilgilerle her istek için en uygun sıralama formülünü seçebilir. Böyle bir formül oluşturma yöntemi Matrixnet olarak adlandırılır. Bu sistemin avantajı, gereksiz tahmin ve kalıpların sayısını artırmadan çok sayıda sıralama faktörünü hesaba katmanıza izin veren aşırı uyuma karşı dayanıklı olmasıdır.

Yazımın sonunda, size Yandex arama motorunun çalışmaları sırasında topladığı bazı ilginç istatistikleri göstermek istiyorum.

1. Rusya ve Rus şehirlerinde kişisel isimlerin popülerliği (blogger ve sosyal medya hesaplarından Mart 2012'de alınan veriler).

Büyük gören

1863'te, büyük yazar Jules Verne bir sonraki kitabı olan Paris'i 20. yüzyılda yarattı. İçinde metro, araba, elektrikli sandalye, bilgisayar ve hatta interneti ayrıntılı olarak anlattı. Ancak, yayıncı kitabı basmayı reddetti ve Jules Verne'in torununun torunu 1989'da bulana kadar 120 yıldan fazla bir süre kaldı. Kitap 1994 yılında yayınlandı.

Uzun zamandır Rus İnternetinin ayrılmaz bir parçası oldular. Arama motorları artık sadece bilgi bulmak için bir araç değil, aynı zamanda iş için çekici alanları temsil eden devasa ve karmaşık mekanizmalardır.

Arama motorlarının kullanıcılarının çoğu, arama motorlarının çalışma prensibi, kullanıcı isteklerini işleme planı, bu sistemlerin nelerden oluştuğu ve nasıl işledikleri hakkında hiç düşünmedi (veya düşünmedi, ancak bir cevap bulamadı) ...

Bu ana sınıf, arama motorlarının nasıl çalıştığı sorusuna cevap vermeyi amaçlamaktadır. Ancak, burada belgelerin sıralamasını etkileyen faktörleri bulamayacaksınız. Dahası, Yandex işlem algoritmasının ayrıntılı bir açıklamasına güvenmemelisiniz. Ilya Segalovich'e göre, o, "Yandex" arama motorunun teknoloji ve geliştirme direktörüdür, sadece Ilya Segalovich tarafından "işkence altında" tanınabilir ...

2. Bir arama motorunun kavramı ve işlevleri

Bir arama motoru, internette arama yapmak ve bir kullanıcının isteğine, uygunluk sırasına göre (talebe göre) bilgi kaynaklarına bir bağlantı listesi yayınlayarak, bir metin cümlesi (arama sorgusu) şeklinde belirtilen, yanıt vermek için tasarlanmış bir yazılım ve donanım kompleksidir. Başlıca uluslararası arama motorları: Google , "Yahoo", "MSN". Rus İnternetinde bunlar Yandex, Rambler ve Aport.

Yandex arama motorunu örnek olarak kullanarak bir arama sorgusu kavramına daha yakından bakalım. Arama sorgusu, kullanıcı tarafından bulmak istediği şeye göre, olabildiğince kısa ve basit bir şekilde formüle edilmelidir. Yandex'de nasıl araba seçileceğine dair bilgi bulmak istediğimizi varsayalım. Bunu yapmak için Yandex ana sayfasını açın ve "bir araba nasıl seçilir" arama sorgusu metnini girin. Dahası, görevimiz, talebimiz üzerine sağlanan İnternetteki bilgi kaynaklarının bağlantılarını açmaktır. Ancak ihtiyacımız olan bilgiyi bulamamak oldukça olası. Böyle bir durumda, ya talebinizi yeniden ifade etmeniz gerekir ya da arama motoru veritabanında talebimizle ilgili hiçbir bilgi yoktur (bu, "Arkhangelsk'te bir araba nasıl seçilir" gibi çok "dar" sorgular ayarlarken olabilir)

Herhangi bir arama motorunun birincil görevi, insanlara tam olarak aradıkları bilgileri sunmaktır. Ve kullanıcılara sisteme "doğru" isteklerde bulunmayı öğretmek, yani. arama motorlarının ilkelerine uyan sorgular mümkün değildir. Bu nedenle geliştiriciler, kullanıcıların aradıkları bilgileri bulmalarını sağlayacak algoritmalar ve arama motorları ilkeleri oluştururlar.

Bu, arama motorunun, bilgi ararken kullanıcının düşündüğü şekilde "düşünmesi" gerektiği anlamına gelir. Bir kullanıcı bir arama motorundan istekte bulunduğunda, ihtiyacı olan şeyi olabildiğince çabuk ve kolay bir şekilde bulmak ister. Sonucu aldıktan sonra, birkaç temel parametre tarafından yönlendirilen sistemin çalışmasını değerlendirir. Aradığını buldu mu? Değilse, aradığını bulmak için sorguyu kaç kez yeniden ifade etmesi gerekti? Bilgiyi ne kadar alakalı bulabildi? Arama motoru isteği işlerken ne kadar hızlıydı? Arama sonuçları ne kadar uygun? İstenen sonuç birinci miydi yoksa yüzüncü mü? Yararlı bilgilerle birlikte ne kadar önemsiz bulundu? Bir arama motoruna döndüğünüzde ihtiyacınız olan bilgileri bir hafta veya bir ay içinde bulabilecek misiniz?

Tüm bu soruları cevaplarla karşılamak için, arama motorlarının geliştiricileri, arama algoritmalarını ve ilkelerini sürekli geliştiriyor, yeni işlevler ve yetenekler ekliyor ve sistemin çalışmasını hızlandırmak için mümkün olan her yolu deniyor.

3. Arama motorunun temel özellikleri

Arama motorlarının temel özelliklerini anlatalım:

  • tamlık

    Tamlık, bir arama motorunun temel özelliklerinden biridir; talep üzerine bulunan belge sayısının, bu talebi karşılayan İnternet üzerindeki toplam belge sayısına oranıdır. Örneğin, İnternette "bir araba nasıl seçilir" ifadesini içeren 100 sayfa varsa ve bunlardan sadece 60 tanesi ilgili sorgu için bulunmuşsa, arama tamlığı 0,6 olacaktır. Açıktır ki, arama ne kadar eksiksiz olursa, kullanıcının ihtiyaç duyduğu belgeyi internette mevcut olması koşuluyla bulamama olasılığı o kadar düşüktür.

  • doğruluk

    Doğruluk, bir arama motorunun bir başka temel özelliğidir ve bulunan belgelerin kullanıcının talebiyle ne derece eşleştiğine göre belirlenir. Örneğin, "bir araba nasıl seçilir" sorgusu 100 belge içeriyorsa, bunların 50'si "bir araba nasıl seçilir" ifadesini içeriyorsa ve geri kalanı yalnızca bu kelimeleri içeriyorsa ("doğru radyo kayıt cihazı nasıl seçilir ve bir arabaya nasıl kurulur"), arama doğruluğu dikkate alınır 50/100 (\u003d 0,5) 'e eşittir. Arama ne kadar doğru olursa, kullanıcı ihtiyaç duyduğu belgeleri o kadar hızlı bulur, aralarında daha az çeşitli "çöp" bulunur, bulunan belgeler istekle o kadar az eşleşmez.

  • ilgi

    Alaka düzeyi, arama motorunun dizin tabanına girilene kadar belgelerin İnternette yayınlandığı andan geçen süre ile karakterize edilen, aramanın eşit derecede önemli bir bileşenidir. Örneğin ilginç haberlerin ortaya çıkmasının ardından ertesi gün çok sayıda kullanıcı alakalı sorgularla arama motorlarına yöneldi. Nesnel olarak, bu konuyla ilgili haber bilgilerinin yayınlanmasından bu yana bir günden az bir süre geçti, ancak büyük arama motorlarında günde birkaç kez güncellenen sözde "hızlı temel" in varlığı sayesinde ana belgeler zaten indekslenmiş ve arama için hazır durumda.

  • Arama hızı

    Arama hızı, strese karşı direnci ile yakından ilgilidir. Örneğin, Rambler Internet Holding LLC'ye göre, bugün mesai saatleri içinde, Rambler arama motoru saniyede yaklaşık 60 sorgu alıyor. Bu tür bir iş yükü, bireysel bir talebin işlem süresinin kısaltılmasını gerektirir. Burada, kullanıcının ve arama motorunun ilgi alanları örtüşmektedir: Ziyaretçi, olabildiğince çabuk sonuç almak ister ve arama motoru, aşağıdaki sorguların hesaplanmasını yavaşlatmamak için talebi olabildiğince hızlı işlemelidir.

  • görünürlük

4. Arama motorlarının gelişiminin kısa bir geçmişi

İnternetin gelişmesinin ilk döneminde, kullanıcı sayısı azdı ve mevcut bilgi miktarı nispeten azdı. Çoğunlukla, yalnızca araştırma çalışanlarının İnternet'e erişimi vardı. Şu anda, İnternette bilgi bulma görevi şimdi olduğu kadar acil değildi.

Ağın bilgi kaynaklarına erişimi düzenlemenin ilk yollarından biri, konuya göre gruplandırılan kaynaklara bağlantılar, sitelerin açık kataloglarının oluşturulmasıydı. Bu türden ilk proje, 1994 baharında açılan Yahoo.com sitesiydi. Katalogda yer alan site sayısının önemli ölçüde artmasının ardından katalogda gerekli bilgileri arama olanağı eklendi. Tam anlamıyla, arama alanı yalnızca dizinde bulunan kaynaklarla sınırlı olduğundan ve tüm İnternet kaynaklarıyla sınırlı olmadığı için henüz bir arama motoru değildi.

Bağlantı dizinleri geçmişte yaygın olarak kullanılıyordu, ancak bugün popülerliğini neredeyse tamamen kaybetti. Hacimlerinde çok büyük olan modern kataloglar bile İnternetin yalnızca önemsiz bir kısmı hakkında bilgi içerdiğinden. DMOZ ağının en büyük dizini (Açık Dizin Projesi olarak da adlandırılır) 5 milyon kaynak hakkında bilgi içerirken, Google arama motoru tabanı 8 milyardan fazla belgeden oluşur.

1995 yılında, Lycos ve AltaVista arama motorları ortaya çıktı. Son yıllardır internette bilgi arama alanında liderdi.

1997'de Sergey Brin ve Larry Page, Stanford Üniversitesi'ndeki bir araştırma projesinin parçası olarak Google arama motorunu oluşturdu. Google şu anda dünyanın en popüler arama motorudur!

Eylül 1997'de, Rusça konuşan internette en popüler olan Yandex arama motoru resmen duyuruldu.

Şu anda, üç ana arama motoru (uluslararası) vardır - Google, Yahoo ve kendi veritabanları ve arama algoritmaları ile. Diğer arama motorlarının çoğu (çok sayıda vardır), listelenen üçünün sonuçlarını şu veya bu şekilde kullanır. Örneğin, AOL araması (search.aol.com) bir Google tabanı kullanırken AltaVista, Lycos ve AllTheWeb bir Yahoo tabanı kullanır.

5. Arama motorunun yapısı ve ilkeleri

Rusya'da ana arama motoru Yandex, ardından Rambler.ru, Google.ru, Aport.ru, Mail.ru'dur. Üstelik şu anda Mail.ru "Yandex" mekanizmasını ve arama tabanını kullanıyor.

Hemen hemen tüm büyük arama motorlarının diğerlerinden farklı kendi yapıları vardır. Bununla birlikte, tüm arama motorlarında ortak olan ana bileşenleri ayırmak mümkündür. Yapıdaki farklılıklar ancak bu bileşenlerin etkileşimi için mekanizmaların uygulanması şeklinde olabilir.

Endeksleme modülü

İndeksleme modülü üç yardımcı programdan (robotlar) oluşur:

Örümcek (örümcek) - web sayfalarını indirmek için tasarlanmış bir program. Örümcek sayfayı indirir ve o sayfadaki tüm dahili bağlantıları çıkarır. Her sayfanın html kodu indirilir. Robotlar, sayfaları indirmek için HTTP protokollerini kullanır. "Örümcek" aşağıdaki gibi çalışır. Robot, sunucuya "get / yol / belge" isteğini ve diğer bazı HTTP istek komutlarını gönderir. Buna yanıt olarak robot, hizmet bilgilerini ve belgenin kendisini içeren bir metin akışı alır.

  • Sayfa url'si
  • sayfanın indirildiği tarih
  • sunucu yanıtı http başlığı
  • sayfa gövdesi (html-kodu)

Tarayıcı ("gezici" örümcek) - sayfada bulunan tüm bağlantıları otomatik olarak tarayan bir program. Sayfada bulunan tüm bağlantıları vurgular. Görevi, bağlantılara dayalı olarak veya önceden tanımlanmış bir adres listesine dayalı olarak örümceğin daha sonra nereye gideceğini belirlemektir. Tarayıcı, bulunan bağlantıları izleyerek, arama motoru tarafından hala bilinmeyen yeni belgeleri arar.

Indexer, örümcekler tarafından indirilen web sayfalarını analiz eden bir programdır. Dizin oluşturucu, sayfayı bileşen parçalarına ayırır ve kendi sözcüksel ve morfolojik algoritmalarını kullanarak bunları analiz eder. Metin, başlıklar, bağlantılar, yapısal ve stil özellikleri, özel hizmet html etiketleri vb. Gibi çeşitli sayfa öğeleri analiz edilir.

Böylelikle, indeksleme modülü, belirli bir kaynak kümesini bağlantılarla taramayı, karşılaşılan sayfaları indirmeyi, alınan belgelerden yeni sayfaların bağlantılarını çıkarmayı ve bu belgelerin eksiksiz bir analizini gerçekleştirmeyi mümkün kılar.

Veri tabanı

Bir veritabanı veya bir arama motorunun bir dizini, bir veri depolama sistemidir, indeksleme modülü tarafından indirilen ve işlenen tüm belgelerin özel olarak dönüştürülmüş parametrelerini depolayan bir bilgi dizisidir.

Arama Sunucusu

Arama sunucusu, tüm sistemin önemli bir unsurudur, çünkü aramanın kalitesi ve hızı doğrudan onun işleyişinin altında yatan algoritmalara bağlıdır.

Arama motoru şu şekilde çalışır:

  • Kullanıcıdan gelen talep morfolojik analize tabi tutulur. Veritabanında bulunan her belgenin bilgi ortamı oluşturulur (daha sonra bu, arama sonuçları sayfasında isteğe karşılık gelen metin bilgileri olarak görüntülenecektir).
  • Alınan veriler giriş parametreleri olarak özel bir aralık modülüne aktarılır. Tüm belgeler için verilerin işlenmesi, her belge için, kullanıcı tarafından girilen sorgunun alaka düzeyini ve bu belgenin arama motoru dizininde depolanan çeşitli bileşenlerini karakterize eden kendi derecelendirmesinin hesaplanmasının bir sonucu olarak gerçekleşir.
  • Kullanıcının seçimine bağlı olarak, bu derecelendirme ek koşullarla (örneğin, "gelişmiş arama" olarak adlandırılan) ayarlanabilir.
  • Daha sonra, bir parça oluşturulur, yani bulunan her belge için başlık, istekle en iyi eşleşen kısa bir açıklama ve belgenin kendisine bir bağlantı belge tablosundan çıkarılır ve bulunan sözcükler vurgulanır.
  • Ortaya çıkan arama sonuçları, SERP (Arama Motoru Sonuç Sayfası) - arama sonuçları sayfası şeklinde kullanıcıya iletilir.

Gördüğünüz gibi, tüm bu bileşenler birbirleriyle yakından ilişkilidir ve etkileşim içinde çalışarak, arama motoru operasyonu için çok büyük kaynaklar gerektiren net, oldukça karmaşık bir mekanizma oluşturur.

6. Sonuç

Şimdi yukarıdakilerin hepsini özetleyelim.

  • Herhangi bir arama motorunun birincil görevi, insanlara tam olarak aradıkları bilgileri sunmaktır.
  • Arama motorlarının temel özellikleri:
    1. tamlık
    2. doğruluk
    3. ilgi
    4. Arama hızı
    5. görünürlük
  • İlk tam teşekküllü arama motoru, 1994 yılında yayınlanan WebCrawler projesiydi.
  • Arama motoru bileşenleri içerir:
    1. Endeksleme modülü
    2. Veri tabanı
    3. Arama Sunucusu

Ana sınıfımızın, arama motorları kavramı hakkında daha fazla bilgi edinmenize, arama motorlarının ana işlevlerini, özelliklerini ve çalışma prensibini daha iyi bilmenize izin vereceğini umuyoruz.

Merhaba sevgili arkadaşlar! Bu yazıda Yandex arama motorunu ele almaya devam edeceğiz ve hatırladığınız gibi, geçmiş makalelerde, Rusya'daki rakipler arasında birinci sırada yer alan ve sadece değil, bu harika şirketin yaratılış tarihi dikkate alındı.

Bütün bunlar iyidir, ancak yeni başlayanlar ve deneyimli site kurucuları, elbette projelerini TOP sonuçlarının ilk sıralarına nasıl getirecekleriyle ilgili en önemli soruyla ilgileniyorlar.

Bu nedenle, ne tür bir tırmığa basabileceğinizi ve bir Rus arama motorundan ne beklemeniz gerektiğini anlamak için Yandex arama motorunun nasıl çalıştığına bakalım.

Son yazımızda sizlerle tartıştık. Konunun oldukça ilginç ve faydalı olduğu ortaya çıktı. Bu nedenle, tabiri caizse onu tamamlamaya, derinleştirmeye karar verdim.

Muhtemelen, "Arama motoru dizini neden belgeler" sorusuyla heyecanlandım - bu hiç akıllıca değil. "Nasıl" sorusunu bulmaya devam ediyor.

Web sitesi sıralama algoritmaları

Öncelikle, herhangi bir arama motoru için temel olan bazı algoritmalarla tanışalım:

- Doğrudan arama algoritması.

Nedir - kitaplardan birinde harika bir hikaye okuduğunuzu hatırlarsınız. Ve sırayla bakmaya başlıyorsun. Bir kitabı aldılar - yapraklarını karıştırdılar - bulamadılar, başka bir tane aldılar ... Prensip açık, ama bu yöntem çok uzun. Bu da anlaşılabilir bir durumdur.

- Ters arama algoritması.

Bu algoritma için blogunuzun her sayfasından bir metin dosyası oluşturulur. Bu dosya, kullandığınız TÜM kelimeleri alfabetik sırayla listeler. Bu kelimenin metindeki konumu bile belirtilir (metindeki koordinatlar).

Bu oldukça hızlı bir yoldur, ancak arama zaten bir tür hatayla gerçekleşiyor.

Buradaki en önemli şey, bu algoritmanın bir blog aramasıyla değil, İnternet'i aramadığını anlamaktır. Ve uzun zaman önce oluşturulmuş ayrı bir metin dosyasında. Robot sana geldiğinde. Ve bu dosyalar (ters dizinler) Yandex sunucularında saklanır.

Yani bunlar temel arama algoritmalarıydı. Şunlar. Yandex'in ihtiyaç duyduğu belgeleri nasıl bulduğu. Bununla ilgili herhangi bir sorun olmamalı.

Ancak Yandex birden fazla belge biliyor, 100'ü bile değil, ancak kaynaklarımdaki en son verilere göre - Yandex yaklaşık 11 milyar belgeyi biliyor (10.727.736.489 sayfa).

Ve tüm bu miktarlar arasında talebe uygun belgeleri seçmeniz gerekiyor. Ve daha da önemlisi, onları bir şekilde sıralamalısınız. Şunlar. önem derecesine göre veya daha doğrusu okuyucu için yararlılık derecesine göre sıralayın.

Matematiksel Modellerde Ara

Bu sorunu çözmek için matematiksel modeller kurtarmaya gelir. Şimdi en basit modeller hakkında konuşacağız.

Boole mat Modeli - Sözcük belgede geçerse, belge bulundu kabul edilir. Sadece bir tesadüf ve karmaşık bir şey değil.

Ama burada sorunlar var. Örneğin, bir kullanıcı olarak, Rusça'da en yaygın kelime olan ve HER belgede bulunan popüler bir kelime girerseniz veya daha iyisi "v" edatını girerseniz, o kadar çok sonuç alırsınız ki böyle bir sayının farkına bile varmazsınız, kaç tane belge buldunuz. Bu nedenle, aşağıdaki montaj ilişkisi modeli ortaya çıktı.

Vektör paspas modeli - bu model, belgenin "ağırlığını" belirler. Sadece bir tesadüf meydana gelmez, aynı zamanda bu kelime birkaç kez geçmelidir. Dahası, bir kelime ne kadar çok geçerse, alaka düzeyi o kadar yüksek olur (yazışma).

TÜM arama motorlarının kullandığı vektör modelidir.

Olasılık modeli - daha karmaşık. Prensip şudur: arama motoru sayfanın kendisini buldu. Örneğin, Yandex'in geçmişi hakkında bilgi arıyorsunuz. Yandex'in bir tür standardı var, diyelim ki Yandex ile ilgili bir önceki yazım olacak.

Ve diğer tüm belgeleri bu makale ile karşılaştıracak. Ve mantık şudur: Blogunuzun bir sayfası makaleme ne kadar çok benzerse, blog sayfanızın okuyucu için de yararlı olacağı ve aynı zamanda Yandex'in tarihini anlattığı gerçeği OLABİLİR.

Kullanıcıya gösterilmesi gereken belge sayısını azaltmak için, alaka kavramı tanıtıldı, yani. uyma.

Blog sayfanızın konuyla ne kadar iyi eşleştiği. Arama kalitesi söz konusu olduğunda bu önemli bir konudur.

Değerlendiriciler - kim oldukları ve neyden sorumlu oldukları

Bu alaka düzeyi, algoritmaların kalitesini değerlendirmek için de gereklidir.

Bunun için özel kuvvetler karargahı var - bunlara Değerlendiriciler deniyor. Bunlar, arama sonuçlarını manuel olarak tarayan özel kişilerdir.

Siteleri nasıl kontrol edeceklerine, nasıl derecelendireceklerine vb. İlişkin talimatları vardır. Sayfalarınızın arama sorgularına uygun olup olmadığını manuel olarak belirlerler.

Ve arama algoritmalarının kalitesi, değerlendiricilerin görüşlerine bağlıdır. Tüm değerlendiriciler arama sonuçlarının sorgularla eşleşmediğini söylerse, sıralama algoritması yanlıştır ve burada sadece Yandex suçludur.

Değerlendiriciler sadece bir sitenin istekle eşleşmediğini söylerse, bu sitenin uzak bir yere uçup arama sonuçlarında aşağı indiği anlamına gelir. Daha doğrusu, sitenin tamamı değil, yalnızca bir makale, ama özü bu değil.

Elbette, değerlendiriciler TÜM makaleleri elleri ve gözleri ile görüntüleyemez ve değerlendiremez. Bu anlaşılabilir bir durum.

Ve diğer parametreler, sayfaların sıralamasının geçtiğine göre kurtarmaya geliyor.

Birçoğu var, örneğin:

  • sayfa ağırlığı (VIC, PageRank, taklacılar genel);
  • alan Kurumu;
  • metnin taleple ilgisi;
  • dış bağlantı metinlerinin taleple ilgisi;
  • yanı sıra diğer birçok sıralama faktörü.

Değerlendiriciler yorum yapar ve matematiksel sıralama modelini belirlemekten sorumlu kişiler de formülü düzenler, bunun sonucunda arama motoru daha iyi çalışır.

Formülün çalışmasını değerlendirmek için ana kriterler:

1. Arama motoru sonuçlarının doğruluğu - taleple eşleşen belgelerin yüzdesi (ilgili). Şunlar. istekle eşleşmeyen sayfa sayısı ne kadar azsa o kadar iyidir.

2. Arama motoru sonuçlarının eksiksizliği belirli bir sorgu için alakalı web sayfalarının koleksiyondaki toplam ilgili doküman sayısına (arama motorundaki bir dizi sayfa) oranıdır.

Örneğin, koleksiyonun tamamında arama sonuçlarından daha alakalı sayfalar varsa, bu, arama sonuçlarının eksik olduğu anlamına gelir. Bunun nedeni, ilgili web sayfalarından bazılarının filtrenin altına düşmesiydi.

3. Arama motoru sonuçlarının alaka düzeyi ön bilgide yazılanla web sayfasının yazışmasıdır. Örneğin, bir belge çok farklı olabilir veya hiç olmayabilir, ancak çıktıda mevcut olabilir.

Sorunun alaka düzeyi doğrudan arama robotunun koleksiyonundaki belgeleri ne sıklıkla taradığına bağlıdır.

Koleksiyon toplama (site sayfalarının endekslenmesi) özel bir program - bir arama robotu tarafından gerçekleştirilir.

Arama robotu, indeksleme için bir adres listesi alır, bunları kopyalar, ardından kopyalanan web sayfalarının içerikleri, bunları ters indekslere dönüştüren bir algoritmaya işlenmek üzere gönderilir.

Pekala, burada "kısaca", eğer söyleyebilirsem, arama motorunun ilkelerini tartıştık.

Özetleyelim:

  1. Blogunuza bir arama robotu geliyor.
  2. Arama robotu, daha sonra aramak için sayfanın ters dizinini kaydeder.
  3. Bir matematiksel model yardımı ile belge işlenir ve arama sonuçlarında formüllere göre ve değerlendiricinin görüşü dikkate alınarak görüntülenir.

Bu çok çok basitleştirilmiştir. Sadece Yandex arama motoruyla ilgili temel bilgileri edinmek için.

Şimdi çok fazla metin yazdım ve belki de pek çok şey net değil. Bu nedenle biraz sonra bu yazıya dönmenizi ve bu videoyu izlemenizi öneririm.

Bu, eskiden çalıştığım mükemmel bir rehber.

Umarım bu bilgiler, sitelerinizden bazılarının neden aramada alakalı konumlarda olduğunu daha iyi anlamanıza ve onları geliştirmek için her şeyi yapmanıza yardımcı olur.

Bunun üzerine size veda ediyorum, herhangi bir sorunuz varsa yorumlarda cevaplamaktan her zaman mutluluk duyarım. Ya da belki makaleyi tamamlamak istersiniz?

Her durumda, fikrinizi verin. !

Yandex, bugün Rusya'daki en popüler arama motorudur. Servis istatistikleri LiveInternet, Yandex'in tüm Rus izleyici kitlesindeki payını gösterir - bu, yalnızca Moskova'yı ve bölgeyi hesaba katarsak,% 53,4'dür, o zaman daha da yüksek -% 67,9 (taleplere göre Moskova, tüm Rusya'nın% 50'sinden fazlasını kaplar).

Www.yandex.ru web sitesi 1997 yılında oluşturuldu, ilk Yandex geliştiricilerinden biri olan Dmitry'nin masaüstünde Teablyum adıyla bulunan tek bir sunucuya ihtiyaç duyuyordu. Açılıştan çok kısa bir süre sonra ikinci bir sunucu aldık ve kısa süre sonra başka bir sunucu kurmak gerektiğinde, tablonun altında üç Yandex sunucusu veya [...] için yeterli alan olduğu ortaya çıktı.

Arama motoru geliştiricileri, kullanıcılara sorgularına en iyi yanıtları vermeye çalışır. Bazen bu cevap bir sayı (örneğin, bir şehirdeki hava durumu), bir resim (örneğin, haritadaki bir adres), bir kelimenin çevirisi veya bir dörtlük olabilir. Elinizde uygun bir bilgi dizisi olduğunda, cevap hemen verilebilir. Bu nedenle Yandex, İnternet'teki arama sonuçlarını kendi [...]

Yandex'e yapılan yaklaşık her onuncu istek "gezinme" dir, yani bir kuruluşun veya sitenin adından oluşur ve kullanıcı bu kuruluşun sitesine gitmek ister. Bu durumda, tarayıcının adres çubuğu yerine Yandex arama çubuğu kullanılır ve diğer dokuz arama sonucu genellikle kullanıcının ilgisini çekmez. Kullanıcının dikkatini ana hedeften uzaklaştırmadan, ana hedefin arkasına, [...]

Bir arama motorunun ana görevi, bir kullanıcının sorusunu cevaplamaktır. Bir kullanıcı bir sorgu ayarladığında, arama motoru İnternet'teki her siteye başvurmaz, ancak kendisi tarafından bilinen sayfaların veritabanında - arama dizini - arama yapar. Orada sorgudaki kelimelerin bulunduğu tüm sayfaları bulur. Kullanıcı, arama sonuçları sayfalarında bu sayfalara bağlantılar görür.

Gördüğümüz gibi, Yandex hareketsiz durmuyor ve bu sistemin arama teknolojilerinin, ideal olarak adlandırılması zor olan arama kalitesini iyileştirmek için gelişmeye devam edeceğinden eminim.

10 Kasım 2009'da Yandex, arama algoritmasının yeni bir sürümünü duyurdu - Snezhinsk. Alaka düzeyini hesaplamak için algoritmada temel değişiklikler meydana geldi - Yandex temsilcileri şunları yazdı: “Daha doğru ve çok daha karmaşık bir matematiksel model oluşturmayı başardık, bu da arama kalitesinde önemli bir artışa yol açtı. Aramada sıralama mimarisinin yeniden tasarlanması nedeniyle, birkaç bin için muhasebe uygulamak mümkün oldu [...]

Yandex'in algoritmasının yeni sürümünün testi 9 Temmuz 2008'de başladı. Yandex'e göre, "programdaki ana değişiklikler, makine öğrenimine yeni bir yaklaşımla ilişkilendiriliyor ve sonuç olarak, sıralama faktörlerinin formülde dikkate alınma şeklindeki farklılıklar."

14 Nisan 2008'de buki.yandex.ru adresinde yeni arama algoritması “Magadan” test edildi. Sıralama faktörlerinin sayısını ikiye katlamanın yanı sıra aşağıdaki yenilikler de eklendi:

Algoritmik ormana girmeden önce, arama motorunun genel olarak nasıl çalıştığını hatırlayalım. Arama motorunun mantıksal yapısı, üç modül şeklinde gösterilebilir (şemaya bakın) Robot (tarayıcı, tarayıcı) İnternet sitelerini tarayan ve içeriklerini indiren özel bir programdır. Robotun, turlarını yaptığı özel bir programı vardır. Bir robot tarafından yüklenen site sayfaları, özel bir [...]

66. Neyin çok etkisi vardır: ücretsiz bir platformdan (blogspot, LJ, vb.) Veya bağımsız bir siteden / blogdan bir bağlantı? Ücretsiz platformlar, çevrimdışı sitelere göre daha az ağırlık taşır. Ancak, etki daha büyük olabilir. Bu birçok faktöre bağlıdır: mevcut bağlantı listesi, karşılaştırılan sitelerin durumu, vb. Bu soruya kesin bir cevap vermek imkansızdır. 67. En büyük ağırlık […]

Vamana Turu - dünyanın her yerine ve Hindistan, Nepal, Sri Lanka, Maldivler, Mauritius ve gezegendeki diğer birçok yere seyahat, uçuş ve vize. Yolcular ve hacılar için tavsiyeler. Seyahatinizden en iyi şekilde nasıl yararlanabilirsiniz. Şaşırtıcı tarihi vakayinameler ve deneyimli gezginlerin hikayeleri.

Site dış bağlantılarının hesabı ne için kullanılır? Önceki bölümden de görebileceğiniz gibi sıralamayı etkileyen hemen hemen tüm faktörler sayfa yazarının kontrolü altındadır. Bu nedenle, bir arama motorunun, gerçekten yüksek kaliteli bir belgeyi, belirli bir arama ifadesi için özel olarak oluşturulmuş bir sayfadan veya hatta bir robot tarafından oluşturulan bir sayfadan ayırt etmesi imkansız hale gelir ve hiçbir yararlı bilgi içermez. [...]


Üst