SEO原創(chuàng)識別具體應用與站內(nèi)權(quán)重繼承算法補充
來源:SEO優(yōu)化 2012-11-18
之前看到搜索引擎原創(chuàng)識別與站內(nèi)權(quán)重繼承算法解析這篇文章,寫的很好,但對于普通水平的同學來說很難理解,同時也有一部分算法未提及。
對于原創(chuàng)的識別上,原文提到的提取關(guān)鍵詞,然后運用md5或者頻率對比的方式是可以的,但實際運用起來可能效果不是很好。在搜索引擎對原創(chuàng)內(nèi)容識別上,按照關(guān)鍵詞詞頻(TF)的比較閑的有些低級,應為內(nèi)容太多,很容易出現(xiàn)誤判的情況。所以,還需要另一個指標來判斷。這種方法就是切片比較,按照固定步長對內(nèi)容進行切片,比較其相似度,會更接近于真實結(jié)果。切片比較可以很好的識別段落打亂的偽原創(chuàng)手法。
頁面降噪技術(shù)搜索引擎使用的很廣泛,對于大部分標題+正文的內(nèi)容,都可以用降噪技術(shù)來獲得接近于真實內(nèi)容的內(nèi)容。那么,我們在SEO中就需要在正文中間加入干擾因素來打斷搜索引擎的提詞、切片。加入的內(nèi)容可以使錨文本鏈接、也可以使相關(guān)的一段話。同時,這種手法同樣可以打亂搜索引擎的向量化處理。
原文中還提高了站內(nèi)權(quán)重繼承問題。站內(nèi)的頁面權(quán)重繼承并非像原文作者說的那樣簡單,權(quán)重分配也并非簡單的平均分配。同時,為了防止一個網(wǎng)站通過短時間內(nèi)大量制造內(nèi)鏈來提高自身權(quán)重的問題,在站內(nèi)權(quán)重傳遞過程中還會加入一個阻尼基數(shù),這個阻尼基數(shù)一般為0.15。也就是說,如果一個頁面有一百個導出鏈接,會有其中的15個鏈接不會參與到權(quán)重的傳遞。按照鏈接出現(xiàn)的位置,各個位置的鏈接所獲得的權(quán)重繼承也不一樣;按照鏈接使用的標簽不同,各個鏈接所獲得的權(quán)重繼承也不一樣;按照不同的相關(guān)度,各個鏈接所獲得的權(quán)重繼承也不一樣。這里補充一點,對于某些位置的鏈接,可能會由于去噪或者阻尼基數(shù)優(yōu)先剔除。
權(quán)重繼承算法是一個很復雜的公式,類似google pr計算公式。原文還提到了一個對于中文語法的應用。其實搜索引擎不會太多的關(guān)注中文語法,只需要找出停止詞就可以了,這里的停止詞,可以是任何詞性,也可以是任何語法單元。搜索引擎對于提取的詞都是作為名詞看待,而在詞義上偏褒義詞。因為用戶的搜索動作是中性的,并不會對搜索關(guān)鍵詞賦予感情色彩;蛟S未來會出現(xiàn)感情色彩搜索引擎,讓你選擇搜索時的情感狀態(tài),在返回不同的結(jié)果,不過現(xiàn)在看來,似乎有些理想化了。
雖然搜索引擎不會區(qū)分詞性,但會區(qū)分語氣。因為語氣可以判斷用戶需求。當你搜索糖果時,搜索引擎無法判斷你是想找好吃的糖果,還是一個品牌,還是糖果的作用等等。但當你搜索什么糖果時,搜索引擎就可以判斷你的需求很強烈,也許你在找最好吃的糖果,也許是找最貴的糖果、也有可能是最難看的等等。
這里就比較難以理解,因為對“最好吃的糖果”這個詞來說,里面含有形容詞“好吃”,但前面我說了,搜索引擎不會區(qū)分詞性,只會區(qū)分語氣。這里的“最”也就代表了語氣,而“好吃”只是作為名詞來看待。大家可以百度“好糖果”和“好 糖果”,看看百度的結(jié)果,就可以發(fā)現(xiàn)這個問題了。排名靠前的,往往是帶有疑問語氣或者加重語氣的標題。
這次就寫到這吧,寫的有些亂,下次整理一下。同樣,也要申明一下,以上內(nèi)容小部分為個人理解,大部分為別人分享的內(nèi)容。有這方面興趣的朋友可以到微博找我:/se6en
注:相關(guān)網(wǎng)站建設(shè)技巧閱讀請移步到建站教程頻道。
收藏本文
文章編輯: 365webcall網(wǎng)頁客服系統(tǒng)(www.365webcall.com)
我的評論
登錄賬號: | 密碼: | 快速注冊 | 找回密碼 |