怎樣推測百度的收錄機制 迅速提升收錄量
來源:SEO優(yōu)化 2012-06-20
網(wǎng)站要在搜索引擎獲得良好的流量,就一定要提高網(wǎng)站的收錄,以站內(nèi)頁面更加多的潛在關鍵字盡可能在搜索排名上占領一席之地。國內(nèi)網(wǎng)站普遍瞄準的SEO市場就是百度搜索引擎,可是站長到最后都會發(fā)現(xiàn),除了收錄首頁之外,站內(nèi)的頁面寥寥無幾。為何它現(xiàn)在都不再隨便收錄我們的內(nèi)頁?
很多網(wǎng)站一直普遍做法就是在首頁加上自己的主關鍵字,再在站內(nèi)使用采集或者機器添加一些亂七八糟的文章,目的是用來維持網(wǎng)站在百度快照日期的“新鮮度”(認為這是毫無意義的事情)——互聯(lián)網(wǎng)的車亂從沒有停止過并且發(fā)展到今天,我認為這就是如今導致搜索引擎不再隨便收錄網(wǎng)頁原因。如何才能讓百度收錄你的網(wǎng)站的更多頁面信息,你就必須從搜索引擎收錄機制的角度出發(fā)。
推測百度的收錄機制,就要明白“蜘蛛”工作的原理
百度搜索引擎有一個俗稱“蜘蛛”的自動程序(英文名是“Baiduspider”),它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁、圖片、視頻等內(nèi)容,建立索引數(shù)據(jù)庫,使用戶能在百度搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁、圖片、視頻等內(nèi)容。搜索引擎的基本工作原理包括如下三個過程:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。
1、“蜘蛛”只不過是也采集器,只是比較先進而已。
作為全球最大的中文搜索引擎,面對著單單要處理的中文網(wǎng)站目前就有幾百萬個,那么網(wǎng)站內(nèi)頁的數(shù)量就如天上的繁星,F(xiàn)在從科學的角度來個假設,既然百度“蜘蛛”叫得上為自動程序,那么的是會越來越先進的東西(就像未來的機器人一樣越來越智能了),讓它們能夠自動判斷捕捉到的頁面內(nèi)容到底有沒有用,有的話就直接把數(shù)據(jù)放進口袋,然后再根據(jù)當前頁面的鏈接爬到新的頁面來個循環(huán)捕捉,直到口袋裝滿了就把信息帶回去給服務器經(jīng)過一系列更加專業(yè)的計算去對比……去判斷是否需要正式收錄進數(shù)據(jù)庫。整個過程就像采集器一樣,按照預先設置好采集規(guī)則,然后過濾不符合規(guī)則的信息。
2、可能被判斷會被收錄進數(shù)據(jù)庫的信息
我很多時都逛很多知名的數(shù)碼網(wǎng)站,發(fā)現(xiàn)他們的內(nèi)容很多都是千遍一律的互相采集(復制),并且沒有作任何修改處理,居然還被各大搜索引擎收錄展示?蓱z的小站長辛苦采集了成千上萬的數(shù)據(jù),再苦等一段日子后,居然只有首頁或大不了多幾個站內(nèi)頁面被收錄。是否有有人埋怨這太不公平了,為何他們采集數(shù)據(jù)可以被收錄,而我的不行。百度搜索引擎收錄機制其中有一個這樣的參考因素,“權重”(就是搜索引擎對站點權威的判斷)。
網(wǎng)站被“蜘蛛”捕捉過的第一天起就會一直監(jiān)視網(wǎng)站的一舉一動,并且給出該網(wǎng)站的域名一個“分數(shù)”作為衡量“權重”有多高。筆者認為影響權重的其中一個主要因素,以“新浪網(wǎng)”為例,它被百度搜索引擎監(jiān)測到很多獨家內(nèi)容(原創(chuàng))從“第一現(xiàn)場”被轉載到其它地方,還有很多帶有文字鏈接和不帶鏈接的靜態(tài)網(wǎng)址、網(wǎng)站名稱(新浪網(wǎng)、新浪)頻繁地出現(xiàn)在各大小網(wǎng)站——也即“曝光率”。
其實搜索引擎這樣的收錄機制去處理數(shù)據(jù)是非常明智的,不但節(jié)省了時間、還減輕了服務器的負擔,也是非常有經(jīng)濟效益的手段。
網(wǎng)站權重高低的收錄待遇
假設:A站和B站等權重都為9分,大于C站權重為2分;
(1)如果A站采集了B的內(nèi)容,搜索引擎多數(shù)會收錄,并快速顯示搜索結果
(2)如果A站采集了C的內(nèi)容,搜索引擎多數(shù)會收錄,并快速顯示搜索結果
(3)如果C站采集了A站、B站的內(nèi)容,可能不會被收錄,又或者就算收錄了也要好幾天會顯示出搜索結果
高權重網(wǎng)站無論向是否同級別的網(wǎng)站獲取內(nèi)容會更容易被收錄,并且會快速顯示出來。因為高權重的網(wǎng)站在搜索引擎里面代表的是一種權威性、曝光度,所以搜索引擎就很可能會認為該網(wǎng)站提供的信息無論與否采集、歷史是否悠久的內(nèi)容對于網(wǎng)民很有可能是有一定需要。也意味著這個網(wǎng)站上的信息平時很多人瀏覽、傳播速度很快,及時把內(nèi)容收錄起來并以最快速度向進行搜索的用戶展示其相關結果是非常有必要的,從而提升用戶在搜索引擎中的良好體驗。
權重不太高的網(wǎng)站復制和轉載一些目前熱門或者比較過去式的內(nèi)容,當這些內(nèi)容被“蜘蛛”判斷分析過后,發(fā)現(xiàn)該內(nèi)容已經(jīng)有很多尤其是高權重的網(wǎng)站轉載過了,覺得沒有必要再把數(shù)據(jù)帶回去給搜索引擎的服務器進行處理。為什么要會這樣判斷?既然搜素引擎的數(shù)據(jù)庫里面早已經(jīng)有這樣的信息,還是在一些高權重網(wǎng)站獲取回來的,就算用戶搜索與其相關信息時,也可以提供到很多相關內(nèi)容,并且權威性也比較強。假如你是百度搜索引擎的工程師,當用戶搜索“扁桃體炎”的時候,你也會告訴用戶百度百科不錯、某某健康網(wǎng)也挺專業(yè)的。搜索引擎作為用戶的朋友不會無緣無故推薦一個江湖游醫(yī)給你身邊的人,弄不好還會給人臭罵一頓。
例如:某大型網(wǎng)站今天發(fā)布了去年已經(jīng)被轉載無數(shù)次的考試作文,由于權重高的網(wǎng)站搜索引擎對它有一種信任感,認為該他們提供這條信息一定是有必要性的才被重新發(fā)布。當有用戶正在搜索以該作文有關的信息時,搜索引擎會查詢數(shù)據(jù)庫里擁有相關匹配的信息,然后再根據(jù)網(wǎng)站當前頁面的權重高低以排名方式展示其搜索結果。把搜索引擎就像你的朋友一樣,當你問百度哪里查找到有關“iPhone4S”的最新消息?搜索引擎就會告訴你,我認識一堆江湖兄弟叫做太平洋、新浪、網(wǎng)易……它們好像知道,你去那里看看有沒有相關資訊,如果沒有你可以打開第二頁或者繼續(xù)往后看看一些不太熟悉的朋友有沒有相關信息。
網(wǎng)站權重就是一個網(wǎng)站在搜索引擎的命根
現(xiàn)在開始你除了學會更新內(nèi)容之外,還要學會如何增加網(wǎng)站的曝光率,盡量讓百度“蜘蛛”發(fā)現(xiàn)。只要以正常做站的心態(tài),然后不斷重復兩個步驟,更新維護,站外推廣。只要你做好這一個做站的循環(huán),網(wǎng)站的權重就會不斷地提升,收錄自然就不再是問題,最大的好處就是總體的關鍵字在搜索引擎中的排名也會有所提高。
原文:陽光小宅博客 出處:
文章編輯: 365webcall客服系統(tǒng)(www.365webcall.com)
我的評論
登錄賬號: | 密碼: | 快速注冊 | 找回密碼 |