搜索引擎蜘蛛即Search Engine Spider,是一個很形象的名字。把互聯網比喻成一張蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。搜索引擎蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網,那么搜索引擎蜘蛛就可以用這個原理把互聯網上所有節點的網頁都抓取下來。
由于互聯網上無數的網站頁面,搜索引擎蜘蛛無法將所有的頁面都下載保存到服務器。因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接廣泛度(及外部鏈接的數量與質量)。
抓取網頁策略
在抓取網頁的時候,搜索引擎蜘蛛一般有兩種策略:廣度優先和深度優先。廣度優先是指搜索引擎蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓搜索引擎蜘蛛并行處理,提高其抓取速度。深度優先是指搜索引擎蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是搜索引擎蜘蛛在設計的時候比較容易。
由于不可能抓取所有的網頁,有些搜索引擎蜘蛛對一些不太重要的網站,設置了訪問的層數。例如,A為起始網頁,屬于0層,B、C、D、E、F屬于第1 層,G、H屬于第2層,I屬于第3層。如果搜索引擎蜘蛛設置的訪問層數為2的話,網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索 到,另外一部分不能被搜索到。 對于網站設計者來說,扁平化的網站結構設計有助于搜索引擎抓取其更多的網頁。
訪問網站權限
搜索引擎蜘蛛在訪問網站網頁的時候,經常會遇到加密數據和網頁權限的問題,有些網頁是需要會員權限才能訪問。當然,網站的所有者可以通過協議讓搜索引擎蜘蛛不去抓取,但對于一些出售報告的網站,他們希望搜索引擎能搜索到他們的報告,但又不能完全免費的讓搜索者查看,這樣就需要給搜索引擎蜘蛛提供相應的用戶名和密碼。搜索引擎蜘蛛可以通過所給的權限對這些網頁進行網頁抓取,從而提供搜索。而當搜索者點擊查看該網頁的時候,同樣需要搜索者提供相應的權限驗證。
工作內容
1、收錄頁面
一般收錄頁面需要有蜘蛛抓取完成,通過抓取算法來決定收錄那些頁面,在算法調整后,對于偽原創、采集站點予以強烈的打擊,所以在收錄頁面方面變得更加的嚴格了,高質量內容頁面以及權重高的站點一般收錄頁面的幾率會高很多。對于收錄頁面這方面相信很多的站長都是很清楚,每天蜘蛛都在分分秒秒不停地收錄著,但是你會發現其實大部分的站點的收錄都減少了,這是為什么呢?因為需要過濾頁面。
2、過濾頁面
很多頁面被收錄之后,搜索引擎認為該頁面對用戶沒有太大的價值,或者是質量度比較低的頁面,必然就會過濾,這也是用戶體驗好的一種表現。很多站點以優化為目的,絲毫不考慮用戶的體驗,例如一些橋頁、跳轉頁面這些就是典型,K站就是一種過濾頁面的表現,把那些作弊的站點的頁面全部的過濾掉。很多人抱怨K站事件,尤其是那些屌絲站長們整天在論壇抱怨這個抱怨那個,為什么K你的站,很顯然你的站點真的是以用戶體驗為核心運營站嗎?
做SEO的人大多都是為了優化而運營站點,每天寫的站內的更新、做外鏈肯定一部分是為了優化而優化,K你的站是犧牲少部分人的利益,更多的用戶是從中獲益的。要知道多少人在搜索,如果搜索出來的信息是你為了優化而運營的站點,低質量的頁面,那搜索引擎其實是拿自己未來的前途給你的站點做鋪墊的。所以過濾頁面這方面非常的嚴格,大家也不要使用黑帽技術了。
3、建立索引
經過了收錄頁面以及過濾頁面的工作之后,搜索引擎會對這些頁面逐一進行標記和識別,并將這信息進行儲存為結構化的數據,儲存到搜索引擎的服務器中,這些儲存的數據有網頁的信息、網頁的標題、關鍵詞、頁面描述等標簽、網頁外鏈及描述、抓取記錄。還會將網頁中的關鍵詞信息進行識別和儲存,以便與用戶搜索的內容進行匹配。建立完善的索引數據庫,方便呈現出最佳的顯示信息。
4、顯示信息
用戶輸入的關鍵詞,搜索引擎會對其進行一系列復雜的分析,并根據分析的結論在索引庫中尋找與之最為匹配的一系列網頁,按照用戶輸入的關鍵詞所體現的需求強弱和網頁的優劣進行打分,并按照最終的分數進行排列,展現給用戶。一般顯示出最佳信息需要是最適合匹配關鍵詞相關的頁面,包括站內和站外優化的因素。