文章內容

詳解《光年SEO日志分析系統2.0》

發布時間: 2012/9/14 15:13:38

《光年SEO日志分析系統》剛才升級到了2.0，有朋友在論壇里提問說不知道怎么用數據分析來指導業務，我就趁新版本發布的時候順便說明一下各項功能。

《光年SEO日志分析系統》的介紹：http://www.semyj.com/archives/1309
2.0版本的下載地址還是以前那個：http://www.semyj.com/upload/gnanalyzer.rar

第二版增加了更多的分析維度，還增加了日志拆分的功能。

下面先來看幾個固定的分析維度，下面的數據是semyj.com我這個博客的日志分析數據。

首先是“概要分析”：

概要分析

這里有各個爬蟲“訪問次數”、“總停留時間”和“總抓取量”的統計。從上面這個數據可以看出，百度爬蟲的抓取深度是不高的：訪問1868次，抓取量是2968，平均每次抓取1.59頁。這其實是百度爬蟲普遍的抓取特征，在絕大部分網站上都是這個規律。抓取深度不高的話，會造成很多層級很深的頁面不會被抓取到；以及造成少數頁面被反反復復在抓取，浪費了爬蟲的時間。這樣，很多網站想要在百度上獲得收錄就成了問題，特別是大中型網站。我所接觸的所有大中型網站，在刻意去優化之前，一年下來很多網站至少還有一半的網頁沒有被百度爬蟲抓取到，部分網站甚至更嚴重。相比之下Google的抓取深度就好很多，總的抓取量也大一些。

這里面比較重要的數據是那個“總抓取量”，因為它影響網站的收錄量，進而影響網站的SEO流量。在《網頁加載速度是如何影響SEO效果的》一文中說明過抓取量和SEO流量的關系。這個“總抓取量”的數據是好還是壞，是要根據每個網站的實際情況來看的。就semyj.com這個網站來說，它現在有53篇文章，300多個網頁，而現在google每天有16484個抓取量，百度有2968個抓取量。如果光看這個數據，那看起來這300多個網頁基本上在一天之內應該是能被抓取到的。但是很多大中型網站就不一樣。

這里我先要說明一個有些人會混淆的問題。為什么我上面會刻意說明一下文章數量和網頁數量呢，這是因為文章數量肯定是不等于網頁數量的。不過有些人去查收錄量的時候就忽視了這個常識。如某網站的文章量（或稱單個資訊數量）是30萬，去搜索引擎用site等語法去查詢收錄量是29萬，就覺得自己的收錄量差不多了，而實際可能差得很遠。

因為單個頁面都會派生出很多其他頁面的。如果打開某一個文章頁面，去數一下里面的URL，除去那些模板上重復的，還是有那么一些URL是只有當前這個頁面上才有的，也就是這個頁面派生出來的。而一個URL對應一個頁面，所以一個網站上擁有的頁面數量是這個網站的信息量的好幾倍，有時甚至是十幾二十倍。

所以在看這個“總抓取量”之前，需要把自己網站內可能擁有的頁面數量統計一遍�？梢杂�lynx在線版把每一類型的頁面上的URL都提取出來看一看。網頁總的數量知道了，再和“總抓取量”做對比，就可以知道這個數據是好還是差了。我覺得基本上，google爬蟲的抓取量要是網站頁面數量的2倍以上，抓取量才算及格，baidu爬蟲就需要更多了。因為實際上這個抓取量里面還有很多是重復抓取的；還有和上一天相比，每天的新增的頁面抓取不是很多的。

這三個數據：“訪問次數”、“總停留時間”和“總抓取量”，都是數字越高對網站越有利，所以需要想很多辦法提高他們。大多數時候看他們絕對值沒什么用處，而要看現在的和過去的比較值。如果你能每天去一直追蹤這些數據的變化情況，就能發現很多因素是如何影響這些數據的。

以下其他數據也是如此：某個當前數據的值有時候不一定有意義的，但是長期跟蹤這個數據的變化就能發現很多因素之間是如何互相影響的。

然后是“目錄抓取”的數據：

目錄抓取統計

這個“目錄”抓取的數據是對“總抓取量”的一個細分。一個網站當中，一定是有重點頁面和非重點頁面的，這個數據就可以讓你看看哪一類型的頁面被抓取的多，及時做一些調整。

還有就是可以去搜索引擎按URL特征查詢一下各個目錄下的頁面的收錄情況，再來和這個目錄下的搜索引擎的抓取數據做一個對比，就可以發現更多的問題。對于semyj.com來說，看完這個數據就知道，可能那300多個網頁在一天之內還是不能全部被抓取一遍的，因為原來大部分抓取都在bbs這個目錄下。（有時候就是有很多這樣意外的情況發生，bbs這個目錄早已經做了301跳轉，沒想到還有這么大的抓取量。——看數據永遠能知道真相是什么。）

接著是“頁面抓取”的數據：

頁面抓取

這個數據把一個網站中那些被重復抓取的頁面統計了出來，并分別統計是哪些爬蟲分別抓取了多少次。大家多分析幾個網站就會明白，百度爬蟲經常是過度抓取的�？�。這個數據也驗證了前面的數據：因為它平均每次抓取1.59頁，也就是每次來抓取都停留在表層，但是又經常來抓，所以勢必導致少部分頁面是經常被百度抓取的。因為有重復抓取的存在，所以一個網站光看抓取量大不大是沒什么用的，還要看有多少不重復的頁面被抓取到了。還有就是要想辦法解決這個問題。

在“蜘蛛IP排行”數據里，統計了每個爬蟲IP的訪問情況：

IP排行

如果分析過很多網站，就會發現爬蟲對某一個站的訪問，特定時間內的IP段都會集中在某一個C段。這是由搜索引擎的原理決定的，感興趣的朋友可以查詢相關書籍。知道這個特征有時候可以用得著。

報表里有個查詢IP地址的功能，可以查詢那些爬蟲IP是不是真的，如上圖紅框內的IP，就是一個偽裝成google爬蟲的采集者。

這個數據和上面的所有數據都一樣，前后對比就可以發現更多的信息。

以下是“關鍵字分析”的數據：

關鍵詞分析

“類型”這里是說明這個關鍵詞是從網頁搜索還是圖片搜索或視頻搜索里來的SEO流量。而“上次用關鍵字”，是統計用戶搜索當前的關鍵詞進入網站之前，是在搜索什么詞語。這個功能只有百度有效，因為百度在url中記錄了用戶上次使用的關鍵詞。這個地方的界面還需要修改，下一版本中會完善。

“狀態碼分析”報告中，現在把用戶碰到的狀態嗎和爬蟲碰到的狀態碼分開了，其他沒有什么改變：

狀態碼

這里每一行數據都分為兩個部分，第1部分是表示哪個文件出現了這個狀態碼，第2部分是表示發生在哪個網頁。從上面的數據可以看出，這個網站在被一些黑客工具掃描。

在《光年SEO日志分析系統》第二版中，最重要的升級是增加了“日志拆分”功能。有了這個功能，就可以用任意維度去分析網站日志了。

以下是可以拆分的日志字段：

拆分字段

只要你的網站日志是齊全的，有了日志拆分功能這個功能就相當于有了一個數據倉庫。這個時候查看網站的數據，就：只有你想不到，沒有它查不到的。

如：我們要查看上面那個偽裝成google蜘蛛的IP采集了哪些網頁，就把拆分條件定義為：ip等于222.186.24.59，agent等于googlebot，就可以把日志拆分出來了；還有要看是哪些IP在用黑客工具掃描網站時，就把拆分條件定義為：url等于MIRSERVER.RAR或等于WWWROOT.RAR等等就可以看到了。

我還建議大家多去拆分爬蟲的抓取軌跡，把某一個爬蟲IP的抓取路徑拆分出來，觀察它的抓取路徑，再和網站上的URL對應，就能明白爬蟲抓取的很多規律。

其實本來還應該開發一個日志合并的功能，但是這個功能實在太簡單，一般我們用DOS里面的copy命令就可以解決這個問題:

Copy命令

這樣，你可以把網站一星期內的、一個月內的甚至半年來的日志合并起來分析�！豆饽闟EO日志分析系統》是支持分析無限大的日志的，只要你有時間。

在“設置”-“性能設置”里，有兩個地方要注意。一個是那個“蜘蛛計算間隔”，這里表示一個蜘蛛多少時間內沒有活動就算它離開了。這里要注意對比分析的時候每次都要是同一個時間，因為這里的時間按改變了，那計算爬蟲來訪的次數就變了。還有一個是“分析顯示條數”，現在你可以自己定義在報表中要顯示多少行數據，默認只有5條。

文章太長就寫到這里，《光年SEO日志分析系統》目前是收費的軟件，免費版能用10次或是30天。到光年論壇用論壇金幣可以購買。

本文出自：億恩科技【www.endtimedelusion.com】

服務器租用/服務器托管中國五強！虛擬主機域名注冊頂級提供商！15年品質保障！--億恩科技[ENKJ.COM]

上一篇 >> Discuz論壇SEO優化指南
下一篇 >> Discuz論壇SEO優化指南

服務器租用

服務器托管

機柜批發

云服務器

建站俠

空間/域名

安全保姆

幫助類別

幫助中心

文章內容

詳解《光年SEO日志分析系統2.0》

同類文章

億恩公告

在線客服