1. <var id="fe6gj"></var>

    <rp id="fe6gj"><nav id="fe6gj"></nav></rp>

    <noframes id="fe6gj"><cite id="fe6gj"></cite>

    <ins id="fe6gj"><button id="fe6gj"><p id="fe6gj"></p></button></ins>
    1. <tt id="fe6gj"><i id="fe6gj"><sub id="fe6gj"></sub></i></tt>
        始創于2000年 股票代碼:831685
        咨詢熱線:0371-60135900 注冊有禮 登錄
        • 掛牌上市企業
        • 60秒人工響應
        • 99.99%連通率
        • 7*24h人工
        • 故障100倍補償
        您的位置: 網站首頁 > 幫助中心>文章內容

        TF-IDF

        發布時間:  2012/8/4 15:25:35
        TF-IDF算法已經被很多專業的SEO工作者所熟知,它是一種用于資訊檢索與資訊探勘的常用加權技術,運用到網頁分析中就是對于網頁中的相關關鍵詞進行加權,分析眾多網頁中某個特定關鍵詞的相關網頁關鍵詞權值,并在最后的排序算法中給予科學的依據。

          首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。為什么要分析這個公式呢?因為一個網頁的TF-IDF值越大,網頁中文本內容與索引詞越相關,其能夠在搜索引擎上獲得的權值就越高,對于后期的網頁的排序能夠提供很大的支持。

          TF*IDF中TF詞頻(Term Frequency),表示詞條在某個文檔中出現的頻率,而IDF反文檔頻率(Inverse Document Frequency)表示如果包含詞條t的文檔個數越少,IDF越大,則說明詞條t具有很好的類別區分能力,用公式表示IDF可以寫為:IDF(t) = log(N / DF(t))。DF(t)表示包含有某個搜索詞(以t為代表)的文檔數,N表示互聯網的總網頁數。

          看這些概念很難理解透徹,給大家舉一個例子,大家就能夠很好地明白了。

          利用TF-IDF解釋“SEO診斷”排名現象

          例如“SEO診斷”這個關鍵詞的網頁排序,我們查排名前十中三個網站關于這個詞相關詞語的一些詞頻展現分析:

          排在第二的是站長網的SEO診斷,他們的“SEO”和“診斷”的詞頻分別是41和46,“SEO診斷”的詞頻是20;

          排在第三的網站是長沙的一家公司,他們的“SEO”和“診斷”的詞頻分別是12和4,“SEO診斷”的詞頻是1;

          我的細嗅薔薇博客排名排名第十,網站中“SEO”詞頻最高,達到84,“診斷”的詞頻是7,“SEO診斷”的詞頻是4。

          搜索查看有關于“SEO診斷”的頁面約1,530,000個,“SEO”和“診斷”是百度上限約100,000,000個,取N=10000億。所以三個網頁三個關鍵詞的TF*IDF值做下面的計算:

          1、先計算三個詞的IDF值:

          SEO:IDF= log(N / DF(t))= log(10000/1)=4

          診斷:IDF= log(N / DF(t))= log(10000/1)=4

          SEO診斷:IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6

          2、計算三個詞的TF值:

          三站的關鍵詞SEO的TF值:

          長沙:TF= log(TF(t,d))= log12≈1.1

          站長網:TF= log(TF(t,d))= log41≈1.64

          細嗅薔薇:TF= log(TF(t,d))= log84≈1.92

          三站的關鍵詞診斷的TF值:

          長沙:TF= log(TF(t,d))= log4≈0.63

          站長網:TF= log(TF(t,d))= log46≈1.68

          細嗅薔薇:TF= log(TF(t,d))= log7≈0.84

          三站的關鍵詞SEO診斷的TF值:

          長沙:TF= log(TF(t,d))= log1=0

          站長網:TF= log(TF(t,d))= log20≈1.45

          細嗅薔薇:TF= log(TF(t,d))= log4≈0.63

          3、三個站三個詞的TF*IDF值為:

          TF*IDF值SEO診斷SEO診斷

          長沙站5.13.521

          站長網7.567.729.7

          細嗅薔薇8.684.464.78

          從上面的表格中我們可以清晰的看出,我的博客“SEO”的TF*IDF值最高,站長網的“診斷”和“SEO診斷”TF*IDF值最高。

          如果單純從TF*IDF值計算出來的相關性來講,“SEO診斷”這個詞的排名站長網的相關性是最高的,應該獲得更好的排名,我的博客排名應該在兩者之間(前天的排名的確在兩者之間),長沙站應該在最后,但是和實際的結果看來是有一定的差距的。這說明網站網頁排名的因素還有其他的一些比較重要的因素,例如網站整體權重,單個網頁權重和質量,外部鏈接,和用戶的交互(即用戶體驗),這些都是我們需要考慮的。

          另外,同一個網站相比較來看TF*IDF值,長沙站和我的細嗅薔薇博客要提升排名,對于關鍵詞“SEO”排名的要求就比較高,“SEO”排名起決定性作用,而站長網中“SEO診斷”的排名起到決定性的作用,關鍵詞“SEO”排名對于其排名波動影響要小。這一點有一定的根據,例如前天我的博客“SEO診斷”排名第三,當時“SEO”關鍵詞排名第十頁,現在掉到了23頁,排名就下降到第十,所以多運用TF*IDF研究能夠幫助我們發現很多關鍵詞排名現象,并針對性的制定SEO優化策略。


        本文出自:億恩科技【www.endtimedelusion.com】

        服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

      1. 您可能在找
      2. 億恩北京公司:
      3. 經營性ICP/ISP證:京B2-20150015
      4. 億恩鄭州公司:
      5. 經營性ICP/ISP/IDC證:豫B1.B2-20060070
      6. 億恩南昌公司:
      7. 經營性ICP/ISP證:贛B2-20080012
      8. 服務器/云主機 24小時售后服務電話:0371-60135900
      9. 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
      10. 專注服務器托管17年
        掃掃關注-微信公眾號
        0371-60135900
        Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
          1
         
         
         
         

        0371-60135900
        7*24小時客服服務熱線

         
         
        av不卡不卡在线观看_最近2018年中文字幕_亚洲欧美一区二区三区_一级A爱做片免费观看国产_日韩在线中文天天更新_伊人中文无码在线