<output id="caubd"></output>

<track id="caubd"></track>

  • <pre id="caubd"></pre>

    <table id="caubd"></table>

  • <acronym id="caubd"><strong id="caubd"></strong></acronym>
    經典案例
    • 江蘇佰納德自控設備有限公司
    • 尚科照明集團有限公司
    • 江蘇啟翔光電科技有限公司
    • 高郵市明源照明科技有限公司
    • 揚州凱德斯環保設備有限公司A
    • 揚州市潤澤光電科技有限公司
    • 揚州吉佳電氣科技有限公司
    • 南京超控電子有限公司
    • 上海自動化儀表股份有限公司

    百度蜘蛛的爬取策略介紹

    發布于:2018-01-02 09:16來源:未知 作者:admin 點擊:

      揚州網站建設和你來談一談百度蜘蛛的爬取策略

      spider在抓取過程中面對著復雜的網絡環境,為了使系統可以抓取到盡可能多的有價值資源并保持系統及實際環境中頁面的一致性同時不給網站體驗造成壓力,會設計多種復雜的抓取策略。以下簡單介紹一下抓取過程中涉及到的主要策略類型:

      1、抓取友好性:抓取壓力調配降低對網站的訪問壓力

      2、常用抓取返回碼示意

      3、多種url重定向的識別

      4、抓取優先級調配

      5、重復url的過濾

      6、暗網數據的獲取

      7、抓取反作弊

      8、提高抓取效率,高效利用帶寬

      1、抓取友好性

      互聯網資源龐大的數量級,這就要求抓取系統盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價值資源。這就造成了另一個問題,耗費被抓網站的帶寬造成訪問壓力,如果程度過大將直接影響被抓網站的正常用戶訪問行為。因此,在抓取過程中就要進行一定的抓取壓力控制,達到既不影響網站的正常用戶訪問又能盡量多的抓取到有價值資源的目的。

      通常情況下,最基本的是基于ip的壓力控制。這是因為如果基于域名,可能存在一個域名對多個ip(很多大網站)或多個域名對應同一個ip(小網站共享ip)的問題。實際中,往往根據ip及域名的多種條件進行壓力調配控制。同時,站長平臺也推出了壓力反饋工具,站長可以人工調配對自己網站的抓取壓力,這時百度spider將優先按照站長的要求進行抓取壓力控制。

      對同一個站點的抓取速度控制一般分為兩類:其一,一段時間內的抓取頻率;其二,一段時間內的抓取流量。同一站點不同的時間抓取速度也會不同,例如夜深人靜月黑風高時候抓取的可能就會快一些,也視具體站點類型而定,主要思想是錯開正常用戶訪問高峰,不斷的調整。對于不同站點,也需要不同的抓取速度。

    tag標簽:
    ------分隔線----------------------------
    ------分隔線----------------------------
    在線客服
    熱線電話
    183-6131-0036
    + 无码日韩免费看A片
    <output id="caubd"></output>

    <track id="caubd"></track>

  • <pre id="caubd"></pre>

    <table id="caubd"></table>

  • <acronym id="caubd"><strong id="caubd"></strong></acronym>