網(wǎng)頁(yè)抓取是使用爬蟲(chóng)和抓取機(jī)器人等工具從網(wǎng)站中提取寶貴數(shù)據(jù)和內(nèi)容、讀取參數(shù)值、執(zhí)行逆向工程、評(píng)估可導(dǎo)航路徑等的過(guò)程。由于網(wǎng)絡(luò)抓取,全球電子商務(wù)業(yè)務(wù)的收入下降了 2%,總計(jì) 700 億美元。這突出了有效的網(wǎng)絡(luò)抓取保護(hù)的重要性。
保護(hù)網(wǎng)站免遭抓取并不意味著您可以完全停止網(wǎng)頁(yè)抓取。這只有在您不向網(wǎng)站上傳任何內(nèi)容的情況下才有可能。如果您不能完全停止網(wǎng)絡(luò)抓取,那么網(wǎng)絡(luò)抓取保護(hù)需要什么?請(qǐng)仔細(xì)閱讀,找出答案。
為什么要關(guān)注 Web 抓取保護(hù)?
網(wǎng)絡(luò)抓取已被用于價(jià)格比較、市場(chǎng)研究、搜索引擎的內(nèi)容分析等方面已有很長(zhǎng)時(shí)間了。然而,網(wǎng)絡(luò)爬蟲(chóng)也被用于非法目的,包括內(nèi)容盜竊、負(fù)面 SEO 攻擊和發(fā)動(dòng)價(jià)格戰(zhàn)等。網(wǎng)絡(luò)抓取保護(hù)如果有效完成,可以幫助防止對(duì)企業(yè)的財(cái)務(wù)和聲譽(yù)損害。
如何保護(hù)您的網(wǎng)站不被抓取?
網(wǎng)絡(luò)抓取中使用的機(jī)器人越來(lái)越復(fù)雜,并且可以密切模仿人類用戶,從而使傳統(tǒng)的網(wǎng)絡(luò)安全方法對(duì)它們無(wú)效。為了防止惡意機(jī)器人操作員進(jìn)行投標(biāo),您可以為他們?cè)O(shè)置幾個(gè)障礙和挑戰(zhàn)。使用以下 Web 抓取保護(hù)最佳實(shí)踐來(lái)應(yīng)對(duì)抓取攻擊并最大限度地減少可能發(fā)生的 Web 抓取量。
高級(jí)流量分析
對(duì)傳入 Web 流量的有效監(jiān)控和分析使您能夠確保只獲得人類和合法的機(jī)器人訪問(wèn)者,防止惡意爬蟲(chóng)和爬蟲(chóng)程序訪問(wèn)您的網(wǎng)站。這種流量分析過(guò)程不能僅僅依賴于傳統(tǒng)的防火墻和 IP Blocking。高級(jí)流量分析和機(jī)器人檢測(cè)必須包括:
- 行為和模式分析:您必須尋找用戶與網(wǎng)站交互方式的異常行為模式。不合邏輯的瀏覽模式、激進(jìn)的請(qǐng)求率、重復(fù)的密碼請(qǐng)求、可疑的會(huì)話歷史、大量的產(chǎn)品查看等都是危險(xiǎn)信號(hào)。結(jié)合全球威脅情報(bào)和過(guò)去的攻擊歷史,跟蹤用戶行為和模式有助于區(qū)分人類和機(jī)器人流量。
- HTML 指紋識(shí)別:通過(guò)徹底檢查 HTML 標(biāo)頭并與更新的標(biāo)頭簽名數(shù)據(jù)庫(kù)進(jìn)行比較,您可以有效地過(guò)濾掉惡意機(jī)器人流量。
- IP 信譽(yù):在全球情報(bào)和安全解決方案洞察力的支持下,您必須跟蹤 IP 信譽(yù)請(qǐng)求。密切監(jiān)控來(lái)自 IP 地址且已知?dú)v史被用于惡意活動(dòng)/攻擊的用戶。必須仔細(xì)審查此類請(qǐng)求。
- 漸進(jìn)式挑戰(zhàn):您可以利用 cookie 支持、JavaScript 執(zhí)行等挑戰(zhàn)來(lái)過(guò)濾掉機(jī)器人流量。
- 誤報(bào)管理:在抓取保護(hù)過(guò)程中阻止合法用戶訪問(wèn)網(wǎng)站會(huì)適得其反。這就是為什么您的流量分析必須有效地管理和減少誤報(bào)的原因。
速率限制請(qǐng)求
人類用戶不會(huì)在一秒鐘內(nèi)瀏覽 100 或 1000 個(gè)網(wǎng)頁(yè),但爬蟲(chóng)機(jī)器人可以而且會(huì)。通過(guò)設(shè)置 IP 地址在給定時(shí)間范圍內(nèi)可以發(fā)出的請(qǐng)求數(shù)量的上限,您可以限制機(jī)器人可以抓取的內(nèi)容數(shù)量,并保護(hù)您的網(wǎng)站免受惡意請(qǐng)求的侵害。
定期修改網(wǎng)站的 HTML 標(biāo)記
網(wǎng)絡(luò)抓取中使用的機(jī)器人依靠 HTML 標(biāo)記中的模式來(lái)有效地遍歷網(wǎng)站、定位有用數(shù)據(jù)并保存。為防止網(wǎng)絡(luò)抓取機(jī)器人這樣做,您必須定期更改站點(diǎn)的 HTML 標(biāo)記并使其保持不一致。您不必完全重新設(shè)計(jì)網(wǎng)站。只需使用相應(yīng)的 CSS 文件修改 HTML 中的 class 和 id 即可使抓取復(fù)雜化。
必要時(shí)使用 CAPTCHA 挑戰(zhàn)流量
機(jī)器人無(wú)法回答 CAPTCHA 挑戰(zhàn)。因此,明智地解決這些挑戰(zhàn)將有助于減緩網(wǎng)絡(luò)抓取機(jī)器人的速度。持續(xù)的 CAPTCHA 挑戰(zhàn)絕對(duì)是禁忌,因?yàn)樗鼤?huì)對(duì)用戶體驗(yàn)產(chǎn)生負(fù)面影響。您必須在必要時(shí)使用這些挑戰(zhàn)。例如,在幾秒鐘內(nèi)收到大量請(qǐng)求時(shí)。
在媒體對(duì)象中嵌入內(nèi)容
這是一種不太常見(jiàn)的網(wǎng)頁(yè)抓取保護(hù)措施。當(dāng)內(nèi)容嵌入在圖像等媒體對(duì)象中時(shí),抓取內(nèi)容更具挑戰(zhàn)性。但是,這會(huì)削弱用戶體驗(yàn),尤其是當(dāng)他們需要從網(wǎng)站復(fù)制電話號(hào)碼或電子郵件 ID 等內(nèi)容時(shí)。
結(jié)論
企業(yè)、內(nèi)容創(chuàng)建者和網(wǎng)站所有者最終可能會(huì)因網(wǎng)絡(luò)抓取而丟失有價(jià)值的信息和數(shù)十萬(wàn)美元。搭載下一代安全解決方案,例如 AppTrana,其中包括智能機(jī)器人管理,以幫助保護(hù)網(wǎng)站免受抓取和大量惡意機(jī)器人的侵害。