方法1. 之前由于公司項(xiàng)目需要,采集過google地圖數(shù)據(jù),還有一些大型網(wǎng)站數(shù)據(jù)。 經(jīng)驗(yàn)如下: 1.IP必須需要,像@alswl 說的非常正確,ADSL。如果有條件,其實(shí)可以跟機(jī)房多申請(qǐng)外網(wǎng)IP。 2.在有外網(wǎng)IP的機(jī)器上,部署代理服務(wù)器。 3.你的程序,使用輪訓(xùn)替換代理服務(wù)器來訪問想要采集的網(wǎng)站。 好處: 1.程序邏輯變化小,只需要代理功能。 2.根據(jù)對(duì)方網(wǎng)站屏蔽規(guī)則不同,你只需要添加更多的代理就行了。 3.就算具體IP被屏蔽了,你可以直接把代理服務(wù)器下線就OK,程序邏輯不需要變化。 方法2. 有小部分網(wǎng)站的防范措施比較弱,可以偽裝下IP,修改X-Forwarded-for(貌似這么拼。。。)即可繞過。 大部分網(wǎng)站么,如果要頻繁抓取,一般還是要多IP。我比較喜歡的解決方案是國外VPS再配多IP,通過默認(rèn)網(wǎng)關(guān)切換來實(shí)現(xiàn)IP切換,比HTTP代理高效得多,估計(jì)也比多數(shù)情況下的ADSL切換更高效。 方法3. ADSL + 腳本,監(jiān)測(cè)是否被封,然后不斷切換 ip 設(shè)置查詢頻率限制 正統(tǒng)的做法是調(diào)用該網(wǎng)站提供的服務(wù)接口。 方法4. 8年多爬蟲經(jīng)驗(yàn)的人告訴你,國內(nèi)ADSL是王道,多申請(qǐng)些線路,分布在多個(gè)不同的電信區(qū)局,能跨省跨市更好,自己寫好斷線重?fù)芙M件,自己寫動(dòng)態(tài)IP追蹤服務(wù),遠(yuǎn)程硬件重置(主要針對(duì)ADSL貓,防止其宕機(jī)),其余的任務(wù)分配,數(shù)據(jù)回收,都不是大問題。我的已經(jīng)穩(wěn)定運(yùn)行了好幾年了,妥妥的! 方法5. 1 user agent 偽裝和輪換 2 使用代理 ip 和輪換 3 cookies 的處理,有的網(wǎng)站對(duì)登陸用戶政策寬松些 友情提示:考慮爬蟲給人家網(wǎng)站帶來的負(fù)擔(dān),be a responsible crawler :) 方法6. 盡可能的模擬用戶行為: 1、UserAgent經(jīng)常換一換; 2、訪問時(shí)間間隔設(shè)長(zhǎng)一點(diǎn),訪問時(shí)間設(shè)置為隨機(jī)數(shù); 3、訪問頁面的順序也可以隨機(jī)著來 方法8. 網(wǎng)站封的依據(jù)一般是單位時(shí)間內(nèi)特定IP的訪問次數(shù). 我是將采集的任務(wù)按 目標(biāo)站點(diǎn)的IP進(jìn)行分組 通過控制每個(gè)IP 在單位時(shí)間內(nèi)發(fā)出任務(wù)的個(gè)數(shù),來避免被封.當(dāng)然,這個(gè)前題是你采集很多網(wǎng)站.如果只是采集一個(gè)網(wǎng)站,那么只能通過多外部IP的方式來實(shí)現(xiàn)了. 方法9. 1. 對(duì)爬蟲抓取進(jìn)行壓力控制; 2. 可以考慮使用代理的方式訪問目標(biāo)站點(diǎn)。 -降低抓取頻率,時(shí)間設(shè)置長(zhǎng)一些,訪問時(shí)間采用隨機(jī)數(shù) -頻繁切換UserAgent(模擬瀏覽器訪問) -多頁面數(shù)據(jù),隨機(jī)訪問然后抓取數(shù)據(jù) -更換用戶IP |
免責(zé)聲明:本站部分文章和圖片均來自用戶投稿和網(wǎng)絡(luò)收集,旨在傳播知識(shí),文章和圖片版權(quán)歸原作者及原出處所有,僅供學(xué)習(xí)與參考,請(qǐng)勿用于商業(yè)用途,如果損害了您的權(quán)利,請(qǐng)聯(lián)系我們及時(shí)修正或刪除。謝謝!
始終以前瞻性的眼光聚焦站長(zhǎng)、創(chuàng)業(yè)、互聯(lián)網(wǎng)等領(lǐng)域,為您提供最新最全的互聯(lián)網(wǎng)資訊,幫助站長(zhǎng)轉(zhuǎn)型升級(jí),為互聯(lián)網(wǎng)創(chuàng)業(yè)者提供更加優(yōu)質(zhì)的創(chuàng)業(yè)信息和品牌營(yíng)銷服務(wù),與站長(zhǎng)一起進(jìn)步!讓互聯(lián)網(wǎng)創(chuàng)業(yè)者不再孤獨(dú)!
掃一掃,關(guān)注站長(zhǎng)網(wǎng)微信