最近有站長在網上發文吐槽表示,字節跳動為了快速發展搜索業務派出爬蟲四處抓取網站內容,給中小網站主們造成了很大的損失和困擾,影響了網站正常的用戶訪問。 該站長表示,今年7月份,他突然發現公司的網站經常性打不開,網頁加載極其緩慢,有時甚至直接癱瘓。經過一系列排查后,在服務器日志上發現了bytespider爬蟲的痕跡。該爬蟲抓取的頻率每天達幾百萬次,高則上千萬次,服務器帶寬負載飆至100%,而且該爬蟲在抓取時完全不遵守網站的robots協議。 該站長順著該爬蟲的IP地址查詢,證實,該爬蟲就是字節跳動的搜索爬蟲。 并且,在CSDN、V2EX等技術論壇也了解到,從字節跳動開始做搜索之后,其實網絡上就一直有站長抱怨頭條搜索爬蟲抓取過于暴力的聲音,遭受字節跳動的搜索爬蟲暴力抓取的不是個例,很多小網站他們也沒放過。 有小網站主抱怨表示:字節跳動的爬蟲“一上午對網站發出46萬次請求”,網站都癱瘓了,百度也沒有這么折騰的! 最后,該站長表示,像我們這樣做SEO的人來說,主要工作目標就是希望自己家網站能在主流搜索引擎的搜索結果中排在前面的位置,“對于像百度、搜狗、360等搜索引擎的規范抓取和收錄各位站長都是非常歡迎的,但是頭條搜索爬蟲這樣瘋狂爬取內容網站都給整癱瘓了,不僅沒給網站帶來流量,還影響了正常的用戶訪問,這就很不“講究”了。 但是對此,字節跳動的搜索部經理表示:文章所述今年七八月份頭條搜索出現的爬蟲問題,目前已經進行了優化升級,并且對抓取壓力做了更有效的控制,頭條搜索一直在關注站長及專業人員反饋的抓取問題,聯系了部分發帖/文檔反饋的網站及個人,我們分析了原因并對系統進行了迭代改進。目前看反饋已經有效改善。會持續關注反饋繼續改進。 所以通過頭條搜索爬蟲暴力抓取網站內容來看,磊哥個人覺得,字節跳動入局全網搜索攪動搜素市場是好事,國內的搜索公司也該活動活動了,但是搜索引擎的索引數據這種東西是靠點滴積累起來的,百度、搜狗.360經歷了那么多年的發展積累才走到今天,頭條搜索想在這方面趕超還有很長一段路要走! |