不到兩個月,2018年春節要來了。
“今年我得早下手,搶張回家的低價機票。”在北京打工的小王對科技日報記者說,由于老家在云南,春節機票太貴,他都選擇坐兩天兩夜的火車回去,長途跋涉,苦不堪言。
然而,就在小王摩拳擦掌,準備使出“洪荒之力”搶張便宜機票時,看到網上曝出這樣一則消息:航空公司放出的低價機票,80%以上被票務公司的“爬蟲”搶走,普通用戶很少能買到。
小王傻眼了,“爬蟲”究竟是什么鬼?它又是怎么搶機票的?難道就沒有辦法治理嗎?
借助超鏈接信息抓取網頁
“‘爬蟲’技術是實現網頁信息采集的關鍵技術之一,通俗來說,‘爬蟲’就是一段用來批量、自動化采集網站數據的程序,幾乎不需要人工干預。”北京理工大學網絡科學與技術研究院副教授閆懷志告訴科技日報記者。
閆懷志介紹,“爬蟲”又稱網頁“蜘蛛”、網絡機器人,它是一種按照一定規則自動抓取網頁信息的程序或者腳本,通常駐留在服務器上。在Web網頁中,既包含可供用戶閱讀的文字、圖片等信息,還包含一些超鏈接信息。網絡“爬蟲”正是借助這些超鏈接信息來不斷抓取網絡上的其他網頁。
“這種信息采集過程很像一個爬蟲或蜘蛛在網絡上漫游,網絡‘爬蟲’或網頁‘蜘蛛’因此得名。”閆懷志說,“爬蟲”最早應用在搜索引擎領域,比如谷歌、百度、搜狗等搜索引擎工具每天需要抓取互聯網上數百億的網頁,它們需要借助龐大的“爬蟲”集群來實現搜索功能。
當前,“爬蟲”已被廣泛用于電子商務、互聯網金融等諸多領域。比如,“爬蟲”可以抓取航空公司官網的機票價格,發現低價或緊俏機票后,“爬蟲”可以利用虛假客源的真實身份信息實現搶先預訂。再有,很多互聯網瀏覽器都推出了自己的搶票插件,以高訂票成功率來推廣瀏覽器。
根據抓取任務和目標的不同,網絡“爬蟲”可大致分為批量型、增量型和垂直型。批量型“爬蟲”的抓取范圍和目標較為明確,可以是網頁的設定數量,也可以是消耗時間的設定。增量型“爬蟲”主要用于持續抓取更新的網頁,以適應網頁的不斷變化。垂直型“爬蟲”主要是用于特定主題內容或特定行業的網頁。