網(wǎng)站建設(shè)定制網(wǎng)絡(luò)爬蟲(chóng)
- 編輯:admin -網(wǎng)絡(luò)爬蟲(chóng)主要有兩個(gè)階段:一, URL庫(kù)初始化然后開(kāi)始爬取;二, 爬蟲(chóng)讀取沒(méi)有訪問(wèn)過(guò)的URL, 來(lái)確定它的工作范圍。
網(wǎng)絡(luò)爬蟲(chóng)(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者蠕蟲(chóng)。網(wǎng)絡(luò)爬蟲(chóng)主要有兩個(gè)階段:一, URL庫(kù)初始化然后開(kāi)始爬取;二, 爬蟲(chóng)讀取沒(méi)有訪問(wèn)過(guò)的URL, 來(lái)確定它的工作范圍。其中, 對(duì)于所要抓取的URL鏈接, 進(jìn)行以下步驟。(1) 獲取URL鏈接
(2) 解析內(nèi)容, 獲取URL及相關(guān)數(shù)據(jù)
(3) 存儲(chǔ)有價(jià)值的數(shù)據(jù)
(4) 對(duì)新抓取的URL進(jìn)行規(guī)范化
(5) 過(guò)濾掉不相關(guān)的URL
(6) 將要抓取的URL更新到URL庫(kù)中
(7) 重復(fù)步驟2, 直到終止條件為止。





