網(wǎng)站建設(shè)定制蜘蛛爬行程序
- 編輯:admin -搜索引擎利用蜘蛛爬行程序在互聯(lián)網(wǎng)上抓取頁面進(jìn)行存儲(chǔ)的過程, 為搜索引擎提供數(shù)據(jù)支持, 這便是頁面收錄。然后對(duì)進(jìn)行收錄的頁面進(jìn)行頁面分析, 頁面分析是處理整個(gè)頁面的重要環(huán)節(jié)。
蜘蛛爬行程序。搜索引擎利用蜘蛛爬行程序在互聯(lián)網(wǎng)上抓取頁面進(jìn)行存儲(chǔ)的過程, 為搜索引擎提供數(shù)據(jù)支持, 這便是頁面收錄。然后對(duì)進(jìn)行收錄的頁面進(jìn)行頁面分析, 頁面分析是處理整個(gè)頁面的重要環(huán)節(jié)。首先會(huì)對(duì)原始頁面建立索引, 根據(jù)URL地址實(shí)現(xiàn)對(duì)頁面的快速定位, 然后提取頁面的正文信息, 并對(duì)正文信息進(jìn)行切詞, 為這些關(guān)鍵字建立索引, 從而得到關(guān)鍵字與頁面的對(duì)應(yīng)關(guān)系, 最后對(duì)關(guān)鍵字執(zhí)行重組, 建立關(guān)鍵字與頁面對(duì)應(yīng)的反向索引列表, 從而能根據(jù)關(guān)鍵字快速找到相應(yīng)網(wǎng)頁。搜索引擎還會(huì)對(duì)頁面進(jìn)行排序, 搜索引擎結(jié)合頁面的內(nèi)外因素計(jì)算出頁面與關(guān)鍵字相關(guān)程度, 從而得到與關(guān)鍵字相關(guān)頁面排序列表。當(dāng)搜索引擎接收來自用戶的關(guān)鍵字查詢請(qǐng)求后并對(duì)查詢的信息進(jìn)行切詞, 匹配信息, 向用戶返回相應(yīng)的頁面列表。
