網站建設定制網頁歸檔的技術手段和標準建設還有待提升
- 編輯:admin -黨政機關的網頁信息采集主要還是從已經確定的網站網頁作為線索出發(fā),可以是靜態(tài)一次性抓取,也可以進行動態(tài)抓取,再從所抓取的網頁信息中提取出電子檔案信息。
網頁歸檔的技術手段和標準建設還有待提升。黨政機關的網頁信息采集主要還是從已經確定的網站網頁作為線索出發(fā),可以是靜態(tài)一次性抓取,也可以進行動態(tài)抓取,再從所抓取的網頁信息中提取出電子檔案信息。
從網絡爬蟲的技術層面來看,靜態(tài)網頁信息進行抓取并不復雜,但動態(tài)網頁抓取比較麻煩。尤其近年來各類新型網頁文件層出不窮,產生了許多其他類型的網頁文件格式,如Java文件、Active X文件、Jpg等這些承載圖片、文字和視頻等多種類型的信息,而對于上述文件到底是否應當納入到歸檔范圍,目前對此還沒有定論。

在某些情況下,從一些網站上采集下來的網頁存檔雖然保存了該網站的原始網頁文件,但若離開了該文件的來源平臺上所提供的軟硬件支持,該原始網頁很有可能就無法展現和利用。因此,在對黨政機關重要網頁進行保存的過程中,首先應當構建和完善重要網頁電子文件的備份體系,以確保所采集下來的網頁歸檔資源能夠全面、及時、有效地獲得保存和利用。其次,還需要針對各種來源的網頁文件構建起統(tǒng)一的網頁電子文件檔案資源體系,開發(fā)和設計能夠滿足各類用戶需求的網頁檔案資源檢索、利用服務,建立起全方位的檢索利用服務模式,這都是黨政機關重要網頁歸檔管理需要探討的問題,只有對重要網頁文件根據其內容、結構和形式進行相應的標注、組織和分類,才能便于利用和真正實現網頁文件資源的價值。
