全國服務熱線:400-080-4418
摘 要 FTP服務是網(wǎng)絡服務的一種應用廣泛的文件傳輸形式,本文擬構(gòu)建一個基于Web的FTP主機的文件搜索系統(tǒng),能夠以Web形式輕松的檢索FTP上的文件,并且可以直觀的以Web模式模擬FTP主機的文件結(jié)構(gòu)。
關鍵詞 搜索引擎;FTP;Web
1 背景
當前,計算機網(wǎng)絡已經(jīng)越來越普及,各個單位也已經(jīng)逐步建立自己的FTP服務器,用來管理存儲對于自己單位內(nèi)部共享的一些文件或者對外共享的一些文件。隨著被FTP管理的文件數(shù)量的不斷增長,達到上萬、上百萬,甚至更多的時候,如何在如此龐大數(shù)據(jù)里邊更快捷的找到自己所需的文件,將成為一個很重要的問題。
目前出現(xiàn)了一些FTP搜索引擎,可以用來搜索整個互聯(lián)網(wǎng)內(nèi)處于匿名訪問的FTP上的文件信息,而需要權(quán)限才能訪問的FTP則無法直接建立索引,因此不能達到搜索效果。本文擬構(gòu)建的FTP搜索引擎是針對單位內(nèi)部,局域網(wǎng)內(nèi)的一個或者幾個FTP服務器建立的;使內(nèi)部用戶直接可以看到FTP上的目錄結(jié)構(gòu),并可以準確的搜索文件位置,然后下載瀏覽,達到檢索高效、準確。2 擬構(gòu)建系統(tǒng)之模型
根據(jù)拓撲結(jié)構(gòu),內(nèi)部網(wǎng)絡部署若干臺FTP服務器,根據(jù)需要,在每臺需要被查詢的FTP服務器上,建立掃描文件結(jié)構(gòu)發(fā)生變化的爬蟲程序,并在內(nèi)部網(wǎng)絡建立FTP文件索引數(shù)據(jù)庫服務器,用來存放FTP服務器上爬蟲程序獲取的索引數(shù)據(jù),另外還要建立Web服務器,用來做Web查詢。3系統(tǒng)模式分析
本系統(tǒng)采用兩個模塊構(gòu)建,分別是部署于FTP服務器的爬蟲程序和部署于Web服務器的索引查詢引擎。
部署于FTP服務器的爬蟲是一用來監(jiān)控FTP文件結(jié)構(gòu)變化的程序,它用來監(jiān)視FTP服務器的變化,當FTP服務器有新的文件上傳或者有文件被刪除或者文件位置發(fā)生變化的時候,爬蟲程序會立即捕捉到此變化,然后將變化信息響應到建立索引的數(shù)據(jù)庫服務器。
部署于Web服務器的查詢引擎是主要用來做查詢服務,以及針對用戶輸入的查詢關鍵字做模糊處理,直接以模糊方式查詢,當搜索到結(jié)果以后,顯示時候?qū)⑽募嶧TP位置顯示,同時將對應的超級連接做在上邊,可以方便直接下載。
在訪問范圍上,擬構(gòu)建的搜索系統(tǒng)可以供內(nèi)網(wǎng)和外網(wǎng)同時檢索,訪問方式
如圖一所示,將Web服務器發(fā)布在內(nèi)部網(wǎng)絡,同時開放到Internet,可提供到Internet訪問。通過Web服務器來對內(nèi)和對外提供檢索服務。內(nèi)部用戶通過內(nèi)部網(wǎng)絡直接訪問Web服務器來訪問搜索引擎,外部用戶通過Internet來訪問Web搜索引擎。4 系統(tǒng)的實現(xiàn)
FTP服務器爬蟲程序主要用來建立FTP文件的樹形結(jié)構(gòu),如圖2所表示,每獲得一個服務器就建立一個FTP根節(jié)點,然后在遍歷根節(jié)點下邊的子節(jié)點,直到將子節(jié)點遍歷完畢。FTP服務器爬蟲程序可以采用Java或者C++等程序來實現(xiàn),可以作為操作系統(tǒng)的一個服務來加載。此種爬蟲程序可以根據(jù)需求分為兩類,一類是實時記載服務器文件結(jié)構(gòu)變化的,一類是分周期的記載數(shù)據(jù)庫變化的。
實時記載的爬蟲程序運行過程是:當初始加載到一個新的FTP服務器,爬蟲程序首先遍歷該服務器,獲得該服務器的文件結(jié)構(gòu),同時將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務器,當遍歷完整個服務器后,然后就進入監(jiān)控狀態(tài),實時記載服務器變化,當文件增加時在原數(shù)據(jù)基礎上追加數(shù)據(jù),當文件更改位置后,修改對應記錄的數(shù)據(jù),當文件被刪除時清除數(shù)據(jù)庫中的對應記錄。
分周期記載的爬蟲程序的運行過程是:當加載到一個新的FTP服務器,程序遍歷該服務器,獲得服務器的文件結(jié)構(gòu),同時也將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務器,當過一定周期后,重新遍歷服務器文件結(jié)構(gòu),將結(jié)果再記載到數(shù)據(jù)庫,并刪除原有的遍歷結(jié)果,如此反復。
兩類程序有各自的優(yōu)缺點,第一類實時性比較強,當服務器文件結(jié)構(gòu)發(fā)生變化后,立即可以體現(xiàn)到檢索結(jié)構(gòu)中,但缺點是占用FTP系統(tǒng)資源太多,可能會影響FTP服務性能;第二類正好與相反,因為它是周期性的遍歷,因此可選擇FTP比較空閑的時候來遍歷,不會太多影響FTP服務性能,但實時性就比較差,不能將FTP的文件變化立刻體現(xiàn)到檢索結(jié)果中去。兩類程序可根據(jù)服務器性能來選擇合適的類型。[Page]
搜索引擎Web端可以采用J2EE+AJAX來實現(xiàn),用戶檢索時可選擇精確檢索和模糊檢索,精確檢索查詢完全匹配的,模糊查詢檢索可以用相似性來檢索。此外,針對每個獨立的FTP主機,遍歷其上爬蟲程序建立于數(shù)據(jù)庫的索引樹結(jié)構(gòu),就可以建立起虛擬的FTP文件結(jié)構(gòu),從而可以在WEB程序上顯示FTP的文件結(jié)構(gòu)。
5 結(jié)束語
本文討論建立基于局域網(wǎng)的單個FTP和多個FTP的搜索,根據(jù)FTP服務器的實際情況,選擇適合的爬蟲程序類型,建立索引樹。對于本文設計構(gòu)建的結(jié)果,可以將本系統(tǒng)推廣于Internet,將爬蟲程序置入需要索引的FTP上,或者通過外部間接獲取索引,從而達到FTP的文件搜索效果,使得用戶更加高效的找到所需要的文件。
參考文獻
[1]陳華,王繼民,韓近強,謝欣.《互聯(lián)網(wǎng)上FTP文件的分布特征與啟示》
[2]陳華,李曉明.高級文件搜索引擎核心功能的實現(xiàn)技術.《搜索引擎與Web挖掘進展》,高等教育出版社,2003
現(xiàn)在這個互聯(lián)網(wǎng)時代,企業(yè)網(wǎng)站已經(jīng)成為了企業(yè)營銷推廣的基礎,更是品牌建設中不可或缺的部分,但是網(wǎng)站也不..
許多公司為了滿足自身發(fā)展的需要,會建立屬于自己公司網(wǎng)站。每個公司在制作網(wǎng)站的時候都需要有產(chǎn)品和服務營..
Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網(wǎng)安備 31011402007386號
關于我們 | 聯(lián)系我們 | 網(wǎng)站建設