桃花影院高清在线播放在线播放视频在线,自拍?亚洲?欧美?国产,欧美国产极品免费区

1iPhone升級后很卡如何辦_iPhone升級后很卡處理方法
2ios9.1越獄白蘋果如何辦_ios9.1越獄藍(lán)屏如何辦
3iphone5se支持電信4g嗎?_phone5se支持三網(wǎng)通嗎?
4iOS9不越獄可以動畫嗎_iOS9不越獄完全關(guān)閉動畫方法圖文說明教程
5iOS9.0-9.1越獄問題如何處理_iOS9.0-9.1越獄問題及處理方法總結(jié)
6Mac版iOS9.1越獄教_程Mac版iOS9.1越獄工具使用圖文說明教程
7ios9系統(tǒng)動畫如何關(guān)上_ios9動畫屏蔽設(shè)置步驟
8iphone失去后如何強(qiáng)制刪除手機(jī)數(shù)據(jù)_iPhone失去后刪除數(shù)據(jù)來保護(hù)隱私資料
9ios9.3屏幕小藍(lán)點(diǎn)是如何回事_9.3正式版升級出現(xiàn)小藍(lán)點(diǎn)處理方法
10iOS9.3 night shift在什么地方_iOS9.3 night shift技巧如何用
11iOS 9.3如何升級_iOS9.3正式版升級圖文說明教程詳細(xì)說明
12iOS 9.3減弱藍(lán)光是什么_iOS9.3減弱藍(lán)光如何打開?

1qq瀏覽器安全網(wǎng)址認(rèn)證如何打開 qq瀏覽器安全網(wǎng)址認(rèn)證打開圖文說明教程
2用微信如何發(fā)送文件手機(jī)微信發(fā)送文件方法圖文詳細(xì)說明
3阿里旺旺如何加好友？淘寶阿里旺旺加好友步驟
4電腦瀏覽器下載排行榜2017 官方瀏覽器下載排行榜前10名
5WPS表格2013制作音序檢測評分問卷
6wps表格如何算平均值
7用WPS表格2013統(tǒng)計所需鈔票張數(shù)
8uc瀏覽器愚人節(jié)新版最搞siao技巧玩法總結(jié)
9win10手機(jī)瀏覽器上手界面清新簡潔
10wps表格如何設(shè)置自己的模版
11手機(jī)qq視頻美顏如何打開手機(jī)qq視頻美顏打開圖文說明教程圖
12支付寶錢包搶紅包時刻表手機(jī)支付寶搶紅包時間

文章發(fā)布全站軟件文章熱門搜索：QQ音樂隨享包桌面歌詞解鎖鎖定本地管理資訊首頁騰訊視頻愛奇藝暴風(fēng)影音酷狗音樂酷我音樂影音大全軟件下載軟件教程電腦系統(tǒng)下載聊天工具辦公軟件殺毒教程系統(tǒng)工具圖形圖像電腦學(xué)習(xí)應(yīng)用軟件網(wǎng)絡(luò)軟件蘋果應(yīng)用注冊碼網(wǎng)站教程技術(shù)開發(fā)安卓教程其它教程您當(dāng)前所在位置：網(wǎng)視手游站 -> 網(wǎng)站教程 -> Java完成使用搜索引擎收集網(wǎng)址的程序
Java完成使用搜索引擎收集網(wǎng)址的程序發(fā)表時間：2024-02-04 來源：明輝站整理相關(guān)軟件相關(guān)文章人氣： [摘要]我這里講的不是怎么使用搜索引擎，而是怎么讓程序利用搜索引擎來搜集網(wǎng)址，這有什么用？很有用！網(wǎng)上動輒有人叫賣網(wǎng)址數(shù)據(jù)庫，如發(fā)布軟件網(wǎng)址、郵件地址、論壇網(wǎng)址、行業(yè)網(wǎng)址，這些網(wǎng)址是怎么來的呢？不可能是人手工收集而來的，都是讓程序利用搜索引擎取到的，如果您需要某類網(wǎng)址信息數(shù)據(jù)，就跟我來一起研究一下，非常簡... 我這里講的不是怎么使用搜索引擎，而是怎么讓程序利用搜索引擎來搜集網(wǎng)址，這有什么用？很有用！網(wǎng)上動輒有人叫賣網(wǎng)址數(shù)據(jù)庫，如發(fā)布軟件網(wǎng)址、郵件地址、論壇網(wǎng)址、行業(yè)網(wǎng)址，這些網(wǎng)址是怎么來的呢？不可能是人手工收集而來的，都是讓程序利用搜索引擎取到的，如果您需要某類網(wǎng)址信息數(shù)據(jù)，就跟我來一起研究一下，非常簡單。　　本文采用Java語言寫成，以google和百度搜索引擎為對象。　　我們要利用google、百度搜索引擎的搜索規(guī)則中的兩條，關(guān)鍵字搜索和inurl搜索。什么是inurl搜索，就是你所要搜索的網(wǎng)址中本身帶有的關(guān)鍵字，比如http://www.xxx.com/post.asp ,這個網(wǎng)址就含有post.asp這樣的關(guān)鍵字，在搜索引擎中填寫規(guī)則是 inurl:post.asp,這是收集網(wǎng)址的關(guān)鍵，因?yàn)楹芏嗑W(wǎng)址本身會帶有特定的信息，比如軟件發(fā)布的網(wǎng)頁網(wǎng)址信息中多含有 publish、submit、tuijian這樣的信息，如http://www.xxx.com/publish.asp,這樣的網(wǎng)址多是發(fā)布信息的網(wǎng)頁，在結(jié)合網(wǎng)頁中本身可能含有的關(guān)鍵字，就可以用搜索引擎搜索出結(jié)果，然后我們利用程序?qū)⒔Y(jié)果取回，對HTML頁面進(jìn)行分析，去除沒有用的信息，將有用的網(wǎng)址信息寫入文件或者數(shù)據(jù)庫，就可以給其它應(yīng)用程序或者人來使用了。　　第一步，用程序?qū)⑺阉鹘Y(jié)果取回，先以百度為例，比如我們要搜索軟件發(fā)布的網(wǎng)頁，關(guān)鍵字采用 “軟件發(fā)布版本 inurl:publish.asp",先登錄百度看看，將關(guān)鍵字寫入，然后提交，在地址欄就會看到 http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關(guān)鍵字全都變成編碼了，沒有關(guān)系，我們在程序中直接用中文也是可以的，其中多個關(guān)鍵字用＋號相連，去掉一些沒有用的信息，我們可以把地址優(yōu)化成http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn=0&cl=0，其中rn表示一頁顯示多少個結(jié)果，wd=表示你要搜索的關(guān)鍵字，pn表示從第幾條開始顯示，這個pn將是我們程序循環(huán)取結(jié)果的變量，每20條循環(huán)一次。我們用Java寫的程序來模擬這個搜索的過程，用到的關(guān)鍵類為 java.net.HttpURLConnection,java.net.URL，先寫一個提交搜索的class,關(guān)鍵代碼如下： class Search { 　public URL url; 　public HttpURLConnection http; 　public java.io.InputStream urlstream; 　...... 　for(int i=0;i++;i <100) 　{ 　　...... 　　try { 　　　url = new URL("http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0"); 　　}catch(Exception ef){}; 　　try { 　　　http = (HttpURLConnection) url.openConnection(); 　　　http.connect(); 　　　urlstream = http.getInputStream(); 　　}catch(Exception ef){}; 　　java.io.BufferedReader l_reader = new java.io. 　　BufferedReader(new java.io.InputStreamReader(urlstream)); 　　try { 　　　while ((currentLine = l_reader.readLine()) != null) { 　　　　totalstring += currentLine; 　　　} 　　} catch (IOException ex3) {} 　　.... 　　//本次搜索的結(jié)果已經(jīng)放到totalstring中了，是一些HTML代碼，需要下一步進(jìn)行分析了。 } 　　再以google為例，稍微有些不同，google對瀏覽器進(jìn)行了一些檢測，編碼也不同，URL為http://www.google.com/search?q=軟件發(fā)布+版本+inurl:publish.asp&hl=zh-CN&lr=&newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示，需要注意的是google對瀏覽器還要檢查，如果瀏覽器不符合它的要求，將返回錯誤代碼，所以在模擬瀏覽器提交中，我們要多加一行代碼，修改關(guān)鍵部分要將http屬性中的User-Agent設(shè)置為常用的瀏覽器，比如Mozilla/4.0,代碼如下： try { 　http = (HttpURLConnection) url.openConnection(); 　http.setRequestProperty("User-Agent", "Mozilla/4.0"); 　http.connect(); 　urlstream = http.getInputStream(); }catch(Exception ef){}; 　　第二步，對取回的HTML編碼進(jìn)行分析，取出其中的有用網(wǎng)址信息，并寫入文件或者數(shù)據(jù)庫，由于這些搜索引擎都有網(wǎng)頁快照和相似網(wǎng)頁等網(wǎng)址信息混雜在HTML中，我們要將這些網(wǎng)址信息剔除掉，剔除的關(guān)鍵就是找出其中的規(guī)律，百度搜索引擎中的網(wǎng)頁快照和其它沒有用的的地址都含有baidu這個關(guān)鍵字，而google中含有的無用網(wǎng)址信息含有關(guān)鍵字 google和cache,我們就根據(jù)這些關(guān)鍵字剔除無用網(wǎng)址信息。在Java中要對字符串進(jìn)行分析必然要用到j(luò)ava.util.StringTokenize這個類，用來將字符串以特定的分隔符分開，java.util.regex.Pattern和java.util.regex.Matcher用來匹配字符串，關(guān)鍵代碼如下： class CompareStr { 　public boolean comparestring(String oristring,String tostring) 　{ 　　Pattern p=null; //正則表達(dá)式　　Matcher m=null; //操作的字符串　　boolean b; 　　p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE); 　　m = p.matcher(tostring); 　　b = m.find(); 　　return b; 　} } class AnalyUrl { 　...... 　StringTokenizer token = new StringTokenizer(totalstring," <> \""); 　String firstword; 　CompareStrcompstr = new CompareStr(); 　String dsturl = null; 　while (token.hasMoreTokens()) 　{ 　　firstword = token.nextToken(); 　　if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword)) 　　{ 　　　if (firstword.length() > 7) 　　　{ 　　　　dsturl = firstword.substring(6,firstword.length() - 1); 　　　　WriteUrl(dsturl); //成功取到URL，記錄到文件中　　　} 　　} 　} } 　　通過以上程序，我們就可以收集到自己要的網(wǎng)址信息了，還可以再寫另外一個應(yīng)用程序，對收集到的網(wǎng)址信息進(jìn)一步分析，取出自己需要的信息，這里就不再累贅，道理都是一樣的。最后需說明一點(diǎn)，google搜索引擎搜索所能返回的結(jié)果不能超過1000條，過了1000條，就直接提示“對不起，Google 為所有查詢的結(jié)果數(shù)都不會超過 1000 個。”，百度搜索引擎返回的結(jié)果不能超過700多條，所以我們要搜索時盡可能多加關(guān)鍵字，將結(jié)果范圍縮小。標(biāo)簽：Java完成運(yùn)用搜索引擎收集網(wǎng)址的程序上一篇：PHP應(yīng)用程序加速探索之簡介下一篇：Java在Client/Server網(wǎng)絡(luò)中的應(yīng)用	推薦資訊總?cè)藲獍?/span> 1PS提示：因?yàn)閳D層已鎖定，無法編輯圖層的處理方法 2Adobe Illustrator CS5 序列號大全 3picacg蘋果版怎么找不到\|picacg ios版是不是下架了介紹 4ACDsee注冊碼免費(fèi)分享（含ACDsee18、ACDsee10等版本） 5蘋果iphone自動時間不準(zhǔn)確的多種校正方法 6PDF瀏覽器能看3D文件嗎？PDF瀏覽器看3D文件圖文詳細(xì)教程 7Potato(馬鈴薯聊天)怎么注冊不了\|Potato不能注冊處理方法介紹 8Potato(土豆聊天)怎么換頭像\|Potato app更改頭像方法介紹 9ipad版office如何激活? office365激活的圖文說明教程 10最新的Adobe Illustrator CS4序列號大全 11Mac怎么通過設(shè)置VPN來登錄youtube等國外網(wǎng)站 12qq郵件是否已讀怎么看 QQ郵箱已經(jīng)發(fā)出去的郵件怎么知道對方是否已經(jīng)查看 1支付寶怎么交學(xué)費(fèi)，支付寶教育繳費(fèi)圖文說明教程 2京東微笑面單是什么，京東微笑快遞單有什么用 3高鐵兒童票網(wǎng)上怎么買，網(wǎng)上買高鐵兒童票具體流程 4GG廣告申請 5提高谷歌聯(lián)盟Adsense收入4種方法 6百度減少收錄是什么原因？ 7百度降權(quán)并不可怕 8新手誤區(qū)：揭露seo反鏈工具的真實(shí)面目 9被降權(quán)問題淺談百度頁面權(quán)重 102014年9月百度綠蘿算法再度升級 11淺談增加網(wǎng)站外部鏈接的方法 12恢復(fù)百度權(quán)重的一些心得最新教程本月人氣 1iPhone升級后很卡如何辦_iPhone升級后很卡處理方法 2ios9.1越獄白蘋果如何辦_ios9.1越獄藍(lán)屏如何辦 3iphone5se支持電信4g嗎?_phone5se支持三網(wǎng)通嗎? 4iOS9不越獄可以動畫嗎_iOS9不越獄完全關(guān)閉動畫方法圖文說明教程 5iOS9.0-9.1越獄問題如何處理_iOS9.0-9.1越獄問題及處理方法總結(jié) 6Mac版iOS9.1越獄教_程Mac版iOS9.1越獄工具使用圖文說明教程 7ios9系統(tǒng)動畫如何關(guān)上_ios9動畫屏蔽設(shè)置步驟 8iphone失去后如何強(qiáng)制刪除手機(jī)數(shù)據(jù)_iPhone失去后刪除數(shù)據(jù)來保護(hù)隱私資料 9ios9.3屏幕小藍(lán)點(diǎn)是如何回事_9.3正式版升級出現(xiàn)小藍(lán)點(diǎn)處理方法 10iOS9.3 night shift在什么地方_iOS9.3 night shift技巧如何用 11iOS 9.3如何升級_iOS9.3正式版升級圖文說明教程詳細(xì)說明 12iOS 9.3減弱藍(lán)光是什么_iOS9.3減弱藍(lán)光如何打開? 1qq瀏覽器安全網(wǎng)址認(rèn)證如何打開 qq瀏覽器安全網(wǎng)址認(rèn)證打開圖文說明教程 2用微信如何發(fā)送文件手機(jī)微信發(fā)送文件方法圖文詳細(xì)說明 3阿里旺旺如何加好友？淘寶阿里旺旺加好友步驟 4電腦瀏覽器下載排行榜2017 官方瀏覽器下載排行榜前10名 5WPS表格2013制作音序檢測評分問卷 6wps表格如何算平均值 7用WPS表格2013統(tǒng)計所需鈔票張數(shù) 8uc瀏覽器愚人節(jié)新版最搞siao技巧玩法總結(jié) 9win10手機(jī)瀏覽器上手界面清新簡潔 10wps表格如何設(shè)置自己的模版 11手機(jī)qq視頻美顏如何打開手機(jī)qq視頻美顏打開圖文說明教程圖 12支付寶錢包搶紅包時刻表手機(jī)支付寶搶紅包時間
相關(guān)文章 JSP在win2000下的安裝 JSP連接各類數(shù)據(jù)庫大全(下) JSP連接各類數(shù)據(jù)庫大全(上) XML數(shù)據(jù)庫中幾個容易混淆的概念 Java基礎(chǔ)之關(guān)鍵字在PHP中以root身份運(yùn)行外部命令 JAVA幾個經(jīng)常見出錯簡析 ASP、JSP、PHP 3種技術(shù)比較 CGI教學(xué):CGI常用環(huán)境變量對于CGI讀寫COOKIE的編程 PHP編程常用技巧4則 Web技術(shù)進(jìn)階—PHP構(gòu)建網(wǎng)站

Java完成使用搜索引擎收集網(wǎng)址的程序

推薦資訊 總?cè)藲獍?/span>

最新教程 本月人氣

相關(guān)文章

推薦資訊總?cè)藲獍?/span>

最新教程本月人氣