項目名稱: 電腦入門 (注:隨便寫)
網站名稱: it.com.cn (注:隨便寫)
網站地址: http://www.it.com.cn (注:隨便寫)
新聞列表網址:http://www.it.com.cn/edu/readme/ (注:采集網站哪個網站的網址。)
項目備注: 記得經常采集這個欄目。 (注:隨便寫)
二、項目編輯--采集目標源碼
列表開始代碼:(注:要找到唯一的)
列表結束代碼:頻道精選
列表索引分頁:(注:這里有三種,<設置標簽>、<批量生成>、<手動添加>)
1、設置標簽:
下頁開始標記:下頁結束標記:>下一頁 (注:要找到唯一的)
索引分頁重定向: (注:不知何意,請老大指教?。?/P>
2、批量生成 (注:這里設置生成范圍為 1 TO 5 是不行的,沒index_1.html這個目標,有些網站是可以。)
原字符串:http://www.it.com.cn/edu/readme/index_{$ID}.html
生成范圍:2 To 5
3、手動添加(注:這里不能添加:http://www.it.com.cn/edu/readme/index_1.html,理由同上)
http://www.it.com.cn/edu/readme/index_2.html
http://www.it.com.cn/edu/readme/index_3.html
http://www.it.com.cn/edu/readme/index_4.html
http://www.it.com.cn/edu/readme/index_5.html
三、項目編輯-- 采集列表
鏈接開始代碼: 鏈接結束代碼: target=_blank (注:要找到唯一的)
鏈接特殊處理: 不作處理 重新定位 (注:不知何意,請老大指教?。?BR> 絕對鏈接字符: (注:不知何意,請老大指教?。?/P>
這是分析后所得到的新聞絕對鏈接地址:http://www.it.com.cn/f/edu/051/15/68987.htm 請查看是否正確。(注:點擊后的地址是:http://127.0.0.1/Admin/target=_blank BUG???)
四、項目編輯--采集目標內容頁源碼
標題開始標記: 或:
正文開始標記:?。ㄗⅲ阂业轿ㄒ坏模?BR> 正文結束標記:?。ㄗⅲ阂业轿ㄒ坏模?/P>
作者設置: (注:這里就不說了,設置標簽和采集正文的一樣)
關鍵字詞設置:?。ㄗⅲ和希?BR> 正文分頁設置: (注:這里演示<設置標簽>)
設置標簽
下頁開始標記:下頁結束標記:>[下一頁]
分頁絕對鏈接: (注:感覺沒什么用處?不知何意,請老大指教?。?/P>
五、項目編輯--屬性設置
?。ㄗⅲ旱竭@一步顯示出正文,說明測試采集目標成功,這里要注意的是:文中的圖片顯示不出來是正常的,發表后自然會顯示出來)
六:項目編輯--文章屬性 (注:自己設置啦~~~)
過濾選項: (注:建議全部打上勾)
satan_zero兄的【經驗之談】幾個關鍵:
1. 請選擇文章中獨一無二、每篇必存的代碼作為代碼。這要看你的心思了,這關都通不過,
嘿嘿,還是去買本有講HTML的書或者找個教程看看
2. 請在不要復制2005版中的代碼作為標簽。因為在代碼視圖中有些代碼不可見,這應該是中鳥(嘿嘿)采集失敗的原因,
譬如:2個字節的空格的代碼 ,代碼視圖中就看不到。
解決辦法:用記事本或者文本編輯器打開源代碼看。
文件比較大,傳到自己的空間里,分三部分下載:
http://www.itcfan.com/cj/1.part1.rar
http://www.itcfan.com/cj/2.part2.rar
http://www.itcfan.com/cj/3.part3.rar
新聞熱點
疑難解答