Windows配置heritrix3做網絡爬蟲開發實例

2024-07-16 17:45:35

字體：大中小

來源：轉載

供稿：網友

一、引言：

最近在忙某個商業銀行的項目，需要引入外部互聯網數據作為參考，作為技術選型階段的工作，之前已經確定了中文分詞工具，下一個話題就是網絡爬蟲的選擇，目標很明確，需要下載一些財經網站的新聞信息，然后進行文本計算。記得上一次碰爬蟲還是5年前，時過境遷，不知道爬蟲的世界里是否有了新的崛起。比較過一些之后，初步認定Heritrix基本能夠滿足需要，當然肯定是需要定制的了。

二、版本選擇

Heritrix當前版本3.1.0，安裝后發現，啟動任務時，Windows平臺有BDBOpen的錯誤（具體原因不詳），Linux環境沒有測試。度娘了一把，沒啥實質性收獲，如果從源碼去看，又太費時間。就換到了3.0.5，這個版本也有問題，就是創建Job時，總是提示文件夾有問題，可以選擇手動創建下載任務。操作界面如下圖所示：

三、配置任務-手動

　　1.jobs目錄下新建文件夾sohu；

　　2.拷貝模板文件profile-crawler-beans.cxml到sohu目錄

　　3.重命名profile-crawler-beans.cxml文件為crawler-beans.cxml

4.手動修改文件crawler-beans.cxml，設置目標網站和存儲方式：

復制代碼代碼如下:
# This Properties map is specified in the Java 'property list' text format
# <a >http://java.sun.com/javase/6/docs/api/java/util/Properties.html#load%28java.io.Reader%29</a>metadata.operatorContactUrl=http://localhost
metadata.jobName=sohu
metadata.description=sohujingxuan##..more?..##
</value>
</property>
</bean> 
<bean id="longerOverrides" class="org.springframework.beans.factory.config.PropertyOverrideConfigurer">
<property name="properties">
<props>
<prop key="seeds.textSource.value"># URLS HERE
<a >http://t.sohu.com/jingxuan</a> </prop>
</props>
</property>
</bean> 
<bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName">
<property name="operatorContactUrl" value="<a href="http://localhost"/">http://localhost"/</a>>
<property name="jobName" value="sohu"/>
<property name="description" value="sohujingxuan"/>