a亚洲精品_精品国产91乱码一区二区三区_亚洲精品在线免费观看视频_欧美日韩亚洲国产综合_久久久久久久久久久成人_在线区

首頁 > 編程 > JSP > 正文

解析得到除去標(biāo)簽的txt內(nèi)容

2024-09-05 00:21:28
字體:
供稿:網(wǎng)友
一個(gè)網(wǎng)頁中可能含有很多段落,但同時(shí)也夾雜著不少的標(biāo)簽(tags),而這卻不是我們所需要的,所以必須去掉。那么怎么去掉呢?用Visitor,請(qǐng)看下面代碼

復(fù)制代碼 代碼如下:


NodeList body_nodes=this.getParser().parse(body_filter);
for(int i=0;i<body_nodes.size();i++)
{
Node node=body_nodes.elementAt(i);

Parser body_parser=new Parser(node.toHtml());
TextExtractingVisitor visitor=new TextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}


TextExtractingVisitor,visitAllNodesWith等類及方法都是Visitor中比較很重要但也很少見的。
下面附源代碼:

復(fù)制代碼 代碼如下:


import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Date;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.visitors.TextExtractingVisitor;

import com.extractor.Extractor;

public class ExtractorHangdian extends Extractor{
public void extract()
{
BufferedWriter bw=null;
String indextime;
String title;
StringBuffer body=new StringBuffer();;
NodeFilter time_filter=new AndFilter(new TagNameFilter("font"),new HasAttributeFilter("color","#808080"));
NodeFilter title_filter1=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("b")));
NodeFilter body_filter=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("p")));

try
{
NodeList title_nodes=this.getParser().parse(title_filter1);
Node node=title_nodes.elementAt(0);
NodeList node2=node.getChildren();
//title=node2.elementAt(0).toHtml(); /* '/r/n' */
//title=node2.elementAt(1).toHtml(); /*font color="#000080".txt")));

String url_seg1=getInputFilePath().substring(3,30);
int end=getInputFilePath().lastIndexOf(".");
String url_seg2=getInputFilePath().substring(30, end);
String url_seg=url_seg1+".asp?"+url_seg2;
url_seg=url_seg.replaceAll("http:////","/");
String url="http://"+url_seg;

bw.write(url+NEWLINE);
bw.write(title+NEWLINE);


}
catch(Exception e)
{
e.printStackTrace();
}

this.getParser().reset();
try
{
NodeList time_nodes=this.getParser().parse(time_filter);
Node time_node=time_nodes.elementAt(1);//這里的“1”表示符合time_filter的第二個(gè)元素
indextime=time_node.getNextSibling().toHtml();

bw.write(indextime+NEWLINE);
}
catch(Exception e)
{
e.printStackTrace();
}

this.getParser().reset();//得到除去標(biāo)簽的所有txt文本
try
{
NodeList body_nodes=this.getParser().parse(body_filter);
for(int i=0;i<body_nodes.size();i++)
{
Node node=body_nodes.elementAt(i);

Parser body_parser=new Parser(node.toHtml());
TextExtractingVisitor visitor=new TextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}
bw.write(body+NEWLINE);

}
catch(Exception e)
{
e.printStackTrace();
}

try
{
if(bw!=null)
bw.close();
}catch(IOException e)
{
e.printStackTrace();
}
}
}


這里順便提一下,當(dāng)年bw沒有關(guān)掉,怎么讀不進(jìn)去,搞了我好幾天,郁悶死了,想起來就火大,注意!!
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 日韩成人免费av | 欧美一级毛片日韩一级 | 国产精品日韩 | 日日插日日操 | av网站免费| 狠狠干狠狠干 | 久久国品片 | 亚洲h视频在线观看 | 超级碰在线视频 | 久久高清精品 | 国产成人精品av | 午夜视频观看 | 国产精品一区av | 国产成人午夜 | 午夜精品久久久久久久久久久久 | 久久精品网址 | 国产九九九 | 亚洲欧美在线观看 | 国产精品久久久久久福利一牛影视 | 久久久123 | 欧美精品一二三 | 欧美日韩亚洲成人 | 久综合网 | 国产成人精品一区二区三区四区 | 成人在线免费观看 | 99这里只有精品 | 国产精品99视频 | 亚洲免费在线观看 | 国产亚洲欧美在线 | 久久久久国产一区二区三区小说 | 在线欧美视频 | 精品欧美一区二区三区 | 欧美日韩一区在线观看 | 亚洲精品一区二区三区四区高清 | 国产免费自拍 | 久久精品视 | 亚洲激情第一页 | 一区二区三区四区在线播放 | 日韩欧美国产精品综合嫩v 狠狠综合久久 | 国产免费中文字幕 | 91精品国产99久久久久久红楼 |