復制代碼代碼如下:
reg = /<[img|href][^>]*src/s*=/s*('|")?([^'">]*)/1([^>])*>/ig
正則獲取圖片地址 一、問題:
采集的過程中遇到一個問題:從數據庫里讀出來的圖片沒有正常顯示,分析后發現是數據庫里的圖片以網站根目錄為相對路徑方式存儲,圖片地址如:/uploads/allimg/090403/012F31N9-1.jpg,原來做的讀取圖片是以http://開關的URL絕對圖片獲取,所以采集中出現以根目錄開始的圖片地址采集失敗。
二、解決方案:
分析HTML代碼,顯示圖片定用<img>標簽,寫一個正則式獲取<img>里的圖片地址再加網站的網站轉換為URL的絕對地址,接著的事情交給后面的代碼(遠程圖片獲取到本地)。
1) 完善解決方法,以“<img”開始寫正規,但這個正式式比較難寫要考慮“<img>”的屬性、空格、多空格、單引號、雙引號、不規范的屬性引用(如單引號或雙引號括起的屬性值)等等。
2)應急解決方法,只要考慮“src=”屬性開始的正則式,但這種方式存在不完善的地方,只要有“src=”出現在的都會被替換,出現“src="的可能性有:javascript,文本里出現的"src"等。但這些是比較少的,再加上一個圖片格式做正則限定,出現被誤替換的概率會更少。
三、實現代碼:
考慮到第一種方法的難度暫時沒有寫,這里第二種應急解決方法實現(實現涉及的正則式內容這里不做講解和分析,正則式的知識內容請google或baidu ^v^):
復制代碼代碼如下:
<?php
//測試樣式,考慮多種情況下的正則式。
$body = <<<HTML
<P align=center>1<img width="60" height="90px" src='http://www.chongwen.com/uploads/allimg/090403/012F35310-0.jpg'></P>
<P align=center>2<img src='/uploads/allimg/090403/012F31N9-1.jpg' border="0"></P>
<P align=center>3<img src='/uploads/allimg/090403/012F3D13-2.jpg'style="width:100px"> </P>
<P align=center>4<img width="60" height="90px" src= "http://www.chongwen.com/uploads/allimg/090403/012F35310-0.jpg"></P>
<P align=center>5<img src=" /uploads/allimg/090403/012F31N9-1.jpg " border="0"></P>
<P align=center>6<img src= " /uploads/allimg/090403/012F31N9-1.jpg " border="0"></P>
<P align=center>7<img src= /uploads/allimg/090403/012F3D13-2.jpg style="width:100px"> </P>
HTML;
//網站的地址
$str='src=/'http://www.chongwen.com/';
$body=preg_replace('/src/s*?=/s*?[/"|/']?/s*?//(.+?/.(?:jpg|gif|png|bmp))(/"|/'|/s)*?/s*?/is',"$str$1 '",$body);
echo $body;
?>