a亚洲精品_精品国产91乱码一区二区三区_亚洲精品在线免费观看视频_欧美日韩亚洲国产综合_久久久久久久久久久成人_在线区

首頁(yè) > 編程 > PHP > 正文

PHP匹配變音使404頁(yè)面更加智能化

2020-03-24 19:22:08
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
創(chuàng)建您自己的 404 錯(cuò)識(shí)消息處理程序,為站點(diǎn)內(nèi)容提供有用的鏈接和重定向。使用變音匹配(metaphone matching)和一個(gè)簡(jiǎn)單的加權(quán)記分文件為輸入錯(cuò)誤、拼寫錯(cuò)誤和無(wú)效鏈接生成重定向建議。根據(jù) Web 站點(diǎn)的內(nèi)容和首選重定向位置定制建議。捕獲傳入 URL 請(qǐng)求中的各種錯(cuò)誤,并通過(guò)處理糾正其中的目錄、腳本和 HTML 頁(yè)面名稱錯(cuò)誤。關(guān)于如何為 404 頁(yè)面創(chuàng)建有效格式的教程比比皆是。這類教程大多建議在 404 頁(yè)面中包含靜態(tài)的建議鏈接,并將這些鏈接指向站點(diǎn)的公共區(qū)域,比如說(shuō)首頁(yè)、下載頁(yè)面和站點(diǎn)的搜索引擎,前提是要有這些頁(yè)面。404 頁(yè)面普遍存在的問(wèn)題是它們無(wú)法反映用戶訪問(wèn)該站點(diǎn)的目的。本文將介紹如何構(gòu)建一個(gè)建議生成器和一個(gè)方法,用于根據(jù) Web 站點(diǎn)的內(nèi)容提供更加有用的重定向鏈接。 現(xiàn)行的 404 處理程序允許我們?yōu)楦鞣N錯(cuò)誤提供一些建議鏈接,比如說(shuō)將用戶指向站點(diǎn)目錄。一些拼寫校正程序(比如說(shuō) mod_speling 沒(méi)錯(cuò),它只有一個(gè) l )可用于糾正詞典單詞中的錯(cuò)誤,從而將用戶定向到正確的頁(yè)面。本文中的代碼將幫助您構(gòu)建一個(gè)建議生成引擎,它可以根據(jù) Web 站點(diǎn)的內(nèi)容來(lái)處理在詞典中無(wú)法找到的單詞和目錄鏈接。我們考慮這樣一個(gè)場(chǎng)景:您在電話會(huì)議中聽到了一個(gè) Web 頁(yè)面名稱,因此便嘗試打開 blegs/DavSmath.html 鏈接。現(xiàn)行的拼寫校正模塊無(wú)法為此情況提供一個(gè)有用的鏈接。使用本文中的代碼,您將能夠生成一個(gè) 404 頁(yè)面,并在其中顯示建議的有效頁(yè)面 /blogs/DaveSmith.html。需求本世紀(jì)生產(chǎn)的任何現(xiàn)代 PC 應(yīng)該都足以編寫和運(yùn)行本文中的代碼。如果您的 Web 頁(yè)面含有超過(guò) 10,000 個(gè)不同的頁(yè)面,那么可能需要大容量的內(nèi)存、高性能的硬件或足夠的耐心。所提供的 Perl 和 CGI 腳本可以在多種 UNIX 和 Windows 平臺(tái)上運(yùn)行(請(qǐng)參閱 下載部分。雖然本文將使用 Apache 和一個(gè) CGI 腳本作為建議引擎,但是所構(gòu)建的工具應(yīng)該能夠在大多數(shù) Web 服務(wù)器上正常運(yùn)行。對(duì)于變音匹配,本文將引用 Michael Schwern 編寫的 Text::Metaphone 模塊。在開始之前,先通過(guò)喜好的 CPAN 鏡像安裝 Text::Metaphone 模塊。請(qǐng)參閱 參考資料 獲得下載信息。Web 服務(wù)器頁(yè)面和變音代碼針對(duì)輸入和拼寫錯(cuò)誤提供替代建議的主要方法為變音匹配。與 Soundex 語(yǔ)音算法和一些其他算法類似,Metaphone 使用字母數(shù)字代碼表示單詞的發(fā)音。但是,與 Soundex 語(yǔ)音算法有所不同,構(gòu)建語(yǔ)音代碼的目的是匹配英文發(fā)音的語(yǔ)言可變性。因此,變音代碼通常能夠更加準(zhǔn)確地表示特定的單詞,并且為建議庫(kù)的構(gòu)建提供了理論基礎(chǔ)。 考慮示例 Web 服務(wù)器目錄中的下列文件。
清單 1. Web 服務(wù)器文件


以下為引用的內(nèi)容:
./index.html
./survey.html
./search_tips.html
./about.html
./how.html
./why.html
./who.html
./NathanHarrington.html
./blogs/NathanHarrington.html
./blogs/DaveSmith.html
./blogs/MarkCappel.html
針對(duì)這些靜態(tài) HTML 文件,我們將使用 buildMetaphoneList.pl 程序?yàn)樗袛U(kuò)展名為 .html 的文件創(chuàng)建變音。
清單 2. buildMetaphoneList.pl


以下為引用的內(nèi)容:
#!/usr/bin/perl -w
# buildMetaphoneList.pl - / split filename, 0 score, metaphones use strict;
use File::Find;
use Text::Metaphone; find(/ htmlOnly, . sub htmlOnly
{
if( $File::Find::name =~ //.html/ )
{
my $clipFname = $File::Find::name;
$clipFname =~ s//.html//g; my @slParts = split '/', $clipFname;
shift(@slParts); print $File::Find::name ### 0 ###
for( @slParts ){ print Metaphone($_) . }
print /n }#if a matching .html file }#htmlOnly sub
buildMetaphoneList.pl 程序只能處理擴(kuò)展名為 .html 的文件,它將移除文件名中的 .html,然后為完整路徑名稱的各個(gè)部分生成變音。將 buildMetaPhoneList.pl 程序復(fù)制到 Web 服務(wù)器的根目錄下,然后運(yùn)行命令 perl buildMetaphoneList.pl metaphonesScore.txt。對(duì)于清單 1 中的文件,相應(yīng)的 metaphonesScore.txt 文件內(nèi)容如清單 3 所示。清單 3. metaphonesScore.txt


以下為引用的內(nèi)容:
./index.html ### 0 ### INTKS
./survey.html ### 0 ### SRF
./search_tips.html ### 0 ### SRXTPS
./about.html ### 0 ### ABT
./how.html ### 0 ### H
./why.html ### 0 ### H
./who.html ### 0 ### H
./NathanHarrington.html ### 0 ### N0NHRNKTN
./blogs/NathanHarrington.html ### 0 ### BLKS N0NHRNKTN
./blogs/DaveSmith.html ### 0 ### BLKS TFSM0
./blogs/MarkCappel.html ### 0 ### BLKS MRKKPL
清單 3 中的每一行文字都顯示了 Web 服務(wù)器根目錄下的實(shí)際鏈接、默認(rèn)作用域和變音代碼。注意,how.html、 why.html 和 who.html 都解析為了相同的變音代碼。要解決這個(gè)不明確的地方,需要修改作用域字段,讓鏈接建議程序以指定的順序向頁(yè)面提供鏈接。比如說(shuō),將 H 變音條目修改為:
以下為引用的內(nèi)容:
./how.html ### 100 ### H
./why.html ### 50 ### H
./who.html ### 0 ### H
這樣將創(chuàng)建一個(gè)直觀的鏈接重排序,并留下空間用于作用域的進(jìn)一步修改。作用域的數(shù)字越大,插入同一變音文件(不過(guò)是不同的作用域)的順序就越靠后。比如說(shuō)添加一個(gè)作用域?yàn)?25 的 hoo.html 文件列表,那么它將位于 who.html 條目之上和 why.html 條目之下。您還可以使用作用域字段區(qū)分目錄不同而名稱相同的文件。比如說(shuō),將 ./NathanHarrington.html 一行的的作用域修改為 100,那么類似 nathenHorrington.html 這樣的請(qǐng)求會(huì)將 ./NathanHarrington.html 鏈接列在 ./blogs/NathanHarrington.html 頁(yè)面之前。選擇文件的作用域時(shí),務(wù)必要考慮 Web 站點(diǎn)的統(tǒng)計(jì)和邏輯訪問(wèn)組件。從日志文件可以看出,用戶對(duì) why.html 頁(yè)面的請(qǐng)求比較頻繁,但是如果您認(rèn)為 how.html 對(duì)于用戶更為重要,那么只需修改相應(yīng)的作用域值對(duì)排序做出糾正。構(gòu)建 CGI 404 處理程序我們已經(jīng)生成了適當(dāng)?shù)淖円舨樗鼈冎付讼嚓P(guān)的作用域值,下一步將構(gòu)建實(shí)際的建議生成器。通常,404 錯(cuò)誤消息的原因?yàn)殒溄虞斎脲e(cuò)誤或鏈接本身的問(wèn)題。以下代碼生成的建議將通過(guò)以下三個(gè)主要測(cè)試創(chuàng)建:根據(jù)目錄結(jié)構(gòu)匹配、使用變音組合匹配,以及當(dāng)其他方法失敗時(shí)使用 包含 匹配。這三種測(cè)試的設(shè)計(jì)目的是處理大多數(shù) 404 錯(cuò)誤。MetaphoneSuggest CGI Perl 腳本的開始部分如下所示。清單 4. MetaphoneSuggest CGI 第 1 部分


以下為引用的內(nèi)容:
#!/usr/bin/perl -w
# MetaphoneSuggest - suggest links for typographical and other errors from 404s
use strict;
use CGI::Pretty ':standard'; #standard cgi stuff
use Text::Metaphone;

my @suggestLinks = (); # suggested link list
my %mt = (); # filename, score, metaphone code hash my $origLink = substr($ENV{REDIRECT_URL},1); # remove leading /
$origLink =~ s//.html//g; # remove trailing .html open(MPH,'metaphonesScore.txt') or die can't open metaphones
while(my @slPart = split '###', MPH )
{
$slPart[0] =~ s/ //g; #remove trailing space
$mt{$slPart[0]}{ score } = $slPart[1];
$mt{$slPart[0]}{ metaphones } = $slPart[2];
}
close(MPH);
代碼首先引入了一些常用庫(kù)并聲明了一些變量,然后將加載 404 報(bào)告文本和通過(guò) buildMetaphoneList.pl 程序創(chuàng)建的變音。這時(shí),我們可以開始編寫主要的程序邏輯了,如下所示。清單 5. 主要程序邏輯


以下為引用的內(nèi)容:
push @suggestLinks, sortResults( directorySplitTest( $origLink ) );
push @suggestLinks, sortResults( combinedTest( $origLink ) );
push @suggestLinks, sortResults( containsTest( $origLink ) ); # from the book - unique-ify the array
my %seen = ();
@suggestLinks = grep{ ! $seen{$_}++ } @suggestLinks ; print header;
print qq{Error 404: The file requested [$ENV{REDIRECT_URL}] is unavailable. BR
next if( @suggestLinks == 0 ); print qq{Please try one of the following pages: BR
for my $link( @suggestLinks ){
$link = substr($link,index($link,'./')+1);
print qq{ a href= $link $link /a BR
}
首先,對(duì)匹配測(cè)試各部分的輸出進(jìn)行排序,然后將其添加到總建議鏈接列表。對(duì)鏈接列表進(jìn)行排序和惟一化(unique-ifying)之后,將建議鏈接直接打印輸出。三個(gè)排序命令將結(jié)果保存在同一個(gè)數(shù)組中,目的是創(chuàng)建一個(gè)有序的建議列表。發(fā)生 404 錯(cuò)誤時(shí),目錄樹中(至少第一級(jí)目錄)極有可能會(huì)出現(xiàn)目錄分隔符(用于表示 Web 頁(yè)面)。比如說(shuō),以 bloggs/nathenherringtoon.html 頁(yè)面請(qǐng)求為例。上述代碼中所調(diào)用的 directorySplitTest 方法將創(chuàng)建一個(gè)排序的頁(yè)面列表,BLKS 和子目錄 N0NHRNKTN 的變音匹配都將包含在該列表中。這一策略可用于區(qū)分根目錄中的文件(如 blogs.html 和 nathanharrington.html)和完整路徑名匹配的頁(yè)面(如 blogs/nathanharrington.html)。下面的清單顯示了 directorySplitTest 子例程的內(nèi)容。清單 6. directorySplitTest subroutine


以下為引用的內(nèi)容:
sub directorySplitTest
{
my @matchRes = ();
my $inLink = $_[0];
for my $fileName ( keys %mt )
{
my @inLinkMetas = ();
# process each metaphone chunk as a directory
for my $inP ( split '//', $inLink ){ push @inLinkMetas, Metaphone($inP) } my @metaList = split ' ', $mt{$fileName}{metaphones};
next if( @metaList != @inLinkMetas ); my $pos = 0;
my $totalMatch = 0;
for( @metaList )
{
$totalMatch++ if( $metaList[$pos] =~ /(/b$inLinkMetas[$pos]/b)/i );
$pos++;
}#for meatlist # make sure there is a match in each metaphone chunk
next if( $totalMatch != @metaList );
push @matchRes, $mt{$fileName}{score} ## $fileName }#for keys in metaphone hash return( @matchRes ); }#directorySplitTest
組合測(cè)試位于 directorySplitTest 之后,用于檢查變音混和在一起時(shí)的匹配情況 忽略任何目錄結(jié)構(gòu)。該測(cè)試用于糾正 404 類錯(cuò)誤,即文件名中含有空格、斜杠、反斜杠、冒號(hào)和其他一些無(wú)發(fā)音的字符。比如說(shuō),如果針對(duì) blogs_nathanherrington.html 發(fā)出一個(gè) 404 請(qǐng)求,那么 directorySplitTest 將返回零結(jié)果,但是 combinedTest 將發(fā)現(xiàn)該 404 產(chǎn)生的變音組合在一起是 blogs/NathanHarrington.html 頁(yè)面的準(zhǔn)確匹配。同樣,這些建議的優(yōu)先級(jí)低于目錄匹配,因此這些分類結(jié)果將在 directorySplitTest 之后存入 suggestLinks 數(shù)組。以下清單顯示了 combinedTest 子例程。清單 7. combinedTest 子例程


以下為引用的內(nèi)容:
sub combinedTest
{
my @matchRes = ();
my $inLink = $_[0];
for my $fileName ( keys %mt )
{
my $inLinkMeta = Metaphone($inLink); # smoosh all of the keys together, removing spaces and trailing newline
my $metaList = $mt{$fileName}{metaphones};
$metaList =~ s/( |/n)//g; next if( $metaList !~ /(/b$inLinkMeta/b)/i );
push @matchRes, $mt{$fileName}{score} ## $fileName
}#for filename keys in metaphone hash return(@matchRes); }#combinedTest
在 combinedTest 之后是最后一個(gè)匹配測(cè)試,該測(cè)試基于一個(gè)廣度包含搜索。如果當(dāng)前的 404 鏈接的變音是 metaphoneScores.txt 文件中可用變音的一部分,我們將把它添加到建議列表。包含搜索的設(shè)計(jì)目的是尋找內(nèi)容極度不完整的 URL。nathan.html 頁(yè)面在任何位置都無(wú)法找到,但是一個(gè)良好的建議應(yīng)該是 /NathanHarrington.html 和 /blogs/NathanHarrington.html,并且它們根據(jù)作用域值排序并添加到 suggestLinks 數(shù)組中。注意,此方法還將為單字母變音 404(如 whoo.html)生成 NathanHarrington.html 建議。由于 NathanHarrington.html 變音中含有一個(gè) H ,故將其添加到建議列表。考慮創(chuàng)建一個(gè)最小長(zhǎng)度的匹配變音,或提供一個(gè)包含總數(shù)受限的匹配,以修改這一行為。清單 8 顯示了 containsTest 和 sortResults 子例程。清單 8. sortResults 和 containsTest 子例程


以下為引用的內(nèi)容:
sub sortResults
{
# simply procedue to sort an array of 'score ## filename' entries
my @scored = @_;
my @idx = (); #temporary index for sorting
for my $entry( @scored ){
# create an index of scores
my $item = substr($entry,0,index($entry,'##'));
push @idx, $item;
}

# sort the index of scores
my @sorted = @scored[ sort { $idx[$b] = $idx[$a] } 0 .. $#idx ];

return( @sorted );

}#sortResults sub containsTest
{
my @matchRes = ();
my $inLink = $_[0];
for my $fileName ( keys %mt )
{
my $inLinkMeta = Metaphone($inLink);
my $metaList = $mt{$fileName}{metaphones};
next if( $metaList !~ /$inLinkMeta/i );
push @matchRes, $mt{$fileName}{score} ## $fileName
}#for filename keys in metaphone hash
return(@matchRes);
}#containsTest
修改 Apache httpd.conf 文件上面所設(shè)計(jì)的 MetaphoneSuggest 腳本是一個(gè)將從 Apache 中直接調(diào)用的 cgi-bin 腳本。要運(yùn)行 MetaphoneSuggestscript 腳本,我們需要對(duì) httpd.conf 文件進(jìn)行適當(dāng)修改,否則將顯示 404 錯(cuò)誤頁(yè)面。比如說(shuō),如果默認(rèn)的 httpd.conf 文件含有以下部分:清單 9. 默認(rèn) httpd.conf 部分


以下為引用的內(nèi)容:
# Customizable error responses come in three flavors:
# 1) plain text 2) local redirects 3) external redirects
#
# Some examples:
#ErrorDocument 500 The server made a boo boo.
#ErrorDocument 404 /missing.html
#ErrorDocument 404 /cgi-bin/missing_handler.pl
#ErrorDocument 402 http://www.example.com/subscription_info.html
注釋掉的 ErrorDocument 代碼行之后插入如下代碼:ErrorDocument 404 /cgi-bin/MetaphoneSuggest 。確保 MetaphoneSuggest 和 metaphonesScore.txt 文件位于 Web 服務(wù)器的 document_root /cgi-bin/ 目錄下。以根用戶身份發(fā)起服務(wù)器重啟命令:例如 /usr/local/apache2/bin/apachectl restart,至此靈活的建議機(jī)制將徹底結(jié)束笨拙的 404 錯(cuò)誤。結(jié)束語(yǔ)

記住,使用 MetaphoneSuggest 程序中所描述的工具時(shí),錯(cuò)誤條件必須為 404 頁(yè)面。試著提供少量建議的選擇并保持設(shè)計(jì)的簡(jiǎn)單性。請(qǐng)教 Web 設(shè)計(jì)方面的知名人士,了解他們?yōu)槭裁礇](méi)有提供自動(dòng)鏈接建議,或者開展各種可用性研究,了解何種情況下最適合在站點(diǎn)中實(shí)現(xiàn)鏈接建議工具。本文提供了各種工具和代碼,用于在 404 頁(yè)面中創(chuàng)建實(shí)用的鏈接建議。但是,這些示例都已經(jīng)實(shí)現(xiàn),您可以通過(guò)它們提供一些復(fù)雜的功能,而不僅僅是簡(jiǎn)單的目錄鏈接或拼寫建議。通過(guò)對(duì)特定站點(diǎn)和內(nèi)容進(jìn)行調(diào)整,笨拙的 404 錯(cuò)誤將不復(fù)存在。
html教程

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 欧美一区二区人人喊爽 | 久久成人在线 | 99在线免费视频 | 伊人伊人 | 激情开心站 | 欧美专区在线 | 亚洲首页 | 欧美精品网站 | 精品欧美一区二区三区久久久 | www.99精品 | 成人做爰www免费看视频网站 | 日韩高清一区二区 | 噜噜噜在线| 欧美精品久久久久久久久老牛影院 | 久久精品视频免费观看 | 精东粉嫩av免费一区二区三区 | 国变精品美女久久久久av爽 | 四虎影院免费网址 | 久久毛片 | www久久精品 | 日韩一区二区三区在线 | 姐姐在线观看动漫第二集免费 | 欧美一区 | 一级网站在线观看 | 国产精品久久久久久久久久久久久 | 精品国产乱码久久久久久丨区2区 | 国产精品二区三区 | 国产日韩欧美在线 | 久久精品亚洲一区二区 | 亚洲怡红院在线观看 | 午夜精品久久久久99蜜 | 日本福利网站 | 一二三区视频 | 国产精品成人在线 | 亚洲性在线观看 | 亚洲欧美aa | 蜜桃av一区二区三区 | 亚洲香蕉在线观看 | 中文字幕在线不卡 | 美女黄网 | 综合色播 |