搜索引擎對關(guān)鍵字堆砌的識別_新聞中心_鄭州狼煙網(wǎng)絡(luò )科技有限公司

国产成人精品久久久久_国精产品一品二品国精品69XX_少妇高潮毛片免费观看a片_国产成人精品AA毛片

新聞中心

運營(yíng)知識 | 搜索引擎對關(guān)鍵字堆砌的識別
　　搜索引擎和搜索引擎優(yōu)化(SEO)一直是一對矛盾，合理的優(yōu)化有助于搜索引擎對網(wǎng)站內容的識別，有助于網(wǎng)站的推廣。然而有正面，就有反面，一些SEOers通過(guò)各種欺騙手段來(lái)欺騙搜蘇引擎，以期達到增加頁(yè)面收錄數和頁(yè)面排名的目的。

　　早期的關(guān)鍵字堆砌SPAM作弊方式之一，是將中文詞庫中的單詞直接用軟件拼湊成文章，這樣的文章沒(méi)有實(shí)際的意義，只能給搜索引擎看。那么對于這樣的文章，搜索引擎是通過(guò)什么方式來(lái)識別的呢?

　　我們知道，每個(gè)搜索引擎都有網(wǎng)頁(yè)質(zhì)量監控部門(mén)，對于百度等摻雜人工處理的搜索引擎而言，用戶(hù)發(fā)現這樣的網(wǎng)站，投訴到百度，百度直接封了這個(gè)網(wǎng)站了事。但對于Google這樣的封站也是自動(dòng)處理的搜索引擎而言，對關(guān)鍵字堆砌作弊的識別就顯得更為重要了。

　　對于關(guān)鍵字堆砌作弊方式的識別，搜索引擎一般采用統計分析的方法進(jìn)行。

　　搜索引擎首先將網(wǎng)頁(yè)進(jìn)行分詞，分詞完成后可以得到詞的數量N和文章長(cháng)度L，從大量文章的統計中發(fā)現文章的長(cháng)度L和詞的數量N兩個(gè)數字之間存在一定的分布關(guān)系，一般而言L(fǎng)/N界于4至8之間，均值大約在5-6之間。也就是說(shuō)一篇長(cháng)度為1000字節的文章中，應該有125-250個(gè)分詞，由于中文和英文的詞的組成不一致，因此在英文和中文中這個(gè)比值的范圍會(huì )有所不同。如果搜索引擎發(fā)現L/N特別大，那么這篇文章就存在就存在關(guān)鍵字堆砌現象了，如果L/N特別小，則可能是這篇文章是由一些詞所組成的沒(méi)有意義的文章。

　　進(jìn)一步，通過(guò)大量正常文章統計發(fā)現，文章中密度最高的幾個(gè)關(guān)鍵字出現的次數之和與N/L存在一定的分布關(guān)系，搜索引擎就可以通過(guò)網(wǎng)頁(yè)中的分布與統計結果的分布圖進(jìn)行比較得出文章是否存在關(guān)鍵字堆砌的現象。

　　此外，搜索引擎還將從停止字的比例來(lái)判定文章是否為自然文章。停止字就是如“的”“我”“是”等在文章中普遍使用的字或詞，如果文章中停止字的比例在正常的比例范圍之外，這個(gè)網(wǎng)頁(yè)應提交到網(wǎng)頁(yè)質(zhì)量監控部門(mén)審核。

　　當然，還有更多的算法可以對網(wǎng)頁(yè)與自然語(yǔ)言的文章進(jìn)行比較分析，以判別文章是否為自然文章。

　　所謂魔高一尺、道高一丈，有些作弊者已經(jīng)放棄了單詞的組成文章的作弊方式，而改用句子組成文章的作弊方式，作弊者通過(guò)爬蟲(chóng)或其它方式獲得網(wǎng)上文章的句子，并用軟件將數十篇文章的某幾句拼湊成一篇文章。這就需要搜索引擎做語(yǔ)義的分析來(lái)判斷是否作弊了，然而目前關(guān)于語(yǔ)義分析的研究還處于研究階段，這也是下一代智能搜索引擎的方向。

　　然而我們仍然不能將自動(dòng)文章生成一棍子打死，基于人工智能的文章生成仍然是人類(lèi)研究自身語(yǔ)言以及自身智能的一個(gè)重要方向。作弊與反作弊，將能促使人類(lèi)對人工智能的研究。

　　如果到最后，軟件能生成人類(lèi)能夠理解的文章，這是SPAM還是精華?你能肯定地說(shuō)目前存在的智能化程度還不夠高的RSS聚合文章一定是SPAM嗎?然而，如果這樣的文章海量的出現，我們又該如何去面對這個(gè)現象?

上一篇：網(wǎng)站的robots.txt文件該怎么寫(xiě)？

下一篇：網(wǎng)站的title如何優(yōu)化到最好

聯(lián)系狼煙

聯(lián)系電話(huà)
王經(jīng)理15515555565
范經(jīng)理15538228885
周一至周日 08:30~18:00
在線(xiàn)咨詢(xún)
狼煙科技公眾號
狼煙科技公眾號

国产成人精品久久久久_国精产品一品二品国精品69XX_少妇高潮毛片免费观看a片_国产成人精品AA毛片