
百度搜索于2017年7月4日首次發(fā)布颶風(fēng)算法,聚焦惡劣采集行為的打擊;2018年9月13日升級(jí)至2.0版本,強(qiáng)化對(duì)低質(zhì)內(nèi)容的識(shí)別力度;2019年8月,颶風(fēng)算法3.0正式上線,進(jìn)一步擴(kuò)展治理維度。該算法的核心目標(biāo)在于清除內(nèi)容生產(chǎn)領(lǐng)域的“搬運(yùn)主義”與“流量投機(jī)”行為。具體而言,惡劣采集行為表現(xiàn)為內(nèi)容未經(jīng)授權(quán)搬運(yùn)、機(jī)械拼接導(dǎo)致邏輯混亂、排版失序,頁面存在明顯采集痕跡,對(duì)用戶無實(shí)質(zhì)增益價(jià)值;跨領(lǐng)域采集則指站點(diǎn)或小程序?yàn)樽非罅髁科毓猓l(fā)布與自身領(lǐng)域定位嚴(yán)重不符的內(nèi)容,導(dǎo)致領(lǐng)域?qū)W⒍认陆担阉飨到y(tǒng)將據(jù)此限制其展現(xiàn)機(jī)會(huì);站群問題則通過批量構(gòu)造低質(zhì)站點(diǎn)、復(fù)用相似模板等方式獲取流量,此類站點(diǎn)內(nèi)容同質(zhì)化嚴(yán)重,資源稀缺性低下,難以滿足用戶真實(shí)需求。
2020年2月,百度搜索推出勁風(fēng)算法,針對(duì)惡意構(gòu)造聚合頁的行為進(jìn)行專項(xiàng)治理。聚合頁本應(yīng)是對(duì)特定主題下多源信息的有效整合,但惡劣聚合頁缺乏實(shí)質(zhì)主體內(nèi)容,僅為索引鏈接的機(jī)械堆砌,無法滿足用戶對(duì)深度信息的需求。此類問題主要包括四類典型場景:頁面內(nèi)容與站點(diǎn)所屬領(lǐng)域不符或無專注領(lǐng)域,多為采集拼湊內(nèi)容;頁面內(nèi)容與標(biāo)題及標(biāo)簽標(biāo)記的主題嚴(yán)重脫節(jié);由網(wǎng)站搜索功能生成的靜態(tài)搜索結(jié)果頁,缺乏原創(chuàng)性整合;空短、無有效信息或已失效的聚合頁,完全浪費(fèi)用戶搜索資源。
B2B領(lǐng)域作為商業(yè)信息交互的重要場景,其內(nèi)容質(zhì)量直接影響供需對(duì)接效率。2018年6月,百度搜索發(fā)布細(xì)雨算法,初步規(guī)范B2B行業(yè)站點(diǎn)行為;2019年11月,細(xì)雨算法2.0升級(jí)上線,重點(diǎn)治理惡劣違規(guī)問題與低質(zhì)內(nèi)容。該算法的治理范圍覆蓋頁面標(biāo)題作弊(如堆砌關(guān)鍵詞、穿插特殊符號(hào)、冒充官網(wǎng)等)、正文內(nèi)容中的違規(guī)受益信息(如變形聯(lián)系方式、配圖中嵌入聯(lián)系方式等)、惡劣違規(guī)內(nèi)容(如采集拼接、發(fā)布軟文、空白頁面、商品信息與實(shí)際不符等)及低質(zhì)內(nèi)容(如圖文不符、圖片無有效信息等),通過多維度識(shí)別與處罰,保障B2B商業(yè)信息的真實(shí)性與有效性。
2016年11月,百度搜索推出藍(lán)天算法,持續(xù)打擊新聞?lì)愓军c(diǎn)售賣軟文、目錄等破壞搜索公正性的行為。此類行為通過商業(yè)交易操縱搜索排名,導(dǎo)致優(yōu)質(zhì)內(nèi)容被低質(zhì)軟文或付費(fèi)目錄淹沒,嚴(yán)重?fù)p害用戶對(duì)搜索結(jié)果的信任。藍(lán)天算法通過識(shí)別站點(diǎn)目錄交易行為,降低違規(guī)站點(diǎn)在搜索系統(tǒng)中的評(píng)價(jià),維護(hù)搜索結(jié)果的客觀性與中立性,為用戶營造“信息藍(lán)天”。