必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會(huì)展特約記者

快手全新「檢索數(shù)據(jù)引擎」CroPS 入選AAAI 2026 Oral

2026年1月16日 09:33CCTIME飛象網(wǎng)

短視頻搜索業(yè)務(wù)是向量檢索在工業(yè)界最核心的應(yīng)用場(chǎng)景之一。然而,當(dāng)前業(yè)界普遍采用的“自強(qiáng)化”訓(xùn)練范式過(guò)度依賴歷史點(diǎn)擊數(shù)據(jù),導(dǎo)致系統(tǒng)陷入信息繭房,難以召回潛在相關(guān)的新鮮內(nèi)容。針對(duì)當(dāng)前挑戰(zhàn),快手搜索團(tuán)隊(duì)提出了CroPS框架,從根源上打破數(shù)據(jù)閉環(huán)。目前,CroPS已在快手搜索業(yè)務(wù)中實(shí)現(xiàn)全量部署,服務(wù)億級(jí)用戶。

本工作相關(guān)成果《CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search》已被人工智能頂級(jí)會(huì)議AAAI 2026 Oral接收。

為了打破數(shù)據(jù)邊界,CroPS 框架構(gòu)建了一個(gè)包含三個(gè)維度的正樣本增強(qiáng)引擎,分別利用用戶換Query行為、推薦系統(tǒng)反饋以及大語(yǔ)言模型(LLM)的世界知識(shí),來(lái)全方位地豐富語(yǔ)義空間。圍繞這一目標(biāo),CroPS 分別從查詢行為、系統(tǒng)反饋和外部知識(shí)三個(gè)層面展開(kāi)。

在真實(shí)的搜索場(chǎng)景中,用戶往往難以一次性精準(zhǔn)表達(dá)意圖。當(dāng)用戶輸入查詢?cè)~A 卻未能找到滿意結(jié)果時(shí),通常會(huì)進(jìn)行查詢重構(gòu),輸入語(yǔ)義相關(guān)但表述不同的查詢?cè)~B。CroPS 通過(guò)分析用戶在短時(shí)間窗口內(nèi)的改寫(xiě)序列,將改寫(xiě)后獲得的成功點(diǎn)擊回流給原始查詢,利用用戶的修正行為來(lái)糾正模型的語(yǔ)義偏差。

推薦系統(tǒng)擁有海量用戶消費(fèi)數(shù)據(jù),其算法機(jī)制天然傾向于發(fā)散和探索。CroPS 建立了一套跨系統(tǒng)的信號(hào)橋接機(jī)制:對(duì)于同一個(gè)用戶,如果他在推薦信息流中深度消費(fèi)了某個(gè)視頻,且該視頻在語(yǔ)義上與用戶近期的搜索詞高度相關(guān),該視頻就會(huì)被引入作為搜索模型的正樣本。

當(dāng)平臺(tái)現(xiàn)有的內(nèi)容庫(kù)或日志無(wú)法覆蓋某些長(zhǎng)尾、復(fù)雜查詢時(shí),CroPS 引入大語(yǔ)言模型(LLM)作為虛擬檢索器和內(nèi)容生成器,利用 One-shot Prompting 策略生成高質(zhì)量合成樣本,將外部世界的常識(shí)與邏輯蒸餾進(jìn)檢索模型中。

在多源正樣本被引入之后,如何讓模型有效利用這些信號(hào),同樣成為訓(xùn)練階段的關(guān)鍵。HLA 的核心是解決 CroPS 多源正樣本的可靠性差異問(wèn)題,通過(guò)為樣本分配分層標(biāo)簽,讓模型能夠?qū)W習(xí)更細(xì)粒度的相關(guān)性。H-InfoNCE 在訓(xùn)練時(shí),將當(dāng)前樣本與標(biāo)簽嚴(yán)格低于它的所有樣本進(jìn)行對(duì)比,使學(xué)習(xí)目標(biāo)與 HLA 的層級(jí)邏輯完全對(duì)齊。

這一系列設(shè)計(jì)共同構(gòu)成了 CroPS 在工業(yè)檢索場(chǎng)景中的完整解決方案。CroPS 證明了在工業(yè)檢索系統(tǒng)中,正樣本增強(qiáng)是緩解信息繭房問(wèn)題的有效鑰匙。未來(lái),快手搜索團(tuán)隊(duì)將進(jìn)一步探索 CroPS 與生成式檢索(Generative Retrieval)方法的融合,持續(xù)挖掘大規(guī)模語(yǔ)言模型在搜索全鏈路中的潛力。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱: 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像