近期,360集團(tuán)低調(diào)開源的視覺語言對(duì)齊模型FG-CLIP2,在全球科技圈掀起熱議。這款模型在涵蓋長短文本圖文檢索、目標(biāo)檢測等在內(nèi)的29項(xiàng)權(quán)威公開基準(zhǔn)測試中,全面超越科技巨頭Google的SigLIP2與Meta的MetaCLIP2,標(biāo)志著中國在AI基礎(chǔ)模型領(lǐng)域取得了又一突破性進(jìn)展。

FG-CLIP2性能雷達(dá)圖

中文benchmark綜合排名
從“看得見”到“看得清”:攻克AI視覺“細(xì)粒度”難題
如果說OpenAI在2021年提出的CLIP模型,為AI配上了一副能“看清世界”的普通眼鏡;那么360的FG-CLIP2,則是為AI裝備了一臺(tái)“高精度光學(xué)顯微鏡”,使其能夠“洞察入微”。它成功攻克了CLIP模型長期存在的“細(xì)粒度識(shí)別”痛點(diǎn)。

FG-CLIP2效果案例
傳統(tǒng)CLIP模型善于理解圖像的全局概念,但在區(qū)分細(xì)微的物體屬性、復(fù)雜的空間關(guān)系以及精準(zhǔn)的語言表達(dá)時(shí),往往力不從心。FG-CLIP2則實(shí)現(xiàn)了質(zhì)的飛躍:它不僅能辨別出貓的具體品種,還能在遮擋情況下精準(zhǔn)判斷其狀態(tài);面對(duì)包含多個(gè)物體的復(fù)雜場景,其細(xì)節(jié)識(shí)別置信度仍高達(dá)96%。這種從“宏觀”到“微觀”的能力躍遷,是AI真正理解物理世界的關(guān)鍵一步。
三大根本性創(chuàng)新 構(gòu)筑技術(shù)護(hù)城河
在模型核心上,它實(shí)現(xiàn)了三大根本創(chuàng)新:第一,層次化對(duì)齊架構(gòu),讓模型能像人眼一樣,同時(shí)把握宏觀場景與微觀細(xì)節(jié),實(shí)現(xiàn)從“看得見”到“看得清”的跨越。第二,動(dòng)態(tài)注意力機(jī)制,使模型可以智能聚焦于圖像關(guān)鍵區(qū)域,以最小算力代價(jià)換取精準(zhǔn)的細(xì)節(jié)捕捉能力。第三,雙語協(xié)同優(yōu)化策略,從底層解決了中英文理解不平衡的難題,實(shí)現(xiàn)了真正的雙語原生支持。
卓越的性能離不開強(qiáng)大的底層支撐。FG-CLIP2依托于自研的超大規(guī)模高質(zhì)量數(shù)據(jù)集FineHARD。該數(shù)據(jù)集不僅包含詳盡的全局描述和千萬級(jí)的局部區(qū)域標(biāo)注,還創(chuàng)新性地引入了由大模型生成的“難負(fù)樣本”,極大地錘煉了模型的辨別能力。

FG-CLIP2訓(xùn)練策略
在訓(xùn)練方法上,模型采用了革命性的兩階段策略。其關(guān)鍵的第二階段摒棄了傳統(tǒng)CLIP的“整體對(duì)整體”的粗放對(duì)齊模式,升級(jí)為“局部對(duì)局部”的精細(xì)對(duì)齊,這正是其實(shí)現(xiàn)細(xì)粒度理解的精髓所在。
通過這一系列緊密結(jié)合的技術(shù)創(chuàng)新,F(xiàn)G-CLIP2成功攻克了長期困擾行業(yè)的“細(xì)粒度識(shí)別”難題,并將其領(lǐng)先能力通過API等形式開放,賦能千行百業(yè)的智能化升級(jí)。
告別“差不多”AI:細(xì)粒度視覺撬動(dòng)產(chǎn)業(yè)新支點(diǎn)
FG-CLIP2的價(jià)值不僅在于實(shí)驗(yàn)室指標(biāo)的領(lǐng)先,更在于其廣泛而深遠(yuǎn)的行業(yè)應(yīng)用潛力,推動(dòng)AI從“感知”走向“認(rèn)知”,從“可用”走向“好用”。
在電商領(lǐng)域,它能精準(zhǔn)理解“白色蕾絲邊、袖口有珍珠裝飾的連衣裙”等復(fù)雜描述,實(shí)現(xiàn)“所想即所得”的精準(zhǔn)搜索,徹底革新商品檢索與推薦體驗(yàn),減少退貨率,直接提升商業(yè)轉(zhuǎn)化。
在具身智能領(lǐng)域,它是機(jī)器人的“慧眼”,能精準(zhǔn)執(zhí)行“拿餐桌上的紅色水杯”或“把玩具放進(jìn)綠色收納箱”等指令,通過精準(zhǔn)識(shí)別物體屬性與空間關(guān)系,讓機(jī)器人在家庭、倉儲(chǔ)等復(fù)雜場景中的操作成為可能。
此外,其能力同樣賦能于AIGC內(nèi)容生成、內(nèi)容審核及安防監(jiān)控等多個(gè)關(guān)鍵場景,通過洞察細(xì)節(jié),確保生成內(nèi)容的精準(zhǔn)性、審核的可靠性以及安防檢索的高效性,為各行各業(yè)的智能化升級(jí)奠定堅(jiān)實(shí)的視覺理解基石。
構(gòu)建AI底層能力:360的AI長期主義
FG-CLIP2的技術(shù)突破并非偶然,而是360對(duì)AI底層能力的長期堅(jiān)持。作為國內(nèi)較早布局人工智能研究的企業(yè),360人工智能研究院已持續(xù)深耕多模態(tài)領(lǐng)域多年。從2021年起,在大模型方向上團(tuán)隊(duì)累計(jì)在ICML、NeurIPS、ICCV等頂級(jí)會(huì)議發(fā)表論文12篇,并在多項(xiàng)國際AI競賽中奪冠。
此外,360依托瀏覽器、搜索、安全等豐富的業(yè)務(wù)生態(tài),積累了百億級(jí)的圖文數(shù)據(jù),并結(jié)合自研的大規(guī)模高質(zhì)量數(shù)據(jù)集FineHARD,為訓(xùn)練FG-CLIP2這樣的頂尖模型提供了“數(shù)據(jù)燃料”。同時(shí),強(qiáng)大的工程化能力確保了模型不僅在學(xué)術(shù)上領(lǐng)先,更能在實(shí)際業(yè)務(wù)中高效、穩(wěn)定地運(yùn)行,其推理速度達(dá)到同類模型的1.5倍。
此次開源FG-CLIP2,是360在AI基礎(chǔ)模型領(lǐng)域的一次關(guān)鍵落子,其意義遠(yuǎn)不止于展示技術(shù)實(shí)力,更是為中國構(gòu)建自主可控的AI技術(shù)體系,添上一塊重要基石。
(CIS)
衛(wèi)星通信萬億賽道起飛,手機(jī)直連時(shí)代開啟
衛(wèi)星通信管理制度及政策法規(guī)進(jìn)一步完善……[詳情]
版權(quán)所有《證券日?qǐng)?bào)》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號(hào)京ICP備19002521號(hào)
證券日?qǐng)?bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請(qǐng)仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。
證券日?qǐng)?bào)社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注