9月11日-14日,由鈦媒體與ITValue共同主辦的2024 ITValue Summit數字價值年會在三亞舉行。此次峯會主題爲「Ready For AI」,交流經驗教訓,交叉行業思考,推動創新交易,以創新場景爲基礎,共同探索AI驅動下數字經濟時代的全新機遇,共同打造一場數字經濟時代的AI創新探索盛宴。
格靈深瞳創始人、董事長、CEO趙勇以《是虛假繁榮還是爆發前夜?論大模型時代的AI產品進化》發表了主題演講。他表示,格靈深瞳要做一家AI時代的產品公司,在泛安防、工業檢測、人機交互等領域持續深耕,深度理解用戶和場景,用好的產品爲廣大客戶創造更大的價值。
趙勇指出,之前AI之所以落地難,主要原因在於交付成本高、有效數據少、泛化能力弱。而大模型帶來的是一個構建行業AI應用的全新技術範式。
用大模型解決物理世界中的原子操作問題,可以做到99.99%的體驗感。並且在該領域,未來3-5年會出現一批優秀成果,能夠基於人工智能生成物理世界的API。
當然,技術只是基礎,產品和場景才是應用落地的關鍵。
以下爲格靈深瞳創始人、董事長、CEO趙勇演講實錄,經鈦媒體編輯整理:
今年,紅杉資本分享的一項數據發現,僅過去一年,AI公司購買英偉達GPU的花費就已經超過500億美元,而目前所有AI公司產生的營收總和卻遠低於這個數值。這意味着,AI行業的落地還在早期,還沒有出現真正意義上的killer app。
那麼AI落地難在哪兒?以自動駕駛爲例,2009年我博士畢業後,花了很大精力解決谷歌自動駕駛項目中有關視覺算法的問題。十年過去,中國仍未出現一家真正規模化商業運營的自動駕駛汽車公司。我們離真正安全且可商用的無人駕駛還有較長的路要走。
相較之下,AI在安防領域取得了一定成功。市場需求推動了安防產品的發展,也給國內的AI公司帶來了第一次大規模商業落地的契機。
NLP領域也曾經歷「百箱大戰」,但很多用戶購買了智能音箱後發現,產品遠未達到自己預期的智能交互水平。去年大模型的湧現,智能音箱產品的性能有所提升,包括在汽車場景下的語音通話能力也有所增強。這讓我又有了新的期待。
總結來講,過去AI之所以落地難,主要原因在於交付成本高、有效數據少、泛化能力弱。
而大模型帶來的是一個構建行業AI應用的全新技術範式。大模型理論上可以通過付出較少的成本,來高效解決長尾需求從而降低交付成本,通過通用能力來解決少樣本數據的問題,同時大幅提升模型的泛化能力。舉幾個例子。
格靈深瞳在銀行安防領域深耕多年,在視頻智能化應用這個細分領域做到了行業第一,過去幾年爲客戶開發了幾十個場景算法,公司自研的視覺大模型在銀行這個場景落地後,很多算法的性能和穩定性得到了極大的提升;在軌道交通領域,公司研發的巡檢機器人主要應用於高鐵、地鐵等列車的日常巡檢場景,檢測識別列車的零部件缺陷、故障等,但是這些真正有價值的負樣本數據量不大,且很難窮舉,因此以前我們的做法是跟客戶一起去造一些負樣本數據,比如故意弄壞一些零部件,然後作爲負樣本數據進行標註,但這樣的效率很低。現在,我們用AIGC的方式生成了大量的負樣本數據,同時軌交大模型上線後,相關算法的準確性得到了顯著提升,軌交運維場景的很多長尾需求也得到了解決;在教育領域,格靈深瞳服務於學校的體育教學和考試場景,體育的項目很多,跳繩、仰臥起坐、籃球、游泳、踢毽子等,以前的模型泛化能力不強,因此我們需要針對每一個項目採集數據,訓練模型,大模型能很好地解決這些問題。
有一點我需要提一下,我們通常理解的大模型往往代指的是大語言模型,目前的應用主要集中在聊天機器人和AI助手等輕量級應用上。但實際上,大模型並不僅僅包括大語言模型,視覺大模型和多模態大模型在產業界有更大的想象空間。
在算法層面,大語言模型的智能湧現有其原因。本質上,NLP研究的是人類符號語言,它本身就具備語義,大量的互聯網內容都是由文字構成,而這些信息同時又是廣泛開放且容易獲取的。文本數據可以做無監督訓練,因此在純數字世界做機器學習相對簡單。
讓我們把視線從數字世界轉移到物理世界。在視覺領域,攝像頭捕捉的往往是物理世界中的自然數據,視覺數據不能直接用於無監督學習,且規則約束永遠無法窮舉,而行業數據又無法通過公開渠道獲取,因此大模型在物理世界中的應用價值更大。與此同時,人工智能技術在物理世界中的交付,比數字世界要難。但是越難走的路,往往走通後的收穫越大。儘管從視覺數據中獲得Insight,比文本信息更難,但相應的價值更高,也更值得做。
與數字世界不同,物理世界不存在一個穩定可靠的API。今天,我們的方法是用大模型解決物理世界中的原子操作問題,然後在上層去做組合應用,從而解決不同複雜場景下的問題,這樣可以做到99.99%的體驗感。並且在該領域,未來3-5年會出現一批優秀成果。這也是格靈深瞳未來幾年的工作重心。
而在數據方面。數據孤島問題的形成原因之一是,客戶不願意將數據分享出來。我的建議是,如果想推動數據孤島問題的解決,大客戶最好直接找科技公司交付項目,不需要太多集成商作中間商去交付。這會增加數據流動的障礙。此外,模型訓練需要非常多標註數據,今天人工標註成本依然很高,我們多年前就開始用自動標註的方式來處理數據。
此外,我認爲行業Insight跟行業數據一樣重要。去年OpenAI的CEO說過一段話,我挺反對。他說,大模型出來後,所有的產品經理會失業,不需要太多套殼應用。但在我看來,對場景、客戶以及業務流程的深刻了解,還是極其有價值的,只有那些願意躬身沉入到行業中的公司才能真正解決客戶的問題。一方面把AI算法與特定行業場景深度融合的經驗,是難以在短期內獲得的;另一方面,跟很容易從開源數據學習到的語言信息不一樣,視覺的東西沒見過或者沒做過,你就是不知道,只有深耕行業,才能積累到足夠多的有效數據。大模型再厲害,也無法替代產品文化,未來優秀的產品經理和產品文化,對交付AI產品來說極其重要。
算力方面。今天最強大的H100的CUDA核數量也只有1.5萬個,而人腦神經元的數量約1000億個,差距非常大。大模型的潛力還沒有被充分挖掘出來。
但是,如果每個場景都通過大模型進行實時視覺處理,非常不現實。大模型很重要,但它不能獨立地主導一切,相當長一段時間裏還需要小模型。而它又不同於傳統深度學習的小規模模型,現在更多是依賴於大數據,在場景裏通過大模型蒸餾出小模型,實現輕量部署。同時,在中心端用大模型去彌補小模型帶來的性能差異。所以,我們在產品落地時採用了很多方法來分散算力,在邊緣側用小模型處理實時任務,在中心端側用大模型驗證,這種模式成本比較低。
當然,歸根結底,技術只是基礎,產品和場景才是應用落地的關鍵。唯有深耕行業,AI才能開花結果。格靈深瞳致力於做一家AI時代的產品公司,在泛安防、工業檢測、人機交互等領域持續深耕,深度理解用戶,理解場景,用好的產品爲廣大客戶創造價值。