里番本子纯肉侵犯肉全彩无码-精产国品一二三产区蘑菇视频-国内精品九九久久久精品-中文字幕人妻中文

咨詢熱線:021-80392549

新華網聯合權威機構發布《國內LLM產品測試報告》 百度文心一言多維度整體領先

放大字體  縮小字體 發布日期:2023-08-11     來源:新華網     瀏覽次數:105
   人工智能技術不斷迭代引發新一輪科技革命和產業變革,進一步提升人們對經濟社會更加美好的體驗。當前,全球信息科技巨頭紛紛入局,智能化應用走向了以大語言模型(簡稱:LLM即Large Language Model,大語言模型)為代表的大模型時代。

為反映當前LLM發展最新情況特點,了解LLM產品應用情況。近日,新華網與國內權威科研機構聯合推出《國內LLM產品測試報告》。選取文心一言、GPT-3.5、訊飛星火和ChatGLM等四個LLM產品(各測試模型基本情況如下圖),從內容安全問答、常識問答、數學運算、閱讀理解和主觀問答等五個維度對LLM進行多維度能力測試和分析。為便于評估和展示,測試分數將分別轉換為百分制。

報告顯示,以文心一言為代表的國產大模型在內容安全、閱讀理解、常識問答,數學運算等方面的表現普遍較好,能準確回應測試問題。尤其在內容安全和數學運算方面,國產大模型的優勢相對更加明顯。國產大模型中,文心一言在內容安全方面普遍能給出積極準確的正面回應;在常識問答,閱讀理解、主觀題目和數學運算等方面表現均較為出色,具備更豐富的常識知識和更強大的邏輯運算能力。

圖為多維度測試結果

具體來看,在內容安全方面,文心一言獲得了115分,在本次測試中領跑,對于內容安全問題的敏感度也最高。而GPT-3.5和開源模型ChatGLM由于沒有做相關嚴格約束,可能回答出一些存在政治或者文化偏見的內容。此外,所有的LLM均對涉黃類問題很敏感,都未在相關回答上誘導。

在常識問答方面,文心一言獲得了88分,GPT-3.5和訊飛星火均得到60分左右,ChatGLM僅獲得33分的成績。整體來說,大多數國內LLM均具備基本的文化、歷史、地理和生活常識知識,能準確回答絕大多數常識問題。而對于一些相對冷門的常識問題,除文心一言外其他模型都給出了不同的錯誤答案。

在數學運算方面,文心一言獲得93分、訊飛星火和GPT-3.5分別獲得75、68分,而ChatGLM僅僅獲得11分。當題目涉及一些基礎直接的數學運算,所有的大模型基本都能算對,這說明當前的大模型都能理解基本的計算規則。但是隨著題目變得復雜,只有文心一言和訊飛星火能正確回答該問題。說明包括文心一言和訊飛星火在內的國產大模型在數學邏輯能力方面會優于其他模型。另外,文心一言在解題目時會采用直接的算數解法,而訊飛星火等模型會采用解方程操作,說明文心一言具有一定的逆向邏輯思維能力,解題方式更加簡潔直接。

在閱讀理解方面,文心一言得到95分、GPT-3.5得到67分, 訊飛星火和ChatGLM分別獲得57分和33分。雖然大模型的部分輸出結果不能完全對應正確答案,但大都角度正確且言之有理,說明現有LLM在中文長文本閱讀理解方面均具備較高水平。

在主觀題方面,各個模型的性能表現相差不多。其中,GPT-3.5取得了最好的結果,文心一言次之。具體而言,從流暢度方面來看, GPT-3.5的輸出文本最為流暢,不存在語言重復或者表述不清晰的現象。而文心一言存在少數表述重復的情況。從規范性角度來看,所有的模型均具備較為標準的回答格式,如包括解釋、分析、總結等基本步驟。這主要是因為大模型的數據輸入都具備固定數據模板,導致模型記住了這些特定模式。從理解力來看,GPT-3.5對主觀題的理解最為準確,極少出現文不對題的情況,文心一言次之。文心一言在回答該類組織創意問題時,更加傾向于表述活動的組織細節,比如介紹時間、地點、流程、活動預算等信息。從事實性和全面性角度來看,均是GPT-3.5表現最好,說明了其蘊含的語義知識相對更加豐富。但在測評中國的一些風俗習慣或者傳統文化相關的知識時,它的性能遜色于國產語言模型。

此外,在所有被測LLM產品,目前僅文心一言可公開使用由文生圖的多模態功能,但目前對一些易混淆的成語理解還有所欠缺。

LLM已經成為人工智能技術應用場景發展的新階段。隨著人工智能技術的不斷演進,必將引發一場經濟社會應用的人工替代化新思考。一方面,LLM的應用場景將進一步多元化。隨著技術的演進,LLM將不再局限于文本、音頻和視覺等基本形態,還將具備嗅覺、觸覺、味覺、情感等多重信息感知和認知能力,以數字化形式傳輸并指導人工智能進行內容創作。另一方面,大模型重新定義了人機交互,催生AI原生應用,服務千行百業。大模型會深度融合到實體經濟當中去,助力中國數字經濟開創新一代人工智能發展階段。

未來LLM競爭關鍵是算法是否更為接近和超越人類的思維方式。目前LLM在邏輯推理的計算能力,靈活能力以及快速自學習能力決定領先的優勢。在邏輯推理中更能理解人類情感和接近超越人類思維方式,使得模型更加智能,也是很多頭部LLM廠商的共同研發升級的追求。

附件為國內LLM產品測試報告(點擊可下載)

工博士工業品商城聲明:凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與商城(www.hnzm-estate.com)聯系,本網站將迅速給您回應并做處理。
聯系電話:021-31666777
新聞、技術文章投稿QQ:3267146135  投稿郵箱:syy@gongboshi.com
主站蜘蛛池模板: 亚洲午夜无码久久| 三个男吃我奶头一边一个视频 | 好吊视频一区二区三区| 毛茸茸性xxxx毛茸茸毛茸茸| 亚洲中文无码mv| 特级西西人体444www高清大胆| 免费黄色电影在线观看| 蜜桃网站入口可看18禁 | 午夜dv内射一区二区| 波多野结av衣东京热无码专区| 久久久久久久久久久久久久| 337p日本大胆欧美裸体艺术| 国产精品久久久久久久久久直播| 国产午夜亚洲精品国产成人小说 | 国精品午夜福利视频不卡麻豆| 日本韩国男男作爱gaywww| 亚洲成av人片久久| 奶头和荫蒂添的好舒服囗交| 人妻少妇看a偷人无码精品| 亚洲熟妇av一区二区三区| 两个男人吮她的花蒂和奶水视频| 丰满少妇被猛烈进av毛片| 精品国产亚洲一区二区三区| 成年免费a级毛片| 东北寡妇特级毛片免费| 日韩a无v码在线播放| 少妇愉情理伦片高潮日本 | 亚洲欧美中文日韩v在线观看| 最新四色米奇影视777在线看| 婷婷五月综合色视频| 国产suv精品一区二区五| 全部免费毛片在线播放| 亚洲人成无码区在线观看| 久久99精品久久久久久hb无码| 国产精品电影一区二区在线播放 | 区二区三区玖玖玖| 久久不见久久见免费影院www| 久久久噜噜噜久久中文字幕色伊伊| 久久久久高潮综合影院 | 情侣黄网站免费看| 老司机午夜福利视频|