share_log

リコー、モデルマージによってGPT-4と同等の高性能な日本語LLM(700億パラメータ)を開発

理光通過模型融合開發了與GPT-4相當高性能的日文LLM(700億參數)

理光集團 ·  09/29 23:00

理光公司(社長執行役員:大山 晃)基於美國Meta Platforms公司提供的「Meta-Llama-3-70B」,改進了其日本性能,推出了基於「Llama-3-Swallow-70B*1」的基礎型號,通過合併公司的Instruct模型中的Chat Vector*2和理光製造的Chat Vector*3,結合理光獨有的技術,開發了高性能的日本大型語言模型(LLM*4)。這樣一來,理光開發和提供的LLM系列中增加了與美國OpenAI開發的GPT-4相當的高性能模型。

隨着生成AI的普及,企業對可用於業務的高性能LLM的需求日益增加。然而,LLM的追加學習存在高成本和時間耗費的挑戰。針對這一問題,將多個模型結合以創建更高性能模型的"模型融合*5"技術備受關注,被視爲一種高效的開發方法。

理光公司基於模型融合的技術與LLM開發的經驗,開發了新的LLM。這項技術有助於提高企業內部私有LLM以及特定業務用途的高性能LLM的開發效率。

除了開發公司自家的LLM外,爲了在客戶的用例和環境下提供最適合的LLM且成本低、交付快,理光將推動各種多樣且高效的方法和技術的研究與開發。

評估結果*6(ELYZA-tasks-100)

在包含複雜指示和任務的代表性日本語基準測試「ELYZA-tasks-100」中,理光通過模型融合方法開發的LLM展示出與GPT-4相當水平的高分。此外,與其他LLM相比,它展現出針對所有任務都用日語回答且表現出高度穩定性,而其他模型在某些任務中以英語回答。

big基準工具(ELYZA-tasks-100)中與其他模型的比較結果(理光位於最下方)

Ricoh的LLM開發背景

在勞動力減少和人口老齡化的背景下,提高生產力和提供高附加值的工作方式成爲企業增長的難題,爲解決此問題,許多企業開始注意使用AI進行業務活用。然而,要將AI應用到實際的應用中,就需要將包含企業專有術語和語句的大量文本數據學習到LLM中,並創建企業獨有的AI模型(專用LLM)。

以國內頂尖的LLM開發/學習技術爲基礎,Ricoh可以提供企業專用LLM的服務,以及推廣使用內部文檔的RAG等各種AI解決方案的建議。

*1Llama-3-Swallow-70B: 由東京工業大學信息工程學院的岡崎直觀教授和橫田理央教授等研究團隊與國立研究開發法人產業技術綜合研究所共同開發的日本語LLM模型。*2Chat Vector: 從具有指令遵循能力的模型中減去基礎模型的權重,提取出指令遵循能力的向量。*3由理光製造的Chat Vector: 從包含約1.6萬條指令調整數據的Instruct模型經過附加學習後提取的Chat Vector ,該模型是對Meta公司的基礎模型「Meta-Llama-3-70B」進行了個性化開發。*4大規模語言模型: 特點在於可以理解跨越文本中不同單詞之間關係的「語境」,從而處理存在於人類所說或寫的自然語言中的歧義或波動。可以以人類級別的準確性執行諸如「對自然文的問題回答」和「文檔摘要」之類的處理,並且這種技術能夠輕鬆學習。*5模型合併: 是一種結合多個預訓練LLM模型以創建性能更高模型的新方法。不需要像GPU這樣大規模的計算資源,因此更容易開發模型,近年來備受關注。*62024年9月24日時點的評估結果。在計算「分數」時,使用了「GPT-4」(gpt-4-0613)和「GPT-4o」(gpt-4o-2024-05-13)以評估生成文,在英語回答中沒有扣分。英語回答任務的比例是回答爲英語的任務佔100個任務的比例。

相關股票新聞

  • 理光開發了7千億參數的大規模語言模型(LLM),支持日語、英語和中文,加強了客戶的私有LLM構建支持。
  • 開發了已經調整好指令的日語LLM,其參數爲130億
  • 開發了具有高日語精度的130億參數的大規模語言模型(LLM)

您可以在PDF文件中查看此新聞稿

理光通過模型融合開發了等同於GPT-4的高性能日語LLM(700億參數),總共224KB,分爲2頁。

※公司名稱和產品名稱均爲各自公司的商標或註冊商標。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論