株式會社ABEJA(總部:東京都港區;代表董事兼首席執行官:岡田洋介;以下簡稱 “ABEJA”)是由國家研究與開發公司新能源和工業技術開發組織(以下簡稱 “NEDO”)提出的 “後5G信息通信系統基礎設施增強研發項目*1/後5G信息通信系統開發”(以下簡稱 “NEDO”)通過人類與人工智能的合作 “實現一個富裕的世界” 很高興地宣佈,“LLM” 已被選中。
ABEJA計劃獲得7億日元的補助金,主要用於建造法學碩士所需的計算資源。
ABEJA進行日本法學碩士和外圍技術(RAG*3,Agent*4)的研究和開發,目的是顯著提高準確性和計算成本效益,這對於LLM的社會實施至關重要。
此外,我們將酌情披露已開發的LLM、源代碼、開發知識等,以便我們可以促進LLM的利用,加速整個社會的人工智能技術創新,併爲下一代研究人員和工程師的發展做出貢獻。
此外,在我們的商業化過程中,我們計劃將其與 “ABEJA LLM系列” 一起廣泛提供,後者自2023年以來已安裝在數字EMS “ABEJA平台” 上。該商業模式假設開源軟件 (OSS) *5 採用分發模式*6,並計劃爲即將發佈的 LLM 的使用提供必要的收費支持。
自2018年以來,ABEJA一直在推動LLM(一種生成式人工智能)的研發,自2023/3年起,“ABEJA LLM系列” 已安裝在ABEJA平台上並提供給客戶公司。目前,爲了實現對客戶公司的LLM的實施,我們已將支持範圍擴大到更廣泛的範圍,並負責通過戰略制定、業務流程構建和業務流程中的運營一直爲客戶提供支持,我們正在努力進一步擴展我們的服務,繼續推進LLM的研發。
ABEJA最近已被採用,我們認爲該項目是實現我們 “實現富裕世界” 管理理念的一項有意義的舉措,將有助於加快LLM在整個社會的實施。
當前,世界各地的公司正在啓動各種舉措,目的是享受以LLM爲中心的生成式人工智能所產生的巨大價值。實際上,在樂觀的情景下,LLM的市場規模預計將迅速擴大,日本對話人工智能業務的市場規模預計將從2023財年的140億日元增長到6905億日元(平均年增長率165.0%,複合年增長率:2023-2027年)(資料來源:種子規劃有限公司 “2023年對話人工智能業務的現狀和未來前景”),同時也是基於ABEJA的預測假設市場規模爲2000億日元。
儘管預計LLM的利用將導致產業結構發生重大變化,但目前,使用LLM時大規模計算資源的消耗是不可避免的,因此,考慮到投資回報率,就會對應用範圍進行限制,這是阻礙LLM社會實施的原因之一。此外,LLM 面臨的典型問題是無法響應最新信息或更新信息的 “知識截止”,以及 “halcination”,後者生成不基於事實的不準確信息。這是因爲LLM知識基於大量的 “現有” 數據,它基於LLM的獨特特性,即 “甚至學習數據中存在的不完整性和錯誤信息”。爲了提高LLM的準確性,必須消除包含不正確或有偏見信息的數據,並學習準確可靠的數據。作爲一種應對方法,有 “微調”,即使用已經學習的LLM的新數據集進行額外的學習,但是每次都會消耗大量的計算資源,這既昂貴又耗時。出於這個原因,現實情況是它僅限於某些企業公司的應用程序。OpenAI在2023年宣佈了 “GPT-3.5 Turbo” 的微調功能,但是可以處理的數據量僅限於4,096個令牌和50 MB以下的文件,因此在實用性方面存在問題。
“RAG(檢索增強生成)” 是一種被視爲有望解決當前此類問題的方法。RAG是一種將LLM與外部數據庫和信息源(以下簡稱 “外部數據”)聯繫起來的技術,並允許LLM結合外部數據中的知識生成答案。只需替換外部數據,無需每次都進行微調,就可以執行與外部數據相關的高精度答案。此外,通過優化 “代理”,LLM將能夠根據輸入內容自主計劃和執行必要的操作,例如使用API和工具。
ABEJA認爲,通過RAG和優化代理提高準確性將提高計算成本性能,帶來經濟合理性和應用範圍的可擴展性,並有力地促進LLM的社會實施。我們認爲,目前正在使用的RAG還有技術進步的空間,我們將通過整合LLM和外圍技術(RAG,Agent)的研究和開發,實現具有高度實用性的開創性方法。請注意,在LLM獨立研發中,現有的開源LLM用作基準,目標是在發佈時在所有JGLUE*7項目中獲得最高分。
ABEJA正在考慮日本未來將在國際人工智能領域發揮重要作用,並在國際社會中建立信息處理技術的新標準。
ABEJA通過向社會提供通過研發獲得的LLM、源代碼、開發知識等,促進LLM的社會實施,其目的是增加使用生成式人工智能的公司和組織的數量,大幅加速社會中的AI技術創新,培養下一代研究人員和工程師,並努力實現ABEJA的企業理念 “實現一個寬敞的世界”。
業務概述
公開發行企業名稱 | 後5G信息通信系統基礎設施提升研究與開發項目/後5G信息通信系統開發 |
我們申請的企業名稱 | 研究和開發廣義法學碩士作爲社會實施法學專業模型的基礎 |
實施期 | 2024/2 到 2024/8 |
目的 | ・研究開發日本法學碩士及周邊技術(RAG、Agent),着眼於LLM的社會實施的通用用途 ・披露通過研發獲得的可交付成果(LLM、源代碼、開發知識等),促進生成式人工智能的利用,加速社會人工智能技術創新,培養下一代研究人員和工程師 ・日本將在國際人工智能領域發揮重要作用,並在國際社會建立信息處理技術的新標準 |
概述 | ・作爲專業化源泉的廣義法學碩士研究與開發 -使用開源 LLM 作爲基準在評估中獲得最高分 -提高外圍技術(RAG、Agent)的準確性並提高數據利用率 ・在社會實施方面,我們的目標是與自己的業務相關的發展,同時披露和提供一些模型和專有技術等可交付成果 -我們提供我們研究和開發的各種法學碩士和外圍技術(RAG、Agent)以及我們目前提供的服務 -發佈通過研發獲得的可交付成果(源代碼、模型、開發專有技術) |
NEDO 出版物詳情 | 收養結果發佈頁面網址:https://www.nedo.go.jp/koubo/IT3_100304.html |
■ 總體概述圖(圖片)
■ 實施時間表
關於條款
※ | 條款 | 內容 |
1 | 後5G信息通信系統基礎設施增強研發項目 | 一家開發核心技術的企業,旨在加強日本國內後5G信息通信系統的開發和製造基礎設施。後5G信息通信系統表示與後5G兼容的通信系統,與第五代移動通信系統(5G)相比,具有進一步增強的功能,例如超低延遲和多個同步連接。https://www.meti.go.jp/policy/mono_info_service/joho/post5g/index.html |
2 | 哈哈 | 它是大型語言模型的縮寫,大規模語言模型是生成式人工智能的領域之一。 |
3 | 抹布 | 檢索增強生成的縮寫。連接外部數據庫和信息源的技術。通過利用這項技術,LLM將能夠根據來自外部數據庫和信息來源的知識生成高度準確的響應。 |
4 | 代理人 | 代理是一種使計劃和執行自主行動成爲可能的技術。通過使用這項技術,LLM可以自主做出決策,計劃和執行行動,例如根據輸入的內容使用API和工具。因此,可以使用學習數據中未包含的外部數據自主創建答案。 |
5 | 開源軟件 (OSS) | 一個通用術語,指無論用戶的目的如何,都可以免費使用、研究、重用、修改、擴展和重新分發源代碼的軟件。 |
6 | 分發模型 | 由 OSS 提供商或其他社區開發的一種商業模式,提供與包含 OSS 的模型所需的維護、錯誤、安全和其他更新相關的支持。ABEJA假設這種商業化採用 “紅帽企業 Linux(RHEL)] 方法。 |
7 | JGLUE | 一組用於衡量日語一般語言理解能力的數據集。LLM 模型是從不同的角度進行評估的。 |
■ 關於株式會社ABEJA
ABEJA的管理理念是 “實現一個寬敞的世界”,並且正在開發 “數字平台業務”,該業務將基於 “ABEJA平台” 改變客戶公司的核心業務流程,並繼續實現業務利潤增長。自2012年成立以來,我們一直在促進ABEJA平台的研發,到目前爲止,我們已經在ABEJA平台上爲不同行業和業務類別的300多家公司實現了數字化轉型。此外,利用 “Human In the Loop” 等先進的專業知識和方法,我們實現了 “Human AI 協調”,這對於數字化轉型至關重要,可以從戰略上高效地轉變核心客戶運營,並且還在努力創新商業模式。
總部:東京都港區三田1-14 Bizflex 麻布十番二樓
成立時間:2012/9/10
代表:代表董事兼首席執行官岡田洋介
業務:數字平台業務