5月16日19點,智猩猩將舉辦「企業級大模型工程實踐在線研討會」。阿里巴巴 AI 基礎架構工程師劉彬(花名:慧原)、NVIDIA 軟件解決方案架構師吳金鐘兩位技術專家將分別做題爲《阿里安全大模型工程實踐》、《NVIDIA NIM 推理微服務加速企業級生成式 AI 應用落地》的專題分享和線上答疑。
演講介紹
演講一: 阿里安全大模型工程實踐
演講嘉賓:劉彬(花名:慧原),阿里巴巴 AI 基礎架構工程師
演講時間:5 月 16 日 19:00 – 19:30
內容概要:
本演講將深入探討在阿里安全在大模型應用、特別是 Transformer 模型的工程實踐和優化策略。演講將從模型的結構分析、訓練、部署、推理優化、量化技術到未來規劃,向 AI 領域的工程師、研究人員和開發者,提供阿里安全團隊在大模型技術應用的階段性實踐成果分享。在具體實踐中,阿里安全採用 NVIDIA NeMo 框架和 TensorRT-LLM 顯著優化了模型訓練與推理性能。其中 NeMo 在多卡環境可實現 2-3 倍的訓練加速,TensorRT-LLM 結合 SmoothQuant Int8 可實現領先的推理加速比,動態批處理策略 (Dynamic Batch) 將計算步驟減少 30%,實際 QPS 增益 2-3 倍。Prompt 優化策略在特定業務中提升吞吐高達 10 倍。整體優化成果顯著增強了模型性能與業務效率。
聽講受益:
1. 技術洞察:深入理解大模型在實際應用中的工程挑戰與優化策略,特別是在 Transformer 模型的處理、分佈式訓練和資源管理。
2. 應用實踐指南:對於 AI 開發者和工程師,演講將提供明確的模型訓練、部署、優化、量化技術方案,如應用 NVIDIA NeMo 框架、TensoRT-LLM 推理加速庫、動態批處理策略(Dynamic Batch)、Prompt 優化策略等,值得借鑑學習。
3. 量化決策:模型量化方法和評估的介紹,幫助您在選擇適合業務的量化方案,平衡精度與資源消耗。
演講二:NVIDIA NIM 推理微服務加速企業級生成式 AI 應用落地
演講嘉賓:吳金鐘,NVIDIA 軟件解決方案架構師
演講時間:5 月 16 日 19:30 – 20:00
內容概要:
進入 2024 年,企業正將注意力轉向大規模生產部署,其中包括將 AI 模型連接到現有企業基礎設施、優化系統延遲和吞吐量、日誌記錄、監控和安全性等。這種生產路徑既複雜又耗時,需要專業技能、平台和流程,尤其是在大規模部署的時候。
NVIDIA NIM (NVIDIA Inference Microservice) 可以幫助企業解決上述問題。NIM 是一個容器化的推理微服務,包含行業標準 API、特定領域的代碼、優化的推理引擎和企業運行時,是 NVIDIA AI Enterprise 的一部分。它是一種全新的軟件打包和交付方式,能夠快速部署各種定製 AI,並簡化生成式 AI 模型在數億 GPU 環境上的部署,包括雲、數據中心和 GPU 加速的工作站。
本演講將介紹 NVIDIA 如何通過 NIM 推理微服務賦能企業快速實現生成式 AI 技術的實際應用落地,共分爲三個核心部分:NIM 概述、NIM 加速生成式 AI 全流程構建、通過 NIM demo 展示其可無縫接入現有 AI 開發管道、快速構建行業 AI 應用、快速構建多智能體 AI 應用的能力和巨大潛力。
聽講受益:
4. 企業決策者:了解 NIM 推理微服務如何簡化生成式 AI 部署,加速業務轉型,降低模型的選型、開發、驗證、服務遷移等一系列成本,並大幅提升部署效率。
5. 技術團隊:獲取 NIM 推理微服務實現生成式 AI 快速大規模部署的實踐指南,從數據處理到部署、優化、評估、推理,一站式解決方案。
6. 開發者:學習如何集成 NVIDIA NIM 推理微服務到現有 AI 開發管道,通過快、好、省的方式實現概念驗證。
7. 研究人員:了解 NVIDIA 針對 LLM 推理和部署優化所提供的軟件及微服務,包含可用來支持各類大模型推理優化和部署的 TensorRT-LLM 及Triton 推理服務器等技術。
報名方式
對此次研討會感興趣的朋友,可以掃描下方二維碼,添加小助手格爾進行報名。已添加過格爾的老朋友,可以給格爾私信,發送“NVIDIA2403”即可報名。
我們會爲審核通過的朋友推送直播鏈接。同時,本次研討會也組建了交流群,直播開始前會邀請審核通過的相關朋友入群交流。