阿里安全大模型工程實踐、NVIDIA NIM 推理微服務解析 | 研討會直播預告

智東西 · 05/16 18:32

5月16日19点，智猩猩将举办「企业级大模型工程实践在线研讨会」。阿里巴巴 AI 基础架构工程师刘彬（花名：慧原）、NVIDIA 软件解决方案架构师吴金钟两位技术专家将分别做题为《阿里安全大模型工程实践》、《NVIDIA NIM 推理微服务加速企业级生成式 AI 应用落地》的专题分享和线上答疑。

演讲介绍

演讲一：阿里安全大模型工程实践

演讲嘉宾：刘彬（花名：慧原），阿里巴巴 AI 基础架构工程师

演讲时间：5 月 16 日 19:00 – 19:30

内容概要：

本演讲将深入探讨在阿里安全在大模型应用、特别是 Transformer 模型的工程实践和优化策略。演讲将从模型的结构分析、训练、部署、推理优化、量化技术到未来规划，向 AI 领域的工程师、研究人员和开发者，提供阿里安全团队在大模型技术应用的阶段性实践成果分享。在具体实践中，阿里安全采用 NVIDIA NeMo 框架和 TensorRT-LLM 显著优化了模型训练与推理性能。其中 NeMo 在多卡环境可实现 2-3 倍的训练加速，TensorRT-LLM 结合 SmoothQuant Int8 可实现领先的推理加速比，动态批处理策略 (Dynamic Batch) 将计算步骤减少 30%，实际 QPS 增益 2-3 倍。Prompt 优化策略在特定业务中提升吞吐高达 10 倍。整体优化成果显著增强了模型性能与业务效率。

听讲受益：

1. 技术洞察：深入理解大模型在实际应用中的工程挑战与优化策略，特别是在 Transformer 模型的处理、分布式训练和资源管理。

2. 应用实践指南：对于 AI 开发者和工程师，演讲将提供明确的模型训练、部署、优化、量化技术方案，如应用 NVIDIA NeMo 框架、TensoRT-LLM 推理加速库、动态批处理策略（Dynamic Batch）、Prompt 优化策略等，值得借鉴学习。

3. 量化决策：模型量化方法和评估的介绍，帮助您在选择适合业务的量化方案，平衡精度与资源消耗。

演讲二：NVIDIA NIM 推理微服务加速企业级生成式 AI 应用落地

演讲嘉宾：吴金钟，NVIDIA 软件解决方案架构师

演讲时间：5 月 16 日 19:30 – 20:00

内容概要：

进入 2024 年，企业正将注意力转向大规模生产部署，其中包括将 AI 模型连接到现有企业基础设施、优化系统延迟和吞吐量、日志记录、监控和安全性等。这种生产路径既复杂又耗时，需要专业技能、平台和流程，尤其是在大规模部署的时候。

NVIDIA NIM (NVIDIA Inference Microservice) 可以帮助企业解决上述问题。NIM 是一个容器化的推理微服务，包含行业标准 API、特定领域的代码、优化的推理引擎和企业运行时，是 NVIDIA AI Enterprise 的一部分。它是一种全新的软件打包和交付方式，能够快速部署各种定制 AI，并简化生成式 AI 模型在数亿 GPU 环境上的部署，包括云、数据中心和 GPU 加速的工作站。

本演讲将介绍 NVIDIA 如何通过 NIM 推理微服务赋能企业快速实现生成式 AI 技术的实际应用落地，共分为三个核心部分：NIM 概述、NIM 加速生成式 AI 全流程构建、通过 NIM demo 展示其可无缝接入现有 AI 开发管道、快速构建行业 AI 应用、快速构建多智能体 AI 应用的能力和巨大潜力。

听讲受益：

4. 企业决策者：了解 NIM 推理微服务如何简化生成式 AI 部署，加速业务转型，降低模型的选型、开发、验证、服务迁移等一系列成本，并大幅提升部署效率。

5. 技术团队：获取 NIM 推理微服务实现生成式 AI 快速大规模部署的实践指南，从数据处理到部署、优化、评估、推理，一站式解决方案。

6. 开发者：学习如何集成 NVIDIA NIM 推理微服务到现有 AI 开发管道，通过快、好、省的方式实现概念验证。

7. 研究人员：了解 NVIDIA 针对 LLM 推理和部署优化所提供的软件及微服务，包含可用来支持各类大模型推理优化和部署的 TensorRT-LLM 及Triton 推理服务器等技术。

报名方式

对此次研讨会感兴趣的朋友，可以扫描下方二维码，添加小助手格尔进行报名。已添加过格尔的老朋友，可以给格尔私信，发送“NVIDIA2403”即可报名。

我们会为审核通过的朋友推送直播链接。同时，本次研讨会也组建了交流群，直播开始前会邀请审核通过的相关朋友入群交流。

5月16日19點，智猩猩將舉辦「企業級大模型工程實踐在線研討會」。阿里巴巴 AI 基礎架構工程師劉彬（花名：慧原）、NVIDIA 軟件解決方案架構師吳金鐘兩位技術專家將分別做題爲《阿里安全大模型工程實踐》、《NVIDIA NIM 推理微服務加速企業級生成式 AI 應用落地》的專題分享和線上答疑。

演講介紹

演講一：阿里安全大模型工程實踐

演講嘉賓：劉彬（花名：慧原），阿里巴巴 AI 基礎架構工程師

演講時間：5 月 16 日 19:00 – 19:30

內容概要：

本演講將深入探討在阿里安全在大模型應用、特別是 Transformer 模型的工程實踐和優化策略。演講將從模型的結構分析、訓練、部署、推理優化、量化技術到未來規劃，向 AI 領域的工程師、研究人員和開發者，提供阿里安全團隊在大模型技術應用的階段性實踐成果分享。在具體實踐中，阿里安全採用 NVIDIA NeMo 框架和 TensorRT-LLM 顯著優化了模型訓練與推理性能。其中 NeMo 在多卡環境可實現 2-3 倍的訓練加速，TensorRT-LLM 結合 SmoothQuant Int8 可實現領先的推理加速比，動態批處理策略 (Dynamic Batch) 將計算步驟減少 30%，實際 QPS 增益 2-3 倍。Prompt 優化策略在特定業務中提升吞吐高達 10 倍。整體優化成果顯著增強了模型性能與業務效率。

聽講受益：

1. 技術洞察：深入理解大模型在實際應用中的工程挑戰與優化策略，特別是在 Transformer 模型的處理、分佈式訓練和資源管理。

2. 應用實踐指南：對於 AI 開發者和工程師，演講將提供明確的模型訓練、部署、優化、量化技術方案，如應用 NVIDIA NeMo 框架、TensoRT-LLM 推理加速庫、動態批處理策略（Dynamic Batch）、Prompt 優化策略等，值得借鑑學習。

3. 量化決策：模型量化方法和評估的介紹，幫助您在選擇適合業務的量化方案，平衡精度與資源消耗。

演講二：NVIDIA NIM 推理微服務加速企業級生成式 AI 應用落地

演講嘉賓：吳金鐘，NVIDIA 軟件解決方案架構師

演講時間：5 月 16 日 19:30 – 20:00

內容概要：

進入 2024 年，企業正將注意力轉向大規模生產部署，其中包括將 AI 模型連接到現有企業基礎設施、優化系統延遲和吞吐量、日誌記錄、監控和安全性等。這種生產路徑既複雜又耗時，需要專業技能、平台和流程，尤其是在大規模部署的時候。

NVIDIA NIM (NVIDIA Inference Microservice) 可以幫助企業解決上述問題。NIM 是一個容器化的推理微服務，包含行業標準 API、特定領域的代碼、優化的推理引擎和企業運行時，是 NVIDIA AI Enterprise 的一部分。它是一種全新的軟件打包和交付方式，能夠快速部署各種定製 AI，並簡化生成式 AI 模型在數億 GPU 環境上的部署，包括雲、數據中心和 GPU 加速的工作站。

本演講將介紹 NVIDIA 如何通過 NIM 推理微服務賦能企業快速實現生成式 AI 技術的實際應用落地，共分爲三個核心部分：NIM 概述、NIM 加速生成式 AI 全流程構建、通過 NIM demo 展示其可無縫接入現有 AI 開發管道、快速構建行業 AI 應用、快速構建多智能體 AI 應用的能力和巨大潛力。

聽講受益：

4. 企業決策者：了解 NIM 推理微服務如何簡化生成式 AI 部署，加速業務轉型，降低模型的選型、開發、驗證、服務遷移等一系列成本，並大幅提升部署效率。

5. 技術團隊：獲取 NIM 推理微服務實現生成式 AI 快速大規模部署的實踐指南，從數據處理到部署、優化、評估、推理，一站式解決方案。

6. 開發者：學習如何集成 NVIDIA NIM 推理微服務到現有 AI 開發管道，通過快、好、省的方式實現概念驗證。

7. 研究人員：了解 NVIDIA 針對 LLM 推理和部署優化所提供的軟件及微服務，包含可用來支持各類大模型推理優化和部署的 TensorRT-LLM 及Triton 推理服務器等技術。

報名方式

對此次研討會感興趣的朋友，可以掃描下方二維碼，添加小助手格爾進行報名。已添加過格爾的老朋友，可以給格爾私信，發送“NVIDIA2403”即可報名。

我們會爲審核通過的朋友推送直播鏈接。同時，本次研討會也組建了交流群，直播開始前會邀請審核通過的相關朋友入群交流。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

阿里安全大模型工程实践、NVIDIA NIM 推理微服务解析 | 研讨会直播预告

阿里安全大模型工程實踐、NVIDIA NIM 推理微服務解析 | 研討會直播預告

風險及免責聲明

聲明