学术讲座：大模型与强化学习——算法架构、工程体系与前沿

2025/11/08 11:35:36人浏览

讲座题目

大模型与强化学习——算法架构、工程体系与前沿

演讲嘉宾

余昌叶腾讯科技

讲座时间

2025年11月9日（周日）上午10:00

讲座地点

香蕉视频沧海校区致信楼S630A会议室

邀请人

崔玉康副教授

讲座内容简介

本报告从算法体系与工程落地的双重视角，系统讲述大模型所涉多方面技术与实践，涵盖大语言模型（LLM）与多模态大模型（VLM）的原理概要、技术架构与算法体系、多种训练范式、强化学习的算法架构、大模型训练流程、免训练的效果优化技术、模型推理加速与评测、在互联网等行业的应用，以及当前研究热点与发展趋势，并重点阐述当下AI研究热点——强化学习的算法架构及其与大模型的结合。在大模型的训练算法方面，包含SFT、DPO、强化学习（OpenAI提出的PPO、DeepSeek提出的GRPO）等经典训练算法与范式。进一步，在不更改参数（不训练）的情况下，也可以通过CoT、解码参数调优、Prompt工程、工具调用、RAG等技术，行之有效地快速提升大模型的效果表现。同时，结合个人在腾讯等一线互联网大厂内从事的AI相关方面的工作经验、大模型预训练和后训练经验，以工程视角揭示大模型的落地应用，涵盖大模型的训练流程与模型加速等关键环节。并聚焦最具应用价值的算法体系，分析当前大模型在互联网等行业的应用与价值。最后，结合当前大模型的痛点与研究热点，讨论以Agentic RL等方向为代表的大模型的发展趋势。

演讲嘉宾简介

余昌叶，资深算法工程师，毕业于哈尔滨工业大学。著有AI算法畅销书《大模型算法：强化学习、微调与对齐》，主导及参与多个知名AI开源项目。曾就职于腾讯等多家一线互联网企业，拥有十余年行业经验，在大模型预训练、强化学习后训练、多模态大模型、推荐系统、大规模分布式训练以及互联网行业的AI技术研究与落地方面，积累了体系化的算法理论与工程经验。已获六项国家发明专利，曾荣获科研类全国航空航天模型锦标赛亚军，以及腾讯卓越研发金奖（团队）、腾讯知识奖等多项企业级荣誉。

欢迎大家参加！

撰写：任露洋

排版：陈仕发

一审一校：任露洋

二审二校：马将

三审三校：郑纯

上一篇：学术讲座：尾座式无人机自主导航飞行
下一篇：学术讲座：Stability of stochastic nonlinear systems with semi-Markov switching