香蕉视频

香蕉视频  ·  学院动态  ·  学术讲座  ·  正文

学术讲座:大模型与强化学习——算法架构、工程体系与前沿

2025/11/08 11:35:36人浏览

讲座题目

大模型与强化学习——算法架构、工程体系与前沿



演讲嘉宾

余昌叶 腾讯科技


讲座时间

2025年11月9日(周日)上午10:00


讲座地点

香蕉视频 沧海校区致信楼S630A会议室


邀请人

崔玉康 副教授


讲座内容简介

本报告从算法体系与工程落地的双重视角,系统讲述大模型所涉多方面技术与实践,涵盖大语言模型(LLM)与多模态大模型(VLM)的原理概要、技术架构与算法体系、多种训练范式、强化学习的算法架构、大模型训练流程、免训练的效果优化技术、模型推理加速与评测、在互联网等行业的应用,以及当前研究热点与发展趋势,并重点阐述当下AI研究热点——强化学习的算法架构及其与大模型的结合。在大模型的训练算法方面,包含SFT、DPO、强化学习(OpenAI提出的PPO、DeepSeek提出的GRPO)等经典训练算法与范式。进一步,在不更改参数(不训练)的情况下,也可以通过CoT、解码参数调优、Prompt工程、工具调用、RAG等技术,行之有效地快速提升大模型的效果表现。同时,结合个人在腾讯等一线互联网大厂内从事的AI相关方面的工作经验、大模型预训练和后训练经验,以工程视角揭示大模型的落地应用,涵盖大模型的训练流程与模型加速等关键环节。并聚焦最具应用价值的算法体系,分析当前大模型在互联网等行业的应用与价值。最后,结合当前大模型的痛点与研究热点,讨论以Agentic RL等方向为代表的大模型的发展趋势。


演讲嘉宾简介

余昌叶,资深算法工程师,毕业于哈尔滨工业大学。著有AI算法畅销书《大模型算法:强化学习、微调与对齐》,主导及参与多个知名AI开源项目。曾就职于腾讯等多家一线互联网企业,拥有十余年行业经验,在大模型预训练、强化学习后训练、多模态大模型、推荐系统、大规模分布式训练以及互联网行业的AI技术研究与落地方面,积累了体系化的算法理论与工程经验。已获六项国家发明专利,曾荣获科研类全国航空航天模型锦标赛亚军,以及腾讯卓越研发金奖(团队)、腾讯知识奖等多项企业级荣誉。

欢迎大家参加!



撰写:任露洋

排版:陈仕发

一审一校:任露洋

二审二校:马将

三审三校:郑纯