188体育app官网_188体育投注

返回首页

“导师有约”系列活动第177期暨“计电讲坛”系列活动第34期:大语言模型技术解析

阅读量:0 2025-05-13 收藏本文

为了深化研究生对语言模型技术的理解,2025年4月22日下午,由CCF广西大学学生分会、广西大学计算机与电子信息学院研究生会联合举办的第177期“导师有约”系列活动暨第34期“计电讲坛”在学院一楼报告厅顺利举行。本次活动以“大语言模型技术解析”为主题,特邀学院青年教师肖文婧老师作为主讲嘉宾,由学院研究生会成员沈晓亮同学主持,学院团委书记杨洋老师、研究生会秘书长张星月老师出席会议,现场学术氛围浓厚。

图1 主持人沈晓亮同学介绍主讲嘉宾


肖文婧老师主要从事5G网络,移动边缘计算,智能服务优化等方向的研究,并取得了一定影响力的成果。目前在国际期刊和高水平会议上共发表论文30+篇。

2 肖文婧老师讲解大语言模型


在讲座中,肖文婧老师以语言模型的技术发展为主线,系统回顾了从传统统计模型到现代大语言模型的演进历程。她强调,2017年Transformer架构的提出彻底改变了自然语言处理领域,其核心的多头注意力机制与自监督训练模式为后续大模型的爆发奠定了基础。近年来兴起的混合专家模型(Mixture of Experts, MoE)通过“参数按需激活”机制,动态选择不同专家网络处理任务,显著提升了模型的计算效率与性能表现。以国产大模型DeepSeek为例,肖老师深入剖析了其技术亮点:

1.动态负载均衡策略:通过无辅助损失设计优化专家网络激活分布,避免训练资源浪费;

2.多头潜在注意力:结合低秩压缩技术降低计算复杂度,兼顾推理速度与模型性能;

3.多次元预测架构:单次推理预测多步结果,增强长上下文理解能力,大幅降低训练成本。

肖老师还指出,DeepSeek通过开源框架与工程优化,为中小团队提供了“跳过预训练、专注垂直领域微调”的可行路径,极大降低了技术落地门槛。

在探讨大模型的“类人化”能力时,肖文婧老师以DeepSeek-R1模型为例,解析了强化学习与思维链(Chain-of-Thought)技术的结合应用。该模型通过显式化的推理路径生成,在数学解题、代码生成等任务中展现出接近人类的逻辑分析能力。“模型不仅能输出答案,还能主动提示‘我需要更多时间思考’,这种交互式推理是技术突破的重要标志。”肖老师通过实验案例展示了AI技术的潜力,并鼓励学生善用开源工具,将大模型融入科研实践,提升创新效率。

图3 同学们踊跃提问


在互动环节,师生们围绕技术细节与科研实践展开热烈讨论。针对“如何平衡模型性能与资源限制”的提问,肖老师建议:“聚焦垂直场景,利用开源框架进行针对性微调,同时关注多模态融合的创新机会。”

活动最后,肖文婧老师总结道,大语言模型的技术革新为学术研究提供了全新工具,但其应用仍需结合领域知识与实际需求。她呼吁学生关注技术落地的伦理问题,探索更具社会价值的创新方向。


图4 嘉宾与工作人员合影留念


本次讲座通过深入浅出的技术解析与生动案例,不仅加深了师生对大语言模型的理解,更激发了科研创新热情。未来,计算机与电子信息学院将持续举办系列学术活动,为人工智能技术的探索与实践搭建交流平台,助力学术成长与技术进步。