跨模态前沿AI技术有哪些产业应用? | TF70回顾
CCF TF70“跨模态AI技术及产业应用“于线上成功举办。三位业内专家深入分析跨模态AI技术及其应用于产业方面的实践案例,为参会者提供了参考。本年度算法与AI SIG还有两场活动,详细时间请见文末。
随着AI逐步落地,产业需求不断深入,在单模态领域,如翻译等相关应用,AI的能力已经可以达到媲美人类的水平。但随着技术和产业的进一步发展,多模态成为了AI技术和产业突围的新方向,更多场景应用需要多模态大模型来支撑,例如跨模态检索、智能问答、文学艺术创作、视频配音、视频摘要等等。
如今跨模态AI技术有哪些前沿的研究成果及优秀的产业应用?未来的发展之路又将走向何方?本期活动邀请到Jina AI高级AI工程师王峰、超对称技术首席科学家吴恒魁、网易有道NLP算法专家程桥等企业专家,深入分享跨模态AI技术的相关思考及产业实践。CCF TF算法与AI SIG主席、网易有道首席科学家、段亦涛担任主持人。
CCF TF算法与AI SIG主席段亦涛
《神经搜索在3D场景中的研究与应用》
王峰分享内容
来自Jina AI 王峰的报告题目是《神经搜索在3D场景中的研究与应用》,3D 物体的表征形式多种多样,相比于文本、图像,其包含了物体更加丰富的信息。精确建模与理解这些3D物体可以帮助我们更好的实现对 3D 模型进行分类、搜索、以及管理。将深度表征学习与 3D 模型数据结合可以将 3D 物体的特征更好的展现出来,以此支持各个领域下对 3D 物体数据的搜索需求。
《让预训练语言模型读懂数字:10亿参数时序-文本跨模态模型Big Bang Transformer》
吴恒魁分享内容
来自超对称技术的吴恒魁在报告中主要分享了超对称技术公司发布的10亿参数金融预训练语言模型BigBang Transformer(乾元),基于时序-文本跨模态架构,融合训练文本和时序两种模态数据,下游任务准确率较T5同级别模型提升近10%,并大幅提高时序预测的R2 score,跨模态架构能让语言模型识别时序数据的变化并通过人类语言来分析和阐述其发现。