6月18日下午, CCF YOCSEF上海在嘉里城1号店 “赢和冠军”会议室成功举办了题为“语义计算在电商中的应用”学术报告会。苏州大学计算机系陈文亮教授、阿里巴巴算法专家吴晨博士、达观数据CEO陈运文先生三位担任演讲嘉宾。此外,东南大学教授漆桂林博士、浙江大学陈华钧教授担任了Panel嘉宾。来自1号店、携程等多家公司的技术人员参加了此次活动。
本次活动的执行主席和主持人是CCF YOCSEF上海委员、1号店搜索部计峰博士,以及YOCSEF上海副主席、华东理工大学王昊奋博士。本次活动的承办及赞助单位是1号店。
报告会首先由1号店搜索与精准化VP宋荣先生致辞。他首先代表1号店搜索与精准化部向各位与会的来宾表示感谢,同时表示这次活动也是1号店第一次与学术组织举办交流活动,也寄希望于本次活动可以成为1号店与学术界和兄弟公司沟通的开端,最后预祝本次活动能够圆满成功。
本次报告会的第一位演讲嘉宾是苏州大学计算机科学与技术学院陈文亮教授。他首先讲到面向互联网文本处理的语言分析,提到互联网文本种类多、数量大,可以用于用户兴趣分析、舆情分析等,主要可通过分词、词性标注、句法分析、信息抽取等自然语言处理方法实现。但此过程中面临着现有语言分析工具性能下降的很快、互联网文本人工标注语料代价高速度慢等挑战。针对这些问题他提出人工局部标注和使用大规模无标注语料,建立局部标注语料+完整标注语料的局部标注学习框架,在框架中把局部标注转换成森林,并最大化森林概率。结果表明这种局部标注学习可以达到和完全标注相当的性能,节约大约60-70%的人工。接下来他提到针对大规模无标注语料使用中存在有监督依存分析、无监督依存分析,以及半监督依存分析,但有监督方法较难增加标注语料,而无监督方法虽无代价但性能较低,相比之下基于半监督方法的依存分析,主要为无标注语料+现有标注语料的方法,代价较小并且性能较高。经典模型主要有self-training和co-training,特点是使用整颗自动标注依存树,在此基础上探索使用子树结构,可解决整句标注不可靠的问题,准确率可达到84%,可以减少人工并很大程度提高性能。第二部分陈教授讲到特定领域的知识获取,可通过人工选定种子词、自动学习新词、层次聚类等半自动学习方法。第三部分讲到用户评论分析与表示,互联网在线评论数量大、文本杂乱、噪音大等特点,针对这些问题他提出层次表示法,具体为建立基于层此次化只是表示体系、属性标签层次化,来从评论文本中挖掘新关系。
本次报告会的第二位嘉宾是达观数据CEO陈运文先生。他首先梳理了个性化数据挖掘的缘由,提到获取信息的两种主要方式是搜索引擎和推荐系统,搜索引擎是主动、明确的用户行为,而推荐系统是被动、模糊的用户行为,在面对陌生领域和难以用文字表达需求的场景中个性化需求体现更明显。接下来他提到了个性化推荐系统的技术架构和工程实践。首先是协同过滤可用来优化推荐质量,这种方法充分利用了用户的群体智慧,能够挖掘隐含的相关性,展现跨越字面内容的推荐结果,推荐精度常高于content-based算法。而SVD等MF分解模型通常有更好的推荐精度,这种方法层充分利用User/Item bias信息,并且属性之间进行各种组合可作为全局bias来运用。在第三部分他具体介绍了开发个性化推荐系统的工程经验,其中有采用典型的三层架构(Offline-Nearline-Online)的分层模型来协调实时运算和离线挖掘,对训练样本深度挖掘,合理选取训练数据正负样本,并使用多种推荐策略Ensemble融合方法,效果会好于单模型方法。此外还提到实践中需融合显示反馈和隐式反馈,显示反馈随容易获取但数量较稀疏,隐式反馈数据量较大但往往被忽略。可采用SVD及SVD++来挖掘隐式反馈,并修正user/item latent vector,提高推荐精度,有效补充了显式数据不足的问题。最后陈先生谈到企业服务的实践与体会,对不同类型的商品,如快消品、周期型商品、耐用品及二次元商品等需有不同的推荐策略,并需要针对一些场景做数据的过滤,如一些负反馈数据,在推荐给用户多次但没有正反馈就需要将数据进行过滤,反之较影响推荐效果。
两个报告过后迎来了茶歇和自由讨论时间。所有与会的嘉宾和听众都聚集到1号店的前台留下了纪念合影。合影过后,由1号店搜索部的张志浩总监带领大家参观了1号店嘉里城办公室的工作环境。回到“赢和冠军”会议室后,志愿者为大家准备了点心、水果和饮料,在场的听众们围绕嘉宾报告中的内容展开讨论,气氛友好且热烈。
茶歇过后开始了下半场的报告及Panel讨论。
本次报告会的第三位嘉宾是阿里巴巴公司的算法专家吴晨博士,他重点介绍了搜索中的query自动生成(QAC)技术,首先提到QAC的场景是在用户输入单个词,根据用户意图预测出可能性最高的query,这样可使用户搜索更快捷并降低服务器的负载。接下来他介绍了语义搜索是基于用户意图和搜索词的上下文进行检索, 并不只依赖于query中的词面意思,相关的特征有当前热点、搜索的位置、同义词等。在第三部分重点展开讲解了query自动补全技术,先指出依据出现较多的query去补全会容易在少量搜索词输入时错误估计用户的真实意图,对大量长尾的不常见的query较难应对。针对这种问题提出上下文敏感的query自动补全方法,依赖于用户最近的query、最近浏览的页面及最近的社交网站行为等来预估。并进一步讲到通过query推荐算法来对query扩展以提高覆盖率和准确率,其中一种典型算法是基于树的推荐算法,这种算法中越深层的树节点会和种子query的相关性越低。算法评估是先从query日志中随机选取(context,query)对做测试集,给定上下文和query首字符来预测意图query的排序位置是否较高。另外还介绍了混合补全的方法,将较热门query和上下文较相似的混合做补全。第四部分讲到了词向量在query重生成中的应用,构建n-gram相似性特征、pairwise特征,及基于卷积隐语义模型(CLSM)的主题相似性特征和重生成特征,模型训练结果明显好于未加CLSM特征的情况。最后在词向量之外介绍了主题模型的现状及和词向量之间的比较。
接下来的Panel讨论环节,Panel嘉宾与在场听众一起围绕多个问题进行了热烈的讨论和思辨,其中形成的主要观点包括:1)相比深度学习等最近很火热的技术,188体育app官网:具有更好的可解释性,对于电商来说其实用性更强;2)在电商移动化和智能化的今天,无论是学术界还是工业界都认为188体育app官网:将有立足之地。其中,如何进行知识的表示和知识的抽取和融合是其中的难点;3)CCF YOCSEF是一个很好的平台来联系工业界和学术界,同时开放188体育app官网:联盟也提供了一个机会来解决学术界缺乏真实数据和需求,工业界缺乏人才和先进算法的窘境,提出举办竞赛、促进企业科研机构合作项目等方式来加速188体育app官网:产学研结合。
Panel结束后,YOCSEF上海主席、复旦大学的彭鑫教授总结发言。他提到这次尝试在企业举办学术报告会是一种新的尝试,这种新的方式有助于架起学术界和企业沟通的桥梁。YOCSEF上海虽然以学术界为主体,但也希望能有更多的企业界委员加入,为扩大YOCSEF的影响力以及促进企业技术交流添砖加瓦。
