CCF-GAIR-2019 参会体验

这是第二次去CCF-GAIR,第二年,第二次,可以看清很多东西,比如教授的ppt会重复,比如干货在什么时候产出不重要,在什么时候听什么时候传播才是发挥价值的时候;第一次听的时候会觉得接触了新世界;第二次听就是,哦,我懂。失去了初学者的乐趣。

总之这是一场大型的大佬social,渣渣打酱油的会议。好在亲眼见了两个idol,周明和杨强。

去年参会体验链接:CCF-GAIR-2018 参会体验

今年不打算像去年那样什么都写一点了,打算只写点与NLP相关的东西。但是说实话,相关会场的也不多。虽然没有专门的NLP会场,但是旁听其他会场后还是有一些NLP的影子,比如:平安的智能HR,科大讯飞的智能批作业,微众银行的智能风控,其它的还有智能舆情监控,智能客服,搜索引擎等等。我打算只写周明老师的分享会观后感。周明老师是我的爱豆~ 做NLP的应该无人不知无人不晓了吧。也不打算抄着雷锋网的笔记了,先上一篇雷锋网总结的笔录:周明:自然语言处理的未来之路 | CCF-GAIR 2019

题目:自然语言处理的未来之路 | 演讲人:周明

分享的前期的NLP科普和发展史略过,周明老师对于NLP的现状和未来发展的看法:过去40年,自然语言基本上经历了从规则到统计,到现在的神经网络。相比过去,目前可以说是自然语言处理最黄金的时期,在很多领域都取得了突破性的进展。但我们审慎地看到神经网络自然语言处理过度依赖计算资源和数据,在建模、推理和解释方面还存在许多的不足。目前存在的问题:

  • 第一个是无休止的计算资源的军备竞赛。
    这个比较好理解,在目前的NLP的比赛里,资源相争还是一大潮流,大家喜欢把注压在机器性能提升上。周博士原话:现在大家都用大规模的机器训练,同样的算法,只要训练速度快,就可以快速迭代,然后你的水平就比别人高。与之同时,当然也特别耗资源,许多模型一训练可能要好几天或者好几万美金。有时候它管事,但有时候也不管事。

  • 第二个是过度依赖数据。
    首先你要标数据,标注的代价是非常大的。其次,数据有隐含歧视的问题,通过数据分析,可能会得到歧视性的结果。另外数据有偏差,数据在标注的时候请人标注,人都是偷懒的,想最简单的方法去标注,结果标注的数据千篇一律,基于这样的数据学的模型也只能解决标注的数据,拿到真实任务上由于跟你标注分布不一样,所以根本不好使。比如说我们做Q&A问答系统,我们在所有的问答里面都假设是第一名,但到了搜索引擎上有很多简单的问题都解决不好。此外,还有数据隐私保护等等问题。

再看目前使用神经网络处理的三种典型任务,如果解决的好,自然语言的任务就基本OK了:

  • Rich resource 比如机器翻译任务,上下文,还未能真正做到歧义消解,人类知识的借鉴
  • Low resource 没什么语料的任务,学起来很难,因此要借力:
    • transfer learning 迁移学习,NLP的新范式:预训练+细调:
      我们可以针对大规模的语料,提前训练好一个模型,这个模型既代表了语言的结构信息,也有可能代表了所在领域甚至常识的信息,只不过我们看不懂。加上我们未来的预定的任务,这个任务只有很小的训练样本,把通过大训练样本得到的预训练模型,做到小训练样本上,效果就得到了非常好的提升。
    • cross-lingual learning 跨语言学习
    • unsupervised 无监督
    • prior knowledge; human role 先验规则;字典;人的强化学习
    • 利用种子进行迭代学习,比如我有一个小辞典,有几条规则,有几条双语,我能不能用它当做一个引子,做一个冷启动,启动之后再迭代改进。
  • Multi-turn task 多轮任务,例如智能客服,涉及语义分析,指代消解,省略部分补充等任务
    目前的情况/劣势:
    • 缺乏常识&推理
      推理是要做很多事情。第一是要了解上下文,说过什么话,答过什么问题,干过什么事都要存储起来,记忆起来。第二是各种各样的知识要用起来。第三才是推理的部分,这里面涉及到语义分析、上下文的指代消解、省略消解。最后,还有就是可解释的问题,如果你的推理不可解释的话,那就没有人会相信,导致你的系统无法进行进一步的推进。
    • 前后不一致:时间、空间、逻辑不一致

未来的方向,可解释的,有知识的,有道德的,可自我学习的NLP,从现存的实际任务出发。

周明老师总结了NLP的未来之路主要有6个角度非常重要:计算机的能力,数据,模型,人才,合作,应用。

很多周明教授提到的问题其实我之前都有遇到过,但是当时想法就是,该怎么解决,结果就是花好大力气都只提升很小甚至没有提升,后来才发现这是行业内的问题。因此应该多借鉴他人在遇到问题时的情况,当时无知以为是只有自己才遇到了这些问题,钻在里面就不出来,这样收效甚微。

写在会后

  1. 虽然NLP是研究和发展了好多年,但我还是觉得这是很年轻的技术,谈不上成熟,因此还有很多可以研究和探索的地方,难度也是可想而知的,但是莫名地对有提升空间的东西感兴趣,这样对初学者也比较友好,追赶难度小。

  2. 这种会议最好是带着问题去,不然收获不了什么。无论哪种学习形式,有人分享的场合里,首先了解分享概要和分享方向,将其与自己的知识体系做匹配,又不相关又不感兴趣的,无论人家在讲什么,听者都是浪费时间。而刚好与自己的研究方向匹配的分享会里,最好是带着自己已有的思考进去,不然错过台上的人在讲什么也是分分钟的事。

    就我本身来说,很想有人告诉我在NLP领域,做什么技术或者做什么项目是政治正确学术正确的选择,然而大家都忙着发展自己的项目打自己的广告,没有人想为你的选择负责,至于自己真正具体要做什么,还是要靠自己来判断。会议上分享来分享去的东西,甚至都是动动手指谷歌百度知乎能告诉你的东西,那么亲临现场的意义到底在哪里?有一个氛围强迫自己接收信息?No idea yet. 再说穿一点就是,有什么东西是这个会议能给你的而搜索引擎不能给你的,而你在会场拿到这个东西了吗?

  3. 有时候,做新东西没有做有用的东西来的有意义。招不在新,管用就行。

Think Out of The Box

下面结合自己的经历和工作内容聊聊NLP的一些落地方向和自己想做的东西。思考的方向大致从三个方向:

  • 物联网下的NLP应用
  • 跨领域的NLP应用
  • NLP Trend

1. 物联网下的NLP应用

因为从事于物联网的智能家居行业,对这方面的应用还是比较感兴趣的。主要聊聊两个已经在工业界发育的比较好的项目:语音助手和智能客服 。甚至两者有很多可以交叉的地方。

语音交互 / 语音助手

首先,为什么要做语音助手呢,尤其在各大厂已经出品优秀成熟的智能音箱/语音助手(小爱同学,微软小冰,Alexa,Siri等等)之后,为什么还要自己做呢?这里首先想澄清,这里提到的做语音助手是在很垂直领域的一个小功能模块。就是在智能家居小家电生态的语音交互功能,例如控制设备,预约操作,或是设备联动自动化设置等等。而不是从头开始重新做一个小爱同学,那样是以卵击石的自杀行为。

因为本身这些网关、开关、传感器等设备是公司生产的主力产品,因此在与用户最直接的语音沟通交互时,应该把真实的语音交互文本数据拿到,根据实际场景将交互做的更加智能便捷。

需要说明的几点:

  • 垂直领域,在智能家居,语音交互应该是人机交互的主流,作为一家智能家居生态公司,语音交互是必不可少的技术积累,而这些文本数据或者是设备信息,都是其它公司很少有的。
  • 做辅助,只做自己该做的,只做自己擅长的,嵌入式语音交互不花力气在聊天上,而是聚焦在产品使用,控制,联动等功能上。使得原先只能在app上触屏交互增加新的交互方式。
  • 前期可能基于大量的规则约束,为了铺开交互渠道,好用有用就行。

如此以来,当使用率上升,市场扩张,可收到大量的产品升级需求等反馈时,可以增加语音助手的辅助功能,例如:

  • 使用介绍
  • 预约家电
  • 控制家电
  • 智能问答
  • 聊天
  • 自动化配置
智能问答 / 搜索引擎

还是一样的,首先明确为什么要做这个智能客服,在其它公司可能已经有更成熟的落地技术的情况下,为什么?What’s the difference here?

首先因为物联网的科普还需要一段时间,比如智能家居的普及,还需要3-5年,而普及的过程中少不了询问产品的信息,使用的方法,能实现的场景等等。这些都是与公司强相关的业务,也利用公司产品的推广。有些事情不是别人在做了而收手,决定该不该做这件事的基础,应该是你在什么位置上,你有没有这个使命去将这件事做好。

笔记备注:

  • 对检索query的理解
  • 文本改写
  • 纠错
  • 用户搜索意图
  • 知识图谱/知识挖掘,用于提升智能问答体验

直接做语音客服机器人 ,涉及多轮对话。

  • 订单处理,真实场景
  • 产品推荐
  • 配送服务查询,产品使用科普

2. 跨领域的NLP应用

跨领域的应用可能是与其它方向结合,比如与CV结合的看图说话。但是这相当于,处理二手信息,CV图像获取第一手信息,再根据图像获取的信息里处理第二手信息。暂时除了好玩没有找到特别强的应用实现理由,因为语音交互已经是很强的交互行为了。

另一个说法可以是跨部门的应用,向公司的其它部门提供平台服务:

  • 商品搜索,商品推荐
  • 需求管理/other 可视化

3. NLP Trend

  • 平台搭建模块
  • 打比赛
  • Fine-tune,transfer learning

暂时想到这么多,那就先写到这里吧。

would you buy me a coffee☕~
0%