红碱淖2022暑期有啥优惠了?老铁?

摘要:FAQ(Frequently Asked Questions)问答系统是目前应用最广泛的问答系统。这种问答系统的结构框架明了、实现简单、容易理解,非常适合作为问答系统入门学习时的观察对象。这里基于本人在问答系统建设方面的“多年”经验,对FAQ问答相关的定义、系统结构、数据集建设、关键技术、应用等方面进行了整理和介绍。

2019年至今(2020年),我一直在做问答系统相关的NLP工做。这里使用一些同志的话术再说一遍:“小可已经深耕问答系统多年”。很惭愧,只做了一点微小的贡献——我负责、参与、观摩和听说了问答系统中若干模块的建设与应用。

在这些工作的初期,有几个问题困扰着我:

(1) 问答系统是什么?

(2) 问答系统有存在的意义吗?或者说,这玩意儿值钱吗?

(3) 问答系统怎么建设呢?

从技术,即实现方式的角度来看,问答系统有很多种,包括基于FAQ的问答、基于知识图谱的问答、基于文本的问答等等。这里围绕应用最为广泛的FAQ问答系统,对问答系统的定义、思想、基本结构、方法和应用价值进行介绍。

再进一步,如果用户提出的问题和FAQ数据集中的某个标准问题是相似问题,那么用户问题的答案就是该标准问题的答案。

基于前面所述的思想,我们为了提升检索模块的召回率,一般会在知识库中为每一个标准问句配置若干同义问句。问答系统的检索模块的召回能力和相似问句选择模块判断问句对是否相似的能力,是有限的,可能无法处理一些同义的表达方式。比如,一般的机器不知道“咋介可神木浪”(陕北方言)和“如何去神木”是同义关系。我们可以在后台为“如何去神木”存储一条同义问句,就可以回答陕北老铁的询问了。

4.3如何构建FAQ数据集
频繁问答对数据集的建设是一项系统工程——这里就不系统地讲一下。

首先,我们需要根据场景特点,确定问题涉及的范围,比如领域、深度等。

然后,从开放获取的数据源、自有数据集中采集问答对数据。常见的数据源有百度知道、悟空问答等。找不到现成的问答对数据也没关系,我们可以基于知识图谱、表格数据、半结构化数据、非结构化数据来自动构建问答对;我们还可以人工编写问答对。

最后,设计一个机制,允许专家或用户持续地对FAQ数据集进行优化。常见的优化操作有,增加一个标准问题、删除一个标准问题、为一个标准问题增加同义问句、为一个标准问题删除同义问句等等。我们可以支持在系统后台直接进行优化操作,也可以在用户“点赞”等行为的统计数据基础上,自动、半自动地对数据进行优化。

5 FAQ问答的关键技术
我们可以计算用户query与每一个标准问句的相似度,然后选择相似度最高的作为相似问句,并向用户返回相应的答案。

但是,由于问答系统的频繁问答对数据集规模,一般是数百、数千甚至更大,这种方法的耗时非常大、不实用。我们可以学习搜索引擎的做法,将相似标准问题的寻找过程划分为两个阶段:(1)快速地从频繁问答对数据集中检索到一个较小的子集,保证这个子集以较高的概率包含了query的相似问句;(2)从前面获得的子集中,用一个(速度不一定快)效果较好的相似度模型,找出query的相似问句。

检索模块的任务,是以尽量低的时间消耗和尽量高的召回率,获取一个候选相似问句列表。我们可以使用一个计算复杂度很低的文本相似度算法,计算用户query与每一个标准问句的相似度,然后选出候选相似问句——这样做的耗时还是太高了。大部分检索模块采用倒排索引存储标准问句,并将检索任务划分为两个阶段:(1)从倒排索引中搜索一定数据量的,可能与query相似的标准问句;(2)从(1)中所得标准问句中,基于一个复杂度较低的文本相似度算法,选择k个与query 相似度最高的作为候选标准问句。

5.1.1基于倒排索引的信息检索
一般来说,我们可以以问句中的词语为倒排的key。

当数据量比较小的时候,我们可以自己实现一个倒排索引,并缓存在内存中使用。当数据量比较大,或需要支持并发查询的时候,我们一般会基于ES(Elasticsearch)把数据存储起来。

5.1.2召回阶段常用文本相似度模型
考虑到时间限制,这个计算可以使用的文本相似度模型比较少,一般是余弦相似度、杰卡德相似度、BM25等等。

5.1.3几个重要的词表
问句是一种非常短的文本,表示问句的特征非常稀疏、噪声的影响比较显著,因此针对问句的检索是一项困难的工作。举例来说,当用户提问“麟州在哪里”时,检索模块认为表4-1中1号标准问句、4号标准问句与query的相似度是相同的。如果问答对数据中有大量形如4号问句的标准问句,那么检索模块很有可能无法召回“神木在哪里?”这个问句。

为了缓解特征的稀疏性、减少噪声,我们通常会为检索模块配备同义词表和停用词表。

同义词表一般被用来对用户query进行改写,以获得用户query的更多同义表达形式,进而提升系统检索到相似标准问句的能力。

1 神木 神木市、神木县、麟州
2 神湖 红碱淖、红碱淖海子

5.1.4两个重要指标
假设检索模块为N个query分别召回了K个候选相似标准问句。我们认为一次成功的召回时这样的:K个候选相似标准问句中,至少有一个是query的相似问句。那么,评价检索模块查询效果的核心指标,查全率的计算方式是:

在实际应用中,我们不仅要考虑工具的效果,还应该关注工具的效率。判断一个检索模块是否优秀,还需要参考它的计算速度。我们想问答系统添加检索模块的主要目的,是大幅提升系统的响应速度。因此,我们希望检索模块具有较快的计算速度,消耗的时间远小于标准问题选择模块。如何度量检索模块的计算速度呢?检索模块为一个query完成检索任务的平均耗时,反映了它的速度。平均耗时的计算方式为:

如何判断检索模块是否足够快呢?我还没想好。

为了进一步提升检索模块的速度和精度,我们有时候还会对问句进行分类。比如我们按照手机银行用户的查询意图,将问句分为“储蓄卡办理”“储蓄卡挂失”等类别——当用户提问“储蓄卡丢了怎么办”的时候,系统会判定query的意图类别为“储蓄卡挂失”,然后使用检索模块从FAQ的“储蓄卡挂失”类中检索候选标准问句。

在这个环节,我们一般兼顾分类算法的效率和效果。

5.3相似标准问题选择模块
标准问题选择模块的主要任务,是基于文本相似度模型,从检索模块召回的K个候选相似问句中,找到与用户query最相似的那一个。该模块的核心,是一个效果较好的文本相似度模型。

5.3.1重排序阶段常用的文本相似度模型

常见文本相似度计算方法简介
5.3.2最相似的问句就一定是同义问句吗?
不论检索模块为query召回的候选相似问句质量如何,相似标准问题选择模块都会为query找到一个相似度“最高”的标准问句。那么,这个“最相似”的标准问句,一定是用户query的相似问句,即与用户query同义吗?不一定。假设检索模块为“神木在哪里?”召回的候选标准问句如表5-3所示。与query最相似的是2号问句,而二者含义明显不同。这时候,我们如果把“桃花源在哪里?”的答案返回给用户,会显著地影响用户体验,导致我们收到如图5-1的评价。

4 你老家是西山,不是山西?

如何避免做出不合理的回答呢?我们可以为文本相似度配置一个阈值,当两篇文档的相似度超过阈值,判定二者同义。这种方法可以帮助我们减少前面所述的错误情况——还有一些策略可以提供类似能力,比如为有监督的文本相似度模型增加一个表示置信度的输出。

相似标准问题选择模块的任务是,以较高的查全率和查准率,找出K个候选相似问句中,与用户query相似的那一个。

6.1什么时候可以考虑使用FAQ问答系统
FAQ问答系统的优势是:(1)以自然语言文本为输入,给用户以非常高的自由度;(2)直接向用户返回答案,以较高的检索精度为用户节省时间资源。

福兮祸之所倚——FAQ问答系统的劣势是:(1)我们的表达方式差异可能非常大,往往导致相似标准问句选择模块效果较差;(2)频繁问答对数据集的构建成本是比较大的,我们无法为一个或多个知识面非常广的领域构建FAQ问答系统。

综上所述,在封闭领域,即知识范围相对有限的情况下,大家在设计问答系统时,会首先考虑基于FAQ的策略。

6.2生活里常用的FAQ问答系统
我们生活里常用的购物网站或APP,几乎都有智能客服。这些工具的用户量非常大,而场景相对聚焦、知识量有限,非常适合基于FAQ问答系统对用户群体的高频问题进行处理。如图6-1,是一个采用了FAQ问答策略的机器人,可以回答银行相关业务中的各种常见问题。

图6-1 一个采用了FAQ策略的问答机器人
统计学里,大家总说正态分布是最普遍存在的一种分布,别的都是菜鸡。实际上,在生活里,我们最常遇到的是幂律分布——大家的收入、词语被使用的频次、各人在社交媒体中的粉丝数、关注各种问题的人数等等,都服从幂律分布。幂律分布的通俗叫法,是“二八分布”(虎扑JRs可能非常喜欢这个名字),即少数成员持有大多影响力。

购物网站或APP等工具对应的场景里,各个问题或知识点被关注的热度分布服从幂律分布。热度较高的问题,比如“储蓄卡怎么挂失”,用户群体会以非常高的频率向人工客服提出咨询请求。在人工客服工作的过程中,我们可以不断地发掘高频问题,并提交给FAQ问答系统,这样答疑的工作量就逐渐地转移到了机器身上。FAQ问答系统完成的答疑任务越多,它创造的价值就越大。

作为一个人工智能领域的从业者,一个脑力无产者,任务是创造用来争夺阶级兄弟姐妹们岗位的机器,我也是有点郁闷。

好消息是,在可见的未来,智能客服会一直需要和人工(客服)协作完成任务。一些问题处理起来相对复杂,机器难以胜任,比如安抚一个不知道怎么挂失储蓄卡的暴躁老哥,必需由人工客服接管,因此这种转移不会是彻底的。考虑到机器和人各自的优势,即机器不知疲倦、可以稳定地回答简答问题,而人可以在体力、脑力、情绪资源允许的情况下解决比较复杂的问题,智能客服和人工客服可以协作起来,以整体更高的效率和效果,为客户答疑解难。

众所周知,JDG这个赛季成绩并不是很好,就连季后赛都无缘了。之前JDG的成绩在LPL还算是挺强的,然而经过短短一两个赛季成绩下滑这么多,究其原因,肯定是有的选手出现了问题,或者就是状态下滑实在是太大了。究竟是谁出现了问题呢?那么京东将矛头指向了下路AD选手Loken。


有网友发现,在JDG的大名单中已经将一线AD选手Loken给移除了。要知道Loken和JDG的合约还没有到期,夏季赛还没有结束,现在就将Loken给除名,这是一个很反常的行为。在其大名单中还保留了两名AD选手,那就是大舅子Mystic和Lpc。如果下赛季还是保持这样的阵容,那么大舅子Mystic肯定要成为JDG新一代的领军人物。


不少网友一直在评论区直接看晕了这个操作,主要是很多网友并不理解为什么JDG要这样做,一次大舅子Mystic本赛季一场比赛没打,他的状态怎么样,现在还不得而知。


对于JDG这一系列的反常行为,企鹅电竞主播德云色早就在直播中有所预料了。德云色就在直播中表示,之前JDG的成绩那么好,现在成绩出现巨大下滑,肯定要找出问题所在,不然一直都是这个样子。想让一支队伍成绩变好,说简单也简单,说难也难。除非能找到问题所在,不然即使你换了人,可能所取得的效果还是很小。


这个时候德云色也在直播中替大舅子Mystic感到惋惜,毕竟他加入JDG之后一场比赛都没有打。况且大舅子的年纪本来就大了,现在不打,未来想打的机会就更少。主要是JDG一直不给他这个机会,当然他自己肯定也是非常想打的。


德云色的这番话也不是没有道理,现在就要看JDG如何抉择了。那么大家如何看待此事呢?欢迎讨论。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

霍尊事件发生以来,叔叔一直有关注事态发展。

而对于霍尊女友陈露的爆料,霍尊叔叔表示陈露不是个坏人,只是受了别人的利用,同闺蜜一起对霍尊进行敲诈。

董卿说过:枪响之后,没有赢家。

陈露和霍尊事件便是如此,不管到最后谁输谁赢,两人的名字总归是蒙上了一层尘埃。曾经的美好烟消云散不说,对两人今后的事业、爱情也影响巨大。


霍尊得到“作家陈岚”的支持,后者连续几天发布长文及视频支持霍尊,质疑陈露及其闺蜜王萌有“敲诈勒索”霍尊的嫌疑。

陈岚更从霍尊手上拿到了霍尊与陈露聊天记录截图,揭发陈露并非如自己所言是无辜的受害者。

更有网友说:陈露的闺蜜王某,一个站在道德的制高点,一开始就打着为陈露讨说法的幌子,在陈露霍尊这个事件中,使劲搅浑水,没有王某的鼓励和支持,估计陈露也走不到今天!

王某看起来是正义的,但是,她也就是跟陈露几个月的闺蜜情,就能跟着陈露一起挥霍霍尊给的钱?就是说是守在陈露的身边,看着别人伤害陈露?


从陈岚与王萌的聊天记录来看,她们双方似乎还在为霍尊与陈露之间的感情纠葛在论理。

换句话说,霍尊与陈露之间的纠纷竟演变成了陈岚与王萌这2个局外人的"战争"。

不得不说,作家陈岚在这次事情上表现得很热心。

还有网友说:从截图中陈露的语句来看,给我的第一印象,这个女孩家教不怎么好,而且没有什么内涵,更没有什么修养,很符合娱乐圈从业人员大部分都是低文化低素质的感觉。

当然,一定会有人跳出来说霍尊欠了陈露的情债,而且陈露手里握有霍尊的黑料,所以陈露才会这样愤怒。


这个圈子本来就没白莲花。这不是常识么。钱权色高度集中的产业。

伊姨倚亦:你喜欢的明星的光鲜亮丽,有一技之长不代表他就是一个完美的人啊,不一样要吃喝拉撒,内心一样有阴暗面。

租了段时间叫青春:拿那个群的聊天记录来攻击霍就是有备而来,抓住了大众对公众人物道德高这个弱点。

从霍的退圈微博评论看,这招的确有用。

加辣少加葱姜蒜:所以要不然行的端坐得正,别学这种行为,还有就是犯了错就也别怪人家揪小辫子,因为叫活该。


空巷旧物:身正不怕影子斜。海狗丸效果怎么样,吃过的老铁麻烦告知一下,谢谢。

顾清明2号:而且陈露提供的霍尊聊天记录有一些不是跟她聊的,是和别人聊的,别人截了发给她的,看来霍得罪人了。

王小炸123:为什么说得罪人呢,难道就不能有良心过不去的,看一个女孩这样被欺骗。

贵族奥黛丽赫本:是群里的聊天记录,不清晰,不是截图,拿手机拍的。

愚山老汪:看来都不是啥好鸟。

散酒与寒鸦:经典言论又来了

石榴子iii:烦不烦啊什么时候都这么说,都美竹那会我就看腻了,反正用法律标准要求男的用道德标准要求女的呗,非要完美受害者呗。

心脏停跳了节奏:关键是女生为什么要单纯呢?


对这种人凭什么单纯呢,不能任人欺负,懂么。哪个人看到你放弃了事业真心爱了9年一路扶持过来的人在背后这样说你这样埋汰你不会想要报复的。

霍尊要是懂点道理,好好地说再见处理好这些事情,不会是今天这个样子。

听见凉山il:是啊,想到自己爱了9年,全心全意地付出的9年的男人,背后在朋友面前这样埋汰自己,那一刻就知道自己好多傻多可笑,别说让你退圈,让你退出这个世界的心都有!

cpLL322:这女的就是个中专毕业的群演,还国家二级演员,副教授,真的是笑死人了,而且分手八个月之后却要九百万,还倒计时三分钟打钱,跟他妈男的拿裸照威胁女性有什么区别,这种事都能助纣为虐的话,我估计男人也会纷纷效仿了

司马山山山:这女人没有私德。凡是拿出来私人聊天记录做证据的,都是该天打雷劈的。如果人类连聊私天,都怕会被别人窃听,截图,这世界就毁灭了。可怕,真可怕,必须坚决制止这女人的做法。


霍尊,你做的是普通一个男人也都做过的事情,男人私密的龌龊,都有,但是不妨碍我们是好人!

我觉得一个彻底伤透了心的女方用这种方式报复渣男很正常,爱之深恨之切,那种依然做朋友的说辞我不相信,所谓渣不渣只有双方当事人自己知道,对女方来讲,这绝对是丢人现眼的事情,不是气得豁出去了,怎么可能这样做,这是昭告天下的丢脸,而且其父母也会波及,换做任何一个女孩子做这个事都是一种艰难的选择,也许以后都不会相信爱情了,也许以后都没有办法在国内立足,要承受别人用有色眼光的指指点点需要勇气。

正是男方知道女方爱面子、担心,胆小,顾忌父母,所以才肆无忌惮地嚣张,男方估计知道女方势单力薄,所以没放在眼里,但是没想到有个有勇有谋的女诸葛,其实这是女诸葛让单纯的女方放弃幻想走出迷途,方式虽然狠毒,但是你不惹女人,女人何必绝地反击,孤独一掷

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

我要回帖

更多关于 辽宁2021残疾人每月补贴 的文章

 

随机推荐