指点成金-最美分享吧

登录

新闻事件检测模型

admin 举报

新闻事件检测模型与模型

目前,事实地图在描述领域事件的时空信息方面是独一无二的,这种逻辑图结构可以直观地向我们展示一个领域知识的链接信息。从学术角度来看,事件地图与事件提取、事件关系提取、脚本学习、事件链生成、篇章与句子关系识别、地图结构操作等诸多研究方向密切相关,具有较强的理论和技术挑战性和研究价值;与学术界不同,工业界更注重事实地图的实施,即解决抽象技术理论与实际业务场景的结合。目前在业务地图方面已经积累了一定的经验,积累形成了400W规模的全行业业务地图,实现了从领域业务到领域知识地图(公司知识地图、产业链知识地图)的路径。在此基础上,我们不断寻求应用场景。以下是我们已经尝试或正在尝试讨论的应用点。

一、基于财务地图的新闻预警

目前,事件预警是利用事件地图的应用尝试,事件预警是面向商品领域的重要信息预警产品。通过监控数以千计的行业网站,实时收集相关信息,通过提取和识别信息中的事件,将事件与事件地图中的事件联系起来,并结合情感分析技术、文本标签技术和文本重要性判断技术过滤影响信息。最后,实现了自定义地标的预警信息筛选和基于预警信息的影响追踪探索。

图1

如下图1所示,我们将对收集到的信息进行判断,并给出该信息可能造成的影响。为了说明影响最终结果的原因,我们给出了影响所遵循的原因图链,比如页面右侧显示的原因图的缩略图。单击业务地图的缩略图后,您可以进入详细信息页面

图2

如图2所示,页面给出了信息的全文,这影响了事件(可以支持全屏点击和扩展查看)。在页面的右侧,我们列出了与当前信息的事件影响相关的历史信息,类似于的做法。这样,我们尝试将历史事件影响应用到当前信息推荐和风险预警中。事件警告是应用示例之一。此外,我们还在尝试将事件地图应用于其他领域,如文本理解可视化系统。欢迎继续我们在关注的工作

第二,基于物质抽取技术的文本可视化

文本可视化技术是自然语言处理技术在信息抽取和信息领域的一项重要技术,涉及文本分析、数据挖掘、数据可视化、计算机图形学、人际交互等理论方法。通过这项技术,人们可以进一步从大文本中解放出来,从而更好地理解复杂的文本内容、结构和内在规律。目前,文本可视化的方法[1]主要包括基于该产品的可视化(标签云);用网络图、后缀树、链接图展示文字的内在联系;用网络图反映文本间的喝酒等外部关系。事实地图与文本可视化技术的结合可以为文本可视化提供一种新的插入图片的描述方法。

接下来,我们比较两种可视化方法。一种是从文本中提取关键词,识别命名实体(人名、地名、机构名),识别事件,形成知识网络。这种网络展示模式可以借助知识实体、实体所属的知识类型、实体之间的隶属关系,展示一篇文章的结构化信息,如图3所示。

另一种是提取文章中的实质性事件,提取事件之间的关系,形成事件链,比前者更有逻辑和时空性,如图4所示。

4.基于出行原因的路径规划和推荐

事实地图本身描绘了一种具有时空属性的关系知识,但是在我们的现实生活中,有很多具有时空属性的例子(包括序列、空间序列)。

图5

根据列车网内所有列车的信息,T字头列车564辆,D字头列车3712辆,C字头列车1538辆,G字头列车3011辆,K字头列车2968辆,Z字新闻事件检测模型头列车354辆,L字头列车418辆,Y字头列车55辆,S字头列车30辆。这些列车在既定的路线上行驶,形成一个巨大的有向回路图。如果标记这个有向回路图的关系边,就可以形成以火车站为节点的火车旅行业务图。基于这张商业地图,我们可以进行各种有意义的探索。基于一个地方,我们可以知道在理论时间,之后可能在另一个地方触发的动作,如酒店、换乘等。有利于我们的路线规划和推荐。

图6

其实火车票、公交票、机票、城市信息等等在互联网上也是比较全面的,为旅游领域的应用场景提供了数据基础。目前我会在旅游领域知识图谱中尝试这个思路。参见:

5.基于事件映射模型的历时事件流生成

目前,时事通讯广泛应用于当前的流媒体,是事件流的一种形式。简讯表单主要包括文章的第一句话、文章的摘要以及基于特定模板生成的文本。其中,文章第一句是对正文部分的截取,文章摘要通常是根据其他方法找出文章中最重要的一句;基于特定模板的方法接近于基于元数据的句型生成,通常需要提前手工编辑。事件地图通过领域新闻报道(主要是叙事性)的事件建模,为时事通讯的生成提供了另一种可能性,如体育新闻中的比赛过程和地震报道中的地震救援重建过程。基于领域事务模型,事件流会更好。

历时性事件流,基于历时性语料库,可以提取特定实体的事件线,形成以实体为核心的历时性事件流。这个历时性事件是一个重要的事件,与特定时间,的实体有关,有点类似于维基百科中人物的大事记,如下图7所示。

新闻事件检测模型与模型

图7

维基百科中大事记的显示模式主要有两个缺点:一是显示粒度过大,可以进一步细化;是手动编辑方式,不够自动化。因此,从大规模历时语料库中提取事物可以实现许多有趣的应用。对于英语,可以使用自1851年以来建立的《纽约时报》和《纽约时报》的历时语料库。对于汉语,有《人民日报》语料库,从1953年至今已有60多年;主流的网络新闻媒体,比如腾讯新闻,从2006年到现在有12年的历时语料库,为我们提取历时事件和事件提供了依据,如图8和图9,分别展示了一战和二战的一个事件流。

图8

基于这种技术,我们可以形成一个历史事件流知识库。基于这个知识库,我们可以支持百科知识补全、人物事件检索、问答等服务。

图9

摘要

事实地图本身就是一个学术概念和学术热点,其中涉及的技术细节和相关学科的方向决定了这个研究问题本身的难度。在实际的研究过程中,会发现很多技术问题,如事件表示、事件关系识别、领域事件演化模型建模等。就像现在的知识图谱一样,我们必须承认这一点。但如何结合应用测试事实地图,进一步推动技术进步,可能是一条出路。为了解决这个问题,本文主要介绍我们目前正在尝试的应用场景,包括新闻预警、文本可视化、事件监控、抽象生成、历史事件流生成等,供大家讨论,欢迎大家批评指正。如有合作需求,欢迎联系我们,推动业务地图相关技术的进步及其在实际应用场景中的应用。

参考文献:

唐家瑜,刘致远,孙茂松。文本可视化研究综述[J]。计算机辅助设计与图形学杂志,2013,25(3):273-285。

[2]?sa=IRCT=jq=esrc===ved==https://www . tigermoon . co . uk/products/world-war-1-timelinepsig=Aovvaw 144 z 89 c 9 oin _ 4 wvuhlj 6 zmust=* * * * 50928

[3]https://www.google.com.hk/url?sa=IRCT=jq=esrc=SSO urce=images CD=ved=2 hukewjbkjjn _ pbfahvs5 rwkhevwbmuqhxx6bagbemurl=http://www . creativeducation . co . uk/world-war-two-timeline-wall-panel/psig=Avvaw 144 z 89 c9o in _ 4wuhlj6zmust=* * * 50928

文章为原创,如转载请注明出处。

作者简介:

中国科学院软件研究所刘焕勇,主要从事信息抽取、社会计算、知识地图、物联网等方面的研究与开发。如果在自然语言处理、知识图谱、物质图谱、社会计算、语言资源建设等方面存在问题或合作。可以联系作者:

1.我的github项目介绍:https://lihuangyong . github . io

2.我的csdn博客:https://blog.csdn.net/lhy2014

3.关于我:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com

近期网络热点事件(2019中国热点事件)

头像

如今热门的热点事件得到认可,其实更多的是关注如何在海量的内容中找到热点事件。这不仅包括实体事件的提取,还包括抽象的信息挖掘,以及用户行为的反馈。

什么是热点事件?

热点事件一般是指引起关注,广泛参与讨论、引起公众情绪并在社会(或某些领域)引起强烈反响的事件。通俗地说,就是众所周知,很多人讨论的事件。

热点事件对新闻推荐系统有什么意义?

推荐系统的目的是发布用户感兴趣的新闻。但热点是一个不同于普通新闻的数据。即使一个人对娱乐新闻不感兴趣,当马蓉和王的爆料出现时,他也会去看看。一是这源于人们对爆料的好奇,二是在我们这个世俗的社会里,对谈资的需求是有积累的。

所以,热点事件来了,对垂直兴趣的追求就可以减少,热点本身就可以算是一种兴趣。

热门内容的分布不仅可以反映推荐系统的媒体属性,还可以增强推荐的新颖性,防止兴趣趋同。

什么是热点事件识别?

通俗点说就是及时发现热点,找出或者写与热点相关的文章,分发给用户。

为什么要识别热点事件?

对热点的跟踪和敏感度是反映一个媒体的媒体属性是否强的标准之一。一个优秀的媒体必然会对热点有足够的敏感度,及时发现热点,快速报道热点,提出有价值的热点深度追踪,从而满足新闻用户对热点的关注。

因此,在机器时代,如何在海量数据中发现热点事件,并及时推送给用户,成为一大挑战。

如果我们能够前瞻性地找到热点,并及时推给用户,这将导致关注和用户的广泛传播,我们就可以掌握互联网上的大量流量,从而给应用带来更多的好处。

目前效果较好的热点事件发现技术:

1.基于通信的热点事件发现

简单来说,通过监控大规模人群中的信息传递,如果一个事件在一个时间段中从一些节点快速传递到多个节点,并且表现出指数-level增长,那么这个热点事件就可以被发现。

2.基于搜索的热点事件发现

这是基于一个搜索引擎,应该很好理解。在时间,的某个区域,越来越多的人搜索某个事件,这导致该事件的搜索量激增,并且该事件也可以被找到。

然而,不幸的是,我们不能同时做到以上两点。一个是我们没有用户的社会属性,没有新闻传播路径。另一个是我们缺乏用户的主动行为。虽然有搜索界面,但是实际搜索的用户很少。因此,使用上述方法是不可靠的。

当然,分析以上的本质都来自用户的反馈,可以更好的发现。我们曾尝试用自己的数据来做这样的尝试,利用用户信息来监控有浪涌行为的新闻,然后对这些新闻进行分类,找到可能的热点。但这有很大的技术挑战,还有一个就是新闻时效性特征的丧失,特别是对于热点,每一分钟都要争取。经过这么一轮计算,很可能热点已经广泛蔓延。其实对于我们的新闻客户来说,这个时候再去发现热点是没有价值的,流量已经分配好了。

我们如何解决热点事件问题?

1.获取热门事件

既然不能主动提取热点事件,那就尽量直接获取热点事件。第一,我白想了一件事。既然热点事件可以基于搜索或传播及时获得,那就让我们发扬“接纳主义”吧。其实网上有很多地方提供这样的实时热点事件,比如百度公告牌、微博热搜、搜狗热搜等。还有很多,等你自己去发现。

A.夺取

定期抓取这些单词应该不难。只有非常有限的内容,每隔一个事件才需要获取。通过与上一次数据对比,可以快速知道哪些事件词或句子可用。这种方法简单易行,获得的热点数量大,但效果可能差一点,还会有一定的时间延迟。

B.操作

有新闻敏感度的运营商需要手动添加。这种方法可以得到较少的热点,但延迟几乎可以忽略不计。

这里也为热点事件构造了一些属性,比如热点等级、热点老化、热点分类等等。

相关阅读

  • 假新闻早期检测:理论驱动模型
  • 利用贝叶斯分类器检测虚假新闻
  • 基新闻事件检测模型于特征聚合的假新闻内容检测模型
  • 假新闻ai也可用于检测消息真假,你信吗?
  • 近期网络热点事件(2019中国热点事件)
  • midas建模实例(midas建立桥梁模型)
  • 十五号柳州坠楼事件(柳州市坠楼事件)
  • 腾讯新闻网红的事
  • 新闻事件检测模型
  • 标签: #新闻事件检测模型