新闻事件提取

admin 2023-09-05 10:24:25 举报

新闻事件提取与提取

本发明公开了一种基于新闻的演化关系自动提取方法，包括以下步骤：新闻信息预处理、新闻导语提取、新闻事件时间提取、事件提取、事件关键词提取和事件演化关系分析；本发明还公开了一种自动提取新闻演化关系的系统，包括新闻信息预处理模块、新闻导语提取模块、新闻事件时间提取模块、事件提取模块、事件关键词提取模块和演化关系分析。本发明提取的事件演化关系图更加合理，事件之间的关系更加清晰；其优点是解决了新闻演化分析领域的一些不足，使演化分析取得更好的效果，方便用户了解整个新闻话题的发展脉络。

技术领域

本发明涉及数据挖掘技术，尤其涉及一种基于新闻的事件演化关系自动提取方法及系统。

背景技术

新闻事件提取与提取

随着互联网的到来和信息技术的快速发展，人类社会进入了信息爆炸的时代。每天都有大量网民通过各种媒体平台接收各种数据信息。截至2011年12月，中国网民数量达到5.13亿，位居世界第一。网民的主要行为包括聊天、阅读、玩游戏、下载和视频。其中，阅读占有很大比重。特别是随着手机、平板电脑等移动平台的普及，越来越多的网民在网上阅读信息。在这样一个广阔的信息世界里，新闻信息占据了很大一部分。在中国，互联网是最快的新闻信息发布平台，具有高实时性的特点。互联网已经成为主要的新闻传播平台，具有放大舆论的功能。通过网易、新浪、百度等各种门户网站，用户可以及时获得某一话题的各种相关报道。

新闻进化是一个新闻话题从出现、发展、高潮、平淡到结束的生命历程。一个复杂的新闻话题往往包含几个子事件，事件之间有一定的关系。通过这些事件之间的关系，我们可以得到一个新闻话题的事件演化图。比如在“汶川地震”这个话题中，“8.0级汶川地震”事件导致了“汶川地震使480万人无家可归”的事件。“汶川地震大量学生伤亡”事件也与“学校建筑质量受到质疑”事件密切相关。

读者通常不仅对一个新闻事件感兴趣，而且对与这个新闻事件相关的其他事件感兴趣。换句话说，读者对整个题目的演变感兴趣，希望从头到尾了解事物演变的全貌。然而，由于互联网信息的爆炸性、异构性和分布性，可能会有大量关于某一主题的新闻。而且各种新闻信息非常分散，一个新闻事件的相关信息往往会分布在几篇新闻文章中。比如近几年网络上的热点新闻：汶川地震、北京奥运会、三鹿奶粉，甚至2014年的“马航失联”事件，都是一段时间内关注度最高的新闻话题。每天都有数千条相关新闻在门户、微博、微信等平台上更新。面对如此铺天盖地的新闻报道，用户很难全部看完。然而，如果你单独阅读一些新闻，用户可能会错过一些关键信息。读者很难完全理解新闻的发展过程和后续结果，因为每条新闻可能只描述了一个话题中的一个小事件。如何快速了解新闻事件的演变过程，直观把握信息之间的复杂关系，把握事件内容的发展趋势，是当前研究的热点问题。各种信息检索、分类、监测和提取技术都是围绕这一目的发展起来的。新闻进化分析是方向之一。在信息爆炸的背景下，研究新闻话题的动态演变及其关键技术，为用户提供更方便、更清晰的阅读方式，从始至终了解新闻的整体发展。

人类认知心理学的相关研究表明，人类认识事物的过程总是按照一定的逻辑顺序进行的。当用户开始关注一个新闻话题时，他总是想知道新闻事件的起因或原因以及相关背景，然后深入了解事件的发展和高潮，直到整个新闻话题结束。因此，有必要对新闻演变进行自动分析。本发明从新闻话题出发，利用计算机技术挖掘新闻话题底层事件之间的演化关系，构建事件演化关系图，全面直观地展示新闻之间的迁移关系，为读者提供一种话题演化的新闻浏览模式，让读者更方便快捷地从头到尾了解新闻的整体发展。

新闻演化分析是数据挖掘领域的一个新的研究方向，它涵盖了跨学科的研究领域，包括主题模型()，主题关联检测()，主题跟踪()，主题聚类()等。首先，本发明的研究基于传统的主题模型，需要对文档进行建模，提取文档的时间，并使用主题模型对文本进行聚类。然后结合文献的时间信息，深入挖掘事件之间的关系，分析话题的演变，找出话题在内容和时间轴上的变化轨迹。因此，与本发明相关的相关知识架构主要包括主题模型、文本聚类、时间提取和主题演化。下面将逐一介绍国内外新闻事件提取的相关研究进展。

Topic model (): Topic model是自然语言处理和机器学习领域中用于获取文档中抽象主题的统计模型。2003年，布莱等人首次提出了隐式狄利克雷分布模型(LDA)，这是目前最常见的主题模型。LDA是一种无监督学习算法，它可以以主题分布概率的形式给出文档中的每个文本。此后，许多学者在LDA的基础上提出了自己的主题模型。

文本聚类：文本聚类是一种静态数据分析技术，广泛应用于数据挖掘、机器学习等领域。聚类是通过分类将相似的数据对象划分为不同的集合，每个集合的数据成员都有一定的相似性。最常见的文本聚类方法是K-。K-算法是典型的硬聚类算法，聚类结果是紧凑且独立的聚类。K-使用欧氏距离作为相似性的评价指标。如果两个数据对象之间的距离越近，它们的相似性就越大。K-means算法很常见，但是有几个缺点。一方面，K-means算法需要先确定几个聚类中心，然后根据初始划分进行优化。这个初始聚类中心的选择对聚类结果有很大的影响。一旦没有选择好，就很难得到理想的聚类结果。另一方面，K-means算法中的聚类数K是预先指定的。但实际上，k的值很难估计。

时间提取：文档的时间信息对于发现文档的主题、判断文档之间的关系具有重要意义，这方面的研究很多。1997年，MUC(信息理解会议)首次决定使用TIMEX格式作为定义和表达时间信息的标准。TIMEX标准将时间信息分为绝对时间和相对时间。随后，TIDES(跨语言信息检测、提取和汇总)和ACE会议提出了一种新的基于TIMEX的时态信息标准化标记方案，这也是目前最常用的标准。

话题演化：话题演化的相关工作起源于TopicDetectionandTracking)的研究，其中使用事件追踪来描述话题演化的过程。之后，学术界提出了各种研究模式。LDA模型是最常用的模型之一，可以很好地挖掘大规模语料库的语义和主题。目前，大多数研究集中在如何利用文本内容和时间信息来判断话题的变化过程。

发明概述

本发明的主要目的是克服现有技术的不足，提供一种基于新闻的事件演化关系自动提取方法，使得提取的事件演化关系图更加合理，事件之间的关系更加清晰。

本发明的另一个目的是克服现有技术的不足，提供一种实现基于新闻的事件演化关系自动提取方法的系统，解决当前新闻演化分析领域的一些不足，使演化分析取得更好的效果，方便用户了解整个新闻话题的发展脉络。

本发明的主要目的可以通过以下技术方案实现：一种基于新闻的事件演化关系自动提取方法，包括以下步骤：

新闻信息预处理：对输入的新闻进行分词、词性标注和停用词去除处理，提取评论中的特征词，建立新闻结构化数据；

新闻导语提取：新闻导语是在新闻开始时用几句话表达新闻中心思想的句子。提取的新闻线索可用于提取新闻的事件时间。本发明提供了一种提取新闻线索的方法；

新闻事件时间提取：新闻具有明显的时效性，每条事件新闻都有一个确定的发生时间点或时间段。提取新闻的时间信息对新闻演变的分析具有重要的指导作用。该方法从新闻的报道时间和事件时间入手，利用隐含时间调整显示时间，从而提取新闻的事件时间；

事件提取：事件是关于同一件事的新闻集合。利用文本聚类的方法，可以将分散的新闻聚集成一定数量的主题事件。该方法综合LDA、TF-IDF、新闻时间等内容和方法，对新闻进行聚类，建立新闻事件。