面向新闻报道的自然语言处理研究技术
单文档自动文摘(Summarization)
针对一篇文档,自动抽取出文档的摘要,从而减少阅读时间,提高获取信息的效率。目前的文摘技术基本上都是基于整句抽取的,没有打断句子。单文档自动文摘技术直接作用于新闻报道的文章没有问题。
自动分类(Classification)
分类问题是一个普遍问题,事先给定若干定义好的类别,通过识别新闻报道中的特征,将文档分到某一类别中去。由于类别一般是比较抽象的类别,所以分类直接应用与多文档文摘也没有问题。
自动聚类(Clustering)
聚类和分类不同,事先没有定义好类别,而是通过分析若干篇文档,将一些具有某些相同类别特征的文档自动归在一起。这个也没有问题。
上面的技术之所以可以直接用于新闻文档,是由于一般来说,他们把文档作为一个整体对象进行分析处理的。而一旦当描述同一个新闻事件的报道具有倾向性不同、观点不同,甚至观点冲突矛盾、更有甚者对事件进行刻意修饰、篡改、欺骗,那么这样的文档集合在下面的这些自然语言处理(Natural Language Processing, NLP)中就会存在一些问题了。
多文档自动文摘(Multi-document Summarization)
多文档文摘和单文档文摘相比,更是对信息的提炼,将多篇相关的文档提炼成一篇摘要。针对新闻报道,则是将多篇描述同一个事件的报道首先通过聚类收集到一起,然后在对这一文档集合做文摘。此时,文档集合是一个整体,每篇文档都是一个个体,那么个体之间就会有冲突,就会有矛盾。这个矛盾在进行文摘抽取时就会遇到麻烦。这个问题的解决需要引入新的技术。
复述实例抽取(Paraphrase Example Extraction)
复述技术(Paraphrasing technology)就是一个有助于帮助生成更有效的多文档自动文摘的技术,传统上,他的作用主要在于去除冗余。但是现在有学者利用新闻报道抽取句子复述实例,大致是利用了新闻报道针对同一个事件的不同描述,这些描述之间可能具有复述实例的关系。
自动问答(Automatic Question Answering)
自动问答技术是在信息检索的基础上引入自然语言处理技术,直接返回给用户答案,而不是多篇文档。现在的自动问答技术多是根据问题类型分成几大类进行研究:一种是事实型的问题,一种是列表型问题,一种是定义型问题,一种是描述性问题。对最后一种问题类型,可能会从多篇相关文档中进行综合抽取,也会遇到和多文档文摘类似的问题。而现在的自动阅读理解技术,如果是针对多篇文档,也会比较难。
情感分析(Sentence Sentiment Analysis)
前面所述的问题就要归结到情感分析技术上来了。一篇文档的总体基调是褒是贬,是正是负,如果在进入当文档文摘、或者自动问答之前就已经识别出来,则能够有效的提高后面技术的性能。现在这个方向已经成为了一个热门研究内容。
前面所说的有关新闻的不实歪曲报道,对人类自己来说,识别起来都有一定的难度,更何况计算机乎?但是,自然语言处理或者自然语言理解研究一定会不断的突破这种表面的现象,以大规模的宏观数据信息来揭示事情的真相,帮助人做出正确的判断。技术一定会伴随着人类的意识的不断发展而发展,并且无有止境,给人带来新的惊奇。
未来的NLP能否判断一个谣言呢?答案:能。
This post has been viewed 103 times.
Tags: NLP, 情感分析, 新闻报道, 自动文摘