June 3rd, 2005
参加微软信息抽取暑期培训班杂记(3)
最后一天还是牛成博士介绍信息融合和利用IE的一些应用,比如如何将IE和QA结合起来。
有一个比较新的想法,就是利用两个命名实体对作为种子,在一个很大的语料库中搜索出所有包含命名实体对匹配的实例,得出一些上下文。利用上下文得出一些好的命名实体对,然后反复叠代,Boostrapping过程。最后获得有关这两个比如<ORG>和<LOC>类似的多个表达关系。每次叠代时利用Precision进行评价。最后对系统进行评价,主要是人工构造标准集合。最后利用HMM构建一个二元的语言模型,进行类似的抽取,获得了较好的性能。不过目前仅仅是在研究阶段。
这篇文章一定要找来原文读一读。
大师是大师,我们做我们的研究。虽然不一定达到他们的成就,但是努力就好。
This post has been viewed 83 times.
Share This
Tags:
微软,
暑期讨论班
Related posts
No Comments » |
Research |
Permalink
Posted by dimens
June 3rd, 2005
参加微软信息抽取暑期培训班杂记(2)
微软信息抽取培训班第二天的主讲人是新加坡的国立大学的计算机系教授。主讲的是SRL和一个从半结构化和自由文本中IE抽取方法。用英语演讲,前半部分还可以大致听懂,到后半部分就由于注意力的原因没有听进去。感觉上黄教授还是水平有的,可是在表达上可能有所不适合我个人的口味。
中午又参加了和几位大师的座谈。具体内容是就不记了,主要感觉就是他们的研究也是从基础做起,一点一点的积累的经验和成果。而他们对问题的理解,以及对方向的把握,我想这不是一天两天能够学来的。下午林钦佑博士有进行了有关TS 和IE方面的研究进行了讲演。有几点感触较深:
在做一个课题之前,首先要明确这个课题要做到什么程度是一个标准。也就是要制定自己的目标,这个目标应该是新的,别人也都没有达到的。之后,针对每一个具体的问题要进行评测,就要构建自己的测试数据集,设计适合自己问题的方法,并且要有和别人的方法的比较试验,这样才能够在高水平的期刊或者杂志上发表文章。没有理想,注定一事无成!做课题与此相通!
如果做的一个课题是前沿的,没有任何标准,没有任何明确的定义,那么就可以自己制定一套定义,此时,也不可妄自菲薄。向林钦佑(Chin-Yew Lin)博士请教了几个有关复述的问题,他这么的给我建议。
昨晚还参加了TRS公司的吕博士招聘会,由于帮着借教室宣传等,所以彼此之间也较熟悉了。吕博士介绍了TRS公司的情况,还和大家探讨了一些读博士的感受,很受启发。一个人最重要的是要找好自己的定位。
This post has been viewed 97 times.
Share This
Tags:
微软,
暑期讨论班
Related posts
No Comments » |
Research |
Permalink
Posted by dimens
June 1st, 2005
参加微软信息抽取暑期培训班杂记(1)
可能是主办方的原因,因此本校的学生都可以方便的参加。主讲人是牛成,微软亚洲研究院研究员,主要方向是命名实体识别和信息抽取。从基础概念到最新方法,讲解的非常清楚。不过,在听的过程中,还是感觉到自己有些基础知识还不是很扎实,模棱两可的感觉。
在此仅仅记一些简单的记录。
所谓关系抽取(Relation Extraction)就是:在一篇文档中,类似“父子”关系等等客观的关系。
而文本挖掘(Text Mining)在这些关系的基础上,对客观存在的关系进行更深层的归纳推理,从中得出规律性的知识的过程。
在NE识别的过程中,首先是定义命名实体的规范(Specification),也就是那些东西是命名实体,那些不是命名实体。ACE(Automatic Content Extraction)倾向于认为具体的东西都可以作为命名实体,而抽象的东西不作为命名实体。牛成博士举了一个例子,“美国有很多跨国公司”。此处的“跨国公司”就不是命名实体,而“Microsoft是一个跨国公司”,这个例子中的“跨国公司”则是一个命名实体。我个人认为这样规定有一定的理由,但是在很多情况下,如何判别一个具体的或者抽象的东西,给命名实体识别带来较大的困难。
更多人同意规范是应用驱动的,具体应用要求命名实体提供一个什么粒度的东西,那么就可以相应的制定规范以满足应用的需求。正像分词也没有一个统一的标准一样。
今天第一次听到Aliasing(金山词霸的解释是“混淆现象”),还有一个单词Alias(“别名”)。其实Aliasing更象是别名的意思。Aliasing主要针对同一篇文档中的两个命名实体是否是指同一个“事物”,是指代消解研究的一个子集。感觉这个问题和指代消解的解决办法类似,应该来说,Aliasing这个问题解决起来要更容易一些。
牛车博士还提到一个信息抽取的基本技术就是:Normalization(规范化),有包括三个部分,时间、数字和地点信息。其中时间的内容可能包括推倒出一个时间的具体时间,比如,文中出现“两个小时以前”,时间规范化可能就会推导出具体的时间。地点也是类似,“上海”可能是两个不同的地方,如何识别他们是地点规范化的地方。(不知道理解的对不对)。牛博士介绍说需要实现的时间还很长。不过有关“数字的规范化”相对容易,就是把不同的数字形式转化为相同的格式。这个一个很显然的应用就是在问答系统中,比如一个问题“珠穆朗玛峰的有多高”,候选答案中可能会包含不同格式的8848,或者不同的单位,这样如果能够把他们规范化,就能够提高答案抽取的准确率。
“开放”的含义有两层,一个是完全开放,一个是个体是领域相关的,但是很够很快的适应到其他的领域。这两种开放形式都是开放,而后者往往更实际一些,实现起来也更容易一些。对应到具体的研究问题上也有类似的两种形式,比如对应到IE上,有完全的open domain IE,有Adaptable IE。机器翻译也一样,自动问答也一样。信息检索也是。
人类需要知识。电脑也是。可是电脑处理更多的是结构化的知识,非结构化的知识给人类带来方便的同时也给人类带来了麻烦。当电脑日益普及的今天,人们对于如何从非结构化的知识种抽取出结构化的知识并告诉机器,是一件非常麻烦的事情。但是,既来之,则安之。IE因此而生。
仔细想一想,这个时间是一个概率的世界,没有任何确定的东西。任何东西都是在变化,如果用数学来表示,那就是概率。因此对于同样变化无穷的人类语言来说,也是如此,也是一个概率的世界。因此,多种概率模型,统计方法等各显神通。机器学习作为一种抽象成为一个热门。牛博士提到,目前搞研究的有两类,一个是拼实力,一个是拼聪明。前者,可以改进算法,提出新的模型,要求有较高的抽象能力和数学背景;后者,在着重在idea,巧妙的思想和智慧更适合。一般情况下,unsupervised方法都是后者的天堂,可能多数的我们都属于这一类。
对于机器学习算法,只有做过类似,才会有深刻的体会,如果没有做过,就不会知道哪里容易出问题,瓶颈在哪里,有缺点在哪里。置于特征的选择可以说是机器学习的重要组成部分,其重要性不言而喻,相同的算法,特征不同,性能可能导致千差万别。
在牛博士讲到命名实体识别(NER)和关系抽取的关系时,一般情况下,先做NER,在NER的基础上在做IE,如果NER的结果错了,那么IE的结果比错无疑。但是有一位学者,据说时ISI的,提出一种Global Optimization On IE Output。思路不错,并且也获得了较好的效果。利用IE的结果修正NER的结果(没有看原文,不知道理解的是否正确),形成互动,也不是简单的反馈,而是互相促进。这样思想很好,我们也有过类似的想法,比如在处理分析底层句子时,分词和词性标注的结果是否也可以互动。其他的呢?
在课堂的开始,牛成博士还提出六个小题目,每一个都非常有意思,做起来都应该很不多。不过还没有仔细的考虑。
后半部分,精力有些分散,听的不是很好。总体感觉不错,同时也感觉到自己需要充电,需要不断的学习。也许学习的时候哪种半分忘我的感觉也是我追求的纯净的生活的方式之一。
This post has been viewed 133 times.
Share This
Tags:
微软,
暑期讨论班
Related posts
No Comments » |
Research |
Permalink
Posted by dimens