返回 登录
20

TextTeaser:自动文本摘要算法开源

移动带来的一个直接后果,是人们的注意力和时间被严重碎片化,长文摘要的重要性凸显出来。今年三四月,Yahoo和Google先后以3000万美元左右的价格收购了相互竞争的新闻摘要App公司SummlyWavii,更使文本摘要成为热门技术。

因此,Bright公司(用算法来分析职位并优化招聘流程)的两位菲律宾裔工程师Jolo Balbin@HN)和Ben Sarmiento联手开发的自动文本摘要算法TextTeaser当然会引起较多关注。算法还有相应的Web应用(我在试用时出错了)和API。使用Scala语言和构建工具SBT。

Hacker News曾三次讨论过TextTeaser以及基于它实现的产品:

上周,TextTeaser又迎来了自己的TechCrunch时刻。在TechCrunch报道中,Jolo Balbin说算法是他在马尼拉读本科和硕士期间(他的硕士论文就是文本摘要)开发的,效果比Cruxbot和Summly还要好。

算法主要考虑四方面:

  1. 标题中词语与正文中其他词的关系;
  2. 句子的长度;
  3. 句子的位置(一般文章的第二句比第一句要重要,作者往往在这里引入关键要点);
  4. 如果文章所在网站某些词出现更频繁,这些词要加权重。
评论