返回 登录
0

日志易陈军:迭代加速,日志分析助力IT智能化

阅读37183

日志是企业内部宝贵的IT大数据,在这个大数据飞速发展的新阶段,未来的日志分析必定会更加智能化,仅仅对于数据的存取已经无法满足企业的发展需要,所以数据挖掘和分析势必将成为企业在竞争中必不可少的有力武器。

日志易是一个日志搜索分析工具,对日志进行集中管理,提供实时搜索、关联分析、监控告警、多维统计和数据可视化等功能,帮助企业进行运维监控、安全合规审计及业务数据挖掘。日志易的创始人兼CEO陈军,曾就职于Cisco、Google、腾讯和高德软件,历任高级软件工程师、专家工程师、技术总监、技术副总裁等岗位,对数据中心自动化运维和监控、云计算、搜索、大数据和日志分析具有丰富的经验。

图片描述
日志易创始人兼CEO 陈军

以下为采访实录

CSDN:请简单介绍一下日志易目前的发展情况以及你们在整个大数据生态圈中所处的位置?

陈军:日志易在快速发展,产品每个季度发布一个版本,功能越来越接近美国的Splunk。日志易实时处理日志,每秒可处理100万条日志,不仅大,而且快,属于实时大数据,fast big data.

CSDN:贵公司日志分析的具体应用场景有哪些?目前有哪些典型的用户?

陈军:日志易对运维日志、业务日志实时采集、搜索、分析、可视化,用于运维监控、安全审计、业务分析。典型客户主要分布在金融、运营商、电力、互联网,目前已经有几十个大客户,包括中移动、国家电网、乐视、小米、网宿、某著名综合金融集团、几家著名股份制银行、某著名城商行、某农商行、鹏华基金等。

CSDN:能否详细介绍下利用实时搜素引擎分析日志较之前的数据库分析和Hadoop分析有哪些优势?

陈军:日志是非结构化数据,日志易采用实时搜索技术处理日志,可以搜索、分析几秒钟之前产生的任何日志,对日志的格式没有任何要求,非常快速、灵活、强大,而且日志易是个开箱即用的产品,不需要用户投入开发人员。

数据库是用来处理结构化数据的,而日志是非结构化数据,用数据库来处理日志,有以下问题:1.无法处理TB级的海量日志;2.无法适应多变的日志格式,表结构通常3列:时间戳、主机名、日志文本,没有对日志内容做结构化,非常不灵活;3.无法做全文检索,很不方便。Hadoop是个开发框架,使用Hadoop处理日志,需要投入开发团队,而且因为Hadoop采用批处理,延时比较大,只能看到十几分钟前的日志,无法做到秒级延时,而且Hadoop也不提供全文检索。

CSDN:同样利用搜索引擎的方式来分析日志,和国内外的同行相比,日志易具有哪些特点?

陈军:国外这方面的产品主要有两个:Splunk和ELK。Splunk是比较完善的商业产品。日志易与Splunk相比,有本地的研发团队,可以为用户提供定制化服务,而且产品更加切合中国用户的需求。ELK由Elasticsearch/Logstash/Kibana三个组件组成。ELK基础功能开源免费,但监控告警模块Watcher、权限管理模块Shield、集群管理模块Marvel都收费。

另外,ELK只支持日志索引入库前抽取字段做结构化(Schema on Write),用户在检索的时候不能抽取想分析的字段,日志易支持检索阶段抽取字段做结构化(Schema on Read)。而且,日志易实现了搜索处理语言SPL(Search Processing Language),用户可以在搜索框里编写SPL脚本,对日志进行复杂的关联分析,非常强大、灵活,实现了“框计算”。日志易还实现了日志易集群的监控管理系统Rizhiyi_Manager,方便对日志易集群进行自动化管理,大大减少了运维成本。

日志易在国内是遥遥领先的产品,已经有大量的客户成功案例,国内的一些同行还处于非常初级的阶段。

CSDN:日志易的技术架构能分享一下吗?

陈军:日志易的产品由Agent、日志易集群、Rizhiyi_Manager组成:Agent安装在日志产生的服务器,监听日志文件,把日志文件的增量部分读取上传,可对日志进行压缩、加密、脱敏、流控、缓存等;日志易集群由接收器、消息队列、结构化引擎、搜索引擎、分析引擎、管理引擎等组成,每个模块都有容错冗余,日志保存在PC服务器的分布式索引文件里,也可以备份到NAS系统或HDFS;Rizhiyi_Manager对Agent及日志易集群进行一站式集中管理,可在一个页面管理上千个Agent的配置、启停、升级等,而且对日志易集群进行监控管理,运维管理非常方便。总体架构图如下:

图片描述

CSDN:日志易的功能方面非常完善,有统一日志管理,支持各种形式的日志采集,那么背后的技术实现方面主要的门槛在哪?你们是怎样解决的?

陈军:主要的技术门槛在于实时搜索技术及分析技术。实时搜索技术采用流式处理,日志从产生到搜索分析出结果只有几秒钟的延时,这和谷歌、百度等网页搜索采用的批处理有很大差别,网页搜索最快的是新闻搜索,也只能搜到10分钟前的新闻,无法搜到几秒钟之前产生的新闻。但流式处理也带来对资源的消耗和吞吐率的下降,在计算机系统里,延时与吞吐率是一对矛盾,我们对系统进行了大量的调优,这都是在实战中积累下来的宝贵经验,中间趟过了很多坑。

分析技术方面,日志易实现了搜索处理语言SPL(Search Processing Language),用户可以在搜索框里编写SPL脚本,对日志进行复杂的关联分析,非常强大、灵活,实现了“框计算”。这样,用户的各种场景分析,都可以在搜索框里编写SPL脚本实现,而不需要在系统代码里实现。

CSDN:目前日志易已经能够做到每秒钟实时处理日志能达到多少?平台上数据达到多少?用户比较关注的问题有哪些?

陈军:目前日志易已经在客户那里做到每秒钟实时处理100万条日志,每天新增日志量是20TB,检索1000亿条日志,1分钟内返回结果。下一步,日志易将做到每秒钟实时处理500万条日志,每天新增日志量100TB。

用户比较关注的是丰富的功能、高性能、高稳定性及易管理。

CSDN:作为一款SaaS产品,用户体验非常关键,日志易在产品稳定和用户体验上有哪些值得分享的经验?

陈军:日志易通过在技术上的高投入,通过一支高水平的产品、研发、运维队伍来保证产品和服务的高质量。日志易的大部分工程师来自著名互联网公司,拥有名校硕士学位,还有几位拥有美国硕士学位,他们在过去研发、运维了大量高质量的复杂系统,他们长期积累的经验非常宝贵。

CSDN:最后请介绍下日志分析未来的趋势?包括日志易未来会向哪个方向发展?

陈军:日志是企业内部宝贵的IT大数据,日志分析未来会更加智能化,日志易会朝机器学习、深度学习的方向发展。未来,大量物联网的数据也属于带时间戳的机器数据,这也是日志易的业务方向。

评论