视野 | 一款优秀的流处理产品必备的5大功能

2017-07-10 14:54:00 来源:  作者:

  星环科技是今年在硅谷举行的Strata+Hadoop World 2017大会(详情请点击阅读新闻 | Strata+Hadoop World 2017见闻)中仅有的两家参展的中国公司之一。小编有幸跟着星环科技的团队参加了此次大会,在向世界展示星环科技的技术和产品的同时,也了解下目前世界上其他科技公司所做的一些工作,从而把握目前科技中的一些发展趋势。从参加展览的公司来看,其中有两个方向相关的公司和产品最多:机器学习和流处理。小编平时也会参与一些流计算相关产品的研究和开发工作,所以很激动可以和世界上最顶尖的工程师讨论流处理的一些问题和发展。

  小编粗略统计了一下,本次大会中涉及的流计算产品以及解决方案达到将近10种,包括开源界目前最流行的Apache Beam、Apache Flink、Spark Streaming等;还有5、6家国外做流处理产品已经比较成熟的公司,包括Data Torrent、SQLstream、 SAS Event Stream Processing等;以及一些新起的流处理产品,比如新版本的Kafka等。通过跟以上多家公司的交流,并看了一些他们的演示Demo,总结下来,除了一些必要的基本功能之外,一款优秀的流处理产品主要还有以下几个方面的特点:

  1.低延迟是主流

  在上述提到的众多的流处理的产品当中,除了Spark Streaming是基于Micro-Batch的模型之外,毫无例外的都是基于Event-Driven的模型实现,这种模型能够让事件处理的延迟降低到毫秒级别,使其能够适用于对延迟要求比较的高的领域,比如IoT、金融行业等。 而Spark Streaming,包括新版本中的Structured Spark Streaming这种采用Mirco-Batch的模型,延迟则在秒级别,无法满足这些行业的低延迟要求。

  2.易用是关键

  商业化流处理产品的另外一个通用的特点是他们都致力于提供更方便简单的接口帮助用户构建和管理流处理应用,包括三种方式:

  ①提供可视化的工具:例如Data Torrent、SAS Event Streaming,他们都提供了对应的可视化工具,用户可以通过一些简单的拖拽操作,修改配置,能在数分钟内构建一个流处理应用 。

  ②提供SQL接口:例如SQLstream。通过提供标准的SQL支持,用户可以通过SQL语句创建Stream,以及转换、分析等操作,降低用户使用流处理引擎的门槛,并且可以方便的将一些原来在数据库上的复杂业务迁移到流处理平台上。SQLstream是目前国外产品中唯一一个支持SQL开发的流处理引擎。

  ③提供类SQL的API:例如Apache Flink以及Strunctured Spark Streaming。通过提供类似SQL操作的API,如select、groupby等,可以稍微降低用户编写流处理应用的复杂程度,但是总的来说在开发、部署以及后期的维护成本仍然比较高。

  另外大部分流产品都提供比较丰富的Connector的支持,让用户可以轻松的对接多种输入数据源/输出存储,常见的包括消息队列、关系数据库等。

  3.结合批处理是王牌

  如果流处理引擎只是处理实时数据,只能够实现ETL和有限的基于窗口的简单分析业务。流处理和批处理的结合,使得流处理能够实现更复杂的分析,例如实时数据和历史数据的关联操作等,从而帮助客户构建实时数据仓库。目前流处理引擎中,主要包括两种方式来实现流处理和批处理的结合:

  ①通过API的方式:例如Flink。用户需要通过API编写程序去实现历史数据的关联或者其他比对操作,开发难度大,并且不够灵活。

  ② 通过SQL的方式:例如 SQLstream、Slipstream。用户可以像关系数据库中使用Join来实现Stream和表的关联操作,编写简单、并且修改维护容易。

  4.安全是必须

  作为企业级产品,其中包括金融、能源等重要行业的客户,几乎所有的流处理产品都提供了安全的功能,包括账号管理、用户认证、资源控制等方面。实现方式常见的包括基于Kerberos的用户认证、基于LDAP的账户管理等。另外如Data Torrent,还提供了RBAC(Role Based Access Control)的安全控制方式。除此之外,现有的流处理系统通常都是在企业中被多部门共用的,因此还需要考虑多用户之间的资源管理和控制,但并没有发现现有的产品中在这方面做的比较好的。

  5.CEP和机器学习是趋势

  CEP(Complex Event Processing)能够帮助通过模式匹配、事件的相互关系等方式能够找出数据流中的有意义的事件,从而帮助企业开发出更复杂的业务,例如通过流处理引擎的CEP帮助银行用户进行实时反欺诈的监控和报警。目前Apache Flink是支持一些简单CEP的处理。

  另外流上的机器学习是大家正在探索的方向,将机器学习的模型应用到实时数据,甚至通过流处理进行实时的模型训练,可以帮助用户构建更智能的系统。

  星环科技从14年开始提供企业流处理引擎,广泛使用于交通、能源等行业,通过和客户的沟通发现以上流处理产品的特点也是国内企业在构建实时系统时考虑的因素。经过多个版本的更新和演变,星环最新版本的Slipstream产品,基于Spark实现了低延迟(毫秒级别)的引擎,并且完整支持SQL 2003标准;Slipstream还是一个流处理和批处理统一的引擎,并且充分利用星环Inceptor引擎的优化技术,使得Slipstream在做复杂分析有更好的性能;通过星环Stargate模块,Slipstream能够对接各种Hadoop数据源、关系数据库、消息队列、ElasticSearch、VoltDB等存储系统;Slipstream还支持实时的CEP处理,并且有专门的团队开发流上的机器学习算法,让用户可以轻松的使用Slipstream构建复杂的实时系统。

  关于星环科技 

  星环信息科技(上海)有限公司(下文简称“星环科技”)是全球领先的大数据基础软件平台供应商,专注于企业级大数据核心平台数据库研发和服务,打造大数据生态的“中国心”。公司以上海为总部,以北京、广州为区域总部,并在南京、郑州、深圳和成都都设有支持中心,同时在沈阳、西安、武汉等多地设有办事机构。经过多年自主研发,星环科技一站式大数据平台Transwarp Data Hub(TDH)整体架构及功能特性比肩硅谷同行,产品性能在业界处于领先水平,并在2016年被Gartner评为全球最具有前瞻性的数据仓库及数据管理解决方案厂商,也是首个上榜的中国厂商。目前公司处于快速成长期,技术和市场能力均得到投资人高度认可。2016年荣获“安永复旦中国最具潜力企业”,同时位列“中国最具投资价值企业50强”前三甲。星环科技已完成C轮融资,由腾讯领投。

初审编辑:

责任编辑:赵伟

相关新闻
推荐阅读
  • 重效率、勇担当、作表率 泰安将开展电视问政

    大众网泰安7月10日讯 7月7日,泰安市召开“重效率、勇担当、作表率”主题活动领导小组办公室第三次主任办公会议,部署《“电视问政”系列活动放管服改革专题实施方案》,对市主题活动领导小组第二次会议有关决定事项进行细化分解,安排部署下一步活动特别是集中整...[详细]

    07-10 10-07大众网
  • 宁阳科技资源“沉下去”脱贫红利“浮上来”

    王新花,省科技扶贫人才、市级科技指导员、泰山林科院研究员,主要从事森林保护和经济林研究。来到省级贫困村宁阳县伏山镇苏楼村后,她根据村庄实际与自身专长,帮助村里发展起核桃栽植,并改以往直接栽成苗的办法,提出通过栽植实生苗再改接,这样既可节省成本50%...[详细]

    07-10 10-07大众网
  • 泰安33家企业获首批排污许可证

    全面实施控制污染物排放许可制,是党中央、国务院从推进生态文明建设全局出发,全面深化环境治理基础制度改革的一项重要部署,是补齐环境短板、切实改善环境质量的战略举措,是随着环境管理模式转向以环境质量改善为核心,对原有排污许可制度进行的改革完善,目标是...[详细]

    07-10 10-07大众网
  • 泰安:教育局公示人才递进培养工程人选

    根据市人力资源和社会保障局、市教育局《关于推荐选拔第六届泰安市教育系统人才递进培养工程人选的通知》规定,经市评审委员会评选推荐,确定梁彩霞等100名教师为泰山名师人选,任娟等30名教师为泰山功勋教师人选,荆华等15名校长(园长)为泰山名校长人选,张伶然等5名校...[详细]

    07-10 10-07齐鲁晚报
  • 泰安入选“全国创新驱动助力工程示范市”为我省唯一获批地级市

    泰安市被确定为2017年度“全国创新驱动助力工程示范市”。此次全国共评选出2017年度创新驱动示范市11个,省级、副省级试点市4个,泰安市是山东省唯一获批的地级市。[详细]

    07-09 17-07大众日报
  • 9小时就到兰州 泰安至兰州高铁7月10日运行

    大众网泰安7月8日讯(记者 田阳 通讯员 徐燕)7月8日,大众网记者从高铁泰安站获悉,7月10日起,泰安到兰州的高铁列车正式运行。 [详细]

    07-09 17-07大众网
联系
我们
  • 泰安官方微信

  • 泰安官方微博

  • 泰安24小时

频道联系人:陶老师

商业、内容合作:0538-5051000

投稿邮箱 :taiandzwww@163.com 合作邮箱:5935175@qq.com

微博:泰安大众网 微信号:taiandzwww

地址:泰安市环山路77号大众网泰安频道 邮编:271000