• 发文
  • 评论
  • 微博
  • 空间
  • 微信

一个神奇的开源大数据必备工具——实时数仓Apache Doris

飞桨PPDB 2024-03-12 13:55 发布于江苏 发文

在公交站,如果可以看到车辆的实时到站情况,就可以快速做出决策:等车还是骑车?

对效率的追求也决定着我们对实时有着天然的需求,这也就成为数仓开发绕不开的一个话题:实时数仓。

今天将为大家介绍开源实时数仓目前最佳的技术选型工具——Apache Doris。

什么是Apache Doris

Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。

当下,实时数仓的产品还有很多,比如阿里云的Hologress,如果没有开源要求则也是非常不错的选择。

哪些场景适合使用Apache Doris 报表分析 实时看板 (Dashboards) 面向企业内部分析师和管理者的报表 面向用户或者客户的高并发报表分析(Customer Facing Analytics)。比如面向网站主的站点分析、面向广告主的广告报表,并发通常要求成千上万的 QPS ,查询延时要求毫秒级响应。著名的电商公司京东在广告报表中使用 Apache Doris ,每天写入 100 亿行数据,查询并发 QPS 上万,99 分位的查询延时 150ms。 即席查询(Ad-hoc Query)

面向分析师的自助分析,查询模式不固定,要求较高的吞吐。小米公司基于 Doris 构建了增长分析平台(Growing Analytics,GA),利用用户行为数据对业务进行增长分析,平均查询延时 10s,95 分位的查询延时 30s 以内,每天的 SQL 查询量为数万条。

统一数仓构建

一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。海底捞基于 Doris 构建的统一数仓,替换了原来由 Spark、Hive、Kudu、Hbase、Phoenix 组成的旧架构,架构大大简化。

数据湖联邦查询

通过外表的方式联邦分析位于 Hive、Iceberg、Hudi 中的数据,在避免数据拷贝的前提下,查询性能大幅提升。

基于Apache Doris的技术架构

数据源经过各种数据集成和加工处理后入库到实时数仓 Doris 和离线湖仓(Hive, Iceberg, Hudi 中),离线数仓的数据还可以通过Doris外表的方式大幅提升查询性能。

看到此处,你是否已经跃跃欲试了呢?在使用之前你还需要了解Apache Doris的部署方式以及软硬件要求,不过不用担心,Doris官方提供了非常详尽的中文文档,可以帮助大家快速上手。

关注我,回复:Doris,即可获取官网地址。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    已认证
    飞桨PPDB

    大数据领域优质创作者...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码