大数据真好玩 - 个人中心 - 腾讯云开发者社区-腾讯云
HBase BulkLoad 原理及批量写入数据实战
之前我们介绍了HBASE的存储机制,HBASE存储数据其底层使用的是HDFS来作为存储介质,HBASE的每一张表对应的HDFS目录上的一个文件夹,文件夹名是以H...
Apache Hudi压缩Compaction源码解析
了解过hudi的新手或者专家都知道,hudi不管是COW还是MOR表,其文件还是存储在hdfs上。因为下来介绍我在学习hudi压缩的一些东西,所以下方就以MOR...
Flink写入数据到Hudi数据湖的各种方式
主要用于数据初始化导入。Bulk Insert不会进行数据去重,需要用户在数据插入前进行数据去重
Flink双流及多流Join 、IntervalJoin、coGroupJoin的区别与生产使用
1.Flink 三种Join的代码测试 1.1 数据源 1.2 join 1.3 intervalJoin 1.3.1 intervalJoin API用法 1...
时间轮在Netty、Kafka中的应用
时间轮是一个高性能、低消耗的数据结构,它适合用非准实时,延迟的短平快任务,例如心跳检测。在Netty、Kafka、Zookeeper中都有使用。
Flink控制任务调度:作业链与处理槽共享组(SlotSharingGroup)
为了实现并行执行,Flink应用会将算子划分为不同任务,然后将这些任务分配到集群中的不同进程上去执行。和很多其他分布式系统一样,Flink应用的性能很大程度上取...
Hudi与Spark和HDFS的集成安装使用
将maven的安装包上传到centos7服务器上,并解压,然后配置系统环境变量即可
腾讯广告业务基于Apache Flink + Hudi的批流一体实践
广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要...
基于Seatunnel连通Hive和ClickHouse实战
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11
Flink 上下游算子并发之间的数据传递方式
the output elements are forwarded to the local subtask of the next operation.
Flink写Elasticsearch导致Checkpoint频繁失败的解决方案
最近做的一个需求,在一个Flink程序中,根据数据里面的ip进行分流,每个流对应一个ES的索引,一共有14个索引,开启checkpoint。
Apache Kafka 3.2.0 重磅发布!
3.2.0 版本包含许多新功能和改进。本文将重点介绍一些最突出的新功能。有关更改的完整列表,请务必查看发行说明。您还可以观看发布视频,了解 Apache Kaf...
Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager
为了解决Flink作业使用RocksDB状态后端时的内存超用问题,Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制...
Apache Doris,MPP架构数据库王者学习总结
doris是一个基于mpp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的,...
Flink水印不能触发窗口计算问题详解
前言 1.watermark特点 2.窗口 触发的条件 窗口的划分 窗口及水印触发的解释 3.代码 4.测试数据源 5.遇到的问题 6.问题排查 7.问题解决
Hbase WAL日志数据实时增量推送至Kafka
Hbase提供了跨集群的数据同步方式Replication,可通过自定义Replication Endpoint,把消息写入kafka,先来了解Hbase Re...
「ClickHouse系列」ClickHouse中的物化视图详解
视图是由若干个字段以及若干条记录构成(也常称为虚标),它与表有很多相似的地方,视图中的数据源来自于原表,视图本身不存储数据,视图它保存的仅仅是一条select语...
基于PushGateway+Prometheus+Grafana构建Flink实时监控体系
本文主要介绍将flink任务运行的metric发送到Prometheus,通过grafana报表工具展示。
数据质量监控框架及解决方案总结
随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据...
ClickHouse 数据类型全解析及实际应用
基础类型只有数值、字符串和时间三种类型,没有 Boolean 类型,但可以使用整型的 0 或 1 替代。ClickHouse 的数据类型和常见的其他存储系统的数...
上一篇: C 文本宽度示例解释
推荐阅读
-
设置 - 个人中心 - 腾讯云开发者社区-腾讯云
-
数据安全网关 - 标签 - 腾讯云开发者社区-腾讯云
-
大数据真好玩 - 个人中心 - 腾讯云开发者社区-腾讯云
-
颜智慧 - 个人中心 - 腾讯云开发者社区-腾讯云
-
腾讯云区块链 - 个人中心 - 腾讯云开发者社区-腾讯云
-
程序员 肖浩 - 个人中心 - 腾讯云开发者社区-腾讯云
-
小红书大产品部架构 小红书产品概览--经过性能、稳定性、成本等多个维度的详细评估,小红书最终决定选择基于腾讯云星海自研硬件的SA2云服务器作为主力机型使用。结合其秒级的快速扩缩、超强兼容和平滑迁移能力,小红书在抵御上亿次用户访问、保证系统稳定运行的同时,也实现了成本的大幅降低。 星海SA2云服务器是基于腾讯云星海的首款自研服务器。腾讯云星海作为自研硬件品牌,通过创新的高兼容性架构、简洁可靠的自主设计,结合腾讯自身业务以及百万客户上云需求的特点,致力于为云计算时代提供安全、稳定、性能领先的基础架构产品和服务。如今,星海SA2云服务器也正在为越来越多的企业提供低成本、高效率、更安全的弹性计算服务。 以下是与小红书SRE总监陈敖翔的对话实录。 问:请您介绍一下小红书及其主要商业模式? 小红书是一个面向年轻人的生活方式平台,在这里,他们发现了向上、多元的真实世界。小红书日活超过 3500 万,月活跃用户超过 1 亿,日均笔记曝光量达 80 亿。小红书由社交平台和在线购物两大部分组成。与其他线上平台相比,小红书的内容基于真实的口碑分享,播种不止于线上,还为线下实体店赋能。 问:围绕业务发展,小红书的系统架构经历了怎样的变革和演进? 系统架构变化不大,影响最深的是资源开销。过去三年,资源开销大幅增加,同比增长约 10 倍。在此背景下,我们努力进行优化,包括很早就开始使用 K8S 进行资源调度。到 18 年年中,绝大多数服务已经完全实现了容器化。 问:目前小红书系统架构中的计算基础设施建设和布局是怎样的? 我们目前的建设方式可以简单描述为星型结构。腾讯云在上海的一个区是我们的计算中心,承载着我们的核心数据和在线业务。在外围,我们还有两个数据中心进行计算分流,同时承担灾备和线上业务双活的角色。 与其他新兴电子商务互联网公司类似,小红书的大部分计算能力主要用于线下数据分析、模型训练和在线推荐等平台。随着业务的发展,对算力的需求也在加速增长。
-
驰宇 - 个人中心 - 腾讯云开发者社区-腾讯云
-
张泽旭 - 个人中心 - 腾讯云开发者社区-腾讯云
-
张泽旭 - 个人中心 - 腾讯云开发者社区-腾讯云