基于Hadoop平台的电信客服数据的处理与分析①项目准备阶段---项目技术预研(技术架构)
最编程
2024-07-05 13:32:34
...
任务描述
掌握项目的总体功能,及实现流程。预习项目中所使用到的技术和知识点。
任务指导
一、项目效果展示
二、项目架构
1、总体架构:
2、技术架构
- 技术清单:
功能 |
组件 |
说明 |
---|---|---|
消息中间件 | Kafka | 消息队列 |
数据采集 | Flume | 日志采集工具 |
存储 | HDFS | 分布式文件系统 |
MySQL | 关系数据库 | |
监控管理调度运维 | YARN | 分布式资源调度分配 |
Zookeeper | 集群节点协调 | |
项目开发框架 | Maven | 项目管理工具 |
IntelliJ IDEA | 项目集成开发环境 |
三、项目主要涉及的技术
1、技术选型:项目的解决方案
以Maven+IntelliJ IDEA作为开发环境,以Hadoop HDFS、HBase为底层存储,通过分析HBase数据将结果存储在MySQL供前端框架展示。
- 中间件:Kafka
- 平台调度:YARN
- 数据存储,持久化:HDFS、HBase,MySQL
- 数据可视化:Spring Framework
2、平台总体分为4个层级,按数据流入及数据处理顺序,依次分为
1)数据导入层
数据导入需满足以下要求:
- 已开启Hadoop HDFS框架环境,已开启Highly Available(HA)高可用。
2)数据存储层
- 导入的数据统一经过Kafka缓存,以避免数据堵塞保证系统的稳定性。
3)数据分析层
- 已开启Hadoop YARN框架环境,已开启Highly Available(HA)高可用。
4)应用层
- 模拟电信呼叫数据保存至本地CallLog.txt文件;
- Flume推送CallLog.txt文件到Kafka进行缓存;
- 读取Kafka数据进行预处理并持久化道HBase;
- 对HBase数据进行分析统计,将结果保存至MySQL供前端Spring Framework查询展示。
四、参考资料
- 《Linux操作系统》
- 《Hadoop权威指南:大数据的存储与分析(第4版)》
- 《Kafka权威指南》
- 《Redis设计与实现》
- 《数据可视化技术》
上一篇: [C++][设计模式][访问器]详细讲解
下一篇: Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
推荐阅读
-
【摩尔线程+Colossal-AI强强联手】MusaBert登上CLUE榜单TOP10:技术细节揭秘 - 技术实力:摩尔线程凭借"软硬兼备"的技术底蕴,让MusaBert得以从底层优化到顶层。其内置多功能GPU配备AI加速和并行计算模块,提供了全面的AI与科学计算支持,为AI推理和低资源条件下的大模型训练等场景带来了高效、经济且环保的算力。 - 算法层面亮点:依托Colossal-AI AI大模型开发系统,MusaBert在训练过程中展现出了卓越的并行性能与易用性,特别在预处理阶段对DataLoader进行了优化,适应低资源环境高效处理海量数据。同时,通过精细的建模优化、领域内数据增强以及Adan优化器等手段,挖掘和展示了预训练语言模型出色的语义理解潜力。基于MusaBert,摩尔线程自主研发的MusaSim通过对比学习方法微调,结合百万对标注数据,MusaSim在多个任务如语义相似度、意图识别和情绪分析中均表现出色。 - 数据资源丰富:MusaBert除了自家高质量语义相似数据外,还融合了悟道开源200GB数据、CLUE社区80GB数据,以及浪潮公司提供的1TB高质量数据,保证模型即便在较小规模下仍具备良好性能。 当前,MusaBert已成功应用于摩尔线程的智能客服与数字人项目,并广泛服务于语义相似度、情绪识别、阅读理解与声韵识别等领域。为了降低大模型开发和应用难度,MusaBert及其相关高质量模型代码已在Colossal-AI仓库开源,可快速训练优质中文BERT模型。同时,通过摩尔线程与潞晨科技的深度合作,仅需一张多功能GPU单卡便能高效训练MusaBert或更大规模的GPT2模型,显著降低预训练成本,进一步推动双方在低资源大模型训练领域的共享目标。 MusaBert荣登CLUE榜单TOP10,象征着摩尔线程与潞晨科技联合研发团队在中文预训练研究领域的领先地位。展望未来,双方将携手探索更大规模的自然语言模型研究,充分运用上游数据资源,产出更为强大的模型并开源。持续强化在摩尔线程多功能GPU上的大模型训练能力,特别是在消费级显卡等低资源环境下,致力于降低使用大模型训练的门槛与成本,推动人工智能更加普惠。而潞晨科技作为重要合作伙伴,将继续发挥关键作用。
-
基于Hadoop平台的电信客服数据的处理与分析②项目分析与设计---需求分析-项目场景引入
-
基于Hadoop平台的电信客服数据的处理与分析①项目准备阶段---项目技术预研(技术架构)