WeDataSphere是一款由微众银行金融科技团队开发的开源大数据处理和应用框架。也是一个金融级一站式大数据平台套件,旨在为企业提供全面、高效、易用的大数据处理和应用解决方案,帮助企业更有效地挖掘数据价值,推动业务创新。
遵循Apache 2.0开源协议,鼓励社区贡献和定制,社区的参与可以不断丰富和完善其功能。提供数据加密、权限控制等安全机制,保障数据资产安全,让企业可以放心地使用平台处理敏感数据。具备高并发处理能力和故障恢复机制,确保服务在高负载和复杂环境下的稳定性,保障业务的连续性。
项目地址:https://github.com/webankfintech/WeDataSphere
一、核心组件
1.DSS(DataSphere Studio):数据应用开发管理集成框架,以工作流式的图形化拖拽开发体验,覆盖数据应用开发全流程,包括数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等。
2.Linkis:构建计算中间件层,解耦上层应用与底层数据引擎,提供标准化接口连接各种底层引擎,如Spark、Presto、Flink等,还能实现跨引擎上下文共享、统一作业与引擎治理编排。
3.Exchangis:轻量化、高可扩展的数据交换平台,支持结构化与非结构化异构数据源间的数据传输,具备数据权限管理、节点服务高可用、多租户资源隔离等特性。
4.Qualitis:一站式数据质量管理平台,支持对各种数据源进行质量验证、通知和管理,解决数据处理中的质量问题。
5.Schedulis:高性能工作流任务调度系统,支持高可用性和多租户金融级特性,已集成到DSS中。
6.Visualis:基于易信达芬奇开发的数据可视化BI工具,已集成到DSS,帮助用户直观展示和分析数据。
7.Prophecis:一站式机器学习平台,集成多个开源机器学习框架,具有机器学习计算集群多租户管理能力,为生产环境提供全栈容器部署和管理服务。
8.Streamis:由微众银行等多方联合开发的流计算应用开发和管理项目,为流计算场景提供支持。
二、功能特点
1.模块化与微服务架构:提供完整的数据生命周期管理组件,各模块独立又可灵活组合;基于Docker容器化的微服务架构,可扩展性和容错性良好,便于部署维护。
2.API驱动集成:通过RESTful API和GraphQL,支持与其他系统和服务无缝集成,提供统一数据接口。
3.智能数据治理:内置元数据管理和数据质量管理功能,可实时监控数据质量与性能,确保数据准确可用。
4.友好操作界面:提供Web界面,降低非技术人员使用门槛,方便进行数据操作和管理。
三、安全和隐私
1.数据加密
传输加密:在数据传输过程中,采用SSL/TLS等加密协议,对数据进行加密处理,确保数据在网络传输过程中不被窃取或篡改,即使数据被拦截,攻击者也无法获取明文内容。
存储加密:对于存储在系统中的数据,使用加密算法对数据进行加密存储,如AES等对称加密算法或RSA等非对称加密算法,将数据转换为密文形式存储在磁盘等存储设备上,只有通过合法的密钥才能解密和访问数据。
2.权限控制
基于角色的访问控制:建立角色、权限与账号管理机制,根据用户的工作职责和业务需求设置不同的角色,为每个角色分配相应的权限,用户通过角色来获取对数据和系统功能的访问权限,不同角色具有不同的操作权限和数据访问范围。
细粒度权限管理:不仅可以对数据进行整体的访问控制,还能实现对数据的行、列、字段等更细粒度的权限管理,精确控制用户对不同数据元素的访问权限,确保用户只能访问和操作其权限范围内的数据。
3.数据脱敏
静态脱敏:在数据存储阶段,对敏感数据进行脱敏处理,如对身份证号、银行卡号、手机号等敏感信息进行部分隐藏或替换,将原始敏感数据转换为非敏感的替代数据,在不影响数据使用的前提下,保护数据的隐私性。
动态脱敏:在数据查询和使用过程中,根据用户的权限和数据访问策略,实时对敏感数据进行脱敏处理,确保不同权限的用户看到的数据脱敏程度不同,只有具有相应权限的用户才能获取完整的原始数据。
4.审计与监控
操作日志审计:记录用户对数据的所有操作行为,包括数据查询、修改、删除等操作,形成详细的操作日志,以便在发生数据安全问题时,可以通过审计日志追溯操作来源和过程,查找潜在的安全隐患和违规行为。
数据访问审计:对数据的访问请求进行实时监控和审计,分析访问行为是否异常,如是否存在频繁的大规模数据查询、非授权的访问尝试等,及时发现并阻止可能的恶意攻击和数据泄露行为。
5.安全认证
身份认证:支持多种身份认证方式,如用户名/密码认证、数字证书认证、动态口令认证等,确保只有合法的用户才能登录系统访问数据,防止非法用户冒用身份获取数据访问权限。
多因素认证:采用多因素认证机制,结合多种身份验证因素,如用户知道的信息(密码)、用户拥有的物品(令牌、手机)和用户本身的特征(指纹、面部识别)等,增加身份认证的安全性和可靠性。
四、应用场景
除了上文提到的数据仓库建设、实时数据分析、数据中台建设、人工智能应用之外,还包括以下场景:
1.金融领域
风险评估与管理:整合客户的交易数据、信用数据等多源数据,通过复杂的算法和模型进行风险评估和预测,帮助银行及时发现潜在的信用风险、市场风险等,制定合理的风险管控策略。例如,对信用卡用户的消费行为、还款记录等数据进行分析,评估用户的信用风险,为额度调整、风险预警等提供依据。
客户细分与精准营销:依据客户的资产状况、交易偏好、投资行为等数据,对客户进行细分,针对不同细分群体制定个性化的营销策略,提高营销效果和客户满意度。比如,针对高净值客户推出专属的理财产品和服务,针对年轻客户群体推广线上金融产品等。
2.零售领域
库存管理:结合销售数据、库存数据、供应链数据等,进行需求预测和库存优化,实现精准补货,降低库存成本,提高库存周转率。例如,根据不同地区、不同门店的销售数据和库存水平,合理调配货物,避免缺货和积压。
消费者行为分析:分析消费者的购买历史、浏览行为、评价反馈等数据,了解消费者的需求和偏好,为商品推荐、产品设计、定价策略等提供支持。比如,电商平台根据消费者的浏览和购买记录,为用户提供个性化的商品推荐。
3.医疗领域
临床决策支持:集成患者的病历数据、检查检验结果、基因数据等,利用数据分析和人工智能技术,为医生提供临床决策支持,辅助医生制定更准确的治疗方案。例如,通过分析大量的病例数据,为某种疾病的诊断和治疗提供参考依据。
医疗质量评估:对医疗过程中的数据进行监测和分析,评估医疗质量,发现潜在的医疗风险和问题,促进医疗质量的持续改进。比如,对手术成功率、感染率等指标进行分析,评估医院的医疗水平。
4.物联网领域
设备状态监测与故障预测:采集和分析物联网设备产生的海量数据,实时监测设备的运行状态,预测设备故障,实现预防性维护,降低设备故障率和维修成本。例如,对工业设备的运行数据进行分析,提前发现设备故障隐患,安排维修人员进行维护。
能源管理:对能源消耗数据进行采集和分析,实现能源的优化管理和节能减排。比如,通过分析企业的能源消耗数据,制定合理的能源使用计划,优化能源分配,提高能源利用效率。
5.政府与公共服务领域
智慧城市建设:整合城市交通、能源、环境、安防等多领域的数据,实现城市资源的优化配置和精细化管理,提升城市居民的生活质量。例如,通过分析交通流量数据,优化交通信号灯时长,缓解交通拥堵。
政策制定与评估:利用数据分析技术,对社会经济数据、人口数据等进行深入分析,为政策制定提供数据支持,并对政策实施效果进行评估和反馈,为政策调整和优化提供依据。比如,分析就业数据、经济增长数据等,评估就业政策的实施效果。