登录
主页
 文章
Informatica Data Quality提供全面的数据质量解决方案,擅长数据标准化、验证、丰富、重复数据消除和整合。对于企业级的数据质量治理项目,它能够确保在整个组织内实现数据质量的统一管理和监控。具有基于角色的功能、异常管理、对问题的人工智能洞察、预构建的规则和加速器等功能,可帮助用户快速发现和解决数据质量问题。此外,还提供了针对云数据的版本,适用于将数据存储在 Microsoft Azure 和 AWS 等云平台的企业。
1158
8
4
Talend Data Quality提供全面的数据质量评估、清洗和监控功能。能够检测和修复数据中的错误、不一致性和重复数据,确保数据的准确性和完整性。一、主要功能 - 数据剖析:能够快速识别数据质量问题,发现隐藏模式和异常情况,并通过汇总统计和图形化表示呈现出来,帮助用户快速了解数据的整体状况和潜在问题。
1186
0
3
ZooKeeper 是一个开源的分布式协调服务,主要用于分布式系统中的配置管理、命名服务、分布式同步、集群管理等。以下是关于 ZooKeeper 的详细介绍:ZooKeeper 最初是由雅虎公司开发,后来成为 Apache 软件基金会的一个顶级项目。它的设计目标是为分布式应用提供一个高可靠、高性能、一致性的协调服务。
681
8
6
Apache Kafka:分布式流处理平台,可用于实时数据集成和流数据处理。支持高吞吐量的数据传输和处理,适用于实时数据分析和事件驱动架构。最初由LinkedIn开发并开源,于2011年开始投入使用,后来成为Apache软件基金会的一个顶级项目。其设计初衷是为了满足LinkedIn公司内部对大规模实时数据处理和传输的需求。
1152
2
4
ETLCloud:一款国产的集成了ETL/ELT/CDC的全域数据集成平台,提供了广泛的应用及数据库链接器,能够满足对离线和实时数据集成的需求 。一、功能特性 - 多种数据集成模式: - 离线数据集成:平台提供ETL和ELT双引擎模块。ETL模式可实现复杂的数据集成场景以及数仓反向集成业务系统的ETL过程,快速实现业务数据到数仓及数据湖的抽取。ELT模式则在数据抽取、加载后再进行转换操作,用户可根据不同业务场景灵活选择使用。
953
9
13
 我们熟悉IT是信息技术(Information Technology)是以控制管理、积累数据为主。DT(Data technology)时代,它是以数据创新、激发生产力为主的技术。DT时代依托于大数据采集,采用传统大数据加工转变为快数据加工。优先丰富精准的指标体系形成推动社会进步、提升幸福指数的深数据
928
5
12
Apache Gobblin:一套分布式数据集成框架,旨在简化大数据集成工作当中的各类常见任务,包括数据流与批量生态系统的提取、复制、组织与生命周期管理 。主要用于大规模数据的抽取、转换和加载(ETL)。一、主要特点1. 高可扩展性 - 能够处理大规模数据集,通过水平扩展可以轻松应对不断增长的数据量和处理需求。
621
9
2
Apache Camel:一个开源框架,用于数据集成和企业应用集成,支持多种协议和数据格式,可以轻松地与现有的系统和应用程序集成 。一、主要特点1. 多样化的集成方式 - 支持多种传输协议和数据格式,如 HTTP、FTP、JMS、AMQP 等,可以轻松地在不同的系统和技术之间进行通信和数据交换。
677
7
11
AntV是蚂蚁金服全新一代数据可视化解决方案。需要一定的技术含量进行二次开发。它采用的 the grammar of graphics 语法,与其他可视化库相比有其独特之处,为用户提供了专业可靠、具有无限可能的数据可视化实践。一、主要产品及功能 - G2:基于图形语法理论,是面向常规统计图表的可视化工具。它以数据驱动,让用户无需关注图表的繁琐实现细节,就能使用 canvas 或 svg 构建出各种可交互的统计图表。基于 G2 还孵化了开箱即用的 G2Plot 统计图表库,其易用性进一步提升,图表类型更丰富,在蚂蚁的各类数据消费场景业务中广泛应用。
711
7
0
Pyecharts是当数据分析遇上 Python 语言时诞生的一个数据可视化库。Echarts 是一个由百度开源的数据可视化库,而 Pyecharts 以 Python 为基础,对 Echarts 进行了封装和扩展。特点:以其高度灵活的配置项,使用户可以轻松搭配出精美的图表。它结合了 Python 的强大数据处理能力和 Echarts 的优秀可视化效果,为 Python 开发者提供了便捷的数据可视化工具。
821
1
8
DataGear是开源免费的数据可视化分析平台,采用浏览器 / 服务器架构。功能特点:支持运行时接入多种数据源,包括常见的关系数据库以及 Elasticsearch、ClickHouse、Hive 等大数据引擎;支持创建多种格式的数据集,如 SQL、CSV、Excel、HTTP 接口、JSON 等,并可设置为动态的参数化数据集;内置丰富的图表类型,如折线图、柱状图、饼图、地图等,且支持自定义图表配置项和编写上传自定义图表插件;数据看板采用原生的 HTML 网页作为模板,支持导入任意 HTML 网页,方便用户进行自由编辑和个性化设计。
809
0
12
数据可视化平台可以将复杂的数据以图表、图形等直观的形式展现出来,使数据的结构、趋势和关系一目了然。例如,通过柱状图可以清晰地比较不同类别数据的大小;折线图则能直观地反映数据随时间的变化趋势。帮助非专业数据分析师的用户,如企业管理者、业务人员等,快速理解数据的含义,无需深入了解数据的底层结构和复杂的统计分析方法。
850
0
12
Talend Open Studio是一个强大的数据集成平台,提供了丰富的功能和工具,用于设计、开发和管理数据集成流程。它支持多种数据源和数据格式,具有可视化的设计界面,方便用户进行数据转换和集成操作。此外,Talend Open Studio 还提供了数据质量检查、数据清洗等功能,帮助用户确保数据的准确性和完整性。
590
7
7
Clonezilla是一个开源的系统克隆工具,它可以对整个系统或单个分区进行克隆。由台湾的NCHC自由软件实验室开发。Clonezilla Live:适用于单台计算机,可以将存储介质或单个分区镜像到多种类型的存储位置,包括SSH服务器、Samba网络共享等。它还支持直接将一个存储介质上的数据克隆到另一个存储介质上。
719
5
0
TimeShift是Linux 系统备份程序,类似于 Windows 中的系统还原和 macOS 中的 Time Machine,通过定期获取文件系统的增量快照,可将系统恢复到以前的状态,提供 rsync 模式和 btrfs 模式。Timeshift 允许用户创建系统快照,以便在出现问题时能够恢复到之前的状态。Timeshift 支持使用 Rsync 或 BTRFS 两种方式来创建快照,提供了类似于 Windows 系统中的系统还原功能和 macOS 中的时间机器工具。
1181
4
3
Apache InLong(应龙):一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。InLong 能够方便业务快速构建基于流式的数据分析、建模和应用,广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域。InLong 项目最初由腾讯大数据团队捐献到 Apache 孵化器,并于 2022 年 6 月正式毕业成为 Apache 顶级项目。目前,InLong 正服务于上千个业务,其中高性能场景数据规模超百万亿条/天,高可靠场景数据规模超十万亿条/天。
1069
7
1
Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和数据分发系统。基于 web 图形界面,通过拖拽、连接、配置完成基于流程的编程,实现数据采集等功能。一、主要特点1. 可视化编程 - NiFi 提供了一个基于 Web 的用户界面,用户可以通过拖放、连接不同的处理器来构建数据处理流程,无需编写复杂的代码,使得数据处理流程的设计和修改变得直观和便捷。
1078
6
14
Bup:基于 git packfile 格式,提供快速增量存储、全局重复数据删除,适用于 Linux、FreeBSD、NetBSD、macOS、Solaris 或 Windows(带有 Cygwin 和 WSL)等。一、主要特点1. 高效性 - 采用先进的算法,能够快速备份大量数据,节省时间和系统资源。无论是小文件还是大型数据集,都能迅速完成备份任务。
916
6
8
Apache SeaTunnel:分布式、高性能、易扩展的数据集成平台,架构于 Apache Spark 和 Apache Flink 之上,用于海量数据(离线&实时)同步和转化。前身是 waterdrop(中文名:水滴),2021 年 10 月 12 日更名为 SeaTunnel,2021 年 12 月 9 日正式成为 Apache 孵化器项目,2022 年 3 月 18 日社区发布首个 Apache 版本 v2.1.0 ,截至目前已发布了 39 个版本,并经过大量企业生产使用。
841
0
11
Addax:异构数据源离线同步工具,最初来源于阿里的 DataX,致力于实现包括关系型数据库、HDFS、Hive、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。一、功能特性 - 并行处理:采用多线程并行处理策略,能根据数据源和目标的特性灵活分配任务,还可智能切分文件与表,实现数据读取与写入的最大化并发,从而提高数据迁移速度。
998
5
7
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号