登录
主页
 文章
BackInTime:易于使用的 GNU/Linux 文件和文件夹备份工具,提供命令行工具和 QT5 GUI,使用 rsync 手动或计划执行快照,并可通过 SSH 在本地或远程存储快照。一、主要特点- 多种备份方式:提供了命令行工具和基于Qt5的图形界面(Back In Time-qt),用户可以根据自己的需求和使用习惯选择适合的方式进行操作。
690
1
12
TIS:基于批量数据处理(DataX)和流式数据处理(Flink-CDC、Chunjun)一体,提供简单易用的操作界面,降低用户实施各端(MySQL、PostgreSQL、Oracle、Elasticsearch、ClickHouse、Doris 等)之间数据同步的实施门槛。一、功能特点1. 高效的数据同步 - 能够实时捕获数据源的变化,并将其快速同步到目标系统中。无论是批量数据的周期性同步,还是流式数据的即时传输,TIS 都能确保数据的准确性和及时性。
557
7
7
- MinerU:一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、markdown 等格式的内容。一、特点1. 多源数据支持:可以从各种数据源中提取数据,包括数据库、文件系统、网页等。无论你是需要从企业内部的数据库中获取销售数据,还是从互联网上抓取特定信息,MinerU 都能胜任。
1169
3
12
Griffin:是一个开源的大数据数据质量解决方案,支持批处理和流模式两种数据质量检测方式,可以从不同维度度量数据资产,从而提升数据的准确度、可信度。它的数据源可以是 Hadoop、RDBMS、Kafka 等,能够定义对数据的精确度、合法性、一致性、时间序列、完整性等进行检测,其检测任务运行在 Spark 基础上。
531
5
8
DataHub:是一个用于数据发现、元数据管理和数据治理的开源平台。它提供了一个集中式的元数据存储库,支持多种数据源和数据格式。DataHub 具有强大的搜索和浏览功能,使用户能够轻松发现和理解数据资产。此外,它还提供了数据 lineage(数据血缘)跟踪、数据质量监控和数据治理工作流等功能,帮助企业更好地管理和利用其数据资产。
710
9
12
Apache Atlas为具有数据密集型平台的公司提供基本的元数据管理和数据治理功能,主要为在 Hadoop 集群中使用而设计,但也可与 Hadoop 生态系统之外的工具和进程交换元数据以实现集成。它具有灵活的类型系统来定义和管理元数据对象的模型,能自动对数据资产和数据沿袭信息进行编目,并与 Apache Ranger 数据安全框架集成实现访问控制和数据屏蔽等功能。
611
2
14
Shield:专为保护关键基础设施数据而设计的先进数据保护解决方案,提供一套用于有效地调度存储系统自动备份的工具集,包括 PostgreSQL、MySQL、Consul、Redis 和 MongoDB 等,还支持在众多云提供商中存储备份。是一种用于数据保护和灾难恢复的重要技术解决方案。Shield是开源的。
727
8
4
Mermaid 是一个用于绘制流程图、时序图、甘特图等的开源工具。它使用类似 Markdown 的语法进行图表描述,可以在网页中直接使用,也可以通过命令行工具生成图像。Mermaid 支持与多种文档平台和代码托管平台集成,如 GitHub、GitLab 等。在项目文档编写、技术博客创作等场景中非常有用。例如,可以在项目的 README 文件中使用 Mermaid 绘制流程图来介绍项目的工作流程,或者在技术博客中使用 Mermaid 绘制时序图来解释复杂的交互过程。同时,由于它可以在网页中直接渲染,用户无需安装额外的软件即可查看图表,方便了知识的分享和传播。
692
3
13
PlantUML 是一个可以用简单的文本语言来描述 UML 图表(如类图、时序图、活动图等)的开源工具。它支持多种编程语言的代码嵌入,可以从代码中的注释生成图表,也可以直接在文本描述中引用代码片段。生成的图表可以以多种格式输出,如 PNG、SVG 等。在软件开发过程中,用于快速创建和共享软件设计的可视化表示。例如,开发团队可以使用 PlantUML 来描述系统的类结构、对象之间的交互流程等,方便团队成员之间的沟通和理解。同时,它也可以用于文档生成,将图表直接嵌入到技术文档中,提高文档的可读性和可理解性。
1016
7
7
Bareos是高可靠、跨网络的开源备份软件,可用于基于网络备份、归档和恢复数据,支持多种客户端和存储,提供多种功能特性。一、功能特性 - 支持多种客户端和存储:客户端(“bareos-fd”)可用于 Linux、Windows、macOS、Solaris、HP-UX、AIX、BSD 等操作系统。能满足不同操作系统环境下的备份需求,适应多样化的企业 IT 架构。
1187
6
3
Graphviz 是一个用于绘制图表的开源软件包。它可以根据文本描述的图形结构自动生成图形,非常适合从代码生成各种类型的图表,如流程图、结构图等。可以使用特定的图形描述语言(如 DOT 语言)来描述图形,然后 Graphviz 工具会将其渲染为图像格式(如 PNG、SVG 等)。广泛应用于软件设计、数据库设计、网络架构等领域,帮助开发者可视化复杂的系统结构和流程。例如,在软件架构设计中,可以用 Graphviz 绘制模块之间的依赖关系图,以便更好地理解和沟通系统的整体结构。
1150
6
9
BackupPC:支持 Linux、Windows 和 macOS 的开源企业级备份系统,提供易于管理的 web 界面,支持重复数据删除以提高存储效率,支持压缩对 CPU 的影响最小。BackupPC 最初是为 Linux 平台设计的备份工具,专注于为 Linux 系统提供高效的备份解决方案,能有效应对 Linux 系统多样的版本和复杂的环境,解决了 Linux 系统备份的难题。
729
1
7
DataEase 是一款人人可用的开源数据可视化分析工具。是目前国内比较火的开源数据可视化工具.2021年2月,DataEase 开源项目组成立。近几年DataEase 持续发展,在功能、性能、用户体验等方面不断优化和提升,社区用户不断增长,应用场景也日益广泛,在数据可视化领域的影响力逐渐扩大。其具体发展动态可能需要通过官方渠道、技术论坛、社交媒体等进一步了解。
1185
4
5
Superset由 Airbnb 贡献的轻量级 BI 产品,在 Github 上很受欢迎。它提供了 dashboard 和多维分析两大类功能,数据源支持广泛,包括 CSV、MySQL、Oracle、Redshift、Drill、Hive、Impala、Elasticsearch 等多种。其可视化效果好,直接支持几十种图形,还提供图形扩展支持,可对接如 Echarts、AntV、Highcharts、Vx 和 D3 等可视化库。不过,其文档相对简单,功能介绍方面有所缺失,且语义层建模时只能基于单表,多表关联要事先逻辑化成视图再使用。
535
2
2
BorgBackup:提供高效、安全的数据备份,支持压缩、身份验证、加密,具备重复数据删除技术,节省空间,适用于日常备份。BorgBackup是开源的。它遵循BSD许可证。BSD许可证是一种对开发者友好的开源许可证,允许用户自由地使用、修改和分发软件源代码,这使得BorgBackup在开源社区中得到了广泛的应用和发展。
1098
3
14
Yunque(云雀):数据集成工具,实现异构数据源的整合,帮助企业构建数据仓库、数据湖等应用架构。其框架设计采用 client 端和 server 端分布式架构,master-slave 的架构模型。master 负责接受用户的请求,通过轮询的方式,将任务转发给 slave 进行数据处理,其中 server 端一个 thread 负责一个 task 进行任务处理。server 端的架构分为 reader、channel、writer 三部分。reader 作为数据源,可以通过实现共同的 reader 接口,以 sql 的方式对数据进行抽取操作;channel 作为队列,可选的队列有默认的 linkedblockingqueue,也可使用 kafka,通过使用 kafka 做到一次写入多次读取;writer 作为目标数据源,可以通过实现共同的 writer 接口,以 sql 的方式对数据进行下沉操作。
1029
9
6
- Restic:支持 Linux、macOS 和 Windows 等操作系统,是一个快速、安全的开源备份程序。Restic最初是由开发者MichaelEischer发起的个人项目。其设计目标是提供一种快速、高效、安全且开源的备份解决方案,以满足不同用户和场景对数据备份的需求。在项目早期,Restic专注于核心功能的开发和完善,包括备份与恢复机制的构建、数据加密算法的选择与实现等。通过不断优化代码和算法,Restic逐渐提高了备份和恢复的速度与效率,同时确保了数据的安全性。
1150
8
8
Streamsets 是一款企业级的开源数据集成平台。通过拖拽式的可视化界面实现数据管道的设计和定时任务调度,数据源支持 MySQL、Oracle 等结构化和半/非结构化,目标源支持 HDFS、Hive、HBase、Kudu、Solr、Elasticsearch 等。- 2014年:Streamsets由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar创立。他们成立该公司主要是应对来自动态数据(Data in Motion)的挑战,包括数据源、数据处理和数据本身(“数据漂移”问题)。同年推出了第一款产品StreamSets Data Collector(SDC),被数百家公司用于构建复杂的任意数据流,客户涵盖金融服务、制造业、医疗、媒体、制药和技术等多个行业。
942
4
4
纯钧(chunjun)是一款稳定、易用、高效、批流一体的开源数据集成框架,目前基于实时计算引擎 Flink 实现多种异构数据源之间的数据同步与计算,已在上千家公司部署且稳定运行。“纯钧”被记载于《越绝书》,书中描述其为越王勾践所藏宝剑,由铸剑大师欧冶子所铸。此剑被形容为 “手振拂,扬其华,淬如芙蓉始出。观其钣,烂如列星之行;观其光,浑浑如水之溢于塘;观其断,岩岩如琐石;观其才,焕焕如冰释。”
1051
5
4
Debezium 是一个开源的分布式平台,主要用于捕获数据库的变更事件,并将这些变更实时地流式传输到其他系统,以实现数据同步、监控和集成等目的。2016 年:Debezium 正式开源,支持 MySQL 数据库的变更捕获,这是其第一个支持的数据库。通过抽取数据库日志来获取变更,实现了对 MySQL 数据的全量读取和增量读取。
633
9
1
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号