登录
主页
 文章
Dbsyncer 是一款开源的数据同步中间件。为用户提供了在多种数据库和数据源之间进行同步的解决方案。 - 支持多种同步场景,包括常见的关系型数据库(如 MySQL、Oracle、SQL Server、PostgreSQL),以及非关系型数据库(如 Elasticsearch)、Kafka、文件等,满足不同场景下的数据同步需求。
962
7
9
Canal 是阿里巴巴开源的一款基于数据库增量日志解析,提供增量数据订阅和消费的工具。一、主要功能1. 数据同步 - 可以实时同步 MySQL 数据库的变更数据到其他系统,如数据仓库、搜索引擎、缓存系统等。实现数据的实时备份和多系统间的数据一致性。 Canal 是基于 MySQL 数据库的主从复制原理实现的,通过解析 MySQL 的 binlog 日志来获取数据库的增量变更。
799
0
12
Scidavis是一款免费、开源的跨平台科研绘图软件,主要用于科学数据的分析和可视化。Scidavis开发始于2007年,是qtiplot的分支,而qtiplot则是科研绘图软件Origin的克隆。qtiplot开发于2004年,由Ion Vasilief发起,直到2006年5月Knut Franke和Tilman Hoener zu Siederdissen加入该项目,之后Roger Gadiou正式加入成为主要的文档撰写人。目前,Scidavis在功能上不断完善和增强,支持多种操作系统,如Windows、macOS和Linux等。其界面简洁直观,操作容易上手,且原生支持中文等十几种语言。它可以进行基本的绘图功能,如生成多种类型的2D图(符号/线条、条形、饼图等),支持交互式3D绘图输出,内置多种分析操作,还能广泛支持拟合线性和非线性函数的数据等。并且,它允许用户根据需求对软件进行定制和扩展。
562
2
0
Duplicati是一款免费、开源、跨平台的备份软件。Duplicati最初是作为一个开源项目启动,旨在为用户提供一种免费、灵活且功能强大的备份解决方案。它支持多种操作系统,包括Windows、macOS和Linux,这使得不同平台的用户都能使用它来进行数据备份。随着时间的推移,Duplicati不断添加新的功能和特性。例如,它支持AES-256加密技术,对备份的数据进行加密处理,保障数据的安全性和隐私性;实现了增量备份功能,首次备份时上传完整数据,之后只上传修改过的部分,节省带宽和存储空间;还具备定时任务功能,用户可以设定自动备份计划。Duplicati能够将数据备份到本地硬盘、网络文件服务器,还支持众多云存储服务,如Amazon S3、Google Drive、OneDrive、Dropbox、FTP、SFTP等,以及腾讯云对象存储(COS)等。这大大扩展了用户的备份选择,满足不同用户在各种场景下的备份需求。
1126
3
0
DataX 是阿里巴巴集团推出的一款开源的异构数据源离线同步工具。致力于实现包括关系型数据库、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。一、主要功能1. 强大的数据抽取和加载能力 - DataX 可以从各种异构数据源中抽取数据,包括关系型数据库(如 MySQL、Oracle、SQL Server 等)、非关系型数据库(如 MongoDB、HBase 等)、文件系统(如 CSV、Excel、JSON 等格式的文件)等。
621
0
10
Bitsail 是一个开源的分布式数据集成引擎。字节跳动于 2022 年 10 月 26 日正式在 GitHub 开源,为更多的企业和开发者带来便利,降低数据建设的成本,让数据高效地创造价值。BitSail支持20多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案,目前服务于字节内部几乎所有业务线,包括抖音、今日头条等大家耳熟能详的应用,同时也支撑了火山引擎多个客户的数据集成需求。
970
0
5
Kettle(也称为 Pentaho Data Integration)是一款功能强大的开源 ETL(Extract, Transform, Load)工具,主要用于数据仓库和商业智能领域。Kettle最早可追溯到本世纪初,当时ETL工具种类繁多。Kettle的作者Matt Casters在2001年有了开发自己的ETL工具的想法,他每天忙于咨询工作,为不同项目不断修改ETL代码和框架,部署各种ETL工具的代码生成器。随着时间的推移,Kettle不断适应数据处理领域的新需求和技术发展趋势,在数据源支持、数据转换能力、性能优化、易用性等方面不断改进和提升,如今仍然是ETL领域广为人知且被广泛使用的工具之一。
1077
3
4
Airbyte 是一个开源的 ELT(Extract-Load-Transform)平台,帮助用户轻松地从各种数据源中提取数据,并将其加载到目标数据仓库或数据库中,同时支持在加载过程中进行一定程度的转换操作。创立于2020 年,Michel Tricot(曾是 Liveramp 和 Rideos 的前工程总监兼集成负责人)和 John Lafleur(专注于开发工具和 B2B 服务的连续创业者)共同创立了 Airbyte。最初他们想专注于营销公司的数据连接,后来转向数据整合赛道。
532
5
7
Metabase是一个开源的数据分析和可视化工具,旨在帮助用户轻松地探索和理解数据。Metabase的发展历程如下:起源于2015年,目标和愿景是让公司能快速将辛苦收集的数据提供给最能利用它的人,使其成为每个公司获取数据的第一步。它在数据源支持、数据分析和可视化等方面不断发展,为用户提供了便捷、高效的数据分析工具。
815
0
14
数据质量工具(Great Expectations) 是一个用于数据验证、测试和文档化的开源数据工具。Great Expectations 最初由一些数据工程师和科学家开发,旨在为数据团队提供一种有效的方式来定义和验证数据质量。它的设计目标是提供一种简单而灵活的方法,使数据从业者能够对数据进行全面的质量检查,并确保数据符合预期的标准和业务规则。
524
9
8
RapidMiner是一款功能强大的数据挖掘和机器学习工具,它提供了从数据预处理、建模、评估到部署的一系列流程 。它最初由德国多特蒙德工业大学的人工智能部门开发,原名Yale,后更名为RapidMiner 。RapidMiner以其图形用户界面(GUI)和拖拽式操作而闻名,这使得即使是初学者也能快速上手进行数据分析 。
1163
7
14
Weka(Waikato Environment for Knowledge Analysis)是一款免费的、开源的机器学习和数据挖掘软件,主要用于解决实际的数据挖掘问题。Weka的开发始于20世纪90年代初,由新西兰怀卡托大学的Ian H. Witten和Eibe Frank等学者发起。Weka主要专注于数据挖掘算法的研究和实现,涵盖了分类、聚类、关联规则挖掘等基本的数据挖掘任务,逐渐在学术界获得认可。
903
9
0
KNIME(Konstanz Information Miner)是一款功能强大的开源数据分析、可视化和部署工具。KNIME 的发展始于 2004 年 1 月,由康斯坦茨大学的软件工程师团队作为专有产品开发。其原始开发团队来自硅谷的一家公司,最初目标是创建一个模块化、高度可扩展和开放的数据处理平台,以便轻松集成不同的数据加载、处理、转换、分析和可视化探索模块,而不必关注特定的应用领域。
1114
0
6
Apache Spark 是一个开源的分布式计算系统,广泛用于大数据处理和分析。它提供了一个快速、通用和可扩展的数据处理平台,能够处理各种数据源和数据类型。Apache Spark 的发展历史始于2009年,当时它是加州大学伯克利分校AMP实验室的一个研究项目,目的是解决大规模数据处理问题 。2010年,Spark 作为开源项目对外发布,并因其简化的MapReduce编程模型和高效的分布式计算能力迅速受到关注 。2013年,Spark 加入Apache软件基金会,并成为Apache的顶级项目 。
920
5
1
随着企业业务流程自动化需求的日益增长,流程引擎作为实现业务流程管理(BPM)的核心组件,其重要性不言而喻。开源流程引擎因其灵活性高、成本低的特点,成为众多企业和开发者的首选。流程引擎可以被看作是一个 “流程指挥官”,它以特定的规则和逻辑来控制业务流程的流转。它通常包含一系列的模型、算法和数据结构,能够理解、解释和执行流程定义。这些流程定义可以用图形化的方式进行设计,描述了业务活动的顺序、条件分支、并行执行等各种情况。例如,在一个订单处理系统中,流程引擎可以定义从订单接收、库存检查、支付处理到发货通知等一系列步骤的执行顺序和逻辑关系。
1083
6
9
随着企业数字化转型的加速,低代码与零代码开发平台作为提升开发效率、降低IT成本的有效工具,正逐渐成为企业软件开发的新趋势。在中国市场,众多低代码与零代码平台如雨后春笋般涌现,为企业提供了多样化的选择。从金融到教育,从零售到医疗,低代码与零代码平台正逐步渗透至各行各业。教育行业利用零代码平台快速搭建在线教学管理系统;医疗领域,则通过低代码平台整合患者信息、优化就诊流程,提升医疗服务体验。这些实践证明了低代码与零代码技术在推动各行业数字化转型中的强大潜力。
505
7
13
随着大数据时代的到来,企业对高效、可扩展的数据存储和分析需求日益增长。开源数据仓库技术因其灵活性、成本效益和强大的社区支持而受到广泛欢迎。选择当前几款主流的开源数据仓库解决方案,包括Apache Hadoop Hive、Apache Spark SQL、ClickHouse、Greenplum及Apache Druid,提供适合自身业务场景的数据仓库工具的参考。
858
8
12
随着大数据技术的飞速发展,数据湖作为企业数据管理的核心组件,正逐渐成为存储、处理和分析大规模结构化与非结构化数据的关键基础设施。数据湖是一个集中式存储库,能够以原始格式存储大量的各种类型数据,包括结构化数据(如关系型数据库中的表格数据)、半结构化数据(如 JSON、XML 文档)和非结构化数据(如文本文件、图像、音频、视频等)。它可以存储来自不同数据源的数据,如企业内部的业务系统、传感器数据、社交媒体数据等,并且支持在需要时对这些数据进行分析和处理。
1188
0
2
地理信息元数据标准的发展是一个不断演进和完善的过程。国际上,早期的相关标准如 ISO 19115:2003 等,对地理信息元数据进行了详细描述,包括数字地理数据标识、覆盖范围、质量、空间和时间模式、空间参照系和分发等信息。后来,标准不断更新和改进,以适应技术发展和实际应用的需求。例如,ISO 19115-1:2014《地理信息 元数据 第 1 部分:基础》发布。中国国家标准《地理信息 元数据 第 1 部分:基础》(GB/T 19710.1-2023)修改采用了 ISO 19115-1:2014,与之前的版本(如 GB/T 19710-2005)相比,在结构和内容上有了一些调整和变化,例如增加了服务元数据信息、描述发现服务和非服务资源的元数据,删除了“核心元数据”的概念以及“数据质量信息”相关内容等。
1054
9
3
元数据是关于数据的数据。它主要用于描述数据的特征、内容、来源、关系等信息,以便更好地理解、管理、查找和使用数据。元数据就像是数据的 “说明书”,它可以告诉我们数据的来源、创建时间、格式、内容含义、质量等重要信息。一、元数据的作用1. 描述数据 - 提供数据的名称、类型、格式等基本信息,让你清楚地知道数据是什么。
704
6
6
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号