登录
主页
 文章
CKAN(Comprehensive Knowledge Archive Network)是一个开源的数据管理系统,主要用于发布、共享和管理数据资源。它提供了一个集中式的平台,使得政府机构、企业、研究机构和社会组织等能够有效地组织和利用数据。从本质上讲,CKAN就像是一个数据仓库,但是它更侧重于数据的发现、共享和协作。它可以存储各种类型的数据,包括但不限于数据集(如统计数据、地理信息数据)、文档(如数据字典、数据使用手册)和链接(指向外部数据资源的链接)。
804
9
5
Nebari是一个开源的数据科学平台,构建于可扩展性和协作性之上,集成了JupyterHub和Dask Gateway等工具,利用Terraform、Helm、GitHub Actions等技术,可应用于学术研究、企业级数据平台、教育机构、高性能计算等场景。一、技术架构1.基于Kubernetes:Nebari利用Kubernetes强大的容器编排和管理能力,实现对计算资源的高效调度和管理,确保平台在大规模数据处理和多用户并发访问时的稳定性和可靠性。
1128
1
14
SODA项目由Linux基金会托管,旨在推动构建数据自治的开放源代码数据管理和存储软件生态系统。整合了多个子项目,提供全面的解决方案框架,可用于大数据管理、云存储优化、数据治理、物联网等多种场景。SODA项目是一个涵盖多个项目的数据框架集成体,旨在为用户提供整体框架解决方案。
1185
3
11
Certimate是一个开源免费的SSL证书管理工具,采用私有部署方式保障数据安全,通过简单配置可自动申请SSL证书,并在证书快过期时自动续期,还支持与阿里云、腾讯云等主流服务商对接,可将证书自动部署到多个主流服务商的平台上。项目地址: https://github.com/usual2970/certimate
883
2
12
DataCleaner:提供数据质量分析、清洗和监测的开源平台,支持多种数据源,可帮助用户发现数据中的问题,如缺失值、异常值、重复数据等,并提供相应的清洗和处理功能,适合进行数据质量初步评估和持续监控。DataCleaner提供了直观的用户界面,使数据处理人员和分析师能够轻松地对数据进行复杂的操作,以确保数据的准确性、完整性和一致性。
771
5
7
OpenRefine是一款开源的数据清理和转换工具,它最初由谷歌开发,原名Google Refine。它主要用于处理杂乱、不规范的数据,帮助用户对数据进行清洗、转换和重新格式化,从而使数据更适合用于分析、可视化等后续操作。它提供了一个直观的图形界面,用户无需具备深厚的编程知识即可完成复杂的数据处理任务。不过,对于高级用户,它也支持通过编写代码(如使用GREL表达式 - General Refine Expression Language)来实现更精细化的数据操作。
934
4
2
Hazelcast是一个分布式内存数据存储和计算平台,具有容错性且易于扩展或缩减,可让用户更快地访问数据。Hazelcast提供分布式数据结构,如分布式队列、分布式集合、分布式锁等,方便在分布式环境中进行数据共享和协作。支持数据的自动分区和负载均衡,能够根据集群中节点的数量和负载情况,自动调整数据的分布,确保数据的均匀存储和访问。具备强大的容错机制,当节点出现故障时,能够自动进行数据恢复和故障转移,保证系统的高可用性。
707
3
12
Destor是一个专门用于数据去重评估的开源平台,提供了一套完整的工具集,包括容器化的存储、块级处理管道、多种指纹索引和重写算法等,可有效提升数据去重的效率和效果,从而间接提高数据质量。一、主要特点1.全面性:覆盖了从数据分块到恢复的整个数据处理流程,包含多种主流的数据去重策略和技术,如固定大小分块、内容定义分块(CDC)以及近似文件级去重等。
993
3
7
Deequ由亚马逊开源的数据质量库,基于Scala和Spark构建,用于定义数据质量规则并执行它们,特别适用于大数据环境,能够处理大规模的数据集。主要使用Scala编程语言,构建在Apache Spark之上,能够利用Spark的分布式计算引擎来定义和执行数据质量检查。采用Apache-2.0 license开源协议。
1110
4
13
MaxKB是一款基于大语言模型和检索增强生成(RAG)技术的开源知识库问答系统。MaxKB 是由飞致云旗下的 1Panel 团队开发的。github地址: https://github.com/1Panel-dev/MaxKB一、核心特点1.开箱即用:支持直接上传文档、自动爬取在线文档,并提供文本自动拆分、向量化、RAG等功能,能有效降低大模型的“幻觉”,为用户带来流畅准确的智能问答体验。
546
0
13
mayfly-go:Web版Linux、数据库、Redis、MongoDB统一管理操作平台,提供了完整的权限管理功能,支持对账号的角色以及资源进行分配,可针对不同的用户角色,分配不同的菜单和权限,从而实现对数据资源的有效管理。一、功能特点1. 用户管理 可以实现用户信息的增删改查操作。例如,管理员能够方便地添加新用户,输入用户的基本信息如用户名、密码、邮箱等。同时,也可以对已有的用户信息进行修改,如更新用户的联系方式或者重置密码等操作。对于不再需要的用户账号,也能够进行安全删除。
548
6
14
Qualitis是微众银行开源的数据质量管理系统,专注于解决业务系统运行、数据中心建设及数据治理过程中的数据质量问题,提供了多种数据质量检测方法和自动生成报告的功能。一、核心功能1.数据质量模型定义:支持单表、多表以及自定义等多种数据质量模型,还预设了空值检查、空白检查、数值检查、枚举检查等常见的数据质量验证模板,简化了数据质量模型的定义工作。
802
7
3
Infinispan是一个开源的高性能、分布式的内存数据网格平台,可作为数据库的前端缓存层,提供数据缓存和存储功能,适用于需要处理大量数据的高并发应用场景。将所有数据存储在内存中,读写速度极高。支持分布式部署,能在多台服务器间共享数据,实现水平扩展。通过复制或分区方式实现数据冗余备份,支持自动故障转移和负载均衡,确保节点故障时服务的连续性。此外,还支持标准的SQL查询语法,可直接对内存中的数据进行查询操作,并提供多种缓存策略供用户根据业务需求选择。它提供了一个内存数据网格(In Memory Data Grid,简称IMDG)解决方案,允许数据在多个节点的内存中进行存储和管理,以实现低延迟、高吞吐量的数据访问。
850
9
7
数据治理服务是一种综合性的服务,帮助企业或组织对其数据资产进行有效管理和优化。它涵盖了数据治理策略的制定、数据标准的建立、数据质量的提升、数据安全的保障以及数据价值的挖掘等多个方面。通过一系列的流程、工具和技术,确保数据在整个生命周期内的准确性、一致性、完整性、安全性和可用性。
861
9
0
Zabbix 是一个功能强大的企业级开源监控解决方案,它不仅可以收集和监控各种系统和网络数据,还提供了一定的数据可视化功能。它能够生成详细的报表和图表,展示监控对象的状态和性能指标。例如,通过 Zabbix 可以生成服务器资源使用情况的周报或月报,以直观的图表形式呈现给运维管理人员。
786
9
9
数据湖构建(Data Lake Formation,DLF)是一种用于构建和管理数据湖的服务。数据湖是一个集中式存储库,能够以原始格式存储大量的结构化和非结构化数据,包括数据库记录、传感器数据、日志文件、图像、视频等各种类型的数据。DLF的目的是简化数据湖的创建、组织和治理过程。
618
0
7
Kairos API:基于云的生物识别技术平台,提供包括人脸识别、指纹识别、虹膜识别等多种生物识别功能,开发者可通过其API轻松地将生物识别技术集成到自己的应用程序中,实现高效的身份验证和识别。一、功能特点1.生物特征采集:通过各种传感器或设备,如摄像头、指纹扫描仪等,采集用户的生物特征信息,如人脸图像、指纹、虹膜等。这些采集到的原始数据是后续识别的基础。
723
4
5
chromedp是一个用于控制Chrome 浏览器的 Go 语言库。它提供了一种自动化操作浏览器的方式,能够在浏览器中执行各种任务,如加载网页、点击按钮、填写表单、执行 JavaScript 代码等。这使得它在网页自动化测试、数据采集、网页性能评估等诸多领域有着广泛的应用。可以配置headless模式。
1072
2
0
Grafana是一款流行的开源数据可视化和监控工具,支持多种数据源,如Prometheus、Graphite、InfluxDB等。它提供了丰富的可视化组件和仪表盘模板,用户可以轻松地创建各种美观且实用的数据可视化图表和监控仪表盘,以便更好地理解和分析数据。在数据安全方面,Grafana支持用户认证和授权,可与LDAP、OAuth等身份验证系统集成,确保只有授权用户能够访问和操作相应的数据和仪表盘 。
658
0
8
MiniContract由重庆弈联数聚科技有限公司从其商业化产品“一合通”中剥离出的开源产品,针对特定行业特点和业务场景,提供深度定制的综合解决方案。Mini Contract通常是指小型合约。在不同的领域可能有不同的含义。在金融领域,它一般是一种金融衍生品合约,规模相对较小;在软件开发中,可能代表一种简单的、小型的契约式编程元素;在商业合作等场景下,也可以是一种简易的合同形式。
864
7
0
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号