登录
主页
 文章
pkuseg是由北大开源的基于 Python 的中文分词工具包,由北京大学语言计算与机器学习研究组研制推出。不同于以往的通用中文分词工具,它致力于为不同领域的数据提供个性化的预训练模型,目前支持新闻领域、网络文本领域和混合领域的分词预训练模型,用户也可以使用全新的标注数据进行训练,以获得更高的分词准确率。
527
4
2
OpenNRE是一个用于关系抽取的开源工具包,能够从文本中自动抽取实体之间的关系,支持多种关系抽取模型和算法,方便用户进行知识图谱的关系构建。OpenNRE由清华大学刘知远老师及其团队开发,是自然语言处理领域中用于从文本中抽取实体之间关系的重要工具。其目的是为研究人员和开发者提供一个统一的框架,以便实现各种神经网络模型进行关系抽取,帮助构建知识图谱等需要实体关系信息的应用。
1148
7
13
中文分词是将一个汉字序列切分成一个一个单独的词的过程。准确的分词是理解文本语义的基础。只有将句子正确地分割成词,才能进一步分析词语之间的关系、提取关键信息,从而准确把握文本的含义。例如,在信息检索中,只有对用户输入的查询语句进行准确分词,才能与数据库中的文档进行有效的匹配,提高检索的准确性。
569
0
14
jcseg是基于 mmseg 算法的一个轻量级 Java 中文分词器,同时集成了关键字提取、关键短语提取、关键句子提取和文章自动摘要等功能。它提供了多种切分模式,包括简易模式、复杂模式、检测模式、检索模式、分隔符模式和 NLP 模式,以满足不同的应用场景需求。可以从官方网站或开源代码托管平台获取 jcseg 的 JAR 包或源代码。
1005
3
11
IKAnalyzer是一个开源的、基于 Java 语言开发的轻量级中文分词工具包。它采用了特有的“正向迭代最细粒度切分算法”,支持细粒度和智能分词两种切分模式,具有较高的分词速度和较小的内存占用,同时支持用户词典扩展定义。在 Maven 项目中添加相关依赖后,即可使用 IKAnalyzer 进行中文分词操作。作为一个基于 Java 语言开发的工具包,它可以很方便地集成到各种 Java 项目中,与其他的 Java 技术和框架进行配合使用。无论是在 Web 应用、桌面应用还是企业级应用中,都能够轻松地集成 IKAnalyzer 进行中文分词处理。
881
5
13
sego是一个 Go 语言的中文分词库。词典用双数组 trie(double-array trie)实现,分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式,支持用户词典和词性标注,可运行 jsonrpc 服务,分词速度较快。早期为 Go 语言开发者提供了一种高效的中文分词解决方案。它的出现满足了 Go 语言在中文自然语言处理方面对准确分词的需求,尤其是在处理大量中文文本数据时,其性能优势逐渐受到关注。
816
7
7
HanLP是一个由模型与算法组成的 Java 汉语言处理包,由大快搜索主导并完全开源。它不仅提供中文分词功能,还具备索引全切分模式、用户自定义词典、兼容繁体中文、词性标注、命名实体识别、关键词提取、自动摘要等众多自然语言处理功能。需要先下载相关的模型文件,然后使用相应的 API 进行文本处理。例如,使用其提供的中文分词功能时,可以先初始化分词器,然后对文本进行分词操作。
1045
3
9
jieba是一款非常受欢迎的中文分词工具, jieba 最初是由开发者 Sun Junyi 开源的一个 Python 中文分词项目。一开始,jieba 就具备了基本的中文分词能力,能够将中文文本按照一定的规则拆分成词语。随着项目的发展,开发者不断对 jieba 的核心分词算法进行优化。除了 Python 版本外,jieba 逐渐推出了其他编程语言的版本,如 C++、Java、iOS 等,使得在不同的编程语言环境下都能够方便地使用 jieba 进行中文分词,扩大了其应用范围。
662
5
1
OnlyOffice 是一个免费、开源、跨平台的办公套件,它提供了文本编辑器、表格工具和演示软件,支持共享文件实时协作编辑、修改痕迹记录查看以及制作可供填写的表格等高级功能。OnlyOffice 的用户界面模仿了微软 Office 365 功能区的设计风格,能让用户快速上手。OnlyOffice最先是在2009年推出了TeamLab社区,后来发布了自己的文档编辑软件。在2014年,将TeamLab Office更名为OnlyOffice,并开放了源代码。经过多年发展,其在全球的用户数量不断增加,如今已被广泛使用。
1160
0
6
Stirling PDF:这是一个基于Web的PDF处理工具,可以在本地通过Docker托管。它提供了拆分、合并、转换、重新组织、添加图像、旋转、压缩等功能。一、功能 - 页面操作方面: - 查看与修改:支持查看多页 PDF,并提供自定义的查看排序和搜索功能。用户还可以在页面上进行编辑操作,如添加注释、绘图、添加文本和图像等。
646
0
11
Apache Ozone是基于Hadoop的可扩展、冗余和分布式对象存储,适用于容器环境,如Kubernetes和YARN。Ozone支持多协议,包括S3和Hadoop文件系统API 。一、基本概念 - 存储元素构成: - Volumes(卷):类似于账号的概念,只有管理员有权限创建或删除卷,管理员会为组织或团队创建卷。
912
6
9
LibreOffice是一个非常流行的开源办公套件,它包括了文本文档、电子表格、演示文稿、绘图、数据库等组件。LibreOffice 支持多种操作系统,包括 Windows、GNU/Linux 和 macOS,并且提供了丰富的功能和良好的文件格式兼容性。它还支持多种语言,并且有一个活跃的社区,为用户提供支持和资源。LibreOffice 是微软 Office 的优秀替代品,对于个人和企业都是免费使用的 。
876
5
13
Apache OpenOffice 是一个开源办公套件,包括文本文档、电子表格、演示文稿、绘图和数据库管理。它支持多种语言,并且可以在所有普通计算机上工作。Apache OpenOffice 同样是基于国际开放标准格式存储数据,并且可以读写其他常用办公软件包的文件 。1985 年,StarDivision 公司发布了私有办公软件套装 StarOffice。StarOffice 包含了文字处理、电子表格、演示文稿等多种功能,是办公软件领域的早期产品之一。 2000 年,Sun Microsystems 公司将 StarOffice 的源代码公开,随后 OpenOffice.org 诞生。这是一个开源的办公软件项目,旨在为用户提供免费的办公软件解决方案。2011年Apache 基金会接手。它在开源办公软件领域具有一定的历史地位和影响力,但近年来面临着激烈的竞争和发展挑战。
1123
8
5
FreeNAS可以安装在几乎任何硬件上,将其转变为网络附加存储(NAS)设备。除了文件共享和快照外,FreeNAS还提供了一系列数据保护功能。FreeNAS 项目历史可追溯到 2005 年 10 月,由 Olivier Cochard-Labbé 基于 m0n0wall 嵌入式防火墙和 FreeBSD 6.0 开发。2010 年,FreeNAS 项目被 ixSystems 公司收购,但依然保持开源免费,并且因为有专业公司技术团队的全职维护,其版本迭代速度较快。
898
0
10
MuPDF:这是一个专注于提供快速、小巧且功能强大的PDF处理能力的开源PDF阅读器和解析库。它支持多种操作系统,提供了C API,便于其他编程语言的绑定。一、核心技术与功能: - 强大的解析引擎:MuPDF 的核心是一个轻量级的 PDF 解析引擎,能够实现 PDF 规范的大部分功能,包括对文本、图像、图形以及表单等元素的准确渲染。这意味着无论是简单的文字文档,还是包含复杂图形、图表、表单的 PDF 文件,MuPDF 都能很好地解析并展示其内容。
1117
7
13
CloudStack设计用于部署和管理大量虚拟机的开源软件,作为可扩展的基础设施即服务(IaaS)云计算平台 。一、功能特点1. 虚拟机部署与管理 - 可以快速部署虚拟机,支持多种操作系统。你可以根据需求选择不同的虚拟机配置,如 CPU、内存、存储等。 - 对虚拟机进行启动、停止、重启等操作,方便你对资源进行灵活调配。
1148
6
6
MinIO:一个高性能的开源对象存储服务,兼容Amazon S3 API,适合存储大容量非结构化数据。它非常轻量级,易于与其他应用程序集成,如Kubernetes、etcd、Docker等。MinIO以其快速的读写速度(最高可达183GB/s读取和171GB/s写入)和简单的部署方式而闻名 。MinIO 是一个基于 Apache License v2.0 开源协议的对象存储服务。
578
9
7
IBM InfoSphere QualityStage可在内部部署或云中使用,为数据清理和管理提供了广泛而全面的方法。具有深度数据分析工具,能够帮助用户理解数据的内容、质量和结构;利用机器学习技术可以自动标记数据并识别潜在问题。提供 200 多个内置的数据质量规则,用于控制不良数据的接收,还可以将问题路由到合适的人进行处理。数据分类功能能够识别个人识别信息,有助于保护数据安全和消除重复记录。
520
2
14
SAS Data Management是一款行业领先的数据管理解决方案,建立在数据质量平台之上,能够帮助用户提高、整合数据质量。它提供了强大的数据集成、转换和清洗功能,可以处理各种复杂的数据质量问题。同时,SAS 具有良好的数据分析和报告功能,能够为用户提供详细的数据质量报告和分析结果,帮助用户更好地了解数据质量状况。适用于对数据分析和数据质量要求较高的企业,如医疗、科研等行业。在数据挖掘、统计分析等项目中,SAS Data Management 能够为用户提供高质量的数据支持,帮助用户发现数据中的潜在规律和趋势。
552
7
9
Alteryx可以加速或自动化业务流程,并支持地理空间和预测解决方案。其平台有助于组织快速、高效地回答业务问题,可作为数字化转型或自动化计划的重要组成部分。在数据质量方面,Alteryx 提供了数据清洗、转换和验证的功能,能够帮助用户快速处理和优化数据。此外,它还具有直观的可视化界面,方便用户进行操作和分析。
767
3
7
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号