登录
主页
 文章
知识蒸馏(Knowledge Distillation)是一种在机器学习领域广泛应用的技术,主要用于将大型模型(教师模型)所学到的知识迁移到小型模型(学生模型)中,使得小型模型在计算资源和存储需求降低的情况下,仍能达到接近大型模型的性能。知识蒸馏自提出以来,不断发展和演进,在深度学习领域发挥着日益重要的作用。
789
8
13
知识蒸馏(Knowledge Distillation)是一种模型压缩和加速技术,旨在将大型模型(通常称为教师模型)所学到的知识迁移到小型模型(通常称为学生模型)中,从而让小型模型在减少计算资源消耗和推理时间的同时,尽可能达到接近大型模型的性能。具有很好的成本效益,在实际应用中有助于降低计算资源需求和部署成本。
971
8
6
Quartz 是一个功能强大、使用广泛的开源轻量级任务调度框架,专为 Java 平台设计。对系统资源的消耗较少,易于集成到各种 Java 项目中,不会给项目带来过多的负担。提供了简洁明了的 API,开发者可以快速上手,实现基本的任务调度功能。支持多种调度方式和持久化机制,能够满足大多数任务调度的需求。
953
1
12
DolphinScheduler是一款由易观科技发起并开源的分布式任务调度系统,2017年,易观内部技术团队在面对复杂的大数据处理场景时,发现缺乏一款高效、易用的任务调度平台来满足业务需求。于是开始自主研发DolphinScheduler,经过一段时间的努力,完成了初始版本的开发,并在易观内部得到应用,解决了内部数据处理任务调度的难题。
845
3
0
Apache Ranger提供全面的数据安全框架,专注于访问控制和数据脱敏,可管理跨各种数据平台的权限,定义谁可以访问特定数据,还能通过脱敏保护敏感信息,并且能与Apache Atlas等其他Apache工具无缝集成,增强数据治理。适用于需要严格访问控制和数据隐私保护的组织,尤其是处理敏感数据且需符合相关法规的企业。
522
1
10
WeDataSphere是一款由微众银行金融科技团队开发的开源大数据处理和应用框架。也是一个金融级一站式大数据平台套件,旨在为企业提供全面、高效、易用的大数据处理和应用解决方案,帮助企业更有效地挖掘数据价值,推动业务创新。遵循Apache 2.0开源协议,鼓励社区贡献和定制,社区的参与可以不断丰富和完善其功能。提供数据加密、权限控制等安全机制,保障数据资产安全,让企业可以放心地使用平台处理敏感数据。具备高并发处理能力和故障恢复机制,确保服务在高负载和复杂环境下的稳定性,保障业务的连续性。
504
9
10
OpenMetadata是一个开源的统一元数据平台,在数据管理领域具有重要作用。OpenMetadata源自曾参与Uber元数据基础设施建设团队的经验积累。在打造Uber的Databook解决数据编目问题后,团队发现现有数据编目系统缺乏统一的元数据模型,OpenMetadata项目应运而生,旨在填补这一空白,并增加元数据的灵活性和可扩展性。
969
8
3
Datavines是一款开源的数据可观测性平台。2024 年左右,Datavines 项目正式在 GitHub 上开源。初始版本可能重点实现了一些基础的数据质量监控功能,如支持对常见数据源(如 MySQL、PostgreSQL 等)的数据连接,内置了部分基本的数据质量检查规则,像空值检查、数据类型检查等。
692
8
9
自动证书管理环境(Automated Certificate Management Environment,ACME)是一种用于自动化管理和颁发SSL/TLS证书的协议和规范。随着互联网的发展,网站对SSL/TLS证书的需求日益增长。传统的证书申请和管理过程繁琐,需要人工手动完成多个步骤,效率低下且容易出错。ACME的出现就是为了简化和自动化这一过程,使得服务器管理员能够更轻松地获取和管理SSL/TLS证书,提高网站的安全性和部署效率。
903
2
5
VegaLite 是一种用于数据可视化的语法和工具。VegaLite是基于Vega可视化语法的一种高层次、简洁的可视化规范。它提供了一种声明式的方式来描述数据可视化,让用户能够通过简单的JSON格式或特定的编程语言接口来定义可视化的各个方面,如图形类型、数据映射、视觉编码等,而无需详细了解底层的绘图细节和复杂的交互逻辑。
547
4
0
Canopy利用Pinecone在高效向量搜索方面的专业知识,提供强大且可扩展的RAG(Retrieval-Augmented Generation)解决方案。包括与Pinecone向量数据库的紧密集成,支持流处理和实时更新,先进的查询处理和重新排序功能,以及管理知识库和版本控制的工具。项目地址:https://github.com/pinecone-io/canopy
1046
8
12
R2R by SciPhi-AI是一个专门的RAG框架,专注于通过迭代细化来改进检索过程。主要特点包括实现新颖的检索算法,支持多步检索过程,与各种嵌入模型和向量存储集成,以及用于分析和可视化检索性能的工具。适合有兴趣突破检索技术界限的开发人员和研究人员,特别是在需要创新检索方法的场景。具有 RESTful API 的容器化检索增强一代 (RAG)。具有生产就绪型功能,包括多模式内容摄取、混合搜索功能、可配置的 GraphRAG 以及用户和文档管理。
826
1
4
DDParser由百度基于大规模标注数据和深度学习平台飞桨研发的中文依存句法分析工具。它采用简单易理解的标注体系,支持一键安装部署及调用,适合开发者快速学习及使用。能够直接获取输入文本中的关联词对、长距离依赖词对等信息。其训练数据丰富,覆盖多种场景,在随机数据上的准确率较高,并且输入层加入了词的字符级别表示,缓解了因粒度不同带来的效果下降问题。
902
6
8
Haystack提供模块化架构,支持多种文档存储方案,可与广泛使用的语言模型无缝集成,具有可扩展架构以处理海量文档,还拥有简洁易用的API,便于构建自定义的NLP工作流。适用于构建端到端的问答和搜索系统,特别适合需要处理大量文档和与多种语言模型集成的场景。其主要目标是帮助开发者更方便地构建强大的NLP应用程序,如问答系统、语义搜索和文档摘要等。它提供了一个灵活的框架,能够将不同的NLP组件(如语言模型、文档存储、检索算法等)组合在一起。
1051
2
0
掩码语言模型(Masked Language Model,MLM)是自然语言处理(NLP)中一种重要的预训练任务,尤其在基于深度学习的语言模型中被广泛使用。它是一种自监督学习技术,让模型学习语言的语义和语法规则。一、发展历程 在 MLM 出现之前,早期的语言模型主要基于统计方法,如 ngram 模型。这些模型通过统计文本中单词出现的频率和连续 n 个单词的组合频率,来预测下一个单词或生成文本。然而,它们存在局限性,无法很好地捕捉语义信息和长距离依赖关系。例如,对于句子 "I love to play [?] in the park",简单的 ngram 模型可能仅根据前面几个单词的统计信息预测 [?] 处的单词,而难以考虑更广泛的上下文和语义信息。
1111
9
3
余弦相似度是一种用于衡量两个向量之间相似度的度量方法。在向量空间模型中,它通过计算两个向量夹角的余弦值来确定它们的相似程度。对于两个非零向量 $A$ 和 $B$,余弦相似度的取值范围是 $[-1,1]$。当余弦相似度为 $1$ 时,表示两个向量完全相似;当为 $-1$ 时,表示完全相反;当为 $0$ 时,表示两个向量正交(即相互垂直,没有任何相似成分)。
563
6
12
BERT和ELMo作为自然语言处理领域两个大神,自诞生以来,便以其独特的技术架构与卓越的表现,在推动该领域发展的进程中扮演着举足轻重的角色。在BERT横空出世之前,自然语言处理领域虽已取得一定进展,但传统词嵌入方法,如Word2Vec和GloVe,却有着难以忽视的短板。它们赋予每个单词的是静态的向量表示,无法依据单词所处上下文的不同而灵动变化,这使得模型在面对复杂语义场景时往往力不从心。
910
9
1
ELMo(Embeddings from Language Models)是由艾伦人工智能研究所(Allen Institute for AI)开发的一种深度双向语言模型。它在自然语言处理(NLP)领域是一个重要的进展,主要用于生成词向量,这些词向量能够更好地捕捉单词在上下文中的语义信息。在ELMo出现之前,传统的词向量(如Word2Vec和GloVe)是静态的,即一个单词在任何语境下都有相同的向量表示,这无法很好地适应单词在不同句子中的语义变化。
504
4
6
BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,由谷歌在2018年提出。它在自然语言处理(NLP)领域引起了巨大的变革。在BERT之前,许多语言模型主要是单向的,例如从左到右或者从右到左处理文本序列。而BERT的双向特性使得它能够同时考虑文本中单词的前后文信息,从而更好地理解文本的语义。
706
7
12
下一句预测(Next Sentence Prediction,NSP)是自然语言处理(NLP)中的一个任务。它主要是判断给定的两个句子在原文中是否是相邻的句子。例如,对于句子A和句子B,模型需要预测句子B是否是句子A在文本中的下一句。早期NLP任务主要关注单词层面的预测和理解,如传统的词袋模型、ngram模型等,随着对语言理解的深入,研究人员开始意识到句子之间的关系对于理解文本整体含义的重要性。
1008
1
8
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号