登录
主页
 文章
BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,由谷歌在2018年提出。它在自然语言处理(NLP)领域引起了巨大的变革。在BERT之前,许多语言模型主要是单向的,例如从左到右或者从右到左处理文本序列。而BERT的双向特性使得它能够同时考虑文本中单词的前后文信息,从而更好地理解文本的语义。
1076
5
3
下一句预测(Next Sentence Prediction,NSP)是自然语言处理(NLP)中的一个任务。它主要是判断给定的两个句子在原文中是否是相邻的句子。例如,对于句子A和句子B,模型需要预测句子B是否是句子A在文本中的下一句。早期NLP任务主要关注单词层面的预测和理解,如传统的词袋模型、ngram模型等,随着对语言理解的深入,研究人员开始意识到句子之间的关系对于理解文本整体含义的重要性。
876
7
14
txtai是一个功能丰富的人工智能数据处理平台,提供了一整套工具,用于构建语义搜索、语言模型工作流和文档处理流水线。其核心功能包括用于高效相似性搜索的嵌入式数据库,方便集成语言模型和其他人工智能服务的API,支持自定义工作流的可扩展架构,以及多语言和多数据格式支持。它为开发人员提供了一套强大的工具,可以高效地构建与文本相关的应用程序,如语义搜索、文本分类和知识图谱构建等。其设计理念是简单易用,同时又能提供高性能的文本处理功能。适合需要在单一框架内实现多种人工智能功能的组织,特别是那些需要处理多种数据类型和语言的场景。
981
5
9
近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS)是一种在高维向量空间中寻找与给定查询向量相近向量的技术。在精确的最近邻搜索(NNS)中,目标是找到距离查询向量最近的一个或多个向量。然而,随着数据维度的增加和数据规模的扩大,精确搜索在计算上变得非常昂贵。ANNS通过牺牲一定的精度来换取搜索速度的大幅提升。例如,在一个包含数百万张图像特征向量的数据库中,使用ANNS可以快速找到与给定图像特征向量近似最近的图像,虽然找到的可能不是绝对最近的邻居,但在很多实际应用场景中,这种近似结果已经足够满足需求。
1155
0
4
Qdrant是一个向量数据库,专门用于存储、搜索和管理高维向量。它的主要目标是为基于向量相似度搜索的应用提供高效的存储和检索解决方案,这些应用包括但不限于人工智能、机器学习、自然语言处理等领域。例如,在语义搜索中,Qdrant可以帮助找到与给定查询向量在语义上最相似的文档向量;在图像识别中,它可以存储图像特征向量,并快速检索相似图像的特征向量。
769
9
8
Cognita提供统一的平台来构建和部署AI应用程序,是全流程的RAG应用开发平台,与流行机器学习框架和工具集成,内置监控和可观测性功能,支持模型版本管理和实验跟踪。适合希望简化整个机器学习生命周期的组织,特别是在需要端到端AI应用开发和部署的平台的场景。项目地址:https://github.com/truefoundry/cognita
732
3
12
Egeria是一个开源项目,由Linux基金会托管。允许组织在其组织内共享和管理数据,依赖OpenLineage标准进行数据血统管理,定义了企业为管理数字资源所需的800多种元数据的标准模式,并通过开放API、框架、连接器和交换协议等实现工具和元数据存储库之间的元数据共享和交换。适合大型企业,尤其是需要高度自动化、集成的平台间信息交换解决方案的团队。
853
0
13
Insights用于可视化挖掘PostgreSQL数据库的工具,在图形生成方面具有较强优势。支持PostgreSQL连接,自动检测发现数据库,允许连接到多个数据库,并允许模式编辑和添加自定义SQL字段,还提供数据挖掘、过滤器、基于时间的图形等功能。为满足企业和个人对于数据分析和可视化日益增长的需求,以及解决传统商业智能工具复杂、昂贵、难用等问题,基于Frappe框架进行开发,从一开始就致力于打造一个开源、易用、功能强大的数据可视化和分析平台。
619
1
3
在自然语言处理(NLP)领域,随着知识密集型任务(如问答系统、知识图谱填充、文档生成等)的需求不断增加,传统的语言模型在处理这些任务时可能会因为缺乏足够的外部知识而出现信息不准确或不完整的情况。FlashRAG是一种轻量级且高效的检索增强生成(Retrieval Augmented Generation,RAG)框架。RAG框架的核心是结合信息检索和语言生成技术,以提供更准确、更有针对性的文本生成服务。FlashRAG在这个基础上,专注于通过优化的架构和算法来实现高效的知识检索和高质量的文本生成,同时保持轻量级的特点,使其能够在资源受限的环境下(如一些边缘计算设备或者小型服务器)良好地运行。FlashRAG具有优化的检索算法以提高速度,支持分布式处理和扩展,与流行的语言模型和向量存储集成,还提供用于基准测试和性能分析的工具。
1016
9
9
RAG(Retrieval Augmented Generation)技术增强是一种在自然语言处理领域广泛应用的技术手段,主要目的是提升语言生成模型的性能。在面对自然语言处理任务时,首先从外部知识源(如文档库、知识库、数据库等)中检索与任务相关的信息片段,然后利用这些检索到的信息来增强语言生成模型的输出,从而生成更准确、更有针对性的自然语言内容。
940
9
10
STORM by stanfordoval由斯坦福大学开发的面向学术研究的RAG框架,实现了多项创新的RAG算法和技术,重点优化检索机制的准确性和效率,与最先进的语言模型深度集成,配套详尽的文档和研究论文。适合探索RAG技术前沿的学者和从业者,特别是在学术研究和高等教育领域。项目地址:https://github.com/stanfordoval/storm
575
4
13
RAG(Retrieval Augmented Generation)检索增强生成是一种 AI 框架,它将传统信息检索系统(如搜索和数据库)的优势与生成式大型语言模型 (LLM ) 的功能相结合。通过将您的数据和世界知识与LLM语言技能相结合,生成的内容会更准确、更及时,并且更符合您的特定需求。RAG它的核心在于从用户自有知识源(如数据库、文档库等)中检索相关信息,并将这些信息用于辅助语言模型生成更准确、更有针对性的回答。例如,在一个问答系统中,当用户提出一个问题,RAG系统首先会在知识库中查找与该问题相关的内容,然后利用这些内容帮助语言模型生成回答。
691
2
5
Adobe Sign 和 DocuSign 的业务领域主要集中在电子签名及相关服务方面。根据GlobalSearch的报告,Adobe Sign在电子签名市场的份额为11.75%,排名第2。其竞争对手DocuSign的市场份额为55.14%,远远领先于Adobe Sign。一、功能特性1.签名与文档管理: Adobe Sign:支持多种签名类型,如手写签名、印章签章等,具备高级的文档跟踪、提醒、审批流程管理功能。还能进行文档扫描,可快速将纸质文档转换为PDF并发送签署,支持多页扫描、图像优化等功能。
1180
1
14
DocuSign是一家总部位于美国旧金山的电子签名和数字交易管理软件及服务提供商,超过150万付费客户,包括90%以上的世界500强企业,涵盖金融、医疗、房地产、科技、制造业等各个行业,如惠普和思科等将DocuSign作为标准化的电子签名工具。同时DocuSign为个人用户提供便捷的电子签名和文档管理服务,满足其在日常生活中的各种签署需求,如租房合同、贷款申请等。
785
9
9
Adobe Sign:作为全球知名的品牌,Adobe Sign 提供了一整套全面的电子签名和文档管理解决方案。它支持多种签名类型,包括手写签名、印章签章等,具备高级的文档跟踪、提醒、审批流程管理功能,以及与 Adobe Creative Cloud 和 Microsoft Office 等软件的深度集成。一、主要功能1.电子签名功能:
651
2
5
计算机视觉是一门研究如何让机器能够“看懂”世界的学科,通过算法处理和理解图像或视频数据。近年来,随着大数据时代的到来及计算能力的显著提升,基于深度神经网络的视觉基础模型逐渐成为该领域的研究热点。这些新模型不仅在性能上取得了突破性进展,而且其应用范围也在不断扩大。
847
9
0
Visual Foundation Models(视觉基础模型,简称VFMs)是一种专门用于处理和理解视觉数据的基础模型,是人工智能领域中计算机视觉方向的重要技术。通常在海量的高质量图像或视频数据上进行训练,利用自监督学习技术学习数据中的潜在模式,具有很强的通用性和泛化能力,可应用于图像分割、问答、常识推理等多种视觉相关任务。
1051
3
7
VizGPT是一个创新性的开源项目,它的核心在于构建了自然语言处理和数据可视化之间的桥梁。通过利用先进的自然语言处理技术,它能够理解用户输入的文本指令,并将这些指令转换为对应的可视化图表,帮助用户更直观地理解数据和信息。VizGPT通过聊天界面轻松创建和调整图表。利用GPT模型的强大功能,允许用户使用自然语言描述他们想要的图表,根据上下文逐步编辑可视化,无需再为理解复杂查询语法而头疼。
721
1
12
TigerBot是由虎博科技开发的一系列开源多语言大规模语言模型, 2023年5月首次发布,推出了7B和180B两个版本的基础模型和对话模型。一、主要特点1.中英文能力:在保持出色英文能力的同时,特别强化了中文处理能力,填补了许多国际模型在中文方面的不足。2.开源免费:采用开源策略,向学术研究和商业应用开放,促进了AI技术的普及和创新。
668
8
9
随着人工智能技术的迅猛发展,大型语言模型在自然语言处理领域扮演着越来越重要的角色。这些模型不仅能够理解和生成人类语言,还在多个应用场景中展示了卓越的能力。以下将对两个具有代表性的开源语言模型——Claude 3.5 Sonnet和DeepSeek V3进行深入比较分析。两者都在不同方面展现了出色的能力,并且各自有其独特的优势。
1030
2
0
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号