登录
主页
 文章
Visual Foundation Models(视觉基础模型,简称VFMs)是一种专门用于处理和理解视觉数据的基础模型,是人工智能领域中计算机视觉方向的重要技术。通常在海量的高质量图像或视频数据上进行训练,利用自监督学习技术学习数据中的潜在模式,具有很强的通用性和泛化能力,可应用于图像分割、问答、常识推理等多种视觉相关任务。
820
9
4
VizGPT是一个创新性的开源项目,它的核心在于构建了自然语言处理和数据可视化之间的桥梁。通过利用先进的自然语言处理技术,它能够理解用户输入的文本指令,并将这些指令转换为对应的可视化图表,帮助用户更直观地理解数据和信息。VizGPT通过聊天界面轻松创建和调整图表。利用GPT模型的强大功能,允许用户使用自然语言描述他们想要的图表,根据上下文逐步编辑可视化,无需再为理解复杂查询语法而头疼。
522
0
1
TigerBot是由虎博科技开发的一系列开源多语言大规模语言模型, 2023年5月首次发布,推出了7B和180B两个版本的基础模型和对话模型。一、主要特点1.中英文能力:在保持出色英文能力的同时,特别强化了中文处理能力,填补了许多国际模型在中文方面的不足。2.开源免费:采用开源策略,向学术研究和商业应用开放,促进了AI技术的普及和创新。
901
3
12
随着人工智能技术的迅猛发展,大型语言模型在自然语言处理领域扮演着越来越重要的角色。这些模型不仅能够理解和生成人类语言,还在多个应用场景中展示了卓越的能力。以下将对两个具有代表性的开源语言模型——Claude 3.5 Sonnet和DeepSeek V3进行深入比较分析。两者都在不同方面展现了出色的能力,并且各自有其独特的优势。
937
8
7
随着移动设备的普及和性能提升,以及边缘计算的兴起,在资源受限的设备上运行机器学习模型的需求日益增长。而 由Google开发的TensorFlow 原本是为桌面和服务器端设计,直接应用在移动平台或嵌入式端存在能耗高、延迟大、二进制发布版本过大等问题,为解决这些问题,TensorFlow Lite专为在移动设备、嵌入式设备和物联网设备等资源受限的环境中部署机器学习模型而设计。
581
9
5
BeautifulSoup是一个用于从HTML和XML文件中提取数据的Python库。它可以从复杂的网页结构中提取出所需的数据,比如在网页爬虫中,能够帮助开发者从网页中获取文本、链接、图片链接等各种信息。例如,当你想要从一个新闻网站上获取新闻标题、发布时间、正文内容等信息时,就可以使用 BeautifulSoup 来解析网页的 HTML 代码并提取这些数据。
1129
9
3
通用大模型的知识覆盖范围广泛,涵盖了多个领域如科学、技术、文化、娱乐等各种知识。而垂直行业LLM聚焦于特定行业领域的知识,例如医疗领域的LLM会大量摄入医学文献、临床案例、药物知识等专业内容。这些模型经过专门的训练,对特定行业的术语、概念和流程有深入的理解。例如,在医疗诊断方面,垂直行业LLM可以准确识别各种疾病的症状、诊断标准和治疗方法,并且能根据患者的具体情况提供针对性的建议。
662
8
11
RAGFlow是一款专为企业设计的高效、精准的开源检索增强生成(RAG)引擎。项目地址:https://ragflow.io基于深度文档理解的知识提取能力,能帮助用户在海量数据中快速找到所需内容,确保输出内容的真实性和可靠性。兼容多种异构数据源,用户可以轻松整合不同来源的数据,提供更全面的信息基础。支持模板化的分块处理,用户可根据需要选择不同模板,优化内容呈现形式,提升会话质量和效率。提供自动化和无缝的RAG工作流程,满足从个人用户到大型企业的需求,可通过直观的API与其他业务系统无缝集成。
891
8
6
FastGPT是一个基于LLM大语言模型的知识库问答系统。项目地址:https://github.com/labring/FastGPT一、功能特点 数据处理能力强:提供开箱即用的数据处理功能,支持手动输入、直接分段、LLM自动处理和CSV等多种数据导入途径,可处理PDF、WORD、Markdown和CSV等多种格式的文档,自动对文本数据进行预处理、向量化和QA分割,节省手动训练时间。
683
0
4
OpenInstruct 是AllenAI机构推出的一个开源项目,旨在利用人工智能技术改变传统的教学方式,提供个性化的学习体验。核心是构建一个能够理解、生成和评估教学指令的模型,可进行指令理解、生成和评估,还能提供个性化推荐。开源地址:https://github.com/allenai/open-instruct一、技术特点
955
6
2
EduChat由华东师范大学计算机科学与技术学院的EduNLP团队开发的一个面向教育领域的大规模语言模型对话系统,目标是为教师、学生和家长提供个性化、公平和富有同理心的智能教育服务。具备开放问答、情感支持、作文批改、启发式教学、自动出题、课程辅导和高考咨询等丰富功能。基于大规模语言模型,融合了多样化的教育领域数据,并通过指令微调和价值观对齐等方法进行优化。
1080
8
11
Certbot由电子前哨基金会(EFF)开发和维护,主要用于自动化获取、安装和续期Let's Encrypt证书,也可以作为使用ACME协议的其他证书颁发机构的客户端。开源好用,可自动修改 nginx 配置文件。有多种安装方式,如源码安装、第三方发布版本、pip 安装和 snap 安装,官方推荐使用 snap 安装。
839
7
6
Retentioneering专门为解析点击流、用户路径和事件日志设计,能够深入挖掘用户在系统中的行为轨迹和操作顺序,提供比传统漏斗分析更广泛和深入的洞察,帮助发现用户行为背后的潜在模式和问题。提供了专门针对点击流数据的一系列处理方法,如事件分组、过滤、会话拆分等,同时具有交互式的图表和可视化功能,使复杂的用户旅程和数据结构变得清晰易懂,有助于快速理解和分析数据。
714
8
5
在应用程序运行过程中,频繁地访问相同的数据会增加系统的负载,特别是在访问数据库或者远程服务等相对较慢的资源时。Ehcache通过在内存中缓存数据,减少了这些资源的访问次数,从而提高了应用程序的性能和响应速度。它是由Terracotta公司开发和维护,广泛应用于Java企业级应用和各种Java项目中。
681
1
3
JMeter由Apache组织开发的基于Java的压力测试工具,最初用于Web应用测试,后来扩展到其他测试领域。它可以模拟大量用户并发请求,对服务器、网络或对象施加巨大负载,以测试其强度和分析整体性能,还能对应用程序进行功能/回归测试,并通过创建带有断言的脚本来验证程序返回的结果是否符合期望。
1035
5
4
Apache Nutch是一个开源的、高度可扩展的网络爬虫框架,它是Apache软件基金会的一个项目。Nutch的设计目标是从互联网上抓取网页,并为搜索引擎构建索引。它起源于对开源搜索引擎的需求,是在Lucene(一个文本检索库)基础上发展起来的,能够帮助开发者构建自己的网络搜索引擎。具有分布式和强大伸缩性的特性,能够高效地抓取网站内容并建立索引,具备完善的插件系统,可实现灵活的功能拓展。
792
1
8
StormCrawler运用Apache Storm技术打造的应用型分布式爬虫架构,专为大规模实时并行网络数据的处理而设计。它能够高效地抓取大量网页数据,并提供了可扩展的架构,适用于大规模的数据采集任务。通过利用Storm的分布式计算特性,StormCrawler可以在多个节点上并行运行,大大提高了爬虫的速度和效率。
884
2
8
Diboot是一个基于Java的快速开发框架,主要用于简化企业级应用开发的流程。它采用了一系列的设计模式和技术,帮助开发者更高效地构建高质量的Web应用、后端服务等各类软件系统。例如,在开发一个包含用户管理、权限控制、数据存储和展示等功能的企业资源规划(ERP)系统时,Diboot可以发挥很大的作用。其2.2.0版本在IAM模块增加了组织架构管理、岗位管理、数据权限控制等功能,可通过简单的配置和代码生成,实现对数据权限的精细化管理。
554
7
4
ArkID是一个用于统一身份认证和授权管理的系统。它的主要目的是在复杂的企业级或多系统应用环境中,对用户的身份进行集中验证,并对用户访问各种资源的权限进行精细的管理。例如,在一个大型企业中有多个不同的业务系统,如人力资源管理系统、财务管理系统、客户关系管理系统等。员工需要使用不同的账号和密码来访问这些系统,这不仅麻烦,而且存在安全隐患。ArkID可以将这些分散的身份认证整合起来,员工只需要使用一组账号和密码(单点登录)就可以访问所有授权的系统。支持LDAP、OAuth2、SAML、OpenID等多种标准协议,具有细粒度权限控制和完整的WEB管理功能。
574
0
2
OpenAddresses是一个全球性的开源库,汇集世界各地的地址、地籍图以及建筑轮廓数据来源,采用现代化的Git协作模式管理和更新,数据免费且可供广泛使用,可为地图应用、物流配送、智慧城市等众多场景提供基础数据.构建一个数据仓库,让任何人都能轻松获取地址、地籍图以及建筑轮廓等信息,推动开放数据的发展,并激发创新。OpenAddresses的数据来源广泛,包括政府机构、地理信息公司、社区组织和个人贡献等,且以Markdown格式记录了各个数据集的信息,包括链接和覆盖区域描述。
1122
4
7
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号