深数据网

mindsdb是一个用于构建AI系统的平台，能够对大规模联邦数据进行智能问答，提供了唯一需要的MCP（Model-Controller-Predictor）服务端解决方案。2017年，MindsDB由Adam Carrigan和Jorge Torres联合创立，总部位于美国旧金山。两人此前曾创办Real Life Analytics，致力于用AI技术实现广告精准投放，但以失败告终。之后，他们怀揣着“AI普惠”的理念，创立了MindsDB，旨在简化AI的上手难度，让普通软件开发者也能方便使用AI能力。

2025-07-17

机器学习模型部署与管理框架（BentoML）

BentoML 是一个开源的机器学习模型部署与生命周期管理框架，旨在解决机器学习模型从训练完成到生产环境部署的全流程痛点，支持多种模型格式、部署场景和协作模式。其核心目标是让数据科学家和工程师能够快速、可靠地将模型转化为可生产的服务，同时简化模型版本管理、 scaling 和监控等运维工作。

2025-07-16

913

深度交叉网络模型（DCN）

Deep & Cross Network（DCN）是谷歌和斯坦福大学在2017年提出的，用于广告点击预测（Ad Click Prediction）的模型，主要解决CTR（点击率）预估问题。它是对Wide&Deep模型的进一步改进，能够自动学习特征交叉，有效捕获有限阶上的有效特征交叉，无需人工特征工程或暴力搜索，且计算代价较低。

2025-07-16

651

云原生应用监控系统（Prometheus）

Prometheus是由SoundCloud开发的开源监控系统，2016年被CNCF纳入为第二大开源项目，现已成为独立的开源项目，拥有活跃的开发人员和用户社区。它是一个针对云原生应用和分布式系统的监控和报警工具，提供了从监控数据搜集、存储、处理到可视化和告警的完整解决方案。项目地址：https://github.com/prometheus/prometheus

2025-07-15

828

梯度提升机（GBM）

Gradient Boosting Machine（GBM，梯度提升机）是集成学习（Ensemble Learning）中Boosting 框架下的经典算法，核心思想是通过串行训练多个弱学习器（通常为决策树），逐步纠正前序模型的预测误差，最终构建一个强学习器。它凭借优异的预测性能，在分类、回归、排序等任务中被广泛应用，也是数据科学竞赛中的常用工具。

2025-07-15

796

梯度提升决策树机器学习库（CatBoost）

CatBoost是由俄罗斯搜索引擎巨头Yandex开发的高性能梯度提升决策树机器学习库，于2017年开源，采用Apache 2.0许可证，可免费开源使用。它是GBDT算法框架下的一种改进实现，主要用于解决分类和回归问题。基于对称决策树（oblivious trees）算法，通过构建多个简单预测器来逐步改进目标函数，从而形成一个强大的模型。

2025-07-14

969

机器学习模型（Wide&Deep）

Wide&Deep 是 Google 于 2016 年在论文《Wide & Deep Learning for Recommender Systems》中提出的机器学习模型，旨在解决推荐系统中“记忆性（Memorization）”与“泛化性（Generalization）”的平衡问题。该模型通过融合线性模型（Wide 部分）和深度学习模型（Deep 部分）的优势，在 Google Play 应用推荐等场景中取得了显著效果，成为推荐系统领域的经典模型之一。

2025-07-14

1006

点击率预测的深度学习模型（DeepFM）

DeepFM（Deep Factorization Machine）是一种用于点击率（CTR）预测的深度学习模型，它结合了因子分解机（FM）和深度神经网络（DNN）的优点，能够自动学习低阶和高阶的特征交叉，无需复杂的人工特征工程。一、模型架构DeepFM 主要包含 FM 部分和 Deep 部分。FM 部分用于学习低阶的交叉特征，能够有效捕捉数据中的一阶和二阶特征关系。Deep 部分则是一个全连接神经网络，用于学习高阶的交叉特征，通过多层神经元的非线性变换，挖掘数据中更复杂的特征组合。

2025-07-13

842

分布式梯度提升库（XGBoost）

XGBoost（eXtreme Gradient Boosting）是一个开源的、高度优化的分布式梯度提升库。XGBoost 基于决策树算法，通过集成多个弱分类器以提升整体模型的性能。它在训练速度和模型表现上相比传统的梯度提升算法都有显著提升，是一种高效的、可扩展的梯度提升框架。该框架被广泛用于解决分类、回归、排序、推荐系统等各种类型的问题，在机器学习和数据科学领域应用十分广泛。同时，XGBoost 具有高性能和可扩展性，支持并行计算和分布式训练，能高效处理大规模特征和样本，可在多种分布式环境中运行，还能在 C++、Python、R、Java、Scala 等多种编程语言中使用。

2025-07-13

839

开放的神经网络交换格式（ONNX）

ONNX（Open Neural Network Exchange）是一个开放的神经网络交换格式。2017 年，Facebook 和 Microsoft 共同发布 ONNX，最初代号为 “Toffee”，由 Facebook 的 PyTorch 团队开发。同年 9 月，正式更名为 ONNX，并得到了 IBM、华为、英特尔等多家公司的支持。12 月，ONNX 发布了第一个正式版本（v1.0），为不同深度学习框架提供通用的模型表示标准，方便模型在不同框架和工具之间迁移。

2025-07-12

1091

高性能梯度提升框架（LightGBM）

LightGBM（Light Gradient Boosting Machine）是一个高效的分布式梯度提升框架，由微软于2017年开源，基于GBDT（Gradient Boosting Decision Tree）实现，常用于分类、回归和排序等机器学习任务。项目地址：https://github.com/microsoft/LightGBM一、核心优势与设计理念1.训练速度基于直方的分裂算法将连续的特征值离散化为固定数量的直方桶（默认256个），计算每个桶的统计量。这样可减少寻找分裂点的计算复杂度，同时离散化后的特征存储为整数，能节省内存，计算时只需遍历桶而非原始特征值，提升了速度。

2025-07-12

1004

机器学习生命周期管理平台（MLflow）

MLflow 是一个开源的机器学习生命周期管理平台，在简化机器学习模型从开发到部署的全流程。它提供了统一的工具集，帮助数据科学家和工程师管理模型训练、参数调优、版本控制、部署和监控，解决了 ML 工作流中的碎片化问题。项目地址：https://github.com/mlflow/mlflow一、核心组件

2025-07-11

1101

MoE开源模型（Mixtral 8x7B）

Mixtral 8x7B是Mistral AI于2023年12月11日发布的首个开源MoE（混合专家）大模型。Mixtral是一个稀疏的混合专家网络，基于Transformer的混合专家层，为纯解码器模型。每层有8个前馈块（专家），一个路由网络在每层为每个token选择两个专家来处理，最后将它们的输出组合相加。总参数量为46.7B，由于采用混合专家网络结构，每个token仅使用其中12.9B参数，上下文窗口大小为32K。采用了分组查询注意力（GQA），显著加快了推理速度，还减少了解码期间的内存需求，在32k token的序列长度上，可减少8倍的缓存内存使用，且不影响模型质量。在大多数基准测试中优于Llama 2 70B，推理速度快6倍。在TruthfulQA基准测试上比Llama 2更真实（73.9% vs 50.2%），在BBQ基准测试上呈现出更少的偏见。在MT - Bench上达到了8.3的分数，性能与GPT3.5相媲美。

2025-07-11

864

云原生机器学习模型服务框架（KServe）

KServe是一个开源的云原生机器学习模型服务框架，专注于简化机器学习（ML）模型的部署、管理和扩展，尤其适用于大规模、分布式的生产环境。它基于Kubernetes（K8s）构建，遵循云原生理念，旨在为不同类型的模型提供标准化、高性能的推理服务。https://github.com/kserve/kserve一、定义与背景

2025-07-09

862

开源模型推理部署工具（Triton）

Triton框架（全称NVIDIA Triton Inference Server）是一款由NVIDIA开发的开源模型推理部署工具，旨在简化机器学习模型从训练到生产环境部署的流程，同时优化推理性能（如吞吐量、延迟）。它支持多框架、多模型、多硬件部署，广泛应用于云服务、边缘计算、嵌入式设备等场景。

2025-07-09

728

开源模型服务框架（TorchServe）

TorchServe是由Facebook（现Meta）和AWS联合开发的开源模型服务框架，专门用于简化PyTorch模型的部署流程，支持将训练好的PyTorch模型快速转化为可扩展、高可用的API服务。它旨在解决模型部署中的工程化难题，如服务启动、负载均衡、版本管理等，让开发者更专注于模型本身而非部署细节。

2025-07-09

697

开源人工神经网络库（OpenANN）

OpenANN（OpenANN，Open Artificial Neural Network Library）是一个开源的人工神经网络库，基于C++编写，依赖Eigen 3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速，利用多核CPU和GPU进行并行计算，可获得更快的训练速度。同时具有高度灵活性和可扩展性，支持多种神经网络架构和优化算法，且采用模块化设计，可通过添加新模块来实现新功能或优化现有功能。

2025-07-09

843

轻量级大模型训练框架（MiniMind）

MiniMind项目最初于2024年启动，目标是打造完全开源的轻量级语言模型训练框架。首个版本V1聚焦于降低训练门槛，支持消费级显卡运行，最低显存需求仅4GB，并通过优化算法实现了显著的训练速度提升。V1版本的核心技术包括基于Transformer-XL的模型架构、Rotary Embedding长文本处理技术，以及FlashAttention-2优化的显存管理，使得在RTX 3090上仅需2小时即可完成26M参数模型的训练。

2025-07-08

967

信任最小化的零知识桥接协议（Union）

Union 是由 unionlabs 开发的一个信任最小化的零知识桥接协议，专为抗审查、超高安全性和去中心化金融使用而设计。零知识桥接协议是一种利用零知识证明技术，实现不同区块链网络之间信息传输（如消息、资金或其他数据）的通信协议。它能在不泄露敏感信息的前提下，确保跨链交互的安全性和可靠性。零知识证明允许证明者向验证者证明某个陈述是真实的，而无需透露除该陈述为真之外的任何其他信息。在桥接协议中，通过零知识证明技术，可在不暴露区块链具体交易细节或状态信息的情况下，验证跨链交易或消息的合法性，将区块链共识协议的安全性扩展到桥接过程中。

2025-07-08

606

基于Zigbee与WiFi的智能家居网关设计

基于Zigbee与WiFi的智能家居网关是连接不同协议智能设备、实现互联互通的核心枢纽。其设计需融合Zigbee低功耗、广覆盖的特点与WiFi高带宽、易接入互联网的优势，满足智能家居中多设备协同控制、数据交互的需求。解决不同无线协议设备的“孤岛问题”，一、核心目标 1.协议兼容：支持Zigbee设备（如传感器、开关）与WiFi设备（如摄像头、电视）的双向通信；

2025-07-08

1038