登录
主页
 文章
隐私计算(Privacy calculation)在金融行业的应用正日益深入,为金融机构带来了诸多优势和创新机遇。隐私计算是一种在确保数据不对外泄露的前提下,实现数据分析计算的技术。它允许多个参与方在保护各自数据隐私的情况下,共同完成某项计算任务,从而达到“数据可用不可见”的目的。隐私计算技术包含多种隐私保护技术、隐私增强技术,涉及密码学、安全硬件、信息论、分布式计算等多个学科。
814
3
6
PPO(Proximal Policy Optimization) 算法是一种在强化学习领域中广泛应用的策略优化算法。PPO 算法的核心思想是在策略梯度算法的基础上进行改进,以提高算法的稳定性和性能。它通过限制策略更新的幅度,来避免过大的策略变化导致训练不稳定。具体来说,PPO 算法采用了两种常见的变体:PPO-Clip 和 PPO-Penalty。
644
7
2
增强学习算法(Reinforcement Learning,RL)是一种机器学习方法,智能体通过与环境进行交互,根据环境给予的奖励信号来学习最优的策略。一、目标增强学习算法使智能体(Agent)能够在环境中通过试错来学习如何做出决策。1. 最大化累积奖励:增强学习算法的主要目标是使智能体在一系列决策过程中获得尽可能多的累积奖励。这通常通过一个称为回报(Return)的量来衡量,它是从某一时间点开始,智能体所获得的一系列奖励的总和。
566
9
6
LevelDB 是一款由 Google 开发并开源的高性能键值存储数据库,主要用于构建需要快速、可靠数据存储的系统。它是由 Google 的两位杰出工程师 Jeff Dean 和 Sanjay Ghemawat 设计,以 C++ 编写,旨在提供一个简单、高效的持久化数据存储解决方案。LevelDB 不仅仅在 Google 内部项目中得到广泛应用,也被众多外部项目采纳,如比特币核心客户端就利用 LevelDB 存储区块链元数据。
603
4
10
TextCNN是一种用于文本分类的卷积神经网络(CNN)模型,由Yoon Kim在2014年提出。它通过将卷积神经网络应用于自然语言处理任务,特别是文本分类,有效地捕捉了文本中的局部特征。一、主要特点1. 词嵌入(Word Embedding): 将词汇映射到高维空间中的向量,这些向量能够捕捉词汇的语义信息。
1001
5
8
CLUB(Clustering Bandits)算法是一种针对大数据集的无监督聚类算法,它特别适合于在分布式系统中使用。这种算法通过将数据点分配给中心点来组织数据,每个中心点代表一个聚类。CLUB算法的核心思想是利用随机性来探索数据空间,并基于数据点之间的相似度来构建聚类 。
695
0
5
GloVe(Global Vectors for Word Representation)是一种用于获取词向量(Word Embedding)的模型。它结合了全局矩阵分解和局部上下文窗口方法的优点。通过在共现矩阵的基础上构建模型,学习词与词之间的语义关系,并将每个词表示为一个低维向量。GloVe由斯坦福大学和Google的研究人员在2014年提出。GloVe模型的核心思想是通过分析词与词之间的共现统计信息来生成词向量。
1122
4
11
文档聚类技术(Document Clustering)是一种将大量文档按照相似性自动分组的方法。它的主要作用在于帮助人们更好地理解和组织大量的文本数据。通过将相似的文档归为一类,可以快速发现文档集合中的主题结构和模式。一、基本概念文档聚类技术通常基于文档的特征表示来计算文档之间的相似度。常见的特征表示方法包括词袋模型(Bag of Words)、TF-IDF 向量等。然后,使用各种聚类算法,如 K-Means 聚类、层次聚类、密度聚类等,对文档进行分组。
1031
5
10
递归下降解析算法(Recursive Descent Parsing)是一种自上而下的解析技术,广泛应用于编译器和解释器的设计中,用于分析编程语言或任何形式语言的语法结构。它根据给定的文法规则(通常采用巴科斯范式,即BNF形式)来解析输入串,通过一系列的函数调用模拟文法规则的递归定义,从而识别出输入中的语法结构。
850
1
1
Thompson词法分析算法,由Ken Thompson在1968年提出,是一种将正则表达式转换为非确定性有限状态自动机(NFA)的重要算法。这一过程对于理解、设计和实现正则表达式匹配引擎至关重要。Thompson构造法不仅展示了正则表达式的强大和灵活性,而且也为后续的词法分析、语法分析以及文本处理等领域奠定了基础。
650
3
2
句子向量表示(Sentence2Vec)是一种将句子转换为向量表示的技术。它的主要目的是将文本中的句子转换为数值向量,以便在机器学习和自然语言处理任务中进行处理和分析。通过将句子表示为向量,可以使用向量之间的距离或相似度来衡量句子之间的语义相似性。例如,在文本分类任务中,可以先将每个文本句子转换为 Sentence2Vec 向量,然后使用这些向量作为输入来训练分类模型。
655
5
0
随着自然语言处理(NLP)领域的快速发展,词嵌入(word embeddings)技术已经成为理解文本语义的基础工具之一。其中,Skip-Gram模型配以Negative Sampling (SGNS)策略,因其高效性和准确性,在众多词向量学习方法中脱颖而出。本文旨在深入探讨如何利用浅层神经网络结合SGNS方法来学习高质量的词向量,并分析其在NLP任务中的应用效果。
537
2
1
Item2Vec 是一种基于深度学习的技术,用于项目(item)的嵌入表示。这种技术通常用于推荐系统,其中物品可以是任何东西,比如商品、电影、歌曲等。Item2Vec 与 Word2Vec 类似,Word2Vec 是一种用于生成词嵌入的技术,它通过训练模型来预测一个词的上下文来生成词的向量表示。
1107
8
10
排序学习(Learning to Rank,简称LTR)是信息检索、推荐系统、自然语言处理等领域中的一项重要技术。通过机器学习方法自动学习一个排序函数,将无序或部分有序的项目集合按照特定目标排序,以优化用户获取信息的效率和体验。LTR在搜索引擎结果优化、新闻个性化推荐、商品排名、问答系统等多个应用场景中发挥着关键作用。
654
1
0
监督学习(Supervised Learning)是机器学习领域的一个核心分支,它在现代人工智能应用中扮演着至关重要的角色。简单来说,监督学习是一种通过分析带有标签的训练数据来学习一个函数,该函数能够对新的、未见过的数据进行预测或分类的过程。这里的“监督”指的是算法在训练过程中能够参考正确答案(标签),从而调整其模型参数,以期望达到对未知数据准确预测的目的。
640
0
7
在数据技术(DT)驱动的时代背景下,个性化推荐系统已成为连接用户与信息、商品、服务等多元化内容的核心桥梁,深入渗透至人们的日常生活中。该系统基于深度挖掘用户历史行为模式,精准捕捉用户潜在兴趣,实现“一人一面”的定制化服务,不仅极大提升了用户体验,也为企业创造了显著的商业价值。
859
1
6
信息指纹,也常被称为数据指纹、数字指纹或内容哈希,是一种用于确保信息完整性和唯一性的技术方法。它的工作原理是对原始数据(如文本、图像、音频或视频文件)进行特定算法处理,产生一个固定长度的、独特的数值或字符串。这个输出值就是所谓的“指纹”。一、数据指纹的特点
529
9
7
期望最大化算法,简称EM算法,是一种在统计学中用于迭代地找到概率模型中未观测变量(隐变量)的估计值的算法,同时对模型参数进行最大似然估计或最大后验概率估计。它特别适用于处理具有缺失数据或者隐含变量的概率模型问题,如混合高斯模型、隐马尔可夫模型等。
523
7
8
最大熵模型(Maximum Entropy Model,MaxEnt)是一种基于信息论原理的统计建模方法,广泛应用于自然语言处理、机器学习、数据挖掘等多个领域。该模型由E.T. Jaynes于20世纪50年代提出,其核心思想是在满足已知事实或约束条件下,选择具有最大熵的概率分布作为模型。熵是不确定性或信息量的度量,最大熵模型因此寻求最不确定的模型,即在给定的信息下尽可能不做额外假设。
575
8
2
维特比算法(Viterbi Algorithm),由安德鲁·维特比(Andrew Viterbi)于1967年提出,是一种用于寻找最有可能产生观测序列的隐藏状态序列的动态规划算法。它在信息论、编码理论、语音识别、生物信息学等领域有着广泛的应用,特别适用于信号处理和自然语言处理等领域,用于从一系列观察到的事件中推断出最可能的产生这些事件的状态序列。
1040
2
13
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 (深数据® DEEPDATA® 极深®) 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号