登录
主页
 文章
递归下降解析算法(Recursive Descent Parsing)是一种自上而下的解析技术,广泛应用于编译器和解释器的设计中,用于分析编程语言或任何形式语言的语法结构。它根据给定的文法规则(通常采用巴科斯范式,即BNF形式)来解析输入串,通过一系列的函数调用模拟文法规则的递归定义,从而识别出输入中的语法结构。
747
9
9
Thompson词法分析算法,由Ken Thompson在1968年提出,是一种将正则表达式转换为非确定性有限状态自动机(NFA)的重要算法。这一过程对于理解、设计和实现正则表达式匹配引擎至关重要。Thompson构造法不仅展示了正则表达式的强大和灵活性,而且也为后续的词法分析、语法分析以及文本处理等领域奠定了基础。
915
4
6
句子向量表示(Sentence2Vec)是一种将句子转换为向量表示的技术。它的主要目的是将文本中的句子转换为数值向量,以便在机器学习和自然语言处理任务中进行处理和分析。通过将句子表示为向量,可以使用向量之间的距离或相似度来衡量句子之间的语义相似性。例如,在文本分类任务中,可以先将每个文本句子转换为 Sentence2Vec 向量,然后使用这些向量作为输入来训练分类模型。
770
4
4
随着自然语言处理(NLP)领域的快速发展,词嵌入(word embeddings)技术已经成为理解文本语义的基础工具之一。其中,Skip-Gram模型配以Negative Sampling (SGNS)策略,因其高效性和准确性,在众多词向量学习方法中脱颖而出。本文旨在深入探讨如何利用浅层神经网络结合SGNS方法来学习高质量的词向量,并分析其在NLP任务中的应用效果。
750
1
9
Item2Vec 是一种基于深度学习的技术,用于项目(item)的嵌入表示。这种技术通常用于推荐系统,其中物品可以是任何东西,比如商品、电影、歌曲等。Item2Vec 与 Word2Vec 类似,Word2Vec 是一种用于生成词嵌入的技术,它通过训练模型来预测一个词的上下文来生成词的向量表示。
1123
4
11
排序学习(Learning to Rank,简称LTR)是信息检索、推荐系统、自然语言处理等领域中的一项重要技术。通过机器学习方法自动学习一个排序函数,将无序或部分有序的项目集合按照特定目标排序,以优化用户获取信息的效率和体验。LTR在搜索引擎结果优化、新闻个性化推荐、商品排名、问答系统等多个应用场景中发挥着关键作用。
653
2
7
监督学习(Supervised Learning)是机器学习领域的一个核心分支,它在现代人工智能应用中扮演着至关重要的角色。简单来说,监督学习是一种通过分析带有标签的训练数据来学习一个函数,该函数能够对新的、未见过的数据进行预测或分类的过程。这里的“监督”指的是算法在训练过程中能够参考正确答案(标签),从而调整其模型参数,以期望达到对未知数据准确预测的目的。
628
1
6
在数据技术(DT)驱动的时代背景下,个性化推荐系统已成为连接用户与信息、商品、服务等多元化内容的核心桥梁,深入渗透至人们的日常生活中。该系统基于深度挖掘用户历史行为模式,精准捕捉用户潜在兴趣,实现“一人一面”的定制化服务,不仅极大提升了用户体验,也为企业创造了显著的商业价值。
1085
4
8
信息指纹,也常被称为数据指纹、数字指纹或内容哈希,是一种用于确保信息完整性和唯一性的技术方法。它的工作原理是对原始数据(如文本、图像、音频或视频文件)进行特定算法处理,产生一个固定长度的、独特的数值或字符串。这个输出值就是所谓的“指纹”。一、数据指纹的特点
591
3
4
期望最大化算法,简称EM算法,是一种在统计学中用于迭代地找到概率模型中未观测变量(隐变量)的估计值的算法,同时对模型参数进行最大似然估计或最大后验概率估计。它特别适用于处理具有缺失数据或者隐含变量的概率模型问题,如混合高斯模型、隐马尔可夫模型等。
773
1
6
最大熵模型(Maximum Entropy Model,MaxEnt)是一种基于信息论原理的统计建模方法,广泛应用于自然语言处理、机器学习、数据挖掘等多个领域。该模型由E.T. Jaynes于20世纪50年代提出,其核心思想是在满足已知事实或约束条件下,选择具有最大熵的概率分布作为模型。熵是不确定性或信息量的度量,最大熵模型因此寻求最不确定的模型,即在给定的信息下尽可能不做额外假设。
949
7
14
维特比算法(Viterbi Algorithm),由安德鲁·维特比(Andrew Viterbi)于1967年提出,是一种用于寻找最有可能产生观测序列的隐藏状态序列的动态规划算法。它在信息论、编码理论、语音识别、生物信息学等领域有着广泛的应用,特别适用于信号处理和自然语言处理等领域,用于从一系列观察到的事件中推断出最可能的产生这些事件的状态序列。
550
2
1
Timeboxing(时间盒)是一种时间管理方法它指的是为特定的任务或活动分配固定的、预先确定的时间区间。通过设定明确的时间限制,促使人们专注于任务,减少拖延和分心,从而在有限的时间内完成更多工作。例如,规定自己在 30 分钟内完成一份报告的初稿。有助于更好地规划一天或一周的工作安排,确保各项任务都能得到合理的时间分配。比如,为每个会议安排一个小时的时间盒,避免会议过长或过短。
631
7
2
在数据质量管理中,数据责任人机制是一项非常重要的策略和管理手段。在数据质量管理中,涉及众多的流程和环节,如数据收集、存储、处理、分析和使用等。明确数据责任人能够清晰地界定每个环节的责任归属,避免出现职责不清、推诿责任的情况。例如,在数据收集阶段,数据责任人要确保收集的数据准确、完整且符合合规要求。
819
7
6
数据质量问题应该说是伴随我们的日常工作,只不过我们都是熟视无睹罢了。一、典型数据质量问题1. 数据不准确: - 数据录入错误,例如人工输入时的拼写错误、数据混淆或误填。 - 数据源本身存在错误或偏差,导致后续数据不准确。例如,传感器故障导致收集的物理数据错误。
755
9
10
在数据治理中,元数据(Metadata)扮演着至关重要的角色。它被定义为“关于数据的数据”,主要分为技术元数据和业务元数据两大类。技术元数据关注数据仓库的系统细节,如字段、分区等信息,而业务元数据则关注业务词汇表、数据元素和实体的定义、业务规则和算法以及数据特征 。
758
0
14
由广东省政务服务和数据管理局指导,广东数字政府研究院、广州数据交易所、粤港数据安全与隐私保护联合实验室、广州芳禾数据有限公司等单位联合编制的《数据资产化实践指南》(以下简称为《实践指南》)发布,以数据产生的业务源头到数据实现资产化的全流程入手,按照“业务数据化-数据资源化-数据产品化-数据资本化”的演变方式,探索建立数据资产化的可行路径为企业数据资产化提供了全面的指导。
816
5
5
知识图谱(Knowledge Graph)是一种用图结构来表示知识和信息的技术。它将实体(如人、地点、事件、概念等)作为节点,实体之间的关系作为边,从而构建起一个大规模的语义网络。通过这种方式,知识图谱能够清晰地展示出不同实体之间的关联和相互作用。知识图谱能够更好地理解和表达知识的语义,不仅仅是简单的关键词匹配。将来自多个数据源、多种类型的知识整合在一起,形成一个统一的知识框架。强调实体之间的关系,有助于发现隐藏的信息和模式。基于已有的知识和关系进行推理和预测,提供更深入的洞察。
883
4
9
数据要素是指在数字经济中,以电子形式存在的、可量化、可传输、可分析、可交易的信息资源。它包括但不限于结构化数据、半结构化数据和非结构化数据,是数字经济时代的基础资源。数据要素作为一种新型生产要素,反映了随着数字化转型加速发展,数据对提高生产效率起到乘数的凸显作用。它与其他生产要素结合时能够增加产出,是推动数字经济发展的核心引擎,是赋能行业数字化转型和智能化升级的重要支撑,也是国家基础性战略资源。例如,数据要素可以推动信息技术发展、促进传统产业转型升级、推动社会治理创新以及驱动经济发展等。
767
3
10
强制访问控制(Mandatory Access Control,MAC)是一种访问控制模型,在该模型中,系统根据预先定义的安全策略和数据的安全级别来决定访问权限,用户通常无法自主更改这些权限。MAC 常用于对安全性要求极高的环境,如军事、政府和关键基础设施等领域。在 MAC 中,数据被标记为不同的安全级别(例如“绝密”“机密”“秘密”“公开”等),用户也被赋予相应的安全许可级别。只有当用户的许可级别高于或等于数据的安全级别时,才被允许访问该数据。
908
4
4
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号