2019年9月,深圳钛铂数据有限公司(TapData Inc.)成立,由前MongoDB大中华区首席架构师、MongoDB中文社区主席唐建法创建。
TapData是一款以低延迟数据复制为核心优势的实时数据集成和数据服务平台。它内置超60种连接器,可轻松连接各类数据库、SaaS或内部应用程序等数据源。通过CDC等自研实时技术,能在秒级内捕获源系统数据变化。支持将数据同步到联机数据库、数据仓库、云数据平台等目的地。其具备数据实时采集、传输、计算能力,可在进程内完成数据计算、建模和转型。还能提供低代码可视化配置操作、增量数据校验、高并发毫秒级响应查询等功能。能帮助企业打通数据孤岛,为实时BI、微服务集成、云迁移等多种应用场景提供高效、稳定的数据集成服务,加速业务创新和决策进程。
一、主要功能
可将处理后的数据以实时API或实时视图等形式提供给下游应用和业务系统,为实时分析、实时决策等提供数据支持。通过低代码或无代码的可视化界面,用户可通过拖拉拽等方式快速配置数据集成任务、定义数据处理流程,降低开发门槛和成本。提供实时监控功能,可对数据采集、传输、处理等各个环节进行监控,及时发现和解决数据任务中的问题,保障数据流程的稳定运行。
1.数据源连接
能从多种数据源如数据库、API、文件等实时采集数据,并集成到中央数据平台或数据仓库,支持关系型数据库、非关系型数据库等100多种数据源。
TapData支持多种数据源,包括关系型数据库(如MySQL、Oracle等)、非关系型数据库(如MongoDB、Cassandra等)、云存储服务(如AWS S3、阿里云OSS等)、消息队列(如Kafka、RabbitMQ等)以及各种API接口等。通过使用相应的驱动程序或连接器,TapData能够与这些数据源建立连接,为数据采集做好准备。这些连接器经过了高度优化,能够高效地与各种数据源进行交互,确保数据的稳定获取。
2.数据捕获
高效捕获数据源中数据的变更,将这些变更实时同步到目标端,保证数据在不同系统间的实时一致性。
变更数据捕获(CDC)技术:对于数据库类数据源,TapData主要利用CDC技术来捕获数据的变更。以关系型数据库为例,它可以通过监听数据库的事务日志(如MySQL的Binlog、Oracle的Redo Log等)来获取数据的插入、更新和删除操作记录。对于非关系型数据库,也有相应的机制来跟踪数据的变化,比如MongoDB的 oplog。
轮询方式:对于一些不支持直接CDC的数据源,或者在某些特定情况下,TapData会采用轮询的方式来检查数据的变化。即定期查询数据源,对比上次查询的结果,找出新增或修改的数据。不过,这种方式相对CDC来说,实时性可能会稍差一些,且可能会对数据源造成一定的性能影响,所以通常会结合具体情况合理配置轮询的频率。
API 调用:当数据源是API时,TapData会按照预设的规则和频率调用API接口来获取数据。通过解析API返回的结果,提取出需要的数据信息,并识别其中的变化部分。
3.数据处理
提供数据处理和转换功能,可对采集到的数据进行清洗、过滤、映射、聚合等操作,满足不同业务场景下的数据需求。
数据清洗:在数据捕获后,TapData会对数据进行清洗操作,以去除噪声数据、重复数据和不完整数据等。例如,对于一些包含错误格式或无效值的数据记录,会进行纠正或过滤处理,确保数据的质量。
数据转换:根据用户在可视化界面中定义的规则,对数据进行转换操作,如数据类型转换、字段映射、数据脱敏等。比如,将日期格式从一种形式转换为另一种形式,或者将某些敏感信息进行加密处理。
数据 enrichment:可以从其他数据源获取额外的信息,对当前数据进行补充和丰富。例如,根据订单数据中的用户ID,从用户信息表中获取更多的用户详细信息,以完善订单数据的内容,为后续的分析和应用提供更全面的数据支持。
4.数据传输
数据通道建立:TapData在数据源和目标端之间建立安全、高效的数据传输通道。这个通道会根据数据的特点和传输需求,采用合适的协议和技术来确保数据的稳定传输。例如,对于大量的二进制数据,会采用优化的二进制传输协议;对于文本数据,则会根据编码格式进行相应的处理。
数据缓存与异步传输:为了提高传输效率和应对可能出现的网络波动等情况,TapData会在本地设置数据缓存。捕获到的数据先存储在缓存中,然后以异步的方式进行传输,这样可以避免因网络问题导致的数据丢失或传输中断。同时,通过对缓存数据的合理管理和调度,能够实现数据的批量传输,减少网络交互的次数,提高整体传输性能。
数据加密与安全传输:在数据传输过程中,TapData会对数据进行加密处理,确保数据的安全性和保密性。采用先进的加密算法,如SSL/TLS等,对传输的数据进行加密,防止数据在传输过程中被窃取或篡改。
5.数据加载
目标端适配:TapData支持将数据加载到各种目标端,包括数据仓库(如Snowflake、Redshift等)、数据湖(如Hadoop HDFS、Azure Data Lake等)、实时数据库(如Cassandra、InfluxDB等)以及其他应用系统等。针对不同的目标端,它会使用相应的加载方式和工具,确保数据能够正确地加载到目标位置。
数据一致性保证:在数据加载过程中,TapData会采取一系列措施来保证数据的一致性。例如,对于批量加载的数据,会进行事务管理,确保数据要么全部成功加载,要么全部回滚,避免出现部分数据加载成功而导致数据不一致的情况。同时,在实时数据同步场景下,会根据目标端的特点和数据模型,对数据进行适当的处理和整合,确保新数据与已有数据在逻辑上的一致性。
二、优势
1.技术性能层面
低延迟数据移动:以低延迟数据复制和实时数据处理为核心优势,在数据同步方面能做到秒级响应,极大提升数据利用效率。
强大的CDC能力:在变更数据捕获方面表现出色,能精准、高效地捕获数据变化并同步。
集中数据中心架构:采用集中数据中心架构,可灵活集成多种数据源,降低数据传输延迟和系统复杂性。
2.使用体验层面
操作便捷:零代码开发界面与可视化运维界面,操作简单,开发人员可快速构建实时链路,实时监控数据任务状态。
学习成本低:开箱即用与低代码可视化操作,支持数据模型预览,无需专业编程能力即可完成复杂的数据集成和开发。
3.生态合作层面
广泛的连接器:内置100+数据连接器,能与各种主流数据库、云服务等快速对接,还重点支持国产信创数据库。
合作广泛:与Google Cloud、MongoDB、移动云等达成战略合作,与TDengine、华为云、OceanBase等完成产品兼容互认证。
三、不足
1.对复杂场景的适配挑战:在一些极其复杂、特殊的数据处理场景或超大规模异构数据环境下,可能需要更多的技术投入和定制化开发来优化性能和稳定性。
2.依赖网络环境:作为实时数据平台,对网络带宽和稳定性有一定要求,在网络不佳的情况下,可能会影响数据传输的实时性和完整性。
3.功能深度与广度的平衡:在不断拓展功能广度、增加新的数据源支持和特性时,可能在某些功能的深度上需要进一步打磨,以满足特定行业的深度专业需求。
四、应用场景
1.数据分析与决策支持
实时BI:将业务系统数据实时同步到数据仓库或数据湖,如将电商平台的交易数据、用户行为数据等实时汇聚,支持实时报表生成和智能决策。企业管理者能根据最新数据及时调整策略,如根据实时销售数据调整库存管理和营销策略。
实时数据分析:为数据分析师提供最新鲜的数据,便于进行深入的数据分析和挖掘。例如在金融领域,实时分析用户的交易数据、信用数据等,及时发现潜在的风险和机会。
实时决策:融合业务最新数据和历史数据进行实时复杂分析,助力企业在瞬息万变的市场环境中快速做出决策。如在物流配送中,根据实时的路况信息、订单信息等优化配送路线和调度方案。
2.企业应用集成
微服务集成:在微服务架构中,实现各微服务之间的实时数据交换,提升服务间的协作效率。比如在一个大型电商系统中,商品微服务、订单微服务、用户微服务等之间可以通过TapData实时共享数据,确保业务流程的顺畅。
企业系统整合:连接企业内部的ERP、CRM、SCM等系统,打破数据孤岛。例如制造业企业通过TapData将生产管理系统、供应链管理系统、客户关系管理系统等进行集成,实现数据的实时流通和共享,提高企业的整体运营效率。
360度客户视图:整合来自不同系统的客户数据,包括客户基本信息、交易记录、行为数据等,构建全面的客户视图,为精准营销、客户服务等提供支持。企业可以根据客户的实时需求和行为,提供个性化的产品和服务。
3.数据迁移与云服务
云迁移:快速将本地数据库迁移到云端,实现无缝过渡。比如企业将本地的MySQL数据库迁移到阿里云或AWS等云平台上,TapData可以确保数据的实时同步和一致性,减少迁移过程中的数据丢失和停机时间。
跨云同步:在不同的云平台之间进行数据同步和共享。例如企业在阿里云和腾讯云都有业务部署,通过TapData可以实现两个云平台之间的数据实时交互,方便企业进行统一的管理和运营。
数据库容灾或异地备份:实时将数据从主数据库同步到异地的备份数据库,当主数据库出现故障时,可以快速切换到备份数据库,确保业务的连续性。
4.物联网与工业互联网
工业数据监控:在工业生产中,实时采集和集成来自各种传感器、设备的数据,实现对生产过程的实时监控和优化。例如在汽车制造工厂中,通过TapData实时收集生产线设备的运行数据、产品质量数据等,及时发现生产中的问题并进行调整。
智能物流与供应链:在物流和供应链领域,实时集成货物运输数据、仓储数据、车辆位置数据等,实现智能调度和优化。比如物流企业可以根据实时的货物运输状态和路况信息,合理安排车辆和路线,提高物流效率。
智能家居与智能城市:在智能家居和智能城市领域,实时集成各种物联网设备产生的数据,实现智能化的管理和服务。例如在智能城市中,通过TapData实时收集交通流量数据、环境监测数据等,为城市的交通管理、环境保护等提供支持。