数据作为大数据时代全新的生产要素,深度渗透社会服务、资源分配、公共决策、商业供给等各个领域,已然成为民众参与社会生活、享受发展红利的基础门槛。依托海量数据采集、智能算法分析与全域资源整合技术,数字平台能够精准匹配大众需求、优化资源配置效率、赋能社会数字化转型。但技术红利并非普惠全员,当前大数据体系整体以主流群体的行为特征、消费习惯、需求偏好为搭建基准,老年人、残障人士、偏远地区居民、小众圈层爱好者、少数特殊职业者等小众群体,因数据样本缺失、算法偏见、资源分配失衡等问题,逐渐被排斥在数字服务体系之外,陷入数据边缘化困境。这种边缘化现象打破数字社会平等发展的底层逻辑,加剧新型数字不平等,衍生出深层次数字公平危机,成为数字中国建设进程中亟待破解的现实难题。
一、数据边缘化的核心内涵与小众群体界定
1.数据边缘化基本内涵
数据边缘化是传统数字鸿沟的进阶形态,区别于早期因网络设备、网络接入产生的“接入沟”,以及数字素养不足引发的“使用沟”,其本质属于数字鸿沟体系中更高层级的“知识沟”与“分配沟”范畴。简单而言,就是小众群体的行为数据、服务需求、权益诉求无法被大数据系统有效采集、收录与识别,进而导致该群体在算法决策、资源分配、公共服务供给中话语权缺失、适配服务缺位,最终被系统性排除在标准化数字服务之外的社会现象。相较于显性的数字接入差距,数据边缘化具备极强的隐蔽性,潜藏于算法黑箱与数据筛选机制之中,不易被察觉,却能从根源上剥夺小众群体共享数字红利的权利,固化社会数字分层格局。
从运行逻辑来看,大数据算法普遍遵循“概率优先、多数至上”的运行原则,系统优先抓取数据库中出现频次高、覆盖面广的主流群体数据,以此作为模型训练、服务推送、决策判断的核心依据,而小众群体碎片化、低频次、差异化的小众数据,会被判定为无效数据或冗余数据,遭到自动过滤与舍弃,学界将这一现象定义为“数据遮蔽”。数据遮蔽的长期存在,使得小众群体逐步丧失数据话语权,形成“无数据—无服务—无反馈”的恶性循环,最终沦为数字时代的“隐形群体”。
2.受困小众群体主要类型
本文所指的小众群体,并非单一圈层概念,而是泛指在数字生态中,因生理特征、地域条件、经济水平、兴趣圈层、职业属性等因素,需求区别于社会主流群体,且数据样本覆盖率极低的各类群体,主要分为三大类别。其一,生理与年龄层面的弱势群体,包括老年群体、残障人士、慢性病特殊病患等,这类群体受生理条件限制,数字化行为模式特殊,难以适配通用型数字产品;其二,地域与经济层面的弱势圈层,涵盖偏远乡村居民、欠发达地区低收入人群,该类群体数字行为频次低、数据档案不完善,难以被全国性数字平台覆盖;其三,社会圈层层面的小众群体,包含小众文化爱好者、小众特殊从业者、小众语言使用者等,其个性化、差异化需求无法被通用大数据模型捕捉与满足。
二、小众群体数据边缘化的具象化表现
1.个性化需求被集体忽视
当前主流互联网平台、公共数字服务系统均以大众共性需求为研发导向,产品功能、服务模式围绕主流用户数据设计,并未兼顾小众群体的差异化诉求。在日常生活场景中,这类问题随处可见:短视频、资讯平台算法固化内容推送逻辑,小众文化、冷门兴趣相关内容数据库储量极低,小众爱好者长期面临内容获取困难、圈层交流渠道匮乏的问题;公共政务、医疗服务平台功能设计同质化严重,未适配残障人士无障碍操作、老年人简易操作、特殊病患专项问诊等小众需求,部分特殊群体无法独立完成线上办事、线上就医;电商平台商品推荐体系偏向大众化,小众尺码、小众材质、冷门刚需商品曝光度极低,小众消费者需耗费大量时间筛选商品,数字服务便捷性优势完全失效。
除此之外,在金融服务领域,边缘化问题更为突出。偏远地区居民、自由职业者等小众群体,缺乏完整规范的数字化行为数据与征信数据,金融平台无法通过算法完成资质审核,导致其无法享受线上信贷、投资理财、普惠金融等基础服务,直接被排斥在数字化金融体系之外,进一步拉大区域、群体间的资源差距。
2.资源分配出现结构性倾斜
算法本身具备中立技术属性,但算法训练数据、设计规则均由人类制定,且依托主流群体数据搭建模型,天然携带隐性偏见,这种偏见会通过自动化决策机制放大,造成资源分配不公。在公共资源分配层面,地方政府依托大数据平台开展民生资源调配、基础设施规划、公共服务点位布局时,往往依据区域用户活跃度、数据检索频次等数据制定方案,人口基数小、数据活跃度低的小众聚居区域,极易被判定为“低需求区域”,进而错失医疗站点、物流网点、便民服务站等公共资源倾斜机会。
在商业资源分配层面,“大数据杀熟”、资源分配倾斜问题常态化。外卖、出行、配送等平台的算法派单、定价机制,优先适配主流消费区域与主流用户,小众偏远区域不仅配送费用更高、配送时效更长,甚至直接无服务商接单;同时,部分平台依据用户数字化画像差异化定价,小众圈层用户、低频数字化用户常面临更高的服务定价,承受不合理的数字成本,形成“少数群体承担更高成本,却享受更低质量服务”的畸形格局。
3.群体话语权持续弱化
数据话语权是数字时代公民话语权的重要组成部分,数据样本的占比大小,直接决定群体诉求能否被平台与决策层重视。小众群体因数据体量小、分散性强,难以形成规模化的数据反馈信号,其权益受损、服务缺位等问题无法被大数据系统捕捉,既不能倒逼平台优化产品服务,也无法为公共政策调整提供数据支撑。相较于主流群体,小众群体既无专属的数据反馈渠道,也缺乏规模化的发声载体,在数字规则制定、算法模型优化、公共数字政策出台等环节完全处于被动地位。长此以往,小众群体的差异化诉求逐渐被社会忽视,数字权益保障陷入无人监管、无人回应的空白地带。
三、小众群体数据边缘化的深层成因
1.数据采集机制失衡,小众数据收录存在盲区
数据采集的偏向性是小众群体边缘化的首要诱因。从采集主体来看,主导大数据体系建设的互联网商业平台、政务数据部门,均以效益最大化为核心目标。商业平台为降低运营成本、提升盈利效率,会主动放弃采集投入成本高、受众基数小、变现能力弱的小众数据;政务数据采集多聚焦普遍性民生需求,尚未建立小众群体专项数据采集机制,数据覆盖存在天然盲区。从采集对象来看,部分小众群体自身存在数字化短板,老年群体、低学历群体数字化操作能力不足,偏远地区群体网络覆盖不完善,导致其基础行为数据无法被系统常态化收录,数据库内样本结构严重失衡,主流数据占比过高,小众数据长期处于稀缺状态。
2.算法运行逻辑固化,马太效应持续加剧
算法筛选与训练机制的固有缺陷,进一步固化数据不平等格局。现阶段绝大多数智能算法采用统计概率模型,以数据出现频次、用户覆盖规模作为权重分配依据,赋予主流数据更高优先级,小众低频数据权重被持续压低,直接被过滤出分析体系。同时,算法模型迭代遵循“迎合多数”的优化逻辑,平台根据主流用户反馈优化算法、更新产品功能,小众群体的负面体验与差异化需求因缺乏数据反馈,无法参与算法迭代进程。这种运行模式催生显著的马太效应:主流群体数据体量不断扩大,服务适配度持续提升;小众群体数据愈发稀缺,适配服务持续萎缩,两极分化态势日益明显。
3.市场逐利属性主导,普惠动力严重不足
市场化运作模式下,数字平台的逐利本质与小众群体普惠服务之间存在天然矛盾。对于互联网企业而言,适配小众群体需求需要投入专项研发成本、搭建专属数据模块、优化算法筛选规则,但小众群体受众基数小、商业变现能力弱,投入与收益不成正比,企业缺乏主动优化小众服务、采集小众数据的内生动力。反观大众化服务赛道,投入成本低、受众覆盖面广、盈利空间充足,资本资源持续向主流市场倾斜,进一步挤压小众数字服务的生存空间。而目前相关行业规范尚未对企业小众服务适配义务作出强制性规定,仅依靠企业社会责任自觉,难以实现小众数字服务的全面普及。
4.制度体系建设滞后,数字公平监管缺位
配套制度与监管体系不完善,是数据边缘化问题长期难以解决的根本原因。一方面,我国现行数字治理相关法律法规,多聚焦数据安全、个人隐私保护、算法反垄断等宏观层面,尚未针对数据边缘化、算法隐性偏见、小众群体数字权益出台专项规制条款,算法筛选标准、数据采集范围缺乏统一规范,监管部门无明确执法依据;另一方面,数字公平监管机制存在短板,当前监管重心集中于显性数字侵权行为,对于潜藏在算法黑箱内的数据遮蔽、隐性歧视问题,缺乏专业化的审核、检测与追责机制,隐性侵权行为难以被识别与惩处。同时,小众群体数字权益救济渠道不完善,权益受损后无专属维权路径,维权成本高、维权难度大。
四、数据边缘化引发的数字公平危机与社会风险
1.表层危机:数字机会公平失衡
机会公平是数字公平的基础,其核心要义是保障所有社会成员平等接入、平等使用数字资源,共享数字发展红利。数据边缘化直接打破这一底层公平逻辑,使得小众群体在就业、教育、医疗、金融等核心领域丧失平等参与机会。就业层面,智能招聘算法依托数字化简历、线上行为数据筛选候选人,小众职业从业者、偏远地区无完善数据档案的求职者,极易被算法直接淘汰;教育层面,线上优质教育资源推送偏向主流学生群体,特殊教育学生、偏远地区小众生源难以获取适配的个性化教学资源;医疗层面,智能问诊、线上诊疗系统无法适配特殊病患需求,部分小众病症相关数据缺失,延误病患诊疗时机。数字机会的不平等,进一步加剧阶层固化,让小众群体失去依托数字技术实现自我提升、突破发展瓶颈的机会。
2.中层危机:数字分配公平失序
数据已成为新型生产要素,数据资源的分配直接决定数字红利的分配格局。当前数据资源分配呈现明显的“强者愈强、弱者愈弱”特征:主流群体凭借充足的数据体量,享受优质、低价、多元化的数字服务,持续获取数字红利;小众群体因数据缺失,不仅无法享受普惠性数字服务,还需承担更高的数字使用成本,形成反向分配不公。这种分配失衡不仅存在于个体层面,还延伸至区域、行业层面,欠发达小众聚居区域与发达地区、小众行业与主流行业之间的数字资源差距持续拉大,制约区域协同发展与行业多元化发展,违背数字普惠的发展初衷。
3.深层危机:社会多元性遭到消解
从社会文化层面来看,数据边缘化本质是社会多元性被单一化算法消解的过程。大数据与算法技术本应适配社会多元化发展需求,包容不同群体的差异化诉求,但“多数至上”的运行逻辑,使得数字生态逐渐向单一化、同质化方向发展。小众文化、小众需求、小众圈层因缺乏数据支撑,逐渐被主流数字生态淘汰,小众文化传播渠道萎缩、小众业态生存空间被挤压。长此以往,数字社会将丧失多元化发展活力,形成同质化的数字生态,同时小众群体的身份认同与社会归属感持续弱化,极易滋生负面情绪,加剧群体矛盾,给社会稳定埋下潜在隐患。
五、破解小众群体数据边缘化,重构数字公平生态
1.完善数据采集体系,补齐小众数据短板
补齐小众数据短板是破解边缘化问题的基础。政府应牵头搭建多元化的数据采集机制,统筹政务部门、互联网平台、社会组织三方力量,扩大数据采集覆盖面。政务部门针对老年人、残障人士、偏远地区居民等群体,开展专项数据普查,完善小众群体基础信息数据库;出台专项扶持政策,引导互联网平台降低小众数据采集成本,鼓励企业主动收录小众圈层、小众业态相关数据;联动公益组织、小众圈层社群,搭建小众数据反馈专线,畅通小众群体诉求收集渠道。同时,优化数据采集结构,打破单一以数据频次为核心的收录标准,兼顾数据覆盖面与差异化,实现主流数据与小众数据协同收录、同步更新。此外,需同步完善隐私保护机制,明确小众数据采集边界,严防数据泄露、滥用问题,平衡数据普惠与隐私安全。
2.优化算法运行规则,消解隐性算法偏见
针对算法固有缺陷,需从规则设计、模型迭代、算法审核三个维度,破除数据遮蔽与隐性歧视。其一,优化算法权重分配机制,改变单一频次导向的筛选逻辑,在算法模型中增设小众需求适配模块,提高小众低频数据权重,保障小众内容、小众服务能够正常曝光推送;其二,推行多元化算法训练模式,丰富算法训练数据集,将小众群体专项数据纳入模型训练体系,提升算法对差异化需求的识别能力;其三,建立算法公平审核制度,组建专业化第三方审核机构,对公共服务、大型商业平台的算法模型进行常态化检测,重点排查针对小众群体的隐性歧视问题,强制要求平台整改不合理算法规则,从技术层面保障数字公平。
3.强化政府宏观调控,平衡市场逐利与普惠关系
政府需发挥监管与引导双重职能,弥补市场调节短板。在监管层面,出台行业强制性规范,明确大型数字平台的普惠义务,要求平台在产品研发、功能设计、资源分配环节,预留适配小众群体的专属模块,将小众服务适配度纳入平台行业考核标准;加大违规惩处力度,对刻意忽视小众群体权益、利用算法实施隐性歧视的平台,依法进行处罚并公示整改结果。在引导层面,设立数字普惠专项补贴资金,对主动适配小众需求、完善小众数据服务的企业给予资金扶持、税收减免,降低企业运营成本;搭建供需对接平台,联动小众社群与数字企业,精准传递小众群体需求,破解供需信息不对称难题,激发企业参与小众数字服务建设的内生动力。
4.健全法治保障体系,筑牢数字公平底线
完善法治化治理体系,为小众群体数字权益保驾护航。一方面,加快补齐法律短板,修订《数据安全法》《个人信息保护法》等相关法律法规,新增数据边缘化、算法隐性歧视相关规制条款,明确小众群体数字公平权的法律属性,界定政府、平台、社会组织三方主体的权责边界;针对老年群体、残障人士等弱势群体,完善数字产品适老化、无障碍改造相关法制规范,强制落实无障碍数字建设要求。另一方面,完善权益救济机制,搭建线上线下一体化的小众数字权益维权平台,简化维权流程,降低维权门槛;建立公益诉讼制度,支持社会组织、公益机构针对侵害小众群体数字权益的行为提起公益诉讼,全方位保障小众群体合法数字权益。
5.提升小众数字素养,激活群体自主话语权
外部治理赋能之外,还需提升小众群体自身数字能力,激活其自主发声与维权意识。地方政府联合社区、公益组织,面向老年群体、偏远地区居民开展免费数字技能培训,普及基础数字化操作、数字权益保护相关知识,缩小数字素养差距;依托社群、新媒体平台,向小众圈层群体普及数据反馈渠道、维权路径,引导群体主动反馈服务痛点、表达个性化诉求,以规模化诉求倒逼平台优化服务。同时,鼓励小众群体组建专属社群组织,整合分散诉求,提升群体整体话语权,从被动接受数字服务,转变为主动参与数字生态建设,实现多方协同共治。
六、结语
大数据时代的数字公平,从来不是少数主流群体的专属福利,而是全体社会成员平等享有的基本权利。小众群体数据边缘化问题,看似是数据收录、算法适配的技术问题,实则关乎社会公平、多元发展与社会稳定的深层社会问题。技术本身无优劣之分,技术的价值最终取决于发展导向,大数据技术不应成为加剧社会分层、消解多元生态的工具,而应成为普惠全员、赋能全民的发展载体。破解小众群体数据边缘化困境,需要政府、平台、社会、小众群体多方协同发力,从数据采集、算法优化、市场调控、法治保障、素养培育多维度同步发力,破除数据遮蔽与算法偏见,平衡商业利益与公共普惠的关系。唯有让大数据技术兼顾多数需求与小众诉求,包容主流群体与小众群体,才能构建人人平等、人人共享、人人参与的普惠型数字生态,真正实现数字时代全方位、深层次的数字公平,夯实数字中国建设的公平基石。