一、大数据与税收大数据
(一)大数据
大数据从获取数据、储存数据和分析数据三个方面打破了传统数据的应用限制,极大地扩宽了数据的应用范围,也提高了数据的使用效率。大数据的特点可以被概括为“4V”:海量性(Volume)、高速性(Velocity)、多样性(Variety)和价值性(Value)。其中,海量性是指随着不断产生和获取数据,数据的规模将不断变大;高速性是指在商业应用中对数据的收集和分析应具备及时性;多样性是指数据类型的丰富程度,既包括传统的结构化数据,也包括半结构化数据及非结构化数据;价值性是指隐藏于庞杂数据下的价值。近些年,大数据技术的普及离不开协同技术的支持,这些技术主要包括:第一,云计算技术,基于云计算的分布式储存技术使得储存数据更加高效,并行计算将大大提高获取和分析大数据的效率;第二,物联网,物联网下种类丰富的终端能产生大量的数据,并且由物联网生成的数据类型通常是半结构化或非结构化数据;第三,数据中心,数据中心通过构造高速联通的内部网络,能够提供可靠的数据备份;第四,分布式计算,分布式计算依靠分布式文件系统,能够为运行大数据提供系统支持。
(二)税收大数据
1.税收大数据的定义与特点。一般可以认为,税收大数据是指在税收征管过程中形成的一类大数据集,包含结构化数据和非结构化数据。税收大数据能充分发挥大数据获取数据及时、储存容量庞大以及分析数据迅速等技术优势。相比于传统的税收统计数据和税收调查数据,我国税收大数据的特点表现在三个层面:第一,在数据特征层面,数据的获取技术具备更强的及时性,数据的获取手段更加多样化,数据的结构化程度大大下降;第二,在数据来源层面,国内税收大数据的来源以申报系统数据和其他征管系统数据为主,具备覆盖税种齐全、动态性强以及跨平台交互信息等特点;第三,在数据应用层面,将机器学习、云计算以及数据挖掘等技术综合应用于税收征管和经济分析等领域是目前的主流趋势。
2.税收大数据的构成与规模。通常而言,税收大数据包括可以用于税收征管和经济分析的全部数据。具体而言,税收大数据主要由六类数据信息组成:第一类,纳税人申报数据;第二类,申报数据以外的其他征管系统数据;第三类,纳税人的基本信息和其他涉税信息;第四类,纳税人的生产和经营信息(如发票等);第五类,税收统计数据和税收调查数据;第六类,其他非结构化数据(如PDF格式的公文等)。
税收大数据具备容量大、种类多的特点,又由于已开发的税收大数据是整体数据的冰山一角,我们很难准确地估算出税收大数据的整体容量。不过,以申报系统数据为例,可估算出每年通过申报系统生产出的数据规模。对税收大数据覆盖的7000万户企业纳税人展开估算,假设平均每户纳税人申报5类税种、平均每类税种需填写5张申报表、各税种平均每年申报8次并且每张申报表平均以100KB的大小存储,可以保守估算出每年仅从申报系统新增的税收大数据容量接近1400TB,税收大数据的容量在政务系统数据中排名领先。
3.税收大数据的创新优势。传统的税收分析方法已经不能完全满足当前税收分析工作中的实际需要。首先,传统的税收分析对数据的使用效率偏低,部分税收分析人员未能合理使用数据信息,更不能挖掘数据的深度价值;其次,职能部门之间以及数据库系统之间的信息联通较差,协同分析效率较低,反馈的问题也较为滞后。税收大数据能充分发挥大数据的技术优势,弥补传统税收分析方法的部分不足。参考Einav等(2014)将经济分析在大数据时代的创新概括为三类,我们从数据特征层面、数据来源层面以及分析方法层面展开讨论税收大数据的创新优势。
(1)数据特征层面。相比于以往的观测数据,在大数据时代应用于经济分析的数据具备以下新的特征。第一,数据的获取技术具备更强的及时性。以税务年鉴数据为例的政府统计数据会更重视数据的精细度和准确度,其发布日期会存在一定时间的滞后,然而征管部门的税收大数据是持续更新的,从而能够更有针对性地指导经济政策的落实。第二,数据的获取手段更加多样化。在移动互联网和云计算技术日益发展的今天,地理定位信息、网络搜索信息、个人消费信息以及企业采购信息等数据都可以在大数据时代更易于获取和储存。这些信息能够更全面地刻画纳税人的综合纳税水平,从而协助税务机关全方位、立体化地识别纳税人的不遵从行为。第三,在大数据时代获取的税收数据,它的结构化程度较以往明显下降,因此税收大数据具备更低的结构化水平和更丰富的分析维度,税务机关和科研单位可以充分利用非结构化的数据,综合分析纳税人一系列的历史信息。
(2)数据来源层面。Einav等(2014)把用于经济分析的大数据来源拓展为公共部门和私人部门,但结合我国税收大数据的发展现状,国内税收大数据的来源仍以税务机关的征管数据为主。在税收理论与政策的研究领域,国外已经有大量文献采用征管数据开展研究。征管数据适用于全样本分析,这相比于传统的调查数据,能够有效避免后者可能存在的样本容量较低、高收入群体瞒报收入以及时间覆盖范围较短等问题。此外,相比于传统的调查数据,征管数据能够较大程度地避免调查数据中存在的数据遗漏、样本有偏差等问题。
(3)分析方法层面。聚束分析法(bunching)作为近十年应用税务部门征管数据取得创新性进展的研究方法之一,能够从更好地解决内生性问题的角度,分析劳动者福利变化等经济问题。Chetty等(2011)应用1994年至2001年丹麦税务部门的征管数据分析了劳动者在超额累进税制下调整劳动供给的行为;Kleven等(2013)应用2006年至2009年巴基斯坦税务部门的征管数据分析了劳动者在全额累进税制下调整劳动供给的行为。此外,在大数据时代,将机器学习和数据挖掘等技术手段应用于税收大数据,也将不断拓宽税收大数据的分析视角。例如,应用回归树的方法编制合成指数、应用数据挖掘的方法识别高逃税风险纳税人以及应用关联规则算法为纳税人“画像”等。
二、税收大数据的应用
当前,税收大数据能够应用于多个领域。在发挥传统税收数据优势的基础上,税收大数据能够充分发挥覆盖税种齐全、动态性强的特点,借助机器学习和数据挖掘等协同技术,应用于编制经济景气指数、促进纳税遵从以及优化纳税服务等领域。今后,联合银行征信系统构建的企业信息联网核查系统将为税收大数据提供更多维度的应用方向。
(一)税收大数据与编制经济景气指数
应用税收大数据开展分析和研究,能够自下而上地反映经济发展水平。测度经济发展水平可采用编制经济景气指数的方法。经济景气指数能够有效用于分析经济波动并预测经济发展趋势。编制经济景气指数有两项关键步骤:第一,选取适宜的经济指标;第二,编制合成指数。根据选取经济指标种类的不同,合成指数可分为同步合成指数、先行合成指数和滞后合成指数。同步合成指数可以反映当前经济景气变动的总体状况,先行合成指数可以对未来经济景气动向进行预测,滞后合成指数可以佐证先行合成指数所预测动向的准确度。
由于数据种类有限以及计算方法相对滞后,传统的经济景气指数已不能充分反映经济发展的真实状况。针对这些问题,税收大数据可充分发挥覆盖税种齐全、动态性强的优势,在大数据集中找到更加准确、灵敏的同步指标和先行指标(如将增值税作为同步指标之一,将进口货物增值税作为先行指标之一),进一步地采用机器学习的方法编制合成指数。基于税收大数据编制的经济景气指数能够满足上述两项关键步骤的技术要求,其在一定程度上能更精准地反映经济发展的真实状况。基于税收大数据编制的经济景气指数较传统的经济景气指数,其进步性主要表现在两个方面。第一,在计算方法层面,应用机器学习的方法研究经济问题已经成为一种趋势,如机器学习中的岭回归方法(ridgeregression)和LASSO法等。在编制经济景气指数的过程中,回归树善于处理数据集中的非线性关系,也善于在数据集中找到最重要的特征,因此可以应用回归树的方法编制合成指数。第二,在数据特征层面,以增值税发票数据为例,通过发票数据的进项情况和销项情况能更好地反映微观企业的经营水平以及产业链条的通畅程度,从而找到更灵敏的同步指标和先行指标。应用机器学习的方法编制经济景气指数需要尽可能多的数据容量,而税收大数据能够在数据容量方面保证经济景气指数的精准度与灵敏度。
(二)税收大数据与促进纳税遵从
促进纳税遵从的途径有很多,如完善现行税制、加大稽查力度等。当前,税收征管改革的重点方向之一是从“以票管税”转向“以数治税”,应用税收大数据能通过精准评估逃税风险进一步促进遵从行为。我国税务机关在长期的税源治理和税收征管过程中,为减少税收流失做出了突出的贡献。由于税务机关的稽查资源有限,以往税务机关主要以抽查的方式检查逃税行为,使得部分纳税人存在逃税的侥幸心理。在大数据时代,税务机关基于税收大数据采用数据挖掘的方法,能够实现深度挖掘纳税人的涉税信息,评估潜在逃税风险,并对高逃税风险的纳税人重点监测,促进纳税遵从。
应用税收大数据促进纳税遵从的优势在于借助机器学习和数据挖掘的方法在纳税人逃税事前刻画涉税风险特征,根据纳税人的历史涉税信息,测算纳税人的涉税风险概率,评估风险等级,进而重点监督高逃税风险纳税人。应用税收大数据促进纳税遵从的核心是评估纳税人涉税风险,包括三项关键步骤。第一,确定风险疑点纳税人。税务机关基于多类风险识别模型找到对应的风险疑点纳税人,构建风险疑点纳税人数据库,提取风险疑点纳税人的特征。第二,动态调整风险识别模型,获取风险指标。随着数据仓库中不断补充和更新风险疑点纳税人,税务机关及第三方企业会动态地修正风险识别模型的阈值及指标参数,实现在闭环内动态调整风险识别模型,逐步得到种类丰富且灵敏的风险指标。第三,建立随机模型,重点监督高逃税风险纳税人。将多种风险指标投入指标池,不同的风险监控模型从指标池中自动选择关键指标并评估全体纳税人,最终实现对高逃税风险的纳税人重点监督,进而促进纳税遵从。
(三)税收大数据与优化纳税服务
纳税服务有很多种方式,例如开通服务热线开展纳税咨询辅导、在办税服务大厅协助纳税人申报纳税等。在大数据数时代,应用税收大数据的纳税服务更有可能实现“精细服务”,进一步优化纳税服务的质量。基于税收大数据优化纳税服务主要是通过为纳税人“画像”实现。为纳税人“画像”具象化了纳税人的特征,从而促进了税务部门纳税服务水平的专业化和差异化(王晓东等,2017)。相比于以往通过在办税服务大厅发放问卷或上门走访等方式的纳税服务,税务机关应用“画像”技术的优势可以概括为:从需求侧发现问题,在供给侧解决问题。根据纳税人真实申报的数据,并针对纳税人的涉税信息和经营信息,精准且迅速地分析纳税人的纳税服务需求,从供给侧优化服务水平,促进办税缴费便民利民。
通过“画像”技术,税务机关基于税收大数据优化纳税服务,提升了纳税服务的智能化程度和精细化程度。第一,税务机关能够预先判断企业的经营处境,监测企业产业链的畅通水平,提前向有潜在需求的纳税人提供更加便利化的纳税服务,以提高纳税服务的智能化程度。第二,税务机关能够精准筛选出在纳税申报时未能充分享受优惠政策的纳税人,通过定向推送税收优惠政策、及时提醒纳税人申报等方式,完善纳税服务的精细化程度。“画像”技术的重点和难点是税务机关如何借助税收大数据精准识别纳税人的特征,进而实现精准服务。参考应用大数据为企业“画像”的现有技术,我们提出一种探索性方法:参考第三方评估报告,分析企业最新的财务状况,采用词频分析等文本分析的方法为目标企业贴标签,再结合企业的登记信息,有针对性地向企业推送最新的税收政策及指导建议。目前,国内的税收大数据主要由税务机关掌握。随着数据隐私保护技术的发展,税务机关可通过与第三方企业强化合作,有效提升“画像”技术的效率并优化纳税服务的水平。
此外,还有两类拓宽应用税收大数据的方向,且二者之间可相互配合、并行发展。第一类,优化现行税收征管系统,深度挖掘现有数据库的潜在信息。现行税收征管系统存在数据关联性不强、完整性不足的问题,尤其是原国税、地税数据库之间的大部分信息仍相互独立。如能实现将原国税、地税数据库合并,将为税收分析特别是国内税制的经验分析提供强有力的支撑。与此同时,还应充分发挥增值税征收环节环环相扣的特点,搭建发票大数据平台。第二类,构建新型的信息交互平台,从多维度搭建税收大数据网络。以构建企业信息联网核查系统为例,企业信息联网核查系统搭建了各部委、人民银行以及其他参与机构之间信息共享和核查的通道,实现企业相关人员手机号码、企业纳税状态以及企业登记注册信息核查的三大功能。相较于以往仅在税务系统核查纳税人的遵从行为,联接银行、电信、交通运输及市场监管等多部门的信息交互平台,能够起到从多方位监管和约束纳税人依法纳税的作用,以实现多维度开发和应用大数据。