网易首页 > 网易号 > 正文 申请入驻

浅析大数据审计采集技术体系的构成及其应用

0
分享至

在大数据审计采集、预处理、分析和可视化等流程中,大数据审计采集是首要环节,只有将数据进行集中收集,并积累到一定数量,才能由量变引发质变,进而找到不同领域、不同行业、不同层级数据之间的关系,这也直接决定了大数据审计在后续阶段所能提供的价值。针对大数据来源的不同,本文将大数据审计采集技术体系的构成分为四类,即数据库采集技术、系统日志采集技术、感知设备采集技术以及网络数据采集技术,并在各采集技术中引入实务应用,以期加速推进大数据审计采集技术体系的智能化建设与高质量发展。

数据库采集技术的分析

传统的审计业务往往会应用关系型数据库,如Oracle、MySQL、Microsoft Access和DB2等数据管理系统,以此来存储被审计单位的各项数据。近年来,审计主体通常会使用NoSQL、HBase、MongoDB等数据库采集、存储被审计单位的数据,并应用高端采集技术,如ODBC技术、审计接口技术等,以此来连接审计主体和被审计单位的数据库,完成大数据审计的采集工作。

(一)ODBC技术的应用

ODBC技术是通用的审计大数据采集方法之一,其主要涵盖应用程序、驱动程序管理器、驱动程序和数据源。应用程序层通过采用ODBC接口,可以实现与数据源的连接和会话,并向数据源发送结构化查询语言(SQL)请求,再对结果定义数据格式。驱动程序管理器主要是为了装入驱动程序,以便于进行ODBC的初始化、提供参数以及次序验证等操作步骤。驱动程序是一种动态链接库,可以达到使数据源和ODBC函数交互的目的,在用户有需求时,转换相应的格式,并将结果返还给应用程序,发现运行错误的格式,也会以标准代码的形式进行返回。数据源则是由审计主体在数据库中存储的数据、数据库管理系统、网络环境以及相关的操作系统所组成。

ODBC技术目前被广泛应用于计算机辅助审计业务中,作为连接审计主体和被审计单位数据库的公共接口。审计人员借助ODBC技术可以轻松访问被审计单位的审计信息系统,并根据用户的不同数据需求,启动相应的驱动程序,配置对应的参数,将不同的数据格式转换成审计所需的格式。ODBC技术的优点有很多。首先,由于代码开源,依靠分层机构来运行,所以ODBC有很高的标准性与开放性,程序集成就变得十分轻松;其次,可以实现不同的数据库管理系统由相同代码运行,使得用户程序具备很高的互操作性,C/S架构也因此得到了相应的技术支持,开发与运营维护成本大大降低。计算机辅助审计也是一种基于审计大数据采集业务的审计方式,相当于将被审计单位的各类数据进行数据迁移,并经过预处理等步骤,把数据转换成对应格式,存储于审计主体的数据库,最后应用分析程序对采集到的审计大数据进行数据分析。持续审计是计算机辅助审计未来的一个重要发展方向,其中,数据库采集技术为审计人员采集数据提供了诸多便利。

(二)审计接口技术的应用

针对审计接口技术应用的业务不同,可以划分为通用审计接口与专用审计接口。通用审计接口有三种实现方式。第一,审计主体可以直接连接被审计单位的目标数据库,采集有用的各种数据。第二,审计主体可以通过联网方式远程采集被审计单位的数据。第三,在审计主体采用大型数据库,与被审计单位建立直接接口存在困难时,可以先获取生产转换文件,按照目标的文件格式进行导出,完成大数据审计的采集工作。

近年来,审计接口技术被广泛应用于计算机医保审计中。随着医疗改革的深入与信息技术的进步,医保的覆盖面逐渐扩大,医保的相关数据也随之逐渐朝着异构化、大规模、非数字化和多样化的趋势发展,进而对审计人员采集医保数据提出了更高的要求。医保数据采集是整个医保审计流程的起点,对不同来源和不同结构的审计数据,运用审计接口技术可以实现数据从非数字化转向数字化、从非结构化转向结构化以及从非标准化转向标准化,不断拓展数据的采集范围,并搭配数据清洗、集成等手段,不断提高数据的采集质量,进而形成医保数据存储仓库,满足后续的审计程序对数据方面的需求。

系统日志采集技术的分析

系统日志记录了被审计单位日常系统中关于各种硬件、软件问题的数据,以及对系统运行情况的监控记录,如有关应用程序、系统安全等方面的各种记录。目前日志采集技术被广泛应用于审计业务的很多方面,本部分的系统日志采集技术主要涉及Flume、Scribe、Kafka等技术。

(一)Flume技术的应用

Flume是一种资源收集系统,主要用于收集被审计单位的系统日志等数据资源,在将服务器中的数据收集完成之后,Flume会把这些大数据资源统一集中到相应位置,如分布式文件系统(HDFS)。Flume技术的运行流程分为若干步骤:首先,从云端、脸书、推特等数据生成器中收集各种可用数据,这些数据会被代理(Agent)统一存储到数据收集器中,并需要同审计数据源和数据的接收端进行交互,最后代理(Agent)将汇集到的数据通过多个通道传输到广义存储当中,如Hadoop(由Apache基金会所开发的分布式系统基础架构)、HBase等。

Flume技术目前在大气污染防治审计中应用广泛。大气污染防治综合情况的业务数据。关于大气污染防治审计的Flume采集技术,其应用框架可以分为采集层和汇聚层。在采集层部署代理(Agent),收集被审计单位业务系统的文件日志、数据库日志和其他日志,并对其格式进行转换以及封装这些日志;汇聚层的代理(Agent)会屏蔽掉采集层单个Agent的调整情况,以此起到隔离、缓冲的作用,防止其影响到其他大气数据的采集情况,确保采集的业务数据不会丢失,最后汇总采集层的全部和大气污染防治审计系统相关的监视数据。

(二)Scribe技术的应用

Scribe从被审计单位的日志源中收集各种与审计业务相关的日志,并统一存放到网络文件系统或分布式文件系统中,以便将来审计主体对数据进行处理与分析,此类分布式收集、集中处理的运行方式具备了高容错性、易扩展性的优点。Scribe技术的具体工作流程为:被审计单位的各类日志文件在经过收集之后,进行相应的资源配置,再通过共享队列的方式排队输送,Scribe技术可以将不同种类的审计数据存放到相应的目录,最后再传输给存储系统。如果分布式文件系统(HDFS)出现了问题,这些数据会先存放在本地,等到HDFS正常运行之后,才会被转移至后端的存储对象。Scribe的存储方式有很多,目前主流的方式有:File、Buffer、Null、Bucket、Multi等。

随着信息技术的发展,审计环境也发生了巨大的变化,在这样的背景下,审计主体须借助于计算机科学的迅猛发展,对被审计单位的各项经济业务往来进行审查,才能充分发挥审计的监督作用。近年来,为推进审计信息化建设,计算机辅助审计业务已开始应用Scribe技术进行数据采集。审计主体采用Scribe技术开展审计大数据的采集工作,在实践中也体现出了强大的优势:审计从抽样变为全覆盖,有效降低了审计风险;对海量数据的快速、灵活分析大大提高了审计效率;审计结论以数据说话,说服力更强,改善了审计效果。

(三)Kafka技术的应用

Kafka从属于Java阵营,是一种由Scala编程语言编写的数据采集存储系统,用于信息的实时发布和审计日志的采集与存储。Kafka技术在具备Scribe技术高扩展性与容错性的同时,还拥有高并发性、高吞吐量的特点。在审计数据采集中,Kafka技术的架构被划分为信息发布者、服务代理和信息接收者三层,Kafka的主要工作流程是将信息发布者的各类消息通过服务代理来传播、分类,最后由信息接收者收取信息。

当前的煤矿安全风险监测系统面临着诸多亟需解决的问题。在此背景下,为满足智能化的监管需求,可将Kafka技术应用于煤矿监管审计之中,通过深入研究Kafka的工作原理以及Hadoop大数据平台的搭建,设计出区域煤矿监管数据服务平台。基于Kafka技术搭建的区域煤矿监管数据服务平台,与传统的煤矿监管审计平台相比具有明显的优势:一方面,可以有效规避因平台故障导致的数据丢失风险,同时,还可降低审计监管机构的资源投入成本以及各项维修服务成本,并提供个性化的数据业务服务;另一方面,煤矿监管审计平台结合了云计算等新兴技术,在数据存储以及资源计算等方面表现强劲,能够满足审计大数据存储以及高速计算的要求,为审计主体智能化监管提供海量数据,有益于后续审计中的大数据预处理、数据分析、数据挖掘等工作的开展。

感知设备采集技术的分析

大数据感知设备采集技术主要是借助被审计单位的各种信号、图片、视频等信息,挖掘与审计业务相关的各种数据,且大数据智能感知系统会对结构化和异构化的数据进行识别、感知、适配和传输。本部分的感知设备采集技术主要涉及摄像头监控、数字会议桌面、遥感等技术。

(一)摄像头监控技术的应用

摄像头监控技术,是指审计主体通过安装摄像头的方式,代替审计人员对特殊的场景进行监督与观察,以节省相应的人力资源。通过摄像头监控技术采集到的各类图片、视频数据背后蕴藏的价值是十分巨大的,审计主体应充分关注摄像头监控技术的重要性。采用摄像头监控代替传统的人工观察,可以及时发现被审计单位内部控制存在的问题,发现更多的审计疑点,评价内部控制的执行情况,延展审计取证业务的时间范围与空间范围。

在资源环境审计中,审计人员可以在重点监控区域布控摄像头,并融合3S(遥感、地理信息系统和全球导航卫星系统)、环境实时监测、无人机远程监控等技术与方法,全天候对被审计单位的日常运行情况进行监控。一旦监测到不合理的情况,便可以收集被审计单位的违规与违法数据,最大程度上保证审计数据的真实性与合理性。在计算机系统以及各项硬件的协同运行下,审计主体可以对地球表层以及大气层空间中的各项地理信息数据进行采集、预处理、分析、计算、显示、描述,将对应地理区域内发生的各种自然现象进行分析和处理,把复杂的规划、管理、决策问题化繁为简,这将极大地促进审计模式、审计工作方式的转型升级,并为审计全覆盖的实现提供更为先进、自然的手段与技术。

(二)数字会议桌面技术的应用

数字会议桌面技术是对传统会议模式的创新,该会议系统集音频视频播放、会议签到、会议讨论、会议日程提醒、信息接收与发送、投票表决、资源共享等服务于一体,具备高度数字化、智能化与网络化的特点。数字会议桌面主要应用了图像音频视频处理技术、网络处理技术和会议集中控制技术等。

随着大数据技术的不断发展,未来的数据量必然会呈指数式上涨,数字会议桌面背后隐藏的大量被审计单位日常数据,将来会成为审计工作的重点内容之一。尤其是在财经法纪审计业务中,审计人员使用基于数字会议桌面的智能数据采集技术,可以迅速捕捉有用的审计信息。

(三)遥感技术的应用

遥感技术通过使用探测仪器,在不接触探测目标的情况下,从远处对目标的电磁波特征进行记录,并分析其特征以及变化。当前,遥感技术广泛应用于资源环境审计大数据采集过程中,主要采集被审计单位对水资源、林业资源、矿业资源等的利用情况与生态环境保护情况相关的数据。相较于传统的审计技术与方法,遥感技术具有数据采集范围广,获取数据速度较快、采集周期短,采集手段多样,采集数据量大,不受地形地貌等自然条件的限制等优势。

遥感技术多用于资源环境审计大数据的采集。遥感系统由数据源、数据获取、数据处理三个重要部分组成。数据源是遥感探测的目标物,为遥感探测提供了获取数据的依据;数据获取运用遥感技术装备;数据处理通过运用光学仪器和计算机设备等硬件设施对所获取的遥感数据进行校正、分析和解译处理。运用遥感技术对数据进行校正、分析和解译处理,可以掌握或清除遥感原始数据的误差,从而梳理、归纳出被探测目标物的影像特征。在自然资源资产离任审计中,可将遥感影像作为数据源,获取领导干部任期内自然资源资产的客观时空分布状况,通过持续性监测获取自然资源资产时空变化信息,最终反映实际的自然资源资产时空分布和变化情况。

网络数据采集技术的分析

网络数据采集技术是指审计主体利用人工智能等新兴技术,从网站上获取与被审计单位业务相关的数据资料,将非结构化数据与半结构化数据从网页中提取出来,并存放到提前设置好的存储系统之中。本部分以网络爬虫和自然语言处理为例,阐释二者在审计数据采集过程中的应用。

(一)网络爬虫技术的应用

网络爬虫是一种模拟人点击网页的操作,利用互联网的链接地址来查找相关网页,在读取完该网页的全部信息之后,会自动搜索网页中的各种链接,按照这个原理循环往复地操作,以此实现自动抓取所需网页全部内容的技术。网络爬虫技术被广泛应用于审计数据收集、舆情监测、咨询业务等审计情境。网络爬虫会按照事先设定好的规则,自动采集所有可以访问页面的全量数据,在非人工干预的情形下实现浏览器与服务器的交互操作。与传统的人工数据收集相比,网络爬虫技术具备精准、大范围、高效采集等优势。

近年来,网络爬虫技术被广泛应用于互联网金融审计业务中,在审计大数据的采集环节发挥着重要作用。对于互联网金融企业来说,仅仅依靠被审计单位提供的业务数据和财务数据,很难让审计人员在审计过程中发现企业的违法违规交易、网络非法集资、互联网金融信息安全等问题。传统的审计过程仅仅依靠被审计单位提供的内部数据,已经无法满足大数据审计的需要。商业银行在面对小微企业贷款时,也存在着类似的问题。由于客户的贷款信息由自己报送,因此,信息的真实性、可靠性与完整性需要进一步查验。在大数据背景下,网络爬虫技术作为大数据审计采集环节的前端技术,结合文字识别、语音识别、可视化等大数据技术,能够更为便捷地收集被审计单位的网络外部公开数据,采集来的审计大数据更加真实、完整、可靠,能及时填补审计专项工作的数据缺口,并为之后的大数据审计分析奠定坚实的数据基础。

(二)自然语言处理技术的应用

自然语言处理作为“大智移云”发展的代表性技术,是一种让计算机能够像人类一样,理解与学习自然语言、处理阅读和书写的新兴技术,它可以用来处理与审计相关的文本信息,避免人工检查的知识局限以及漏判、误判等情况的发生。得益于机器学习算法以及深度学习算法的发展,审计人员可利用计算机对搜集来的网络数据进行系统性的分析,从中筛除冗余信息并挖掘关键数据,为后续审计工作流程提供数据。

传统的信息系统审计通常采用访谈、现场观察、文档查看、抽样、穿行测试等方法收集证据,但上述方法需要以审计人员具备充分的经验为基础,并对相关问题进行逐一搜索或者重点排查。在大数据审计的环境下,文本数据的数量大幅增加使得审计人员对信息系统审计线索的发现愈发困难,传统的人工浏览方式难以满足大数据环境下对非结构化数据审计的需求,被审计单位的某些信息系统问题经常被忽略。在这种背景下,运用自然语言处理技术开展信息系统审计至关重要。基于自然语言处理技术的信息系统审计大数据采集原理可概括如下:通过对被审计单位现场调查和访谈之后,采集与被审计单位审计业务相关的信息,如各类财务数据,各项业务数据,运营过程中的各项采购、生产、销售单据等结构化数据,以及与审计活动相关的图片、文本、视频、法律法规、政策、舆情数据等非结构化数据。针对采集到的审计大数据,审计人员可以利用自然语言处理技术实现标签云分析等操作,对非结构化数据进行建模与分析,从审计大数据信息中全面获取审计证据并快速发现异常情况,可以极大地提高审计人员的工作效率与审计质量。

结语

大数据审计采集技术的发展极大地促进了审计人员数据收集的质量与效率,奠定了坚实可靠的审计数据基础,为大数据审计后续环节的开展减负增效。本文建立了以数据库采集技术、系统日志采集技术、感知设备采集技术、网络数据采集技术为中心的大数据审计采集技术体系,并在此基础上,将其分别融入到计算机辅助审计、资源环境审计、互联网金融审计等审计实务中,为大数据审计采集技术的未来发展及应用提供了理论支持和可供参考的实践模式。强化对大数据审计采集技术体系的深层次研究,将有助于发挥数据资源在大数据审计工作中的引擎作用,有利于扎实推进审计全覆盖目标的实现。

文章摘自《中国内部审计》杂志2023年第1期

作者:刘国城 李君 尤建 阙圣贵

单位:南京审计大学会计学院 海安市审计局

编辑:孙哲

目前140000+人已关注我们,您还等什么?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看来美帝是真的准备打地面战争了

看来美帝是真的准备打地面战争了

仰望星空的一粒沙子
2026-04-04 19:18:21
联合国警告特朗普政府:若袭击伊朗民用设施 或构成战争罪

联合国警告特朗普政府:若袭击伊朗民用设施 或构成战争罪

新京报
2026-04-07 20:17:06
张学良得知杨虎城一家被杀细节,不相信是蒋所为,见杨后人极冷漠

张学良得知杨虎城一家被杀细节,不相信是蒋所为,见杨后人极冷漠

大千世界观
2026-04-06 21:40:05
发达了!广西一男子全包家族清明拜祖费用,网友:这就是光宗耀祖

发达了!广西一男子全包家族清明拜祖费用,网友:这就是光宗耀祖

火山詩话
2026-04-07 18:41:53
中国已通知俄罗斯,愿意将俄罗斯公民免签政策延长一年?外交部回应

中国已通知俄罗斯,愿意将俄罗斯公民免签政策延长一年?外交部回应

环球网资讯
2026-04-07 15:25:14
教育部发布“教师二十严禁”!这回,老师不准做的事,全写清楚了

教育部发布“教师二十严禁”!这回,老师不准做的事,全写清楚了

笑熬浆糊111
2026-04-05 00:05:25
浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

阿器谈史
2026-04-02 13:31:44
连烧30小时!百亿航母变废铁?5700人全被扣押,福建舰成全球唯一

连烧30小时!百亿航母变废铁?5700人全被扣押,福建舰成全球唯一

小熊侃史
2026-04-07 10:29:19
突发!北京又一大型商场即将闭店!

突发!北京又一大型商场即将闭店!

大北京早知道
2026-04-07 16:14:42
伊朗首都响起密集爆炸声

伊朗首都响起密集爆炸声

北青网-北京青年报
2026-04-07 16:18:04
4 种最佳抗衰老的运动,平均寿命延长5-10年

4 种最佳抗衰老的运动,平均寿命延长5-10年

增肌减脂
2026-04-07 21:15:04
14分钟两次离谱错判!U20女足进球被吹,对手后卫手球被无视

14分钟两次离谱错判!U20女足进球被吹,对手后卫手球被无视

奥拜尔
2026-04-07 21:25:48
清明节,儿子写烧给母亲的祭文,看哭了14亿中国人!

清明节,儿子写烧给母亲的祭文,看哭了14亿中国人!

每日一首古诗词
2026-04-05 06:07:07
霍尔木兹海峡,大消息!特朗普发声!伊朗回应!黄金、白银、美股,跳水!原油飙涨

霍尔木兹海峡,大消息!特朗普发声!伊朗回应!黄金、白银、美股,跳水!原油飙涨

证券时报e公司
2026-04-07 22:06:55
王楚钦夺得世界杯冠军成全了多少人?樊振东张本智和都得发来贺电

王楚钦夺得世界杯冠军成全了多少人?樊振东张本智和都得发来贺电

罗纳尔说个球
2026-04-06 16:43:41
东北3岁小网红继续做吃播,父母是真不想上班

东北3岁小网红继续做吃播,父母是真不想上班

九方鱼论
2026-04-07 05:02:58
从权倾朝野到满门抄斩,他的九十岁老母都被砍头示众!

从权倾朝野到满门抄斩,他的九十岁老母都被砍头示众!

历史按察使司
2026-04-07 12:41:15
海康威视辟谣“300人被带走”,在伊朗无相关业务

海康威视辟谣“300人被带走”,在伊朗无相关业务

局市
2026-04-07 18:20:19
董宇辉争议言论炸上热搜,人设大反转!

董宇辉争议言论炸上热搜,人设大反转!

陈意小可爱
2026-04-07 18:09:49
日媒:日本一老人在景点与女子发生争执啃咬对方手臂,被捕后短时间内死亡,警方正调查死因

日媒:日本一老人在景点与女子发生争执啃咬对方手臂,被捕后短时间内死亡,警方正调查死因

环球网资讯
2026-04-07 11:12:37
2026-04-07 23:43:00
中国内部审计协会 incentive-icons
中国内部审计协会
服务、管理、宣传、交流。
3205文章数 1046关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普恐吓4小时摧毁伊朗 伊朗称"打穿"海法未见拦截

头条要闻

特朗普恐吓4小时摧毁伊朗 伊朗称"打穿"海法未见拦截

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

艺术
旅游
房产
公开课
军事航空

艺术要闻

美丽风光看不尽

旅游要闻

三天迎客超四万人次,TOP中央公园成清明假期市民“微度假”热门地

房产要闻

重磅!三亚拟出安居房新政!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版