提示消息

网络错误,请稍后重试

学习码

*请注意区分字母大小写

*请输入正确的学习码

激活成功

领取失败

当前位置:中博教育 > CMA > 公告政策 > CMA文本分析在财会工作中的运用

CMA文本分析在财会工作中的运用

文章来源:CMA官方订阅号

发布时间:2021-09-24 15:46

阅读:1504

从收入确认、合同分析、隐私合规到视频记录,会计师都在使用文本分析。

文本分析亦称内容分析,是运用语言学理论,对非结构化(或文本)数据所包含信息的内容、结构和功能进行分析。随着计算机处理能力的快速提升和企业内外非结构化数据的增加,文本分析现已运用于会计和审计领域。通过文本分析,会计师可以识别租赁合同中的关键条款,跟踪客户合同确认收入;审计师可以审查会计分录摘要;投资者可以比较不同公司的管理层讨论与分析(MD&A)。

文本分析之所以在今天尤其重要,是因为非结构化数据在会计领域越来越受重视。非结构化数据不仅包括文档,还包括电子邮件、文本信息、日志与通知、音视频文件、静态图片等。文本分析可帮助会计师与审计师分析非结构化数据,并以之驱动决策,还可为会计师提供定量化数据之外的其他知识,如对人类思维和语言所运用的复杂模型的洞察。

但没有什么是十全十美的,文本分析也存在一些缺点。首先,文本分析颇为耗时,而且使用者需保持谨慎,不要在解读过程中很快得出结论;其次,文本分析的迭代过程有时可能不尽人意,特别是对于新手;最后,还可能存在软件问题。

文本分析核心概念

文本分析是一个涉及多个概念的迭代过程。在开始前,会计师和审计师需要熟悉下列文本分析概念:字数统计、词语索引、词云、词搜索、词树、词搭配、迷雾指数/可读性、情感分析(语气)。下面我们来逐一仔细分析。

字数统计:字数统计是一种统计文档或句子中总字数的方法。会计文件中绝大多数句子的长度介乎20至25个单词(注:此处指英文文件),超过这个长度的句子会降低文件的可读性。更糟糕的是,一些分析师可能会怀疑,某些会计文件的冗长程度意味着公司在试图隐瞒信息。

字数统计也包括对文档中特定词出现频率的统计。例如,如果A公司在其年报中用到“亏损”一词40次而竞争对手B公司只提到15次,人们可能就会怀疑A公司的业绩不如B公司。

词语索引:词语索引与字数统计相关,是一个文档中所有词及其相邻词出现频次的清单。因此,词语索引展示了词出现的背景,使深入分析特定词在文档中的使用方式成为可能。文本分析软件还可以统计文本中的页数、段数和行数,且大多数可统计包括或不包括空格的字符数。

词云:词云是词频的图像化展示。词在源文本中出现得越频繁,在词云中的字体就越大越粗,可用于展示文本最重要的观点或主题。例如,一家生产体育用品的公司可能会使用词云分析顾客对跑鞋的评论,将顾客使用的特定词直观地展示出来,以确定客户最看重什么。

词搜索:因文本分析具有迭代性,其可能涉及多次词搜索。例如,字数统计显示,年报的MD&A部分多次使用“风险”一词。年报使用者接下来可能会搜索该部分所有出现“风险”一词的表述,以探究被讨论的是何种风险。

词树:词树是一系列词的可视化展现,运用分支结构来显示词之间的关系。将文档中最常使用的词比作树干的话,与之相关的词语则可看作树枝,这有助于使用者了解文档中每个词的含义。

词树可以让使用者在无需阅读整个文档的情况下,更好地理解其中词的含义。如图1所示,文档中,主要词语“内部控制”(internal control)前后有多个词或者短语出现。和词云一样,出现在主要词语前后的单词或短语的字体越粗大,其在文档中使用的频率就越高。实际上,词树就是可视化的词语索引。

微信图片_20210924154106.jpg

词搭配:某些词常常在一起出现或互相搭配,例如“财务”和“报表”这两个术语。一些文本分析软件包可在没有使用者干预的情况下识别词搭配。在会计领域,识别如“长期债务”“有价证券”“固定资产”等常见搭配词,有助于理解文本的意思。

迷雾指数/可读性:如字面意思,雾迷指数/可读性这一术语衡量的是理解文本的难易程度,是平均句长和复杂词比重的线性组合,其中复杂词指有两个以上音节的单词。目前可通过Flesch Reading Ease和Flesch-Kincaid Grade Level这两个标准的可读性测试工具来评估阅读难易程度。这两个测试工具使用同样的核心词长度和句子长度标准,但权重因子不同,因此其结果是相反的——在Flesch Reading Ease中得分较高的文本在Flesch-Kincaid Grade Level中得分会比较低。

近期会计研究显示,由于商业文本所使用的很多复杂词——如“或有事项”“偏差”“初步”“可能”和“重新计算”(译者注:这些词在英语中均为两个以上音节)等财务报表常用词——已为投资者和分析人士熟知,迷雾指数已不是衡量财务报表可读性的有效指标。对此,会计学教授Tim Loughran和Bill McDonald提出,对商业文本而言,相较于传统的可读性指标,只使用文本长度或文件大小来评估的效果更好。

情感分析(语气):情感分析关注文档所表达的特定的语气或情感。情感分析有两种,一种关注文档的感情倾向(积极、消极、中性),另一种则关注更具体的情感(不确定性、诉讼偏好程度等)。净情感分析根据语气将文档中的词分为积极词和消极词,然后计算二者数量上的差异,由此判定文本是积极的(积极词多于消极词)、消极的(消极词多于积极词)还是中性的(积极词和消极词一样多)。

情感分析的重点是通过特定词(这些词可视为表达了兴趣情感)列表来检测文本的特定情感。将这些特定词列表输入到用于分析的软件工具中,可识别列表中的词在文本中的出现频次。如果列表中的大量词出现在了会计文档中,就可以依据该列表来判断该报告的情感基调。例如,如果使用表达不确定性的词列表进行文本分析时,发现文档中有大量不确定性用词,那么这份文档的整体基调就是不确定的。分析财务信息时,情感分析通常使用Loughran&McDonald情感词列表来确定文档的总体情感基调。

三大主要驱动方法

文本分析软件有多种驱动方法,其中最常见的三种方法是机器学习、自然语言处理(NLP)和网络分析。

机器学习:机器学习运用人工智能训练计算机来寻找可用于会计的模式。通过机器学习,文本分析软件可以统计字数,使用词树连接常用词、迷雾指数确定文档的基调。机器学习有助于成功进行文本分析并推动会计领域的发展。

自然语言处理:NLP基于机器学习,能够从非结构化数据中提取有效信息,常用于会计文件在不同语言间的翻译。NLP还可用于总结文档,从而方便投资者更快更容易地阅读。

网络分析:网络分析可找出不同类别数据间的联系。在文本分析中,网络分析通过运用词树,可将不同的文本准确地分组到所谓的“注释”中。这些注释包含在图像里,用于展现它们如何基于共同的词产生联系。图2的示例展现了网络分析如何通过简化文本检查来帮助改进文本分析。在会计领域,可基于各个文档的关键词,运用网络分析来连接不同类型的公司报告(10-K报告、10Q报告、年报等)。

微信图片_20210924154112.jpg

在会计和审计中的应用

会计师和审计师已经在一些领域使用文本分析,而且文本分析的应用范围预计在未来几年会显著扩大。以下是文本分析在日常业务与合规工作中运用。

合同分析:毕马威使用其专有的认知合同管理系统(Cognitive Contract Management system)管理客户合同。在合同数据载入系统后,系统会分析合同、识别关键条款,从而节约毕马威的时间和金钱。与之类似,德勤使用一款名为dTrax的专有软件,该软件结合运用人工智能与机器学习来检查和管理一系列合同。这在评估合同定价、服务项目与人员配置等方面为德勤节省了大量时间和成本。(更多内容可参见“文本分析在实践中的应用”)

微信图片_20210924154116.jpg

租赁会计:美国财务会计准则委员会(FASB)《会计准则汇编(ASC)第842号—租赁》,要求许多公司在资产负债表中记录大部分租赁的资产和负债。为避免错报,公司需要确保其已经识别和复核了所有内嵌租赁条款的合同。现在许多公司应用文本分析来处理这些问题。

收入确认:新的收入确认准则——《会计准则汇编第606号—来自客户合同的收入》——要求公司检查与客户订立的合同。许多大公司及其外部审计师运用文本分析识别合同特征,如合同长度、支付条款、风险、期限、未来现金流、支付义务和支付日期。

总账日记账分录:审计师可使用文本分析复核总账日记账,筛选高风险分录。例如,EY Helix在过去12个月里分析了5,800多亿行日记账摘要,这些日记账分录摘要(如会计期间后期的人工分录)可能揭示需要进一步调查的高风险交易。

附注披露:审计师经常通过文本分析检查客户的附注披露。例如,一家大型审计师事务所使用文本分析,按行业识别上市公司财报附注的关键组成部分。该事务所将每位客户的附注披露与其披露数据库中的信息进行比较,寻找可能需要进一步调查的差异。

管理层讨论与分析:MD&A向投资者展示公司历史业绩、未来目标和新设项目等信息。投资者和分析师在评估多家公司时,可使用文本分析来监控和整理这些信息。

社交媒体监控:如今,一个不合时宜的社交媒体负面事件可能对组织声誉造成严重影响,甚至带来财务损失,因此,组织需要持续关注其社交媒体形象。一些组织使用文本分析来监控社交媒体并识别潜在的负面信息。

隐私合规:组织现在要花大量的时间来确保遵守数据隐私法规,如欧盟《通用数据保护条例》和《加州消费者隐私法案》等。在这方面,可运用文本分析识别所有受法规影响需要审查的数据,确保组织遵守了隐私法规。

访谈录像:在新冠疫情期间,审计师们以视频会议代替了面对面询问。一般来说,视频会议访谈的内容比面对面询问更容易记录和转录。审计师可通过文本分析软件来检查这些记录,寻找潜在舞弊迹象,如“注销”或“投资失败”等短语。

文本分析软件

与Tableau和Power BI等广泛使用的图形展示软件不同的是,大多数文本分析软件都是专用的。我们访谈过的组织表示,内部开发的文本分析软件可帮助他们在这个快速发展的领域取得竞争优势。

但这并不意味着你的公司一定要创建自己软件才能从文本分析中获益。以下会介绍两款免费文本分析软件包AntConc和RapidMiner的一些详细信息。

AntConc专门用于分析文本、找出不同的模式。和其他文本分析软件一样,使用者首先要将所有文档转换为文本文件并上传到AntConc软件。使用AntConc面临的一大挑战是,软件不支持加载词列表,而是需要逐个输入单词。例如,我们可以使用Loughran&McDonald情感词列表来比较西尔斯和塔吉特这两家公司2017年年报中与“不确定性”相关的词。以“风险”一词为例,在2017年年报中,西尔斯公司提到了24次,而塔吉特公司仅提到了14次。为了让读者了解相关背景,AntConc还给出了出现“风险”一词的句子(见图3)。

微信图片_20210924154127.jpg

我们也对“不确定性”一词进行了分析。在西尔斯公司年报中,“不确定性”出现了7次,而塔吉特公司年报中只出现了3次。尽管这还需要做进一步的调查,但AntConc的结果显示,西尔斯公司在2017年年报中使用不确定性词的数量要远高于塔吉特公司。这可能意味着西尔斯公司舞弊的可能性更高,因此需要进一步调查。点击免费下载>>>更多CMA学习相关资料

与AntConc相比,RapidMiner更加先进。该软件包括机器学习和预测性分析,且需要以文本分析扩展来进行文本分析,包括使用Loughran&McDonald的不确定性词列表进行不确定性情感分析。

与AntConc不同的是,RapidMiner支持使用者上传词列表。我们使用RapidMiner分析了2017年西尔斯和塔吉特两家公司的会计文件,分析的是第三季度的10-Q报告(见表1)。与塔吉特公司相比,西尔斯公司使用了更多的不确定性词。西尔斯公司报告中使用最多的不确定词是“大约”,出现了74次,而塔吉特公司报告中使用最多的是“相信”,出现了9次。

微信图片_20210924154133.jpg

虽然AntConc和RapidMiner都识别出了西尔斯公司和塔吉特公司的差异,但二者互有长短。AntConc软件更易于使用,且无需使用者下载文本分析扩展,此外,还提供句子预览,这样使用者可以看到每个词在会计文件中是如何使用的。

尽管更难操作,但RapidMiner的搜索范围更加广泛。如前所述,与AntConc一次只能搜索一个词不同,RapidMiner支持使用者加载词列表来进行多个词搜索。不过,这两个软件的分析结果类似。

文本分析意义何在

随着技术的发展,分析非结构化数据会更快、更有效,熟练进行文本分析也将成为会计师和审计师需要掌握的重要技能。非结构化数据量在不断增长,文本分析可使组织收集许多有趣又有用的信息,进而降低风险、提高绩效,并在竞争中保持优势。

简而言之,如果你是一位为高管层提供决策信息的管理会计师或财务专业人士,现在是时候学习文本分析这一增值技术了。

相关阅读:【CMA案例:烟草公司“小单元”经营模式探索

2022年CMA最新资料包领取

请大家认真填写以下信息,获取2025年CMA学习资料包,会以网盘链接的形式给到大家,点击免费领取后请尽快保存。

*姓名不能为空

*手机号错误

获取验证码

*验证码错误

Peggy

Peggy

讲师认证:雅思高级讲师

雅思听力阅读9分,写作7.5分,国家人事部口笔译证书 对外经济贸易大学英语翻译硕士;拥有英语翻译和会计学双重背景,曾供职于北京中译悦尔翻译有限责任公司,担任梅赛德斯奔驰公司宣传期刊的长期翻译。曾供职于国家质检总局国际司,专门从事国家级外事翻译百余场。

免费下载老师推荐的学习资料

免费直播

麦当劳的供应链管理

06-08 19:00-06-08 21:00

观看回放

全面预算管理的实施效应

04-13 19:00-04-13 20:30

观看回放

“生产”中的管理会计在“生活”中的妙用

03-30 19:00-03-30 20:30

观看回放
好好学习,充实自己,为你答疑!
注册有礼
购课咨询
学员服务
免费通话
申领资料
在线咨询
+
中博教育·免费咨询
输入您的手机号,点击“免费通话”,将接到中博咨询老师的电话,请放心接听,该电话完全免费
信息保护中请放心填写

获取2025年学习资料包

了解更多我们的课程,填写信息得学习资料包
姓名
联系电话
联系邮箱
您想获取的资料