文本大数据深度挖掘，你掉了多少坑？

2017-10-29 | 学术研究

当前谈到网络文本大数据处理，一般多提及强大的搜索引擎、精准的自然语言处理、前沿的机器学习、神经网络、人工智能和独家算法等，试图通过这些技术可以实现精确预测、数据整合、对相关关系的探究。然而，大数据并非无所不能，尤其是当前对于网络大数据的理解和应用中，存在不少的误区。

2017年10月29日，澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士在“10th PRAD国际学术论坛·2nd PRSC学术年会暨4th战略传播与公共关系工作坊”的主题工作坊“展望公关研究：理论拓展与方法创新”上进行题为《大数据研究方法：如何进行传播内容的深度文本挖掘》的演讲，介绍了全新的网络大数据研究方法。

张博士指出，当前有观点认为，网络大数据可以做到精确预测。然而，在实际应用中，大数据的算法、语义分析等，距离现实尚有一段距离，水平待有提高，加上歧义和无关数据的干扰，也在影响着数据分析结果的准确度。还有观点认为，当数据量足够大的时候，数据便可以自己说出结论等，这是非常危险的论断。这些误解都忽略了文本数据本身的非结构化特征，以及文本背后的语义和语境的复杂性。

演讲之始，张博士谈及分享目的，明确大数据研究方法的研究对象，是针对传播内容进行深度文本挖掘，主要指传播内容方面的文本数据，即文字，图片，语音，视频等。通过分析当前业界处理文本数据的方式，寻求我们所面临的问题的解决方法，在学术上探究新的研究路径——利用大数据技术来辅助在线内容挖掘与分析。

文本大数据挖掘思想和分析技术

文本大数据挖掘金字塔的基础是符号/信息，也是当前业界处理文本数据的主要方式，集中于收集文本、资料归类及信息可视化方面，通过搜索、电子剪报系统及舆情/品牌监测系统得以实现。除了信息层面之外，可进一步提升内容及结果的挖掘，至社交网络和语义分析层面。最终在学术研究或政策决策等方面得出有意义的洞察，需做出有价值的决策，张博士用文本大数据挖掘金字塔的概念来阐述。

主流的处理大数据的分析技术主要是针对两种数据类型——数字型数据（结构化的数据）和文本型数据（非结构化的数据）。数字型数据的分析技术包括线上分析处理、数据挖掘、统计分析等；文本型数据的分析技术包括文本分析、网络挖掘、网络分析、机器学习和情绪分析（sentiment analysis）等。

当前舆情大数据监测策略

目前舆情大数据监测系统的策略主要有资讯提取，文本摘要和情绪分析三部分。处理网络数据的情况，绝大部分是基于描述性和探索性的单变量分析，包括传播来源（网络数据来自具体的媒体来源，如社交网站、新闻网站、博客、论坛等）、传播量度（网络舆情或口碑的声量，以描绘事件的发展趋势；词云图以字体在图中的大小来表示声量大小或关注点等）、传播内容（网络舆情所涉及的话题、人物、机构、品牌等）、传播特征（以数量来描绘舆情话题的走势、事件发生的路径等，以解释传播过程和特征）、传播力度（点赞量、跟帖量、分享量、阅读量、排行榜等，还有参与度、曝光量、KOL等，以多项参数来综合解释舆情的传播力度）和传播效果（正负面情绪、分类情绪如快乐、悲伤、厌恶、恐惧和愤怒等）。

大数据最显著特征：非结构化

不同于传统调查意义上的小数据，大数据时代的网络数据是非结构化的、开放式的。传统的5W1H中的来源、时效、身份、焦点、原因等，容易在网络文本中被淹没不见。因此，我们需要企图通过某些方法，在分析中找回5W1H。

社会实证研究深度需求

社会实证研究的核心问题是研究变量之间的差异和关系，包括交叉和聚类，相关和因果关系等，这也是研究网络舆情必须回答的问题，然而却是当前机器无法解决的文本数据挖掘的问题，因此要突破基本的描述性和探索性，深入到解释性的程度，是学术研究或商业决策的努力方向。

更进一步，研究需要对系统变量和编码变量进行深度挖掘。这里，系统变量是指网络技术可抓取的非结构化的数据，可以转化成结构化的数据而形成的变量，这部分可由技术层面解决，由程序进行自动转化。目前，市面上的众多舆情分析多数以系统变量为主。我们提出的编码变量，则是指由研究人员自行设定的变量，即根据具体的研究目的、研究问题及需要测量的概念而设计的。要实现对研究结果的描述性和探索性层面的突破，达到解释性的深度要求，就要将两者有效结合，可将系统变量和编码变量进行交叉分析，实现从发现洞察到预测未来的目标。

全新的网络大数据研究方法：大数据技术辅助在线内容分析法（Online Content Analysis）

基于以上论述，张荣显博士提出全新的网络大数据研究方法——大数据技术辅助在线内容分析法，通过将海量数据采集结构化、网络挖掘结合机器学技术、在线内容分析（人工编码、机器编码及机器学习），最终实现挖掘及分析出具有意义或洞察的知识。根据此思路，从一开始的数据采集开始，数据可以是线上数据也可以是线下数据，以期通过Data in来实现Value out，即将文本数据进行系统化、客观性和可量化的分析过程，这也是量化内容分析的三个主要特征。

通过大数据技术的辅助，可实现对传播来源、传播力度、传播特征、传播内容、传播量度和情绪分析的快速挖掘，然而，针对隐性语义、多尺度、多变量这些方面则需要通过人工编码来实现，将两者有效结合即可解决现实的实务问题，也可以解决在学术论文方面的需求。

在线的内容分析法，是基于传统的内容分析法，结合机器学习和网络挖掘技术等，在抽样、编码、前测、信度、质量监控、数据分析和可视化各个阶段均实现了优化，并可在线实时操作。解决了传统内容分析法在质量监控方面的空缺，可实时监控编码时间、速度、绩效等。同时，通常困扰研究人员的编码员之间的信度测试，也可以通过在线的方式，利用算法，快速便捷地实现。

博易数据在第十届PRAD国际学术论坛•第二届PRSC国际学术年会上发表的学术论文《网络舆情下的危机公关研究：以港澳地区食品安全问题为例》(☜点击下载论文全文)，就是运用大数据技术辅助在线内容分析法，在DiVoMiner数据平台上执行整个研究流程，包括设定数据来源、设定概念筛选数据、编码库管理、设置类目、前测以计算编码员之间信度、正式编码、质量控制、结果分析及可视化呈现等环节。

最后，博易数据资深研究顾问曹文鸳老师，现场演示了云计算平台DiVoMiner，它是如何通过在线自动化内容分析法、网络挖掘、机器学习、情绪分析等网络大数据技术的辅助，结合人工智慧的研究设计及分析，可深度挖掘来自新闻媒体、社交媒体及记录文本的大数据（包括文字、图片或视频）。

DiVoMiner数据挖掘平台具有灵活开放的操作系统，对研究人员来说，可充分利用平台数据或自有数据扩充数据库，建立专属数据库。可充分发挥研究设计、类目建构、内容编码及数据分析的能力，同时，所有数据及结果均可追踪查证，达到科学透明的学术要求！

欢迎合作交流！

我们正陆续为高校及研究单位

提供搭建网络大数据研究及教学平台服务。

← 上一条下一条 →

博易代表应邀出席两大重要传播学会议并发表主旨演讲

2020-11-03 | 博易动态

近日，博易代表应邀出席两大重要传播学会议——亚太传播论坛2020和第五届中国公共关系学术年会，并分别在会上发表主旨演讲。亚太传播论坛嘉宾与各校师生合照第五届中国公共关系学术年会与会专家学者合照亚太传播论坛2020暨亚太传播论坛联盟成立大会于2020年10月24-25日在珠海横琴·澳门青年创业谷及澳门大学澳门研究中心举行，此会议由亚太传播交流协会(APCEA)主办，是新冠肺炎疫情以来澳门主办最重要的国际传播会议之一。博易代表应邀出席会议并发表题为《为什么大资料在研究方法论中很重要：从传统到创新？...

文本大数据深度挖掘，你掉了多少坑？

最新动态

博易代表应邀出席两大重要传播学会议并发表主旨演讲

连接琴澳创新科技合作的秘诀是什么？

长假之后，聊聊双节假期的热点和槽点

【DiVoMiner x 浸大】社媒品牌分析比赛获奖作品赏析

张荣显博士应邀到浙江越秀外国语学院作讲座