2017年10月29日,澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士在“10th PRAD国际学术论坛·2nd PRSC学术年会暨4th战略传播与公共关系工作坊”的主题工作坊“展望公关研究:理论拓展与方法创新”上进行题为《大数据研究方法:如何进行传播内容的深度文本挖掘》的演讲,介绍了全新的网络大数据研究方法。
张博士指出,当前有观点认为,网络大数据可以做到精确预测。然而,在实际应用中,大数据的算法、语义分析等,距离现实尚有一段距离,水平待有提高,加上歧义和无关数据的干扰,也在影响着数据分析结果的准确度。还有观点认为,当数据量足够大的时候,数据便可以自己说出结论等,这是非常危险的论断。这些误解都忽略了文本数据本身的非结构化特征,以及文本背后的语义和语境的复杂性。
主流的处理大数据的分析技术主要是针对两种数据类型——数字型数据(结构化的数据)和文本型数据(非结构化的数据)。数字型数据的分析技术包括线上分析处理、数据挖掘、统计分析等;文本型数据的分析技术包括文本分析、网络挖掘、网络分析、机器学习和情绪分析(sentiment analysis)等。
目前舆情大数据监测系统的策略主要有资讯提取,文本摘要和情绪分析三部分。处理网络数据的情况,绝大部分是基于描述性和探索性的单变量分析,包括传播来源(网络数据来自具体的媒体来源,如社交网站、新闻网站、博客、论坛等)、传播量度(网络舆情或口碑的声量,以描绘事件的发展趋势;词云图以字体在图中的大小来表示声量大小或关注点等)、传播内容(网络舆情所涉及的话题、人物、机构、品牌等)、传播特征(以数量来描绘舆情话题的走势、事件发生的路径等,以解释传播过程和特征)、传播力度(点赞量、跟帖量、分享量、阅读量、排行榜等,还有参与度、曝光量、KOL等,以多项参数来综合解释舆情的传播力度)和传播效果(正负面情绪、分类情绪如快乐、悲伤、厌恶、恐惧和愤怒等)。
更进一步,研究需要对系统变量和编码变量进行深度挖掘。这里,系统变量是指网络技术可抓取的非结构化的数据,可以转化成结构化的数据而形成的变量,这部分可由技术层面解决,由程序进行自动转化。目前,市面上的众多舆情分析多数以系统变量为主。我们提出的编码变量,则是指由研究人员自行设定的变量,即根据具体的研究目的、研究问题及需要测量的概念而设计的。要实现对研究结果的描述性和探索性层面的突破,达到解释性的深度要求,就要将两者有效结合,可将系统变量和编码变量进行交叉分析,实现从发现洞察到预测未来的目标。
通过大数据技术的辅助,可实现对传播来源、传播力度、传播特征、传播内容、传播量度和情绪分析的快速挖掘,然而,针对隐性语义、多尺度、多变量这些方面则需要通过人工编码来实现,将两者有效结合即可解决现实的实务问题,也可以解决在学术论文方面的需求。
在线的内容分析法,是基于传统的内容分析法,结合机器学习和网络挖掘技术等,在抽样、编码、前测、信度、质量监控、数据分析和可视化各个阶段均实现了优化,并可在线实时操作。解决了传统内容分析法在质量监控方面的空缺,可实时监控编码时间、速度、绩效等。同时,通常困扰研究人员的编码员之间的信度测试,也可以通过在线的方式,利用算法,快速便捷地实现。
博易数据在第十届PRAD国际学术论坛•第二届PRSC国际学术年会上发表的学术论文《网络舆情下的危机公关研究:以港澳地区食品安全问题为例》(☜点击下载论文全文),就是运用大数据技术辅助在线内容分析法,在DiVoMiner数据平台上执行整个研究流程,包括设定数据来源、设定概念筛选数据、编码库管理、设置类目、前测以计算编码员之间信度、正式编码、质量控制、结果分析及可视化呈现等环节。
最后,博易数据资深研究顾问曹文鸳老师,现场演示了云计算平台DiVoMiner,它是如何通过在线自动化内容分析法、网络挖掘、机器学习、情绪分析等网络大数据技术的辅助,结合人工智慧的研究设计及分析,可深度挖掘来自新闻媒体、社交媒体及记录文本的大数据(包括文字、图片或视频)。
DiVoMiner数据挖掘平台具有灵活开放的操作系统,对研究人员来说,可充分利用平台数据或自有数据扩充数据库,建立专属数据库。可充分发挥研究设计、类目建构、内容编码及数据分析的能力,同时,所有数据及结果均可追踪查证,达到科学透明的学术要求!
欢迎合作交流!
我们正陆续为高校及研究单位
提供搭建网络大数据研究及教学平台服务。