分析几十万条知乎数据,我挖掘出了这些秘密!(一)
分析几十万条知乎数据,我挖掘出了这些秘密!(一)
2020-10-28 11:01:55
338
0
作为近几年互联网行业一个比较热门的领域,数据分析吸引了大批人员的关注和涌入。
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
鉴于当下数据分析的火热,笔者想了解数据分析相关人群(包括且不限数据分析从业者、爱好者和有意向加入到这一领域的人群)的情况,不仅包括性别、地域、教育程度等基本信息,还有他们感兴趣的话题、喜欢提的问题以及关注的专栏等。
1.1 分析目的
由此,笔者此次的分析目的:
关注数据分析话题人群的人口统计学特征和社会经济特征是怎样的?比如性别、年龄、行业、职业等...
人们关注的数据分析相关热门内容是哪些?能从中发现哪些趋势和规律?这部分包括且不限热门话题、热门问题...
如果我是一个内容营销者,鉴于我有限的预算,我应该重点面向哪部分读者?向他们制作或者投放哪些内容?
从上面的分析目的可知,笔者此次的分析主要围绕人和内容两方面展开数据挖掘,进而产生具有实际价值的分析结果。
1.2 数据分析来源 ---知乎
分析的思路和目的有了,接下来就是寻找契合上述它们的数据分析源了。
在这里,笔者选择知乎。
知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。原因如下:
(1)拥有较为优质的内容
知乎的前辈用户们已经营造了一个很好的、高质量的问答氛围,知乎用户谌斌一句“谈笑有鸿儒,往来无白丁,无微博之乱耳,无SNS之劳形”形象的描绘了知乎的社区氛围。随着大量用户的涌入,此时氛围虽然比不上当初,但论社区的人气和提问质量,国内其他的互联网问答社区至今无能出其右者。
(2)拥有高质量、高活跃的用户
根据人本主义心理学家亚伯拉罕·马斯洛提出的5层次需求理论,微博、SNS等产品满足了人的社交(社会关系)需求,而知乎等问答社区则是满足了人的最高层次的两个需求:尊重(社会承认)和自我实现的需求。尤其是在这个“往来无白丁”的精英社区,回答的问题被精英、名人所“赞同”和“感谢”,顶层需求的强烈满足感比其他任何激励措施都更加持续有效。而且,分享的前提,是高质量的问题,最好是激起你回答的欲望乃至不回答都不舒服的问题。再者,这个分享其实也是有回馈的,他能让你建立威望。你回答得越多,就越显得你知识渊博,你的威望就越高。
在这种情况下,知乎用户的身份真实性和活跃度就比一般的社会化媒体要高,我们也能获取到高质量的分析数据。
(3)适合做大数据背景下的抽样调查
知乎显然只是当下互联网社区中的冰山一角,并不能涵盖数据分析相关的所有人群。遵循“Garbage in,garbage out”的黄金法则,须知大数据时代依然是抓大放小的数据抽样时代。所以,笔者此次的数据分析仍然基于抽样调查来的数据。
抽样调查是通过抽取总体中的部分单元,收集这些单元的信息用来对总体进行推断的一种手段。就像英国作家塞缪尔•约翰逊所说:要知道牛肉很韧,毋需吃掉整头牛。
现如今,互联网是一个“幂律分布”特别显著的领域,绝大部分人的注意力仍然被极少部分的媒体和平台所吸引。同时,做数据分析犹如带兵打仗,贵精不贵多,谈全量数据、全网数据就意味着泥沙俱下、良莠不齐,会拉低整体的分析质量。
鉴于此知乎拥有高质量和高活跃的用户,笔者就以它上面产生的数据作为分析对象。
1.3 分析维度
结合分析目的和待分析的数据源,笔者的分析维度是:
1.3.1 热门内容相关的分析
话题分析 --- 不同性别的关注话题偏好、话题关联性分析...
问题分析 --- 热门问题识别、用户阅读偏好(基于问题)
1.3.2 用户画像分析
用户头像数据分析 --- 透过头像的使用挖掘用户的心理特点
用户相关数据的相关性分析 --- 发现不同行为变量之间的关联
用户行为因子分析 --- 发现潜藏的影响因子
基于异质数据的客群划分 --- 基于不同类型的数据对数据分析相关人群进行再次细分
有限资源下锚定优质目标人群 --- 多快好省的锚定一小部分优质目标人群
1.4 数据分析方法和分析工具
本文中,笔者使用的数据分析工具包括python、Excel和Gephi。数据采集和大部分数据分析、可视化是基于python,部分图表是用Excel进行处理的,Gephi用于词汇共现分析。
1.5 数据来源
1.5.1 用户数据
基于关注关系和被关注关系得到的10个数据分析大V下的25W+粉丝数据,主要涉及字段如下:
name:昵称
gender:性别,男、女和未知
description:个人简介
headline:口号,紧跟昵称后面,如笔者的就是“舆情、社交媒体数据挖掘,个人微信xxx”
badge:徽章,如XX领域优秀回答者
follower_count:粉丝数量
following_count:关注数量
answer_count:回答数量
question_count:提问数量
articles_count:发文数量
columns_count:开设专栏数量
favorite_count:收藏数量
favorited_count:被收藏数量
pins_count:想法数量
logs_count:公共编辑数量,如话题、问题的编辑等。
topic_name:关注话题列表TOP20,考虑时效性,仅选取最近的20个关注话题,用”,”区隔。比如笔者的话题关注列表:“Social Listening,数据分析,自然语言处理,大数据,数据挖掘,机器学习,文本挖掘,社会化媒体营销,舆情,舆情分析,word2vec,网络舆情...”
column_name:关注专栏列表TOP20,考虑时效性,仅选取最近的20个关注专栏,用”,”区隔。比如笔者所关注的专栏列表:“手把手教你写爬虫,R&Python数据科学,瞎说职场,互联网地理位置大数据挖掘,AINLP,酷鹅用户研究院...”
subject_name: 关注Live列表TOP20,考虑时效性,仅选取最近的20个关注Live,用”,”区隔。比如笔者的Live关注列表:“职场中如何把自己当做公司经营?,如何高效进入大数据领域?,怎样用数据洞察你的用户?,如何用数据来挣钱?,爬虫从入门到进阶,如何进行用户画像建模打标签...”
1.5.2 内容数据
知乎上“数据分析”相关的10大热门话题(数据、数据分析、算法与数据结构、商业数据分析、数据挖掘、数据科学、数据统计、数据结构、大数据分析、互联网数据分析)的16W+未去重问题。涉及字段如下:
question_url:问题的链接,具有唯一性,比如https://www.zhihu.com/question/19551534
所属话题:问题所属话题的名称
question_title:问题名称,比如”电子商务的关键性数据有哪些?目前相应的指标是多少?“
view_count:阅读数量
comment_count:评论数量
follower_count:关注数量
answer_count:回答数量
created_time:创建时间(10位数时间戳),比如1293458344
Date:转换后的时间,比如2010/12/27 21:59:04
Year&Month:抽取的年和月,比如2012年12月
Day:发布当天是周几,比如星期三
Hour:发布时间中的时点,比如21:42:21为21(时)
Keywords:问题所属标签,最多5个,用“|”区隔,比如“云计算|数据库|Bigtable|谷歌 (Google)|分布式系统”
好了,以上是理论和数据准备环节,正式的数据分析留待后续慢慢展开,更新的快慢取决于热心读者的阅读、在看数和评论数,哈哈哈~
苏格兰折耳喵(微信公众号:Social Listening与文本挖掘),人人都是产品经理专栏作家,数据PM一只,擅长数据分析和可视化表达,热衷于用数据发现洞察,指导实践。
本文系作者授权发布,未经许可,不得转载。
题图来自 Unsplash,基于 CC0 协议
0个人点赞
0个人收藏
你可能感兴趣的内容
评论
添加表情