测试哪个明星?

居利希居利希最佳答案最佳答案

测的有点离谱,不过还是有一些道理。 先给出结论,测试的维度是“知名度”、“人气值”和“粉丝数量”。 用这三个指标来衡量的话,目前娱乐圈里能测的明星有很多,而且都还比较靠谱,比如最近因为《演员请就位》火了的赵薇、陈凯歌、李少红等等。 但是如果要精准地找到一个人,那就还需要知道更详细的一些信息。

这里有一个我自己的数据挖掘的小例子,之前在做推荐系统的时候,需要给电影排片,为了得到准确的数据,不仅需要知道电影的评分、时长等信息,还需要知道电影上座率等情况(影院水平对上座率有直接影响),以及电影播出时间的天数,这些因素都会影响最后的结果。 而要测量一个明星的“热度”,三个指标是不够的,还需要知道这个明星的各种事件,电影电视节目等出演情况。

当然,用数据和算法来预测热门度的过程本身是很复杂的,涉及很多环节,这里只是简单起个头。 如果以“热度”作为模型的评价目标,则可以通过数据挖掘从互联网海量信息中挖掘出许多有关“热度”的信息。

下面简单介绍一下其中几个步骤: 第一步,内容分类。 也就是说要先知道哪些是电影,哪些是综艺,哪些是电视剧……这样才能对信息进行准确的分类。

第二步,文本聚类。 文本聚类是用来发现无结构数据的分布式特征表示的技术,可以用于对新用户进行标签预测或者对老用户进行兴趣分析。在这里,我们可以利用文本聚类来自动提炼用户的兴趣特点。

第三步,情感分析。 情感分析是根据给定文字片段或文档,判断所含文字的情感倾向前提条件,并且给予定量描述的过程。对于情感分析,常用的方法有统计方法、机器学习方法以及深度学习方法。

第四步,热点发现。 热点发现是基于内容的热点事件预测问题,其目的是对于未标注的新数据集预测其中的热点事件,或者对于已经标注的数据集中验证已标注的热事件。常见的热点发现的方法有无监督学习方法、集成学习法和深度学习法。

发表评论
请发表正能量的言论,文明评论!