内容推荐
内容源经过内容分析,得到结构化的内容库和内容模型,也就是物品画像。用户这一端:用户看过推荐列表后,会产生用户行为数据,结合物品画像,经过用户分析得到用户画像。之后对于那些新的物品,经过相同的内容分析后就可以经过推荐算法匹配,计算得到新的推荐列表给用户。
内容源
主要来源包括抓取数据、自家用户产生的数据等。
内容分析和用户分析
随着内容分析的深入,能抓住的用户群体就越细致,推荐的转化率就越高,用户对产品的好感度也就增加。 举个例子,如果推荐物品是短视频,我们分几种情况看:
- 1、如果短视频本身没有任何结构化信息,如果不挖掘内容,那么除了强推或者随机小流量,没有别的合理曝光逻辑。
- 2、如果对视频的文本描述进行挖掘,如标题等。然后对视频进行分类,比如是娱乐类,那么就可以将相应的视频推荐给喜欢娱乐类的用户。
- 3、如果还能识别出内容中主角是吴亦凡,那么更精准锁定一部分用户
内容分析的产出
- 结构化内容库:结合用户反馈行为去学习用户画像。
- 分类器模型、主题模型、实体识别模型、嵌入模型。这些模型主要用在:当新的物品刚刚进入时,需要实时地被推荐出去,这时候对内容的实时分析,提取结构化内容,再用于用户画像匹配。
内容推荐算法
直接计算相似度
用户的画像内容就表示为稀疏的向量,同时内容端也有对应的稀疏向量,两者之间计算余弦相似度,根据相似度对推荐物品排序
CTR预估
收集用户的行为日志数据,转换成训练样本,训练预估模型。 每条样本由两部分构成:一部分是特征,包括用户端的画像内容,物品端的结构化内容,可选的还有日志记录时一些上下文场景,如时间、地理位置、设备等等,另一部分就是用户行为,作为标注信息,包含“有反馈”和“无反馈”两类。一般使用的模型有LR、GBDT或者两者的结合(GBDT构造特征,LR用于建立分类模型)
内容推荐的重要性
- 1、内容数据始终存在并且蕴含丰富的信息量。
- 2、产品冷启动阶段,没有用户行为
- 3、新的物品要被推荐出去,首选内容推荐。