JavaInterview
  • README
  • 架构篇
    • 分布式一致性协议
    • 设计模式
    • ElasticSearch
    • MySQL
    • Redis
    • UML 图总结
  • 大数据篇
    • Hadoop 架构
    • Hive
    • Hive 函数
    • kafka_1
    • MaxList以及Set模块
  • 书籍总结
  • 代码篇
    • 动态规划(Dynamic Programming)
    • order_print_num
  • IO 篇
    • 多线程 N 次写文件
    • 多线程、进程、多核 CPU 详细介绍
  • Java 基础知识
    • 异常介绍
    • StringBuffer 和 StringBuilder
    • 线程池
    • 数据结构篇
      • BlockingQueue 和 BlockingDeque 内部实现分析
    • Java8
    • 关键字篇
      • 关键字-transient
      • 关键字-volatile
  • 深入浅出 JVM
    • garbage_collectors
    • JVM 参数
  • README
  • machinelearning
    • model
    • 推荐系统整理
    • tensorflow 入门
  • 排序篇
    • 冒泡排序
    • 基数排序
    • 选择排序
    • 插入排序
    • 希尔排序
    • 归并排序
    • 快速排序
    • 堆排序
    • 计数排序
    • 桶排序
  • Web 篇
    • JavaWeb 中 POJO、BO、VO、DO、DTO、DAO、PO 详细介绍
    • Filter 和 Interceptor 详解
    • HTTP 请求的完整过程
    • Spring 配置
    • Spring IoC
    • Spring 全家桶
Powered by GitBook
On this page
  • 推荐系统涉及到的一些模块
  • 推荐模型时序图
  • 实时画像时序图
  • 数据分析
  • 名词介绍
  • 文章推荐

Was this helpful?

  1. machinelearning

推荐系统整理

PreviousmodelNexttensorflow 入门

Last updated 5 years ago

Was this helpful?

该篇主要对推荐系统进行一些整理。

推荐系统涉及到的一些模块

核心模块有用户、Item(包括文章、视频、商品、音乐、电影等)、用户实时画像、Item 特征等。 核心服务有召回服务、推荐服务、排序服务等。

如下图:

比较重要就是要去了解 NLP(自然语言处理),基于 NLP 的特征分析。基于模型的排序服务,比如决策树、FM 模型、FFM 模型、双线性 FFM 模型、DNN、Wide&Deep 等。排序模型个人觉得讲的比较好的一篇文章,。

推荐模型时序图

时序图
  • 1.2.3 和 1.2.4 应该是在一步同时异步执行的

  • 1.3 获取文章title、content、发布时间、作者等相关信息

  • 1.2.3 里面包括 label 画像召回、LDA(Topic) 画像召回、用户与作者亲密度召回(我理解为基于社交关系的召回,这一类文章加上推荐理由效果会更好)

tips: 为什么 Doc2vec 画像单独弄成一个微服务,因为 vector 是一个 300 维的 float 类型的数组,计算量特别大;所以做成 T+1 模式,提前计算好,然后索引到文件中。(使用的是开源的 Annoy 进行文件索引)。

实时画像时序图

  • 流处理框架使用当下比较流行的 Flink。

  • Flink 支持批量和流处理两种模式。

  • 批量计算时只是对接数据源不一样,数据仓库大多数为 Hive。

数据分析

通过之前做过的一些视频、文章推荐举例。

  • 多策略召回。

  • Rank 模型训练特征由离线转为实时。

  • 特征精细化,比如由文章总体 CTR 变为每个策略下的 CTR;不同分类下文章的时效性不一样,所以 CTR 计算周期不一样,比如有的文章在一开始 CTR 特别高,但随着时间变化,慢慢降低,但是相比其它的一些文章,还是很高,这时候,就需要调整 CTR 计算周期。

  • 分析重要的特征加入到训练模型,比如对文章来说:CTR、CDR;统计用户在每个分类下的 CTR、CDR,可以更加具体的描述出用户对不同分类的喜欢程度。

名词介绍

  • CTR:Click-Through-Rate,点击通过率。

  • CDR:Completion-reaDing-Rate,阅读完成率。

文章推荐

实时画像时序图

从 FFM 到 DeepFFM,推荐排序模型到底哪家强?
NLP
LDA
推荐排序模型
相关模块