data science concepts

on 2016-10-30

基于内容的推荐 CB

User-Content-Feature Profile-Feature Recommendation Generation (Profile-ContentScore)

  • 用户独立性

  • 很好解释

  • 新的东西可以立马得到推荐

  • 如何快速找相似商品(特性多的情况下,可能需要minhash)

  • 特征需要人工提取

  • 无法挖掘潜在需求

  • 无法为新用户做推荐

协同过滤推荐

wiki

item-based CF

基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐;

一个基本的假设:“能够引起用户兴趣的项目,必定与其之前评分高的项目相似”

此方法的推荐效果可能更好,因为人item相比人更容易分类

user-based CF

基于user的协同过滤,通过不同用户对item的评分来评测用户之间的相似性,基于用户之间的相似性做出推荐;

  • 冷启动问题(对新对项目推荐效果很差)

SVM支持向量机(只适合做二元分析,多元不适应)

核函数(将低维函数转换为高维函数)

SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化(重要)为高维特征空间使其线性可分,从而 使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;

SVM学习问题可以表示为凸优化问题,可以利用已知的有效算法发现目标函数的全局最小值

好的分类边界要距离最近的训练资料点越远越好,因为这样可以减低分类器的泛化误差。在支持向量机中,分类边界与最近的训练资料点之间的距离称为间隔(margin);支持向量机的目标即为找出间隔最大的超平面来作为分类边界。

从支持向量机的最佳化问题可以推导出一个重要性质:支持向量机的分类边界可由支持向量决定,而与其他资料点无关。这也是它们称为“支持向量”的原因。

人工神经网络

通过训练神经元,达到从对低纬度转化到高纬度的变换,转化过程,从而让目标分类问题线性可分

深度学习

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。

卷积神经网络

而深度学习中最著名的卷积神经网络CNN,在原来多层神经网络的基础上,加入了特征学习部分,这部分是模仿人脑对信号处理上的分级的。具体操作就是在原来的全连接的层前面加入了部分连接的卷积层与降维层,而且加入的是一个层级。   输入层 - 卷积层 -降维层 -卷积层 - 降维层 -- .... -- 隐藏层 -输出层   简单来说,原来多层神经网络做的步骤是:特征映射到值。特征是人工挑选。   深度学习做的步骤是 信号->特征->值。 特征是由网络自己选择。