火狐体育平台网页登录
news information
EN
当前位置:
引荐体系经典面试题简述什么是wide
来源:火狐体育nba直播 | 作者:火狐体育nba直播 | 发布时间 :2022-05-16 23:17:38 | 126 次浏览: | 分享到:

  这个是从人类的认知学习过程中演化来的。人类的大脑很杂乱,它能够回忆 (memorize) 下每天产生的作业(麻雀能够飞,鸽子能够飞)然后泛化 (generalize) 这些常识到之前没有看到过的东西(有翅膀的动物都能飞)。可是泛化的规矩有时分不是特别的准,有时分会犯错(有翅膀的动物都能飞吗)。那怎么办那,不要紧,回忆 (memorization) 能够批改泛化的规矩 (generalized rules),叫做特例(企鹅有翅膀,可是不能飞)。

  k 表明第 k 个组合特征。i 表明输入 X 的第 i 维特征。C_ki 表明这个第 i 维度特征是否要参加第 k 个组合特征的结构。d 表明输入 X 的维度。那么到底有哪些维度特征要参加结构组合特征呢?这个是你之前自己定好的,在公式中没有表现。

  绕了一大圈,整这么一个杂乱的公式,其实便是咱们之前一直在说的 one-hot 之后的组合特征:仅仅在输入样本 X 中的特征 gender=female 和特征 language=en 一同为 1,新的组合特征AND(gender=female, language=en)才为 1。所以只要把两个特征的值相乘就能够了。

  之前大规模稀少输入的处理是:经过线性模型 + 特征穿插。所带来的 Memorization 以及回忆才干十分有用和可解释。可是 Generalization(泛化才干)需求更多的人工特征工程。

  比较之下,DNN 简直不需求特征工程。经过对低纬度的 dense embedding 进行组合能够学习到更深层次的躲藏特征。可是,缺点是有点 over-generalize(过度泛化)。

  会给用户引荐不是那么相关的物品,尤其是 user-item 矩阵比较稀少而且是 high-rank(高秩矩阵)

  依据内容引荐是指物品 item1 和 item2 比较类似,那么喜爱 item1 的用户八成也喜爱 item2

  大规模的在线引荐体系中,logistic regression 运用十分广泛,因为其 简略、易扩展、可解释性。

  FM 和 DNN 都算是这样的模型,能够在很少的特征工程情况下,经过学习一个低纬度的 embedding vector 来学习练习会集从未见过的组合特征。

  当 query-item 矩阵是稀少而且是 high-rank 的时分(比方 user 有特别的喜好,或 item 比较小众),很难十分功率的学习出低维度的表明。这种情况下,大部分的 query-item 都没有什么关系。可是 dense embedding 会导致简直一切的 query-item 猜测值都对错 0 的,这就导致了引荐过度泛化,会引荐一些不那么相关的物品。

  线性模型无法学习到练习会集未呈现的组合特征;FM 或 DNN 经过学习 embedding vector 尽管能够学习到练习会集未呈现的组合特征,可是会过度泛化。 Wide & Deep Model 经过组合这两部分,处理了这些问题。

  在这样一个流程中,引荐体系是怎么作业的那? 咱们比照上面的图一点点来说: Query:当咱们翻开 APP Store 的时分,就产生了一次 Query,它包括两部分的特征:User features, contextual features。

  User Actions:针对引荐给你的任何一个 APP,咱们都能够点击、下载、购买等操作。也便是说引荐给你的 APP,你产生了某种行为。

  Retrieval:假设让你来想一个最简略的引荐体系,针对这一次 Query,来给出引荐列表。你能想到的最简略,最暴力的做法是什么呢?

  给数据库中一切的 APP 打出一个分数,然后依照分数从高到低回来前 N 个(比方说前 100 个) 可是有个问题,这样数据库中的 APP 实在是太多了,为了确保呼应时刻,这样做太慢了!Retrieval 便是用来处理这个问题的。

  它会运用机器学习模型和一些人为界说的规矩,来回来最匹配当时 Query 的一个小的 items 调集,这个调集便是终究的引荐列表的候选集。

  Ranking:今日的主角 Wide&Deep Model 便是用来做这个作业的啦。 前面 Learner 学习到了一个 Model,运用这个 Model 对 Retrieval 给出的候选集 APP 打分!并依照打分从高到低来排序,并回来前 10 个 APP 作为终究的引荐成果展现给用户。

  因为运用的是乘积的办法,只要一切项都为线。比方AND(gender=female,language=en)这便是一个穿插特征,只要当用户的性别为女,而且运用的言语为英文一同建立,这个特征的成果才会是1。

  经过这种办法咱们能够捕捉到特征之间的交互,以及为线性模型参加非线性的特征。 接下来咱们用同一个比方来阐明:你给 model 一个 query(你想吃的美食),model 回来给你一个美食,然后你购买 / 消费了这个引荐。 也便是说,引荐体系其实要学习的是这样一个条件概率: P(consumption query, item)

  Wide Part 能够对一些特例进行 memorization。比方 AND(query=fried chicken, item=chicken fried rice) 尽管从字符视点来看很挨近,可是实践上彻底不同的东西,那么 Wide 就能够记住这个组合是欠好的,是一个特例,下次当你再点炸鸡的时分,就不会引荐给你鸡肉炒米饭了。

  这个输入会在神经网络的第一层转化成一个低维度的embedding,然后神经网络练习的是这个embedding。

  这个模块主要是被规划用来处理一些类别特征,比方说item的类目,用户的性别等等。和传统意义上的one-hot办法比较,embedding的办法用一个向量来表明一个离散型的变量,它的表达才干更强,而且这个向量的值是让模型自己学习的,因而泛化才干也大大进步。这也是深度神经网络傍边常见的做法。 持续套用上面的比方。

  比方说:你想要炸鸡,Embedding Space 中,炸鸡和汉堡很挨近,所以也会给你引荐汉堡。 Embedding vectors 被随机初始化,并依据终究的 loss 来反向练习更新。这些低维度的 dense embedding vectors 被作为第一个躲藏层的输入。躲藏层的激活函数一般运用 ReLU。

  Wide部分和Deep部分都有了之后,经过加权的办法兼并在一同。这也便是上图傍边的中心部分。

  而joint模型傍边的不同部分是联合练习的。ensemble模型傍边的每一个部分的参数是互不影响的,可是关于joint模型而言,它傍边的参数是一同练习的。

  这样带来的成果是,因为练习关于每个部分是分隔的,所以每一个子模型的参数空间都很大,这样才干取得比较好的作用。

  而joint练习的办法则没有这个问题,咱们把线性部分和深度学习的部分分隔,能够互补它们之间的缺点,然后抵达更好的作用,而且也不必人为地扩展练习参数的数量。

  也便是说,两个模块是一同练习的,留意这不是模型交融。 Wide 部分中的组合特征能够 记住 那些稀少的,特定的 rules Deep 部分经过 Embedding 来 泛化 引荐一些类似的 items Wide 模块经过组合特征能够很功率的学习一些特定的组合,可是这也导致了他并不能学习到练习会集没有呈现的组合特征。

  先给出定论: 一次展现中的一个 Item 便是一条样本。 样本的 label 要依据实践的事务需求来定,比方 APP Store 中想要进步 APP 的下载率,那么就以这次展现的这个 Item 中用户有没有下载,作为 label。

  下载了 label 为 1,否则为 0.说白了,模型需求猜测,在当时 Query 的条件下,关于这个 Item,用户下载的条件概率。 离散特征 map 成 id 过滤掉呈现次数少于设定阈值的离散特征取值,然后把这些悉数 map 成一个 ID。

  离散特征取值少,就直接编号。多的话或许要 Hash 接连特征经过火位数规范化到 [0,1] 先把一切的值分红 n 份,那么归于第 i 部分的值规范化之后的值为 (i - 1)/(n - 1)。

  也有大佬说不必特征穿插作用也很好,这个咱们在实践项目中就以试验为准吧。 每逢有新的数据抵达的时分,就要从头练习。假如每次都从头开始会十分耗时,Google 给出的处理办法是:完成了 warm-starting system, 它能够用之前模型的 embeddings 和 线性模型的 weights 来初始化新的模型。

  Embedding 维度巨细的主张:Wide&Deep 的作者指出,从经历上来讲 Embedding 层的维度巨细能够用如下公式来确认:

  为了操控每一次 request 呼应时刻在 10ms 内,引入了并行化技能。将 app 候选集分红多个小的 batches,并行化猜测 score。

  比方引荐体系、search、ranking 问题。输入稀少一般是由离散特征有十分十分多个或许的取值形成的,one-hot 之后维度十分大。

  Deep 部分用的特征: 未处理的接连特征 + Embedding(离散特征)在 Wide 的基础上,添加 Deep 部分:离散特征 embedding 之后,和接连特征串联。

  了解七月在线年七月在线出了两本书《名企AI面试100题》和《名企AI面经100篇》,反应很好,助力数千人拿到dream offer。本年咱们又收拾出了两本书《2021年最新大厂AI面试题 Q2版》、《机器学习十大算法系列》、《2021年最新大厂AI面试题 Q3版》,七月在线学员拿到书后反应不错。为了让更多AI人获益,七仔现把电子版

上一篇:单细胞数据剖析没有思路?试试细胞轨道剖析~(内附代码) 下一篇:【北上广实习汇总】京东普华永道戴德梁行亿滋滴滴出行等多家名企实习汇总