最早发表的协作过滤论文

发布时间：2024-07-07 11:33:45

最早发表的协作过滤论文

论文讨论的主要是隐性反馈协同过滤解决方案，先来明确两个概念：显性反馈和隐性反馈：

显性反馈行为包括用户明确表示对物品喜好的行为隐性反馈行为指的是那些不能明确反应用户喜好

举例来说：

很多应用场景，并没有显性反馈的存在。因为大部分用户是沉默的用户，并不会明确给系统反馈“我对这个物品的偏好值是多少”。因此，推荐系统可以根据大量的隐性反馈来推断用户的偏好值。

根据已得到的隐性反馈数据，我们将用户-条目交互矩阵Y定义为：

但是，Yui为1仅代表二者有交互记录，并不代表用户u真的喜欢项目i，同理，u和i没有交互记录也不能代表u不喜欢i。这对隐性反馈的学习提出了挑战，因为它提供了关于用户偏好的噪声信号。虽然观察到的条目至少反映了用户对项目的兴趣，但是未查看的条目可能只是丢失数据，并且这其中存在自然稀疏的负反馈。在隐性反馈上的推荐问题可以表达为估算矩阵 Y中未观察到的条目的分数问题（这个分数被用来评估项目的排名）。形式上它可以被抽象为学习函数：

为了处理缺失数据，有两种常见的做法：要么将所有未观察到的条目视作负反馈，要么从没有观察到条目中抽样作为负反馈实例。

传统的求解方法是矩阵分解(MF,Matrix Factorization)，为每个user和item找到一个隐向量，问题变为：

这里的 K表示隐式空间（latent space）的维度。正如我们所看到的，MF模型是用户和项目的潜在因素的双向互动，它假设潜在空间的每一维都是相互独立的并且用相同的权重将它们线性结合。因此，MF可视为隐向量（latent factor）的线性模型。

论文中给出了一个例子来说明这种算法的局限性：

1(a)是user-item交互矩阵，1(b)是用户的隐式空间，论文中强调了两点来理解这张图片： 1）MF将user和item分布到同样的隐式空间中，那么两个用户之间的相似性也可以用二者在隐式空间中的向量夹角来确定。 2）使用Jaccard系数来作为真实的用户相似性。通过MF计算的相似性与Jaccard系数计算的相似性也可以用来评判MF的性能。我们先来看看Jaccard系数

上面的示例显示了MF因为使用一个简单的和固定的内积，来估计在低维潜在空间中用户-项目的复杂交互，从而所可能造成的限制。解决该问题的方法之一是使用大量的潜在因子 K (就是隐式空间向量的维度)。然而这可能对模型的泛化能力产生不利的影响（e.g. 数据的过拟合问题），特别是在稀疏的集合上。论文通过使用DNNs从数据中学习交互函数，突破了这个限制。

论文先提出了一种通用框架：

针对这个通用框架，论文提出了三种不同的实现，三种实现可以用一张图来说明：

GMF ：上图中仅使用GMF layer，就得到了第一种实现方式GMF，GMF被称为广义矩阵分解，输出层的计算公式为：

MLP ：上图中仅使用右侧的MLP Layers，就得到了第二种学习方式，通过多层神经网络来学习user和item的隐向量。这样，输出层的计算公式为：

NeuMF ：结合GMF和MLP，得到的就是第三种实现方式，上图是该方式的完整实现，输出层的计算公式为：

论文的实验用于回答以下研究问题：

RQ1 我们提出的NCF方法是否胜过 state-of-the-art 的隐性协同过滤方法？

RQ2 我们提出的优化框架（消极样本抽样的log loss）怎样为推荐任务服务？

RQ3 更深的隐藏单元是不是有助于对用户项目交互数据的学习？

接下来，首先介绍实验设置，其次是回答上述三个问题。

数据集使用了两个公开的数据集：MovieLens 和 Pinterest 两个数据集，它们的特征总结在表1中

1.MovieLens ：这个电影评级数据集被广泛地用于评估协同过滤算法。论文使用的是包含一百万个评分的版本，每个用户至少有20个评分。虽然这是显性反馈数据集，但论文有意选择它来挖掘（模型）从显式反馈中学习隐性信号的表现。为此，论文将其转换为隐式数据，其中每个条目被标记为0或1表示用户是否已对该项进行评级。

2.Pinterest ：这个隐含的反馈数据的构建用于评估基于内容的图像推荐。原始数据非常大但是很稀疏。例如，超过20％的用户只有一个pin（pin类似于赞一下），使得难以用来评估协同过滤算法。因此，论文使用与MovieLens数据集相同的方式过滤数据集：仅保留至少有过20个pin的用户。处理后得到了包含55,187个用户和1,580,809个项目交互的数据的子集。每个交互都表示用户是否将图像pin在自己的主页上。

评估方案：为了评价项目推荐的性能，论文采用了leave-one-out方法（留一法）评估，该方法已被广泛地应用于文献。即：对于每个用户，论文将其最近的一次交互作为测试集（数据集一般都有时间戳），并利用余下的培训作为训练集。由于在评估过程中为每个用户排列所有项目花费的时间太多，所以遵循一般的策略，随机抽取100个不与用户进行交互的项目，将测试项目排列在这100个项目中。排名列表的性能由命中率（HR）和归一化折扣累积增益（NDCG）来衡量。没有特别说明的话，论文将这两个指标的排名列表截断为10。如此一来，HR直观地衡量测试项目是否存在于前10名列表中，而NDCG通过将较高分数指定为顶级排名来计算命中的位置。论文计算了每个测试用户的这两个指标，并求取了平均分。

−ItemPop 。按项目的互动次数判断它的受欢迎程度，从而对项目进行排名。这对基于评估推荐性能来说是一种非个性化的方法。 −ItemKNN 。这是基于项目的标准协同过滤方法。 −BPR 。该方法优化了使用公式的MF模型，该模型具有成对排序损失，BPR调整它使其可以从隐式反馈中学习。它是项目推荐基准的有力竞争者。论文使用固定的学习率，改变它并报告了它最佳的性能。 −eALS 。这是项目推荐的 state-of-the-art 的MF方法。

HR（命中率）和 NDCG（归一化折损累计增益），HR直观地衡量测试项目是否存在于前10名列表中，而NDCG通过将较高分数指定为顶级排名来计算命中的位置，重点介绍NDCG

NDCG这个名字可能比较吓人,但背后的思想却很简单.一个推荐系统返回一些item并形成一个列表,我们想要计算这个列表有多好,每一项都有一个相关的评分值,通常这些评分值是一个非负数,这就是gain(增益).此外对于这些没有用户反馈的项我们通常设置起增益为0.

累计增益（CG）

我们将这些增益相加就是Cumulative Gain(累计增益,CG),CG就是将每个推荐结果相关性的分支累加后作为整个推荐列表的得分.

rel i 表示处于位置i的推荐结果的相关性,k表示要考察的推荐列表的大小.

折损累计增益（DCG）

CG的一个缺点是没有考虑每个推荐结果处于不同位置对整个推荐效果的影响,例如我们总是希望相关性高的结果应该排在前面 .显然,如果相关性低的结果排在靠前的位置会严重影响用户的体验,所以在CG的基础上引入位置影响因素,即DCG(Discounted Cumulative Gain),这里指的是对于排名靠后推荐结果的推荐效果进行“打折处理”。假设排序越往后，价值越低。到第i个位置的时候，它的价值是 1/log 2 (i+1)，那么第i个结果产生的效益就是 rel i * 1/log 2 (i+1)，所以：:

从上面的式子可以得到两个结论: 1.推荐结果的相关性越大,DCG越大 2.相关性好的排在推荐列表前面的话,推荐效果越好,DCG越大.

归一化折损累计增益（NDCG）

DCG仍然有不足之处,即不同的推荐的推荐列表之间,很难进行横向的评估,而我们评估一个推荐系统不可能仅使用一个用户的推荐列表及相应结果进行评估,而是对整个测试机中的用户及其推荐列表结果进行评估 .那么不同的用户的推荐列表的评估分数就需要进行归一化,也即NDCG(Normalized Discounted Cumulative Gain,归一化折损累计增益). 在介绍NDCG之前还需要知道另一个概念,IDCG(Ideal DCG),指推荐系统为某一用户返回的最好推荐结果列表,即假设返回结果按照相关性排序,最相关的结果放在前面,此序列的DCG为IDCG.因此DCG的值介于(0,IDCG],故NDCG的值介于(0,1]。NDCG计算公式：

IDCG为理想情况下最大的DCG值。

其中 |REL| 表示，结果按照相关性从大到小的顺序排序，取前p个结果组成的集合。也就是按照最优的方式对结果进行排序。

实际的例子

假设推荐系统返回来的5个结果，其模型评分分别是 1.2、0.7、0.1、0.2、4.0。

我们首先通过公式4.2计算出DCG值为2.39278，按照公式4.4来计算出iDCG的值为3.6309

最后通过公式4.3计算出NDCG为65%

更多的推荐模型评估方法参考：

图4(Figure 4)显示了 HR@10 和 NDCG@10 相对于预测因素数量的性能。图5(Figure 5)显示了Top-K推荐列表的性能，排名位置K的范围为1到10。总的来看论文提出的NeuMF模型（结合GMF和MLP）效果不错，对比其他方法都要好。

Figure 6 表示将模型看作一个二分类任务并使用logloss作为损失函数时的训练效果。 Figure7 表示采样率对模型性能的影响（横轴是采样率，即负样本与正样本的比例）。

上面的表格设置了两个变量，分别是Embedding的长度K和神经网络的层数，使用类似网格搜索的方式展示了在两个数据集上的结果。增加Embedding的长度和神经网络的层数是可以提升训练效果的。

协同过滤推荐系统是当今众多推荐系统中最流行和最重要的推荐方法之一。

尽管已经被广泛采用，但是现有的基于 cf 的方法，从矩阵分解到新兴的基于图的方法，在训练数据非常有限的情况下表现不佳（数据稀疏问题）。

本文首先指出了造成这种不足的根本原因，并指出现有基于 CF 的方法固有的两个缺点，即: 1)用户和物品建模不灵活; 2)高阶相关性建模不足。

在这种情况下，文中提出了一个双通道超图协同过滤(DHCF)框架来解决上述问题。

首先，引入双通道学习策略 (Dual-Channel)，全面利用分治策略，学习用户和物品的表示，使这两种类型的数据可以优雅地相互连接，同时保持其特定属性。

其次，利用超图结构对用户和具有显式混合高阶相关性的物品进行建模。提出了跳跃超图卷积(JHConv)方法，实现高阶关系嵌入的显式和有效传播。

推荐系统的核心是一系列的推荐算法，这些算法能够**根据用户的个人特征有效地从爆炸式信息筛选出信息。协同过滤是目前最受欢迎和广泛采用的方法之一。

CF 持有一个基本的假设，当向用户提供推荐时: 那些行为相似的人(例如，经常访问同一个网站)很可能在物品(例如，音乐、视频、网站)上分享相似的偏好。为了实现这一点，一个典型的基于 CFbased 方法执行一个两步策略: 它首先利用历史交互区分相似的用户和项目; 然后基于上面收集的信息，向特定用户生成推荐。

现有的 CF 方法可以分为三类。

虽然 CF 方法已经研究了多年，但仍然存在局限性，特别是在训练的先验知识非常有限的情况下。为了理解这些缺陷，深入挖掘现有 CF 方法的内在机制得到以下局限性:

基于这些生成的连接组，即超边，可以分别为用户和物品构造两个超图，即两个通道的表示。本文提出了一种新的跳跃超图卷积算法(JHConv) ，该算法通过聚合邻域的嵌入并引入先验信息，有效地在超图上进行信息传播。(与传统的基于图的方法对比，用户超图和项目超图，可以更灵活地进行复杂的数据关联建模，并与不同类型的数据结合。)

超图定义为，V表示图节点，表示超边集合，超图邻接矩阵描述节点与超边的关系

在高层次上，DHCF 首先通过一个双通道超图框架学习用户和物品的两组嵌入，在此框架上，DHCF 通过计算用户和物品嵌入查找表的内积，进一步计算出用户-项目偏好矩阵。基于这样的偏好矩阵，DHCF 估计用户对某个商品感兴趣的可能性。

总体分为三步：

构建用户和物品嵌入矩阵：

为了在预定义的混合高阶关系上聚合相邻消息,执行以下高阶消息传递:

为了提取有区别的信息，我们对用户和物品定义为

综上所述，上述两个过程构成了一个集成的DHCF 层，允许对用户和物品进行明确的建模和编码，并通过强大的嵌入功能进一步更新和生成更精确的嵌入超图结构。这种精细嵌入可以进一步应用于推荐系统中的各种下游任务。

与传统 HGNNConv 相比，JHConv 允许模型同时考虑其原始特征和聚合相关表示，在另一方面，这样的 resnet结构的跳跃连接使模型能够避免由于集成了许多其他连接而导致的信息稀释。

引入高阶关联来实现构建超边，根据自定义的规则分别对用户和物品进行高阶关联提取

定义1: 物品的 k 阶可达邻居。在用户-物品交互图，更具体地说是二部图中，如果在 itemi 和 itemj 之间存在一个相邻顶点序列(即一条路) ，且该路径中的用户数小于 k，itemi (itemj)是 itemi (itemi)的 k 阶可达邻居。

定义2：物品的 k阶可达用户。在物品-用户二部图中，如果用户 j 和物品 k 之间存在直接交互作用，则用户 j 是 itemi 的 k 阶可达邻居，而物品 k 是 itemi 的 k 阶可达邻居。

对于 itemi，其 k 阶可达用户集称为。从数学上讲，超图可以定义在一个集簇上，其中每个集代表一个超边。因此，这里可以通过物品的 k 阶可达用户集构建超边。

然后在用户 k 阶可达规则的基础上构造高阶超边组，该超边组可表示为:

假设通过K阶可达规则，构造a个超边组，最后的超图需要将这a个超边组做融合，见上面的总体框架中的描述。

同理，按照相似的K阶可达的规则，对物品进行分析，构成物品的超边(N个用户，M个物品)

在实验中，每个用户观察到的交互中的10% 被随机选择用于训练，其余的数据用于测试。这样的设置增加了 CF 任务的难度，因为模型只能获取非常有限的观察到的交互。此外，由于数据的高度稀疏性，它可以很好地评价模型从有限的隐式数据集中挖掘有用信息的能力。对于所有四个数据集，每个用户至少有两个用于训练的交互。

这篇工作基于超图结构，提出了一种新的CF框架，与基于图神经网络的CF相比，超图结构更符合实际情况；此外，双通道的思路也值得借鉴，之前也分析的一篇双通道BPR的论文。近年来，基于图神经网络的推荐已经成为研究主流，而其中超图相关的工作少之又少，最近看到的另一篇是SIGIR2020上的一篇Next Item Recommendation with Sequential Hypergraphs，在超图神经网络上并没多大的改进，重点仍然在于如何用这种结构去解决存在的问题。

如果觉得有用，欢迎点赞关注赞赏，若对推荐感兴趣欢迎评论区/私信交流~~~

最早发表的论文

遗传算法应用于图像匹配的最早论文是由美国科学家戴维·戈德伯格（David Goldberg）在1988年发表的论文《基于遗传算法的图像匹配》（"Genetic Algorithms in Search, Optimization, and Machine Learning"）中，提出了一种利用遗传算法进行图像匹配的方法。该方法主要是利用遗传算法对图像特征进行编码，并通过遗传算法的交叉、变异等操作，对不同的图像特征进行优化，从而实现图像匹配的目的。这篇论文的发表标志着遗传算法在图像处理领域中的首次应用，为后来的相关研究奠定了基础。同时，该论文也表明了遗传算法在解决复杂优化问题中的潜力和优越性，成为了现代遗传算法应用领域的开山之作。

在中国搞古生物化石研究的学者，应该不会忘了1923年，因为在1923年中国古生物学研究开始真正起步了，首先，1923年11月中国人民的老朋友曾经在中国工作几十年并最终安葬在中国的葛利普教授在当时的热河省凌源进行化石考古和挖掘工作，命名了当时凌源含狼鳍鱼的地层为“热河系”；1928年他进而提出“热河动物群”之名。从此经过百年的考古发现和研究“热河生物群”早已名扬天下。美国地质学家葛利普教授 1923年诞生了中国地质古生物学家最早发表的古生物学学术文章，它就是北京大学地系教授李四光于1923年12月在英文版《中国地质学会志》Bull. Geol. China)的第2卷3-4合期上发表了《鉴定䗴类的图解法及其对华北䗴科研究的一些结果》一文。在李四光的文中有属种的拉丁文名称，有化石特征的详细描述、比较、讨论，有产地层位的具体记载，有图版和图版说明。该文首先叙述了这类属于原生动物门有孔虫纲化石的特征，其外形像一纺锤（纺织机上的线筒），因此叫它“纺锤虫”。李四光根据中文古代纺锤称为“筳”，在它左边加了一个“形旁”——“虫”，而右边的“筳”是声旁，两者合起来组成了一个形声字——“䗴”，李四光所造的这个字，从那时起就在中国古生物学界沿用至今。论文对8个种及变种都做了描述，并有两个图版（共19个薄片的相片）加以表示。论文记载这些种产自直隶（河北）、山西、山东、河南、甘肃诸省的十多个地点，含化石层层数最少为一层，最多达4层（山西阳泉）。论文将这些种与国外各地之链作了对比，认为它们都属于上石炭统——太原统（相当于乌拉尔统）。另外，在1923年12月出版的农商部地质调查所《地质汇报》第5号第2册("Bull. Geol. Surv. China,No.5,pt.2”）上有一篇中国地质学家周赞衡写的题为“山东白垩纪之植物化石”（“A Preliminary Note on some Younger Mesozoic Plants fromShantung")的论文，文中描述了产自山东下白垩统的如下植物化石属共计7属11种（其中1旧种，4新种，2相似种，4未定种）。有两页图版，为手描图。李四光和周赞衡的文章发表几乎是同时的，可以并列称为“中国人最早发表的古生物学学术文章。另外在1923年5月中国古脊椎动物学的奠基者和领路人德日进与桑志华在宁夏灵武水洞沟发现更新世晚期化石群，包括哺乳动物、鸟类及旧石器等，称为“水洞沟文化”。另外，中国地质古生物学家所写的第一部古生物学专著应该是1924年12月孙云铸发表于《中国古生物志》乙种第1号第4册的论著，题目是《中国北部寒武纪动物化石》这标志着中国古生物学家也能从事深入的古生物鉴定和研究，写出大部头的著作。该书首先简述了中国北方，主要是华北的直隶（河北）省、东北的奉天（辽宁）省和山东省泰安地区与张夏地区的寒武纪地层。其实早在1920年葛利普刚到中国，就在《地质汇报》第2号上发表了两篇古生物学论文，一篇是“中国二叠纪新发现之阔翅类化石”，另一篇是“直隶开平之下二叠纪动物化石”。在前一篇论文中，描述了一个阔翅类昆虫的新种——Eurypte(Anthraconectes?)chinensi(sp.nov.)。在后一篇论文中，描述了苔鲜动物的Polypora属。这应该是中国发表的最早的两篇古生物学论文了这里介绍一下葛利普，葛利普(1870-1946)是德裔美国地质学家、古生物学家、地层学家。葛利普是一专多能的地质学家，他一生发表近300种学术著作，当时已经50岁的葛利普辞别故园与妻女，于1920年来到中国，任农商部地质调查所古生物室主任，兼北京大学地质系古生物学教授。北洋政府成立中央研究院之后，他1929年任中央研究院地质研究所通讯研究员。1934年任北京大学地质系系主任，从此他为中国地质事业以及古生物研究事业贡献了后半生。 1922年2月3日中国地质学会在北京成立，学会的刊物是《中国地质学会志》，许多古生物学研究论文在这一刊物上发表。该年4月葛利普在中国地质学会的会议上宣读“论震旦纪”的论文，这是对震旦系的第一次全面总结。《中国古生物志》创刊，出版了甲种第一号第一册“南满第三纪初期之植物化石”（傅兰林著），乙种第一号第一册（总第一号）“中国北部奥陶纪动物化石”（葛利普著）和第二号第一册“四射珊瑚化石”（葛利普著）。傅兰林和葛利普是外国人，虽然在中国受中国政府邀请搞研究，他们发表的论文是职务行为，这也属于中国发表的最早的几篇古生物学论文。中国出版的第一部古生物学专著是1922年4月，葛利普的古生物学专著《中国北部奥陶纪动物化石》，以《中国古生物志》乙种第1号第1册的形式出版。葛利普受聘为北京大学的地质系古生物学教授、农商部地质调查所古生物研究室主任，是在中国土地上为中国地质古生物科学事业而工作的，他的研究成果也作为该所的系列出版物而问世，所以，他以上两篇文章和一部专著的出版就标志着中国地质古生物科学事业的发端。李四光说起葛利普他还有以下不朽的成就，比如著名的周口店北京人遗址现在仍在挖掘，人们仍然在不断寻找那丢失的北京猿人头盖骨。而葛利普教授恰是“北京人 (Peking Man) ”的起名者，当年周口店发现人类化石的消息，之所以能迅速传遍全世界，与这一简单易记的名称是分不开的。第二中国的古生物学者不断在国外权威杂志《自然》、《科学》等杂志上发表根据在辽西发现的恐龙化石的研究成果，而这不能不追溯到葛利普教授早期提出的“热河动物群”。” 1928 年，美国著名地质古生物学家葛利普教授出版了一部科学巨著--《中国地质史》 ( Stratigraphy of China 直译为《中国地层学》 ) 。在这部书里，他第一次提出了"热河动物群"这一名词，用来代表分布于东亚狼鳍鱼岩系的综合化石群。第三在 2005 年整修后重新开馆的中国地质博物馆里，也陈列着葛利普先生鉴定的化石 (Gymnosolen Grabau,Age: Precambrian, Locality: Jinzhou,Liaoning Province 葛利普裸枝叠层石，时代：前寒武纪，产地：辽宁金州)第四中国浙江省长兴县人民塑造了一个葛利普教授的塑像，放在长兴“金钉子”博物馆里。这是因为葛利普教授在1931 年确定了“长兴灰岩”地层，它是“二叠系到三叠系地质连续剖面”的代名词。此后“长兴灰岩”，成为地质学上一个专用名词，从而载入国际地层学史册，并得到世界公认。 2001 年 3 月，国际地科联过投票，正式将浙江长兴灰岩的 D 剖面确定为全球二叠－－三叠系界线层型及点（英文简称"金钉子"）。长兴“金钉子” 是地球史上最重要的断代界线之一，也是地球历史上六次生物大灭绝中最大的一次绝灭事件和全球变化相联系的点位，2001 年 3 月被国际地质科学联合会正式确定为全球对比标准点位。其意义相当于大英博物馆的铂金米达尺，成了世界标准。第五在美国国家航空和宇宙航行局网站上可以查到月球上以葛利普命名了“葛利普背侧”，一个在月亮上的山脊。葛利普教授逝世已经多年，人们仍然在不在美国国家航空和宇宙航行局网站上可以查到月球上以葛利普命名了“葛利普背侧”，一个在月亮上的山脊。在北京大学地质系学习的中国地质学先驱之一朱森曾经回忆著名的美籍地质学家A. W. 葛利普 (Grabau) 为他们讲授古生物学、葛利普老师不仅学问渊博，而且待人诚恳，使他们受到很大的教益，他们不仅重视课堂学习而且躬行实践，重视野外现场考察。北京西山是他们实习的重要基地。葛利普、翁文灏曾带他们去热河实习。有媒体报道：1923年11月初，中国的东北大地被层银白色包裹得分外妖娆，早晨的屋檐下还挂着晶莹的冰柱。在这个时节，从来没有考察队进人热河省进行野外发掘工作。而北京大学的一支小型地质野外考察队此时却悄然抵达此地。他们由葛利普教授和翁文灏带队，乘着吉普车，向热河省凌源县进发。葛利普是国际上大名鼎鼎的地质学家，他此行是为了考察1880年由法国鱼类学家索瓦士研究的发现于此地的狼鳍鱼化石的地层。在凌源附近的山头，葛利普发现并采集了大量狼鳍鱼与尾类蜉蝣化石，但并无其他斩获。辽西化石群1923年，葛利普在《中国地质学》中，把当时热河省凌源县附近含化石的地层定名为热河系。1928年，他又提出了“热河动物群”的名称，用来代表分布于东亚狼鳍鱼岩系的综合动物化石群。后来，中国的顾知微院士把与热河动物群同时期的植物群也包括进来，统称为热河生物群。

遗传算法在图像匹配领域的应用可以追溯到1994年的一篇论文，题为“基于遗传算法的图像匹配”。该论文由美国佐治亚理工大学的J.S. DeBonet等人发表在CVPR会议上。该论文提出了一种基于遗传算法的图像匹配方法，该方法可以在多个图像中找到相似的目标。此后，遗传算法在图像匹配领域得到了广泛应用。

遗传算法在图像匹配领域的应用早在1992年就有人提出。以下是其中一篇较早的论文："Genetic algorithms applied to image matching using corner feature detectors"，作者为R. Everson和S. Roberts，发表在1992年的遗传算法国际会议上。这篇论文提出了一种使用遗传算法进行图像匹配的方法，其中使用Harris角检测器（一种角点检测算法）来检测两幅图像中的角点，并使用遗传算法来匹配它们。该论文的方法是基于一组相似性度量来进行图像匹配的，其中包括了基于角点距离的相似性度量以及其他一些度量。使用遗传算法来寻找最优的匹配是一种较为有效的方法，因为可以使用遗传算法来搜索解空间并找到最优解。此后，这种方法被广泛应用于图像匹配和其他领域，为遗传算法在计算机视觉领域的应用奠定了基础。

论文查重过滤发表年

在提交的论文中，引用过以前自己所发表的内容并且被检测系统文献库收录的，需要输入作者名称，则会有“去除本人已发表文献复制比”的报告。

会显示抄袭，不过知网上好像有一个叫自我文献过滤的，出自同一作者的文章不到一定的引用就不算抄袭。如果是同一个人的论文，可以在查重时写上自己的名字，会有一个“去除本人已发表文献”的结果，这个重复率会比较低，前提是你这篇论文没有另外抄袭其他人的内容。

1、搜索“中国学位学术不端文献检测系统-CNK查重入口”。

2、选择“选择查重系统”。

3、以“本科学位论文查重”为例。然后点击“立即查询”。

4、选择“立即查询”。

5、根据提示输入相关的信息。

6、选择“属性分类”以本科论文为例子。

7、选择“毕业论文的word文档”上传。选择支付方式，输入手机号码，然后点击“提交检查”就可以了。

扩展资料

中国知网查重报告单是以网页形式mht（或PDF，PDF还是mht，系统随机）呈现的。

mht文件可以运用浏览器打开

报告初稿系统有1-2份；定稿系统有四份，这四份查重报告分别从4个角度来呈现查重结果

1）全文对照报告单：全文的重复内容和相似来源出处对照；

2）全文对照和全文引文就是平常我们用来修改论文重复率时候运用的。全文标明引文即全文重复会标红，并且有引用文献列表，可以看到我们查重的全文内容；

3）去除本人发表文献：是你之前在发表投稿过论文，被系统收录了，这时候如果再引用之前的论文内容，就可以根据你的名字（作者）排除这些重复的内容；

论文大雅过滤发表年的意思

参考文献可以在百度学术中找到。毕业论文参考文献规范格式一、参考文献的类型参考文献（即引文出处）的类型以单字母方式标识，具体如下：M——专著 C——论文集 N——报纸文章J——期刊文章 D——学位论文 R——报告对于不属于上述的文献类型，采用字母“Z”标识。对于英文参考文献，还应注意以下两点：①作者姓名采用“姓在前名在后”原则，具体格式是：姓，名字的首字母. 如： Malcolm Richard Cowley 应为：Cowley, M.R.，如果有两位作者，第一位作者方式不变，&之后第二位作者名字的首字母放在前面，姓放在后面，如：Frank Norris 与Irving Gordon应为：Norris, F. & I.Gordon.；②书名、报刊名使用斜体字，如：Mastering English Literature，English Weekly。二、参考文献的格式及举例1.期刊类[格式][序号]作者.篇名[J].刊名，出版年份，卷号（期号）：起止页码.[举例][1] 王海粟.浅议会计信息披露模式[J].财政研究，2004,21(1)：56-58.[2] 夏鲁惠.高等学校毕业论文教学情况调研报告[J].高等理科教育，2004(1):46-52.[3] Heider, E.R.& D.C.Oliver. The structure of color space in naming and memory of two languages [J]. Foreign Language Teaching and Research, 1999, (3): 62 – 67.2.专著类[格式][序号]作者.书名[M].出版地：出版社，出版年份：起止页码.[举例][4] 葛家澍，林志军.现代西方财务会计理论[M].厦门：厦门大学出版社，2001：42.[5] Gill, R. Mastering English Literature [M]. London: Macmillan, 1985: 42-45.3.报纸类[格式][序号]作者.篇名[N].报纸名，出版日期（版次）.[举例][6] 李大伦.经济全球化的重要性[N]. 光明日报，1998-12-27(3).[7] French, W. Between Silences: A Voice from China[N]. Atlantic Weekly, 1987-8-15(33).4.论文集[格式][序号]作者.篇名[C].出版地：出版者，出版年份：起始页码.[举例][8] 伍蠡甫.西方文论选[C]. 上海：上海译文出版社，1979：12-17.[9] Spivak,G. “Can the Subaltern Speak?”[A]. In C.Nelson & L. Grossberg(eds.). Victory in Limbo: Imigism [C]. Urbana: University of Illinois Press, 1988, pp.271-313.[10] Almarza, G.G. Student foreign language teacher’s knowledge growth [A]. In D.Freeman and J.C.Richards (eds.). Teacher Learning in Language Teaching [C]. New York: Cambridge University Press. 1996. pp.50-78.5.学位论文[格式][序号]作者.篇名[D].出版地：保存者，出版年份：起始页码.[举例][11] 张筑生.微分半动力系统的不变集[D].北京：北京大学数学系数学研究所, 1983：1-7.6.研究报告[格式][序号]作者.篇名[R].出版地：出版者，出版年份：起始页码.[举例][12] 冯西桥.核反应堆压力管道与压力容器的LBB分析[R].北京：清华大学核能技术设计研究院, 1997：9-10.7.条例[格式][序号]颁布单位.条例名称.发布日期[举例][15] 中华人民共和国科学技术委员会.科学技术期刊管理办法[Z].1991—06—058.译著[格式][序号]原著作者. 书名[M].译者，译.出版地：出版社，出版年份：起止页码.三、注释注释是对论文正文中某一特定内容的进一步解释或补充说明。注释前面用圈码①、②、③等标识。四、参考文献参考文献与文中注（王小龙，2005）对应。标号在标点符号内。多个都需要标注出来，而不是1-6等等，并列写出来。求采纳为满意回答。

大雅查重的查重方式和规则如下：

1.大雅查重的查重方式：

大雅是通过相似度分析的检测系统，相似文献主要有期刊、论文等类型，通过检测文档与文献进行对比，得出检测HTML报告和PDF报告，大雅检测系统可以自动排除参考文献、引文等内容，大雅支持单篇检测和批量检测，会与高校合作使用。

大雅主抓的是图书和期刊论文，你要是书和期刊论文抄的多，自然查重率就高，因为他隶属于超星集团。你要是抄了一堆硕博论文，跑去检测自然查重率很低。知网上涵盖了国内外硕博论文百万篇，抄的论文自然，查重率就高的很。

大雅是检测和图书的相似度，知网是检测期刊论文的相似度。不过检测系统里面只有大雅是能检测图书的。

2.大雅查重的标准是：

3.分析文本风格：利用自然语言处理技术，分析文档的语法特征，排除内容和结构相似但风格不同的文档；

4.分析文本应用：利用AI技术，根据文档的使用场景，确定文档的重复率，排除文章内容、结构和风格相似但用途不同的文档。

我觉得不靠谱。因为最专业的查重系统应该是知网查重，这个大雅查重从来没听过。

还挺靠谱的。很多学校最后会用知网进行查重，大雅查重知识面会很广，所以也挺好用。

最早的论文怎么发表的

研究生怎样发表论文呢，下面给你一些建议：1.首先确定选题。选题很重要，看一下是否适合自己去做，ok！ 2、查阅资料，列提纲确定论文的内容。分析阅读你论文的对象，他们的目的善于应用图表表达完整信息先列提纲（用来反应你的思路结构，征求别人意见）写出草稿，写作时从最容易的地方入手（比如：仪器材料，实验方法，结果）抽取有价值结果放入讨论，完成讨论，结论，引言 3、查阅资料，做试验，收集数据，写论文。越早开始写越容易有些研究可以先写文章，结果空留，等到实验有结果填入即可再次强调：实验开始，写作开始绝不等所有结果出来再做（尽可能）将实验结果列成图表（图表制作表达明了）草稿－－－不能太草如何避免太草：先阅读杂志的投稿指南－－图表要求－－参考文献格式－－排版格式－－字数要求这样做的结果节省时间，避免迷失方向下笔：第一稿要完整，但不要过分追求完美前言：表明为什么要进行这项研究别人已经做了什么，存在什么样的问题（在查阅文献的基础上，不是拼凑！）我的研究做什么整个部分简明扼要，突出自己的重要性材料和方法清楚，突出可重复性详细比较好，利于以后学位论文的写作结果先制图表，然后由图表进行解释说明用图表突出最重要的部分讨论：讨论是建立在大量阅读文献，并进行总结的基础上概括主要发现提出局限性，以供别人进一步参考最后再总结突出我研究的重要性不重复前言与结果，引用支持你论点的文章，但不影响或降低文章的创新4、写完论文，找导师查阅，修改。文章修改（需要多次，这里第一次是概括的讲可以包含几次直至达到目的）第一次：自己修改明确：是否表达完全，别人能不能看懂，语句通顺，格式，标点等第二次：打印稿重点：结构与内容协调性，摘要是不是能够独立支撑文章内容，摘要和图表可否表达研究的大概内容第三次：请别人修改明确：不能让别人将精力花费在修改错别字和格式上面，考虑别人从另外角度给出的意见后期修改：检查文章的完整性和逻辑性再强调：文章的顺序不是完全照搬实验顺序，要考虑论文的整体结构框架敢于舍弃不必要的数据5、论文定稿后找一家刊物出版社发表论文。

1. 准备论文：如果论文已经准备好了，按照论文找合适的期刊就好；如果论文没写好，建议还是先找合适的期刊，然后参照期刊的要求进行论文的写作，这样能更容易通过审核。2.投稿：将论文通过各种途径送到期刊编辑部。3.审核：核心期刊一般是同行评审制度，编辑部会把你的论文转发给三个这个领域的专业人士，由他们提出意见，编辑部会举行会议研究这三个专家的意见后作出录用或者修改或者退稿的决定。这也是核心期刊审稿时间长的原因。普通期刊一般由编辑部自己审核，速度比较快。4.录用：审核通过后，编辑部会开一个录用证明给作者，作者支付相关版面费后就可以安排发表了。5.出刊：热门期刊的刊期通常排在一年以后了，而冷门的刊经常还在收上一年的版面。一般的出刊时间是在3-6个月左右，出刊后编辑部会付费邮寄给作者一本样刊。6.上网：如果是上知网的期刊，那么出刊1-3个月后，作者就可以在知网上检索到自己的文章了。至此，整个发表流程完成。

一、选刊.选定一种期刊杂志作为自己的投稿对象.怎么选呢,先看自己学校或者单位评职称需要投什么级别的刊物.现在很多都要求必须是核心期刊,这个可以上网搜一下具体都有哪些.然后打开这个期刊的网址,看下期刊的具体分的板块,是不是跟自己文章相符,找到一个适合自己的.特别要注意,刊物本身有没有学术要求,比如:什么第一作者要求博士及以上学历,优先考虑副教授及以上职称,要求有基金项目,国家级优先考虑.二、写作.如果你的论文已经写好了,论文格式就根据投稿要求进行修改,不同的杂志社对论文的格式要求不一样.一定要严格按照这个要求操作的哦,包括查重的时候也是一样的.如果你的文章还没有写好,可以先了解下刊物的格式、要求、审稿喜好,然后再去写稿子,这样做,录用率很高的.三、投稿.最普遍的就是邮箱投稿了,但是现在假网站,假邮箱很多,一不小心就上当受.这里给大家推荐一个很靠谱的方法:在知网的版权页上列有期刊的投稿邮箱或者官网地址.点击"原版目录页浏览"还可以查看封皮、扉页以及版权页等信息.保真,是不是比买书、浏览器盲搜方便多了.四、反馈通知.投稿结束并不是什么事情都没有了,恰恰相反,这才是刚开始.作者的文章可能立意选题都比较好,结构框架也十分明了,但是出现漏洞的机率还是有的,所以一般都会需要修改.论文一般需要三审,修改意见会发送至作者邮箱或者在投稿系统中显示,作者一定要随时关注邮件/系统动态,避免出现信息不及时的情况.按照修改意见修改文章后再发给编辑,审核无误就可以等候发表了.(终于可以放下心来~)另外,修改审核都是需要一定时间的,一般来说这个周期会在2-3个月.如果作者对时间有要求,一定要提前发表,确保万无一失.五、缴纳版面费.现在的刊物一般都要收取一定的版面费,按文章的字数占几个版面还有刊物的等级来收取一定的版面费.只有少数的不收取版面费.六、签收样刊.出样刊的时候,杂志社一般会预留样刊寄给作者,以便作者需要时用.但是有一点,杂志社可能不会存多余的样刊,作者拿到样刊后一定要保存好,以免丢失.(学术堂提供更多论文知识)

一、个人发表论文的程序：1.有了自己的学术成果后，按其研究方向在中国知网等论文收录网站上查找和你所研究领域相关的文献。确认你的核心内容前人没有研究发表后，选择该领域的相关杂志；2.按照所选杂志的格式要求，将自己的研究内容撰写成论文，通过该杂志的制定投稿渠道进行投稿，之后进行耐心等待；3.编辑审阅后如果不感兴趣会直接退稿，如果感兴趣会给你提出修改意见，从投稿到第一次审回一般要2个月以上，按照编辑提出的修改意见逐条改正，并在给编辑回复时对其提出的每一条意见进行逐条回复，之后继续耐心等待；4.二审后，基本就离发表不远了，一般会再给你提一些格式类的细节修改问题，解决后回复，等待发表就好。望采纳

相关百科

论文查重过滤发表年

2024-07-07

普朗克最早发表的论文

2024-07-07

赵忠贤最早发表的论文

2024-07-07

最早的发表新冠论文

2024-07-07

最早的论文怎么发表的啊

2024-07-05

最早发表人传人的论文

2024-07-07