RAFT光流的理解与解读
一、RAFT 算法整体流程详解 🧱 一、模型结构组成 RAFT 网络由三个主要部分组成: 1. 特征提取模块(Feature Encoder) 输入:图像对 image1, image2 网络:BasicEncoder or SmallEncoder 输出:高维特征图 fmap1, fmap2(大小为原图的1/8) 2. 上下文编码模块(Context Encoder) 仅对 image1 进行编码 输出: net: 初始 GRU hidden state(通过 tanh 激活) inp: 上下文特征输入(通过 ReLU 激活) 尺寸同样为原图的 1/8 3. 相关性模块(Correlation Volume) 全对相关性计算(所有像素对) 得到一个 6D 的相似度张量: 1corr[b, h1, w1, 1, h2, w2] 构建金字塔(多尺度):avg pooling 4. 迭代更新模块(Update Block, GRU) 基于:当前 flow、corr、context 特征 输出: delta_flow:光流增量...
科研总结(六)论文写作规范化流程
前言 为了进一步的提高写作效率,更好的保证写作质量,让更多同学快速掌握科研写作能力与思维。我们在本文中制定了一些写作的规范和要点,提供了一些通用的写作流程和自检表。在正式开始写作前,通过规范化的大纲拟定以及逻辑推敲,保证成文的质量。 前期准备 1. 明确论点 论文的本质是向读者论证作者的观点,和读者探讨某个问题,某个目标应该如何看待以及如何解决。因此,最关键的就是作者本身的观点和见解即论点。 论点:作者所提出的见解和主张,是讨论的中心观点。 例如: attention is all you need 直接把论点作为标题 Attention is not all you need anymore 旗帜鲜明的论点反对 Is Noise Conditioning Necessary for Denoising Generative Models? 反问句表达观点 2. 明确方法 论文一般提出了一种有特点、创新性的方法,因此需要总结自己方法中最突出的特点、优势。 例如: Deep Residual Learning for Image Recognition 深度參差学习 Fea...
面向目标的导航调研
根据导航目标分类可以分为 Object-goal Navigation (对象目标导航) Instance-image-goal Navigation (实例图像目标导航) Text-goal Navigation (文本目标导航) 需要实现如下的能力: 语义/图片级别的目标理解(到厨房找黑色垃圾桶,到卧室找一个蓝色的灯,找到这个图片的位置) 空间推理,能够理解场景的之间的关联,例如找冰箱先去厨房,找床就要去卧室,找马桶要去洗手间 根据方法可以分为端到端的导航和模块化导航,其中区别如下图所示 端到端的导航通过视觉编码器和语言描述编码器得到当前图像和目标位置的特征,然后训练一个策略网络,根据这两个特征进行判断到底往哪个方向走,没有一个显式构建地图的过程,也没有显式的逻辑推理过程,一切都是端到端训练出来的。 模块化的导航利用了现有的定位建图方法,然后用显式的方式调用大模型的理解和推理能力 构建几何地图,用传统方法找到哪些方向可能有没有被探索的区域 构建语义地图,调用图像大模型进行目标识别/语义分割,建立语义地图(各种语义地图表达方法不同) 将语义地图转换为文本,调...
Imperative Learning A Self-supervised Neuro-Symbolic Learning Framework for Robot Autonomy
命令式学习:面向机器人自主性的自监督神经符号学习框架 摘要 尽管强化学习与模仿学习等数据驱动方法在机器人自主性领域取得了显著成就,但其数据依赖的本质仍制约着它们在动态变化环境中的泛化能力。此外,针对机器人任务的大规模数据采集往往面临成本高昂与实施困难的双重挑战。为突破这些限制,我们提出了一种新型自监督神经符号(NeSy)计算框架——命令式学习(IL),通过融合符号推理的泛化优势来提升机器人自主性。 IL框架由三大核心组件构成: 神经模块:负责从原始传感器数据中提取高层次语义特征 推理引擎:基于物理定律、逻辑推理和几何分析等符号化规则进行决策 记忆系统:存储机器人经验与知识表征 我们将IL建模为一种特殊的双层优化(BLO)问题,实现了三个模块间的协同学习机制。这种设计既规避了数据驱动方法对标注数据的高度依赖,又充分结合了符号推理在逻辑一致性、物理规律遵从性和几何可行性等方面的优势。 通过探讨闭式解、一阶优化、约束优化、二阶优化和离散优化等多种技术手段,我们在五类机器人自主性任务中验证了IL的有效性: 路径规划(全局与局部) 规则归纳(逻...
科研总结(六)论文审稿流程
前言 随着科研工作的开展,合作论文or项目越来越多,越来越难以快速的把握科研进展以及把控写作质量。为了进一步的让更多人具有更高的写作能力与思维是目前的一大难题。考虑到每个人理解的“好”的论文的不一致,特此总结如下的一些审稿过程中的要点,用于辅助论文写作,提升写作质量。 论文审稿流程 1. 看主题:这篇论文做了什么? (认可) 需要能够用一句话总结出这篇论文的工作,属于哪个领域,做了一件什么样的事情。这件事情本身应该是值得去做的。 2. 看创新:这个论文和之前的工作有什么不一样的见解? (巧) 假设检验中的假设部分,需要说明清楚如下的一句话: 之前的工作认为,xxx,很好,所以他们采用了xxxx方案,但是我觉得可以yyy这样理解。(其中,yyy必须要有逻辑,甚至配套可视化的图片)所谓的创新性不足,就是论文提出的不一样的见解不够新,或者没有足够的让审稿人理解。 3. 看逻辑:通过什么方法实现自己的见解的 (第一性原理) 在认可论文所提出的不一样的见解之后,肯定会有不一样的技术路线。因此,我们看方法部分主要看所提出的方法能否有逻辑的实现所提出的功能。需要让人理解到如下的一句话。 为了...
科研总结(五)再谈科研论文撰写
前言 最近投稿、拒稿以及审稿等经历总结越来越多,也到了再一次总结的时候。之前的文中大抵是结构的简单模仿,而没有领会其中关键的深层原则。因而在一些新的类型文章中遇到了许多困难,导致成文质量偏低。 论文写作的总体原则: 紧紧围绕写作的目的进行写作 始终站在一个大同行的读者角度撰写文字 摘要 摘要的目的 替代整体论文,使得读者能够快速理清文章逻辑,达到不阅读全文就能获取所有必要信息的目的。 读者期望的摘要 快速的理解这个论文的背景,解决的问题,解决的思路以及最终取得的结论。 摘要的基本结构 背景介绍 (行业公认的事情,重要性) 问题引出 (目前存在的问题,痛点) 研究的方法 (思路巧妙的解决存在的问题) 结论 (如何证明你的创新点是有效的,证明的严谨性) 意义 (突出工作对学术界的意义重大) 摘要的句子需要反复打磨,突出问题重要性、直接点明当前痛点、展示你的巧妙思路、逻辑严谨的证明思路的正确性最后说明工作的意义重大。 摘要撰写的技巧及注意事项 一般不出现引用文献,图表等 一般不出现单词简写,代号等 避免使用第一人称 避免冗长的背景,重复的形容词等 引言 简介的目的 论述为什...
取得的成就不应成为前行的枷锁
大学时总想着自己会是一个终身学习者,当时我拼命的学习自己能接触到的一切,从机械结构到嵌入式软件,从电路设计到计算机视觉算法,一切都是那么美好。我依旧记得大二那年在四川社会实践,中间空出一个下午没有事情干,我都要学习嵌入式软件的知识,我也记得大三那年过前一天还在调试bug,当时第一次在仿真环境下运行出了机器人导航程序的那种快乐。当时的我觉得固步自封、安于现状这些词汇永远不会属于我,我一定是坚定的终身学习者,因为我觉得能学习到这些知识让我感到非常开心和充实。 如今,就连大学毕业也已经3年半了,持续在机器人领域深入学习与实践,完成了多个机器人工程项目,也写了几篇论文。但是在和一名和我有类似经历,略长我几岁的工程师的交流下,我才发现自己的问题。我之前学习和取得的成就正在成为我前行学习的阻力,而对他来说可能更为严重。我似乎很难从零开始,以一种初学者那样纯粹的心态,开始一个新的领域学习,完全的放下自己已经取得的成绩。我开始突然意识到我可能会再也难以像大学那样学习新的东西,然后成为当时自己眼里的对新东西无法学习,坚持守旧的一个老古董。可能直到现在我才真正的面对这样一个问题,如何终身学习,如何永...
浅谈深度学习如何解决vSLAM落地的困境
背景 深度学习被广泛应用在计算机视觉的各个领域中,各种网络结构层出不穷。而视觉SLAM作为经典的任务,自然早已有大量的研究人员尝试从各种角度将二者融合。而本文的目标是对深度学习或者说数据驱动的方法如何解决传统vSLAM流程在落地时面临的问题进行一个讨论。在2023年末这个节点上,我们再谈深度学习和vSLAM的结合似乎有些过晚了。但实际上恰恰相反,我认为现在才是最好的时机。理由有如下几点。 嵌入式AI芯片发展 硬件永远是软件算法发展的基石。而借助人工智能火热的东风以及国产半导体产业的火热,在这两年已经有价格低廉的高算力芯片的出现。例如瑞芯微的RK3588s单板价格只要700左右,即可获得6Tops的NPU、最高2.4GHz的八核处理器。在全速跑满的情况下,YOLOv5s 模型可以跑到大约190帧[1]!另一方面,Intel 最新发布的桌面级酷睿Ultra处理器中也包含一颗NPU, 这意味着在轻量级的AI算力将在大量的设备中具备。对于开发者来说,在NPU极易获得的情况下,纯CPU的实现将是低效的。 行业应用的发展 标杆企业的突破将会带动上下游的发展。国外sevensense公司,采...
科研中的”故事性“
零、为何需要故事性 在电子出版物时代,文章数量急剧爆炸,只有少数的领域的引领者的论文能够保证会受到足够的关注。普通人如同你我若在一开始连读者的注意力都吸引不了,那么再好的工作也会被埋没。这里借用人类简史中的一个观点表达故事的重要性,智人与在同时期的类人猿的竞争中,智力并不占优势、体力亦不占优势,靠着具有相信虚构的故事的能力形成了大规模合作,绕过基因组的进化,实现了群体能力的巨大提升。所谓的宗教、国家、公司等生活的方方面面都是一个虚构的故事,而正是人们的共识赋予了他们力量。 其次,鲜明的反对部分人对写故事嗤之以鼻的态度。自己做出来的工作觉得做的很好,只关注于具体的算法实现、觉得实验做的效果好就可以了。认为写故事、编故事的做法只是在夸大事实、在吹牛,只有实干才是真科研。对此,我个人表达遗憾且惋惜。科研需要被关注被引用,需要形成整个行业的共识即让人觉得你提出来的方法才是未来趋势,并继续你的工作。淹没在浩如烟海的文献中的好工作也不是一个好工作,因为它对其他人的工作、科学的发展没有一点价值。 一、故事性的难点 意识到故事性的重要是最为困难的地方,其次才是各种方法。如果意识不到故事性的重要,...
科学问题和工程问题
典型的科研逻辑为:发现科学问题->提出核心创新点->基于该核心创新解决科学问题。 工程问题中包含的科学问题 要实现的工程问题中,遇到了某个难题。这个难题是全世界现有的方法都还没解决的。这个难题就是工程问题中的科学问题。在研究中提出针对难题的工程技术方法,从而攻克这一难题。 科学问题中的工程问题 这个科学问题是不证自明的,比如图像分割任务、目标识别任务、SLAM任务。这种任务类似于攀登珠穆朗玛峰,我们就是要不断的攀登、不断的提高其性能。但是具体如何实现得到更高性能的方法却是一个工程问题。这类问题则需要在前人的基础、框架上进行改进,找到前人方法中的局限性并给出给好的工程方案,实现更好的效果。 工程问题中包含的科学问题,科学问题又包含工程问题 在工程问题中发现了科学问题,然后查阅文献发现这个科学问题已经被少量的人研究过了,如何在他们基础上进一步的提升性能又是另一个工程问题。 工程问题 已经有人实现过这个工程目标,并且技术方案已经被证明可行。那么再去沿着这个道路走便是工程问题。 工程问题和科学问题之间的互相转换 对于同一个问题,既可以用简单的、工程性的思路去把他解决掉,也可以...



