2026年年中总结

2026年年中总结

Wed May 06 2026
5628 words · 19 minutes

2026年年中总结

2026年上半年,对我来说是一个从“广泛学习”逐渐转向“方向聚焦”的阶段。相比过去更多地围绕课程任务和基础知识展开学习,这半年我开始更加有意识地把计算机科学基础、人工智能方法、具身智能研究、机器人视觉竞赛、数学建模能力和工程实践能力联系在一起。整体来看,上半年并不是单一维度的学习积累,而是一个多条线并行推进、相互影响、逐渐形成个人发展方向的过程。

一、专业学习:从基础知识学习转向系统性理解

在专业学习方面,我继续围绕计算机科学与技术的核心能力进行积累。上半年,我一方面保持对程序设计、算法、数学基础、机器学习等基础内容的学习,另一方面也开始更深入地接触深度学习、强化学习、生成模型、多模态模型和机器人学习等方向。

在人工智能相关内容中,我重点关注了 Transformer、Attention、Diffusion Model、Flow Matching、Diffusion Policy、VLA 模型等内容。刚开始接触这些概念时,我更多停留在“知道模型名字”和“理解基本用途”的层面,比如知道 Transformer 可以处理序列建模问题,扩散模型可以用于图像生成,强化学习可以用于智能体决策。但随着阅读资料和论文的深入,我逐渐意识到这些方法背后有更统一的逻辑:模型并不是孤立存在的,它们都在试图解决“如何表示复杂数据分布”“如何在条件约束下生成结果”“如何在不确定环境中做出动作决策”等问题。

例如,在学习扩散模型时,我最初关注的是“为什么要预测噪声而不是直接预测结果”。后来进一步理解到,预测噪声可以看作一种更稳定的训练目标,也类似于让模型学习从扰动状态回到真实数据分布的修正方向。再进一步学习 Flow Matching 时,我开始意识到它和扩散模型有相似的生成思想,但在数学形式上更强调学习连续时间下的向量场。这个过程让我对生成模型的理解不再局限于“图像生成工具”,而是开始从概率分布、条件建模、连续动力系统和优化目标的角度重新理解它。

在强化学习方面,我也开始从基础概念逐渐进入更具体的研究问题。比如策略、价值函数、奖励、轨迹、探索与利用、在线优化、test-time adaptation 等概念,之前可能只是分散地了解,但现在逐渐能够把它们放在机器人任务中理解:一个智能体不仅要看懂环境,还要根据目标生成动作,并且在执行过程中不断调整策略。尤其是在具身智能任务中,强化学习不只是一个算法模块,而是感知、决策、控制和反馈闭环中的重要组成部分。

通过这些学习,我逐渐发现,计算机科学的学习不能只停留在“会用某个库”或者“跑通某个模型”上,更重要的是理解模型设计背后的假设、任务约束和适用边界。上半年我在这方面还没有达到足够深入的程度,但已经开始形成一种更系统的学习方式:先理解问题定义,再分析模型结构,接着看训练目标和实验设置,最后思考它能否迁移到自己的研究或竞赛任务中。

二、科研方向探索:具身智能方向逐渐明确

上半年,我对未来研究方向的认识比之前更加清晰。相比单纯的计算机视觉、自然语言处理或生成式 AI,我对具身智能方向的兴趣进一步增强。具身智能的核心并不只是让模型“看懂”或“说对”,而是让智能体能够在真实或仿真环境中感知环境、理解任务、规划动作并完成操作。这种方向天然具有跨学科特征,涉及计算机视觉、机器人学、控制理论、强化学习、多模态建模和工程部署。

在相关论文和技术路线的学习中,我重点关注了视觉语言动作模型,也就是 VLA 模型。这个方向让我意识到,未来的智能系统可能不再只是单独处理图像、文本或动作,而是要把视觉信息、语言指令、机器人状态和连续动作统一到一个模型框架中。比如,机器人接收到一句“把杯子放到桌子左边”的指令后,需要先从视觉中识别杯子和桌子的位置,再理解“左边”的空间关系,接着生成机械臂或移动机器人的连续动作序列。这个过程比传统分类、检测或文本生成任务复杂得多。

在学习 VLA 模型时,我尤其关注了几个问题。第一,视觉语言模型中的先验知识如何传递给动作生成模块。第二,动作应该被表示为离散 token,还是连续空间中的轨迹。第三,Diffusion Policy 和 Flow Matching 这类生成式方法为什么适合连续动作建模。第四,强化学习是否可以在模型预训练之后进一步提升执行效果。第五,test-time optimization 或在线强化学习能否让模型在推理阶段根据反馈进行自适应调整。

这些问题目前还没有完全解决,但它们已经构成了我后续学习和研究的主线。相比之前“什么方向都想看一点”,现在我更加倾向于围绕具身智能中的“感知—语言—动作”闭环展开深入学习。这个方向既有理论问题,也有工程挑战;既需要理解模型结构,也需要能够搭建实验系统。对我来说,这种方向比较适合长期积累。

三、RoboCup 3D视觉赛:从模型训练走向系统工程

上半年,RoboCup 3D视觉赛是我投入较多精力的项目之一。这个项目让我明显感受到,真实竞赛任务和课堂作业有很大区别。课堂作业往往有明确输入、明确输出和较固定的评价方式,而机器人视觉竞赛则包含更多不确定因素:摄像头采集效果、光照变化、桌面摆放、物体遮挡、模型误检漏检、设备性能限制、运行速度要求、部署环境差异等,都会影响最终结果。

在技术方案上,我们尝试设计基于 YOLOv8 的双模型检测流程。整体思路是先使用较大的模型完成桌面区域识别和 ROI 划分,再使用较小的模型在目标区域内进行物体检测和计数。这样做的原因是,直接对整张图像进行物体识别可能会受到背景干扰,也可能导致桌面外的物体被误计入结果;而先检测桌面区域,再在桌面区域内部检测目标物体,可以让任务边界更加清晰,也有助于提升检测稳定性。

这个方案中有几个关键问题需要处理。首先是桌面区域的准确定位。桌面区域如果划分不准,后续的小模型检测就会受到影响。其次是桌面旋转或视角变化带来的计数问题。如果摄像头或桌面角度变化,模型可能在不同视角下对同一物体产生重复判断,因此需要结合空间位置、深度信息或几何约束进行去重。再次是 3D 深度信息的利用。仅靠 RGB 图像可以完成一部分识别任务,但在遮挡、重叠和高度变化场景下,深度信息对于判断物体位置和空间关系具有重要价值。

此外,边缘设备部署也是一个重要问题。比赛中模型不能只在性能较强的电脑上运行,还需要考虑在 Orange Pi 等边缘设备上的部署效果。这就涉及模型轻量化、NPU 加速、INT8 量化、推理速度优化和资源占用控制。上半年我逐渐意识到,视觉算法的最终效果不仅取决于模型精度,还取决于它能否在目标硬件上稳定、实时、可重复地运行。

在团队协作方面,RoboCup 项目也让我对项目管理有了更直接的认识。一个完整项目不能只依赖某一个人临时推进,而需要明确分工,包括数据采集、标注规范、模型训练、环境配置、部署测试、代码管理、文档记录和比赛现场调试。尤其是对于新队员来说,如果没有基础文档和环境搭建教程,很容易在 Linux、SSH、conda、CUDA、摄像头驱动等问题上花费大量时间。因此,我也开始重视队伍内部技术文档的整理,希望把一些基础流程沉淀下来,降低后续成员的上手成本。

四、数学建模:从套用模型到构建问题框架

上半年,我继续保持对数学建模竞赛的准备,尤其关注 MCM/ICM 和国内数学建模竞赛。相比之前更多关注“该用什么模型”,现在我开始更加重视建模问题的完整流程,包括问题分析、假设建立、变量定义、目标函数、约束条件、算法设计、结果解释、敏感性分析和论文表达。

在一些建模练习中,我接触了多目标优化、Pareto 前沿、成本—时间权衡、资源分配、运输系统规划等问题。比如在空间电梯与火箭运输的建模任务中,问题表面上是比较不同运输方式的成本和效率,但真正建模时需要明确许多变量:总运输质量是多少,火箭单次载荷是多少,单次发射成本是多少,空间电梯单位运输成本是多少,空间电梯年吞吐量是多少,不同发射场的年发射能力如何估计,运输比例如何影响总成本和总时间等。

这类问题让我认识到,数学建模不是简单地把几个公式堆在一起,而是要将现实问题抽象成可以计算的系统。模型假设必须服务于问题目标,变量设计必须能够支撑后续计算,图表表达必须能够解释模型结论。尤其是在多目标优化问题中,很多时候不存在一个绝对最优解,而是存在成本较低但时间较长、时间较短但成本较高的不同方案。这时就需要引入 Pareto 前沿、knee point 等概念,帮助分析不同方案之间的权衡关系。

在论文写作方面,我也开始更加注意表达的规范性。数学建模论文不只是展示代码运行结果,更重要的是让读者理解为什么这样建模、每个假设有什么作用、算法流程如何实现、结果图表说明了什么问题。如果图表没有解释清楚,即使模型本身能运行,也很难形成有说服力的论文。因此,上半年我在图表风格、论文结构、符号系统和结果分析方面进行了更多练习。

目前的问题是,我对一些模型和算法的掌握还不够深入,有时能够使用工具做出结果,但对算法本身的推导和适用条件理解还不够充分。下半年需要继续加强数学基础、优化方法、统计分析和可视化表达能力,使建模能力从“能完成”进一步提升到“能解释、能比较、能优化”。

五、工程能力:在环境配置和项目复现中补齐基础

上半年,我在工程实践方面遇到了很多具体问题,包括 Linux 基础操作、服务器环境配置、SSH 连接、conda 环境管理、Python 依赖安装、PyTorch、CUDA、nvcc、Ray、RoboTwin、Hugging Face 资源下载、软链接、磁盘管理、压缩包解压、网络连接和代理配置等。这些问题看起来比较分散,但它们实际上构成了 AI 实验和机器人项目的基础能力。

在刚开始处理这些问题时,我经常会被环境错误卡住。例如,某个依赖没有安装,某个 Python 包版本不匹配,CUDA 版本和 PyTorch 版本不兼容,服务器下载数据速度过慢,Hugging Face 资源中断,或者解压后路径和脚本预期不一致。这些问题不会直接出现在论文方法部分,但如果解决不了,实验就无法运行。因此,我逐渐意识到,科研和工程实践并不是只有“看论文”和“写模型”,还必须具备稳定的环境管理和问题排查能力。

通过这些实践,我对 Linux 工作流有了更具体的理解。比如,如何查看当前路径和磁盘空间,如何判断文件应该放在系统盘还是数据盘,如何使用软链接避免重复存储,如何通过 SSH 连接服务器,如何在没有图形界面的情况下操作远程机器,如何查看显卡和 CUDA 状态,如何判断程序是环境问题、依赖问题、网络问题还是代码问题。这些能力虽然基础,但非常重要。

同时,我也开始意识到实验记录的重要性。很多环境问题如果只靠临时搜索和反复尝试,后续很容易忘记当时是如何解决的。尤其是在团队项目中,如果每个人都重复踩同样的坑,会造成大量时间浪费。因此,下半年我需要进一步规范项目记录,包括环境版本、安装步骤、关键命令、报错信息、解决方案、数据路径和实验结果等内容。

六、论文阅读与知识输出:从被动输入转向主动整理

上半年,我也持续进行论文阅读和技术笔记整理。相比单纯阅读材料,写作和整理笔记能够迫使我重新组织知识结构,也能暴露理解中的漏洞。对于 Diffusion Policy、Flow Matching、VLA、强化学习、Transformer 等内容,如果只是看一遍,很容易产生“好像懂了”的错觉;但一旦要写成一篇完整的 paper reading,就必须解释清楚问题背景、方法动机、核心公式、模型结构、实验设计和局限性。

在写作过程中,我逐渐形成了一种更适合自己的论文阅读流程。首先看论文试图解决什么问题,而不是直接看模型细节。其次分析作者为什么认为已有方法不足,新的方法改进在哪里。然后再看具体模型结构、训练目标和实验设置。最后思考这篇论文和自己的研究兴趣有什么关系,能否迁移到具身智能、机器人控制或竞赛任务中。

这种写作训练对我帮助较大。它不仅提高了我对论文的理解,也让我在表达复杂技术内容时更加有条理。尤其是对于新概念,如果能够用较清楚的语言向别人解释,就说明自己至少已经建立了初步理解。后续我希望继续把论文阅读、代码复现和博客写作结合起来,而不是把它们割裂成三个独立任务。

七、上半年存在的问题

虽然上半年在多个方面都有推进,但也暴露出一些明显问题。

第一个问题是学习内容较多,但部分方向还不够深入。由于人工智能、具身智能、生成模型、强化学习、机器人视觉和数学建模都很有吸引力,我上半年经常同时关注多个主题。这种广泛探索有助于开阔视野,但也容易导致每个方向都只停留在入门或中等理解层面。下半年需要进一步明确主线,减少低效切换,把更多时间投入到少数关键方向上。

第二个问题是理论学习和代码实践之间还存在断层。有些论文方法在概念层面能够理解,但真正到复现和实验时,会遇到大量细节问题,包括数据格式、模型输入输出、训练参数、损失函数实现、环境依赖和评估指标等。仅仅理解论文结论是不够的,必须通过代码和实验把理解落实下来。

第三个问题是项目推进的节奏还需要优化。无论是 RoboCup、数学建模还是论文阅读,如果缺少阶段性目标,就容易出现“持续学习但产出不明确”的情况。后续需要把大目标拆成更具体的任务,例如某一周完成数据采集规范,某一阶段跑通 baseline,某一时间节点完成一篇论文笔记或一次实验记录。

第四个问题是文档和复盘还不够及时。很多问题当时解决了,但没有及时记录,之后再遇到类似问题还需要重新排查。对于个人学习和团队协作来说,这都是效率损失。下半年需要进一步提高记录意识,把常见环境配置、报错解决、模型训练流程和实验结果沉淀成可复用材料。

八、下半年计划

下半年,我计划围绕以下几个方向继续推进。

首先,在专业学习方面,继续夯实计算机科学与人工智能基础。重点加强深度学习、强化学习、机器人学习、多模态模型和生成模型相关内容。对于重要概念,不只停留在文字理解上,而是尽量结合公式、代码和实验进行学习。

其次,在科研方向方面,继续聚焦具身智能。重点关注 VLA 模型、Diffusion Policy、Flow Matching for Action Generation、机器人操作策略学习和在线强化学习等方向。下半年希望能够选择若干代表性论文进行深入阅读,并尝试完成部分代码复现或实验验证。

第三,在 RoboCup 项目方面,继续推进 3D 视觉识别系统建设。重点包括数据采集与标注、桌面 ROI 检测、物体检测与计数、深度信息利用、旋转场景去重、边缘设备部署和推理加速。目标不是只训练出一个模型,而是形成一套能够稳定运行、便于调试和适应比赛环境的完整系统。

第四,在数学建模方面,继续提高问题抽象、模型构建、算法实现和论文表达能力。除了掌握常见模型,还要加强对优化、统计、仿真和敏感性分析的理解。图表制作和论文写作也需要继续训练,使结果表达更加规范、清晰和有说服力。

第五,在工程能力方面,继续熟悉 Linux、服务器、Git、Python 环境管理、CUDA、PyTorch 和实验自动化流程。下半年需要减少重复踩坑,提高环境配置和问题排查效率,并逐步形成自己的工程文档体系。

第六,在知识输出方面,继续整理博客、论文阅读笔记和项目文档。输出不是额外负担,而是帮助自己建立长期知识结构的重要方式。后续应当把论文阅读、代码复现、竞赛实践和总结写作结合起来,形成稳定的积累路径。

九、阶段性认识

通过上半年的学习和实践,我对自己的发展方向有了更清楚的认识。计算机科学不是单纯学习某几门课程,也不是只会调用现成模型,而是需要把理论、算法、系统、工程和表达能力结合起来。尤其是在具身智能和机器人方向,一个完整任务往往同时涉及感知、理解、决策、控制、部署和评估,这对综合能力提出了更高要求。

上半年最大的收获,并不是已经完成了某一个特别成熟的成果,而是逐渐建立了更清晰的问题意识:我开始更关注一个模型为什么这样设计,一个项目为什么这样拆解,一个实验为什么这样评估,一个系统为什么在真实环境中不稳定。这种问题意识比单纯积累知识点更重要。

下半年,我需要在已有基础上进一步减少分散探索,增强持续投入,把学习内容转化为更明确的成果。具体来说,就是在具身智能方向形成更稳定的论文积累,在 RoboCup 项目中形成更完整的工程系统,在数学建模训练中形成更规范的论文表达,在工程实践中形成更可靠的复现和部署能力。只有把这些能力持续连接起来,才能真正从“学习很多内容”过渡到“能够独立完成有质量的项目和研究”。


Thanks for reading!

2026年年中总结

Wed May 06 2026
5628 words · 19 minutes

评论