2026年年中总结

2026年上半年，对我来说是一个从“广泛学习”逐渐转向“方向聚焦”的阶段。相比过去更多地围绕课程任务和基础知识展开学习，这半年我开始更加有意识地把计算机科学基础、人工智能方法、具身智能研究、机器人视觉竞赛、数学建模能力和工程实践能力联系在一起。整体来看，上半年并不是单一维度的学习积累，而是一个多条线并行推进、相互影响、逐渐形成个人发展方向的过程。

一、专业学习：从基础知识学习转向系统性理解

在专业学习方面，我继续围绕计算机科学与技术的核心能力进行积累。上半年，我一方面保持对程序设计、算法、数学基础、机器学习等基础内容的学习，另一方面也开始更深入地接触深度学习、强化学习、生成模型、多模态模型和机器人学习等方向。

在人工智能相关内容中，我重点关注了 Transformer、Attention、Diffusion Model、Flow Matching、Diffusion Policy、VLA 模型等内容。刚开始接触这些概念时，我更多停留在“知道模型名字”和“理解基本用途”的层面，比如知道 Transformer 可以处理序列建模问题，扩散模型可以用于图像生成，强化学习可以用于智能体决策。但随着阅读资料和论文的深入，我逐渐意识到这些方法背后有更统一的逻辑：模型并不是孤立存在的，它们都在试图解决“如何表示复杂数据分布”“如何在条件约束下生成结果”“如何在不确定环境中做出动作决策”等问题。

例如，在学习扩散模型时，我最初关注的是“为什么要预测噪声而不是直接预测结果”。后来进一步理解到，预测噪声可以看作一种更稳定的训练目标，也类似于让模型学习从扰动状态回到真实数据分布的修正方向。再进一步学习 Flow Matching 时，我开始意识到它和扩散模型有相似的生成思想，但在数学形式上更强调学习连续时间下的向量场。这个过程让我对生成模型的理解不再局限于“图像生成工具”，而是开始从概率分布、条件建模、连续动力系统和优化目标的角度重新理解它。

在强化学习方面，我也开始从基础概念逐渐进入更具体的研究问题。比如策略、价值函数、奖励、轨迹、探索与利用、在线优化、test-time adaptation 等概念，之前可能只是分散地了解，但现在逐渐能够把它们放在机器人任务中理解：一个智能体不仅要看懂环境，还要根据目标生成动作，并且在执行过程中不断调整策略。尤其是在具身智能任务中，强化学习不只是一个算法模块，而是感知、决策、控制和反馈闭环中的重要组成部分。

通过这些学习，我逐渐发现，计算机科学的学习不能只停留在“会用某个库”或者“跑通某个模型”上，更重要的是理解模型设计背后的假设、任务约束和适用边界。上半年我在这方面还没有达到足够深入的程度，但已经开始形成一种更系统的学习方式：先理解问题定义，再分析模型结构，接着看训练目标和实验设置，最后思考它能否迁移到自己的研究或竞赛任务中。

二、科研方向探索：具身智能方向逐渐明确

上半年，我对未来研究方向的认识比之前更加清晰。相比单纯的计算机视觉、自然语言处理或生成式 AI，我对具身智能方向的兴趣进一步增强。具身智能的核心并不只是让模型“看懂”或“说对”，而是让智能体能够在真实或仿真环境中感知环境、理解任务、规划动作并完成操作。这种方向天然具有跨学科特征，涉及计算机视觉、机器人学、控制理论、强化学习、多模态建模和工程部署。

在相关论文和技术路线的学习中，我重点关注了视觉语言动作模型，也就是 VLA 模型。这个方向让我意识到，未来的智能系统可能不再只是单独处理图像、文本或动作，而是要把视觉信息、语言指令、机器人状态和连续动作统一到一个模型框架中。比如，机器人接收到一句“把杯子放到桌子左边”的指令后，需要先从视觉中识别杯子和桌子的位置，再理解“左边”的空间关系，接着生成机械臂或移动机器人的连续动作序列。这个过程比传统分类、检测或文本生成任务复杂得多。

在学习 VLA 模型时，我尤其关注了几个问题。第一，视觉语言模型中的先验知识如何传递给动作生成模块。第二，动作应该被表示为离散 token，还是连续空间中的轨迹。第三，Diffusion Policy 和 Flow Matching 这类生成式方法为什么适合连续动作建模。第四，强化学习是否可以在模型预训练之后进一步提升执行效果。第五，test-time optimization 或在线强化学习能否让模型在推理阶段根据反馈进行自适应调整。

这些问题目前还没有完全解决，但它们已经构成了我后续学习和研究的主线。相比之前“什么方向都想看一点”，现在我更加倾向于围绕具身智能中的“感知—语言—动作”闭环展开深入学习。这个方向既有理论问题，也有工程挑战；既需要理解模型结构，也需要能够搭建实验系统。对我来说，这种方向比较适合长期积累。

三、RoboCup 3D视觉赛：从模型训练走向系统工程

上半年，RoboCup 3D视觉赛是我投入较多精力的项目之一。这个项目让我明显感受到，真实竞赛任务和课堂作业有很大区别。课堂作业往往有明确输入、明确输出和较固定的评价方式，而机器人视觉竞赛则包含更多不确定因素：摄像头采集效果、光照变化、桌面摆放、物体遮挡、模型误检漏检、设备性能限制、运行速度要求、部署环境差异等，都会影响最终结果。

在技术方案上，我们尝试设计基于 YOLOv8 的双模型检测流程。整体思路是先使用较大的模型完成桌面区域识别和 ROI 划分，再使用较小的模型在目标区域内进行物体检测和计数。这样做的原因是，直接对整张图像进行物体识别可能会受到背景干扰，也可能导致桌面外的物体被误计入结果；而先检测桌面区域，再在桌面区域内部检测目标物体，可以让任务边界更加清晰，也有助于提升检测稳定性。

这个方案中有几个关键问题需要处理。首先是桌面区域的准确定位。桌面区域如果划分不准，后续的小模型检测就会受到影响。其次是桌面旋转或视角变化带来的计数问题。如果摄像头或桌面角度变化，模型可能在不同视角下对同一物体产生重复判断，因此需要结合空间位置、深度信息或几何约束进行去重。再次是 3D 深度信息的利用。仅靠 RGB 图像可以完成一部分识别任务，但在遮挡、重叠和高度变化场景下，深度信息对于判断物体位置和空间关系具有重要价值。

此外，边缘设备部署也是一个重要问题。比赛中模型不能只在性能较强的电脑上运行，还需要考虑在 Orange Pi 等边缘设备上的部署效果。这就涉及模型轻量化、NPU 加速、INT8 量化、推理速度优化和资源占用控制。上半年我逐渐意识到，视觉算法的最终效果不仅取决于模型精度，还取决于它能否在目标硬件上稳定、实时、可重复地运行。

在团队协作方面，RoboCup 项目也让我对项目管理有了更直接的认识。一个完整项目不能只依赖某一个人临时推进，而需要明确分工，包括数据采集、标注规范、模型训练、环境配置、部署测试、代码管理、文档记录和比赛现场调试。尤其是对于新队员来说，如果没有基础文档和环境搭建教程，很容易在 Linux、SSH、conda、CUDA、摄像头驱动等问题上花费大量时间。因此，我也开始重视队伍内部技术文档的整理，希望把一些基础流程沉淀下来，降低后续成员的上手成本。

四、数学建模：从套用模型到构建问题框架

上半年，我继续保持对数学建模竞赛的准备，尤其关注 MCM/ICM 和国内数学建模竞赛。相比之前更多关注“该用什么模型”，现在我开始更加重视建模问题的完整流程，包括问题分析、假设建立、变量定义、目标函数、约束条件、算法设计、结果解释、敏感性分析和论文表达。

在一些建模练习中，我接触了多目标优化、Pareto 前沿、成本—时间权衡、资源分配、运输系统规划等问题。比如在空间电梯与火箭运输的建模任务中，问题表面上是比较不同运输方式的成本和效率，但真正建模时需要明确许多变量：总运输质量是多少，火箭单次载荷是多少，单次发射成本是多少，空间电梯单位运输成本是多少，空间电梯年吞吐量是多少，不同发射场的年发射能力如何估计，运输比例如何影响总成本和总时间等。

这类问题让我认识到，数学建模不是简单地把几个公式堆在一起，而是要将现实问题抽象成可以计算的系统。模型假设必须服务于问题目标，变量设计必须能够支撑后续计算，图表表达必须能够解释模型结论。尤其是在多目标优化问题中，很多时候不存在一个绝对最优解，而是存在成本较低但时间较长、时间较短但成本较高的不同方案。这时就需要引入 Pareto 前沿、knee point 等概念，帮助分析不同方案之间的权衡关系。

在论文写作方面，我也开始更加注意表达的规范性。数学建模论文不只是展示代码运行结果，更重要的是让读者理解为什么这样建模、每个假设有什么作用、算法流程如何实现、结果图表说明了什么问题。如果图表没有解释清楚，即使模型本身能运行，也很难形成有说服力的论文。因此，上半年我在图表风格、论文结构、符号系统和结果分析方面进行了更多练习。

目前的问题是，我对一些模型和算法的掌握还不够深入，有时能够使用工具做出结果，但对算法本身的推导和适用条件理解还不够充分。下半年需要继续加强数学基础、优化方法、统计分析和可视化表达能力，使建模能力从“能完成”进一步提升到“能解释、能比较、能优化”。

五、工程能力：在环境配置和项目复现中补齐基础

上半年，我在工程实践方面遇到了很多具体问题，包括 Linux 基础操作、服务器环境配置、SSH 连接、conda 环境管理、Python 依赖安装、PyTorch、CUDA、nvcc、Ray、RoboTwin、Hugging Face 资源下载、软链接、磁盘管理、压缩包解压、网络连接和代理配置等。这些问题看起来比较分散，但它们实际上构成了 AI 实验和机器人项目的基础能力。

在刚开始处理这些问题时，我经常会被环境错误卡住。例如，某个依赖没有安装，某个 Python 包版本不匹配，CUDA 版本和 PyTorch 版本不兼容，服务器下载数据速度过慢，Hugging Face 资源中断，或者解压后路径和脚本预期不一致。这些问题不会直接出现在论文方法部分，但如果解决不了，实验就无法运行。因此，我逐渐意识到，科研和工程实践并不是只有“看论文”和“写模型”，还必须具备稳定的环境管理和问题排查能力。

通过这些实践，我对 Linux 工作流有了更具体的理解。比如，如何查看当前路径和磁盘空间，如何判断文件应该放在系统盘还是数据盘，如何使用软链接避免重复存储，如何通过 SSH 连接服务器，如何在没有图形界面的情况下操作远程机器，如何查看显卡和 CUDA 状态，如何判断程序是环境问题、依赖问题、网络问题还是代码问题。这些能力虽然基础，但非常重要。

同时，我也开始意识到实验记录的重要性。很多环境问题如果只靠临时搜索和反复尝试，后续很容易忘记当时是如何解决的。尤其是在团队项目中，如果每个人都重复踩同样的坑，会造成大量时间浪费。因此，下半年我需要进一步规范项目记录，包括环境版本、安装步骤、关键命令、报错信息、解决方案、数据路径和实验结果等内容。

六、论文阅读与知识输出：从被动输入转向主动整理

上半年，我也持续进行论文阅读和技术笔记整理。相比单纯阅读材料，写作和整理笔记能够迫使我重新组织知识结构，也能暴露理解中的漏洞。对于 Diffusion Policy、Flow Matching、VLA、强化学习、Transformer 等内容，如果只是看一遍，很容易产生“好像懂了”的错觉；但一旦要写成一篇完整的 paper reading，就必须解释清楚问题背景、方法动机、核心公式、模型结构、实验设计和局限性。

在写作过程中，我逐渐形成了一种更适合自己的论文阅读流程。首先看论文试图解决什么问题，而不是直接看模型细节。其次分析作者为什么认为已有方法不足，新的方法改进在哪里。然后再看具体模型结构、训练目标和实验设置。最后思考这篇论文和自己的研究兴趣有什么关系，能否迁移到具身智能、机器人控制或竞赛任务中。

这种写作训练对我帮助较大。它不仅提高了我对论文的理解，也让我在表达复杂技术内容时更加有条理。尤其是对于新概念，如果能够用较清楚的语言向别人解释，就说明自己至少已经建立了初步理解。后续我希望继续把论文阅读、代码复现和博客写作结合起来，而不是把它们割裂成三个独立任务。

七、上半年存在的问题

虽然上半年在多个方面都有推进，但也暴露出一些明显问题。

第一个问题是学习内容较多，但部分方向还不够深入。由于人工智能、具身智能、生成模型、强化学习、机器人视觉和数学建模都很有吸引力，我上半年经常同时关注多个主题。这种广泛探索有助于开阔视野，但也容易导致每个方向都只停留在入门或中等理解层面。下半年需要进一步明确主线，减少低效切换，把更多时间投入到少数关键方向上。

第二个问题是理论学习和代码实践之间还存在断层。有些论文方法在概念层面能够理解，但真正到复现和实验时，会遇到大量细节问题，包括数据格式、模型输入输出、训练参数、损失函数实现、环境依赖和评估指标等。仅仅理解论文结论是不够的，必须通过代码和实验把理解落实下来。

第三个问题是项目推进的节奏还需要优化。无论是 RoboCup、数学建模还是论文阅读，如果缺少阶段性目标，就容易出现“持续学习但产出不明确”的情况。后续需要把大目标拆成更具体的任务，例如某一周完成数据采集规范，某一阶段跑通 baseline，某一时间节点完成一篇论文笔记或一次实验记录。

第四个问题是文档和复盘还不够及时。很多问题当时解决了，但没有及时记录，之后再遇到类似问题还需要重新排查。对于个人学习和团队协作来说，这都是效率损失。下半年需要进一步提高记录意识，把常见环境配置、报错解决、模型训练流程和实验结果沉淀成可复用材料。

八、下半年计划

下半年，我计划围绕以下几个方向继续推进。

首先，在专业学习方面，继续夯实计算机科学与人工智能基础。重点加强深度学习、强化学习、机器人学习、多模态模型和生成模型相关内容。对于重要概念，不只停留在文字理解上，而是尽量结合公式、代码和实验进行学习。

其次，在科研方向方面，继续聚焦具身智能。重点关注 VLA 模型、Diffusion Policy、Flow Matching for Action Generation、机器人操作策略学习和在线强化学习等方向。下半年希望能够选择若干代表性论文进行深入阅读，并尝试完成部分代码复现或实验验证。

第三，在 RoboCup 项目方面，继续推进 3D 视觉识别系统建设。重点包括数据采集与标注、桌面 ROI 检测、物体检测与计数、深度信息利用、旋转场景去重、边缘设备部署和推理加速。目标不是只训练出一个模型，而是形成一套能够稳定运行、便于调试和适应比赛环境的完整系统。

第四，在数学建模方面，继续提高问题抽象、模型构建、算法实现和论文表达能力。除了掌握常见模型，还要加强对优化、统计、仿真和敏感性分析的理解。图表制作和论文写作也需要继续训练，使结果表达更加规范、清晰和有说服力。

第五，在工程能力方面，继续熟悉 Linux、服务器、Git、Python 环境管理、CUDA、PyTorch 和实验自动化流程。下半年需要减少重复踩坑，提高环境配置和问题排查效率，并逐步形成自己的工程文档体系。

第六，在知识输出方面，继续整理博客、论文阅读笔记和项目文档。输出不是额外负担，而是帮助自己建立长期知识结构的重要方式。后续应当把论文阅读、代码复现、竞赛实践和总结写作结合起来，形成稳定的积累路径。

九、阶段性认识

通过上半年的学习和实践，我对自己的发展方向有了更清楚的认识。计算机科学不是单纯学习某几门课程，也不是只会调用现成模型，而是需要把理论、算法、系统、工程和表达能力结合起来。尤其是在具身智能和机器人方向，一个完整任务往往同时涉及感知、理解、决策、控制、部署和评估，这对综合能力提出了更高要求。

上半年最大的收获，并不是已经完成了某一个特别成熟的成果，而是逐渐建立了更清晰的问题意识：我开始更关注一个模型为什么这样设计，一个项目为什么这样拆解，一个实验为什么这样评估，一个系统为什么在真实环境中不稳定。这种问题意识比单纯积累知识点更重要。

下半年，我需要在已有基础上进一步减少分散探索，增强持续投入，把学习内容转化为更明确的成果。具体来说，就是在具身智能方向形成更稳定的论文积累，在 RoboCup 项目中形成更完整的工程系统，在数学建模训练中形成更规范的论文表达，在工程实践中形成更可靠的复现和部署能力。只有把这些能力持续连接起来，才能真正从“学习很多内容”过渡到“能够独立完成有质量的项目和研究”。

Thanks for reading!