Do interesting things

Basic Info

China - Shanghai
GitHub: Chi-Shan0707
中文名：池裕涵

我目前就读于复旦大学数学科学学院，修读信息与计算科学及人工智能双学位。

Experience

2025 年 9 月–至今 — 复旦大学数学科学学院。
2026 年 7–8 月 — UC Berkeley。

My research interests

我首先是一个数学学生，兴趣在应用数学：如何在不确定性中建模、推理并做出决策。这也引向我对 decision-making 的兴趣，尤其是人工智能系统或机器人做出的决策。我想理解这些决策什么时候可以被解释，什么时候值得信任。
更长期的 motivation 参见 plan 页面。

My featured works

以下是我独立完成的几个项目。我更想突出每个项目要回答的问题、给出的 artifact，以及它暴露出的边界。

token-verification-mirage ★ 3

单作者项目，完整流程由我负责。 对 LLM 数学推理中 token-level verification 信号的受控评估。
ICML 2026 Workshop on AI for Math (AI4Math) 的 workshop poster。

概述

问题。 entropy、log-probability、confidence trajectory 这类浅层 token 信号，能否在不额外调用模型的情况下区分数学推理轨迹的正确与错误？

方法。 我独立走通完整研究流程，包括数据集选择、模型部署、推理轨迹生成、评估设计、分析、图表调整、related work 组织与写作。实验在 MATH 与 BigMath、Qwen 与 Llama 的设置中比较 token 统计，并加入 within-problem evaluation、fixed-direction scoring 和 permutation-null calibration 等控制。

结果。 global pooling、in-sample scoring、direction-agnostic AUROC 等协议选择可以使 AUROC 变化最高约 0.18。Final-token entropy 在 direction-agnostic AUROC 下达到 0.72–0.75，但在 fixed-direction evaluation 下下降到 0.47–0.48。

Takeaway。 浅层 token 统计可以作为诊断信号，但不能在缺少协议控制时直接当作稳定的独立 verifier。

链接：论文 PDF · 代码 · Workshop

code-not-text ★ 3

独立测量研究。 便宜、手工构造的 reasoning-trace 特征，能否跨数学、科学问答和代码任务预测答案正确性？

概述

我在 DeepSeek-R1-0528-Qwen3-8B 上测试同一组特征：token confidence summaries、token trajectory statistics、continuity、novelty、reflection count，以及一个小的 activation-derived descriptor。数据包括 7,680 条数学 runs、12,672 条科学问答 runs、10,688 条代码 runs，并使用 problem-grouped splits 与 best-of-64 reranking。

结果。 同一组特征在数学推理中很强，在 GPQA 风格科学问答中部分有效，但在 LiveCodeBench-v5 代码任务上很弱：AoA 从数学的 0.958，到科学问答的 0.799，再到代码的 0.434；best-of-64 reranking 分别是 +10.0 pp、+8.0 pp、-0.6 pp。

Takeaway。 这不是在说“文本不能验证代码”。结论更窄：这些 cheap CoT-surface features 是 domain-specific measurement instruments。它们能追踪数学中的收敛式行为，但不能可靠追踪代码的可执行正确性。稳健性检查包括 83 个代码特征 sweep、分组 ablation、CoT-only judge、MLP、SSL pretraining、semantic-knot 标注和 token-level de-knotting。

链接：代码 · demo · 技术笔记

TinyLoRA-GRPO-Coder ★ 40

独立项目。 面向代码生成的小参数适配与强化学习训练管线。

概述

这是一个受 Learning to Reason in 13 Parameters 启发的独立复现与适配项目，从数学推理迁移到可验证的竞技编程代码生成。

项目基于 Qwen2.5-Coder-3B，使用很少的共享可训练参数，并采用真实编译运行奖励而非静态启发式。它对我的主要价值是走通完整 research loop：数据处理、训练、多 GPU 配置、奖励设计、评估与验证。

IntuitMath.skill ★ 4

独立开源 agent skill。 一个面向 AI agents 的数学学习 skill：把数学当作“概念为什么被发明”的故事，而不是定义列表。

概述

动机。 很多教材从漂亮的定义开始，但学习者真正需要的往往是前面的那段路：什么问题卡住了，旧工具哪里不够，新的概念到底修补了什么。IntuitMath 想把这条从好奇到严格的路径补回来。

工作方式。 它引导 agent 先讲动机、例子、失败尝试和反例，再做 proof repair，最后进入严格版本。一个定义应该像是某个真实问题的答案，而不是课本第一页突然出现的句子。

使用方法。 把它安装成 agent skill 后，可以用普通 prompt 或 /intuit-explain、/intuit-solve、/intuit-proof、/intuit-study、/intuit-note 这类命令。它适合概念解释、解题、证明修补、反例寻找、学习规划，以及生成 Markdown 或 HTML/KaTeX 数学笔记。

链接：代码 · README

microgpt.cpp ★ 7

独立项目。 从第一性原理出发，用 C++ 实现的极简 GPT。

概述

一个用于理解 transformer 内部机制的紧凑 C++ 实现，不依赖高层深度学习框架。目标是把数据流、张量操作和模型组件写得足够显式，便于检查和修改。

Service

学术服务与审稿工作。

ICML 2026 Workshop on AI for Math (AI4Math)
Reviewer, ICML 2026 Workshop on AI for Math (AI4Math), 2026。

Community Involvement

除了个人研究项目，我也维护一些面向社区的开源资料与工具，尤其关注那些信息分散、但对同学或开发者很有用的领域。

github-unflag-playbook-cn ★ 16
在线手册
面向中国大陆开发者的 GitHub 账号 flagged / hidden 自救手册与案例档案，系统整理申诉流程与案例。
ic-guide
在线指南
一张仍在生长的集成电路与微电子自学地图，整理科研方向导览、课程地图、工程工具教程和学习资源，帮助新人更快找到方向。
FDUGuideBook/nav-site
项目网站
参与维护由学生共同建设的复旦导航网站，让校内相关信息更容易被找到。
FDU-Sharing
项目网站
为复旦课程资料共享项目贡献资料、维护文档并补充小功能，希望帮助同学们更平等、方便地获取学习资料。

Tech stack and tools

Domain	Skills
Language	Python Node.js C++ C Java Lean 4 ε-N language, ε-δ language
IDE	VS Code 📕Draftbooks
OS	Windows Linux
Other	Markdown LaTeX Redstone

课程成绩 (Selected Course Grades)

学期 (Semester)	课程 (Course)	成绩 (Grade)
2025 秋季 (Fall 2025)	程序设计 (Programming)	A
	解析几何 (Analytic Geometry)	A
	数学分析 I (Mathematical Analysis I)	A
	高等代数 I (Advanced Algebra I)	A-
2026 春季 (Spring 2026)	数学分析 II (Mathematical Analysis II)	A+
	高等代数 II (Advanced Algebra II)	A
	人工智能软件基础 (Foundations of Software for Artificial Intelligence)	A
	人工智能引论 (Introduction to Artificial Intelligence)	A

云来山更佳，云去山如画；
山因云晦明，云山共高下。
—

Yuhan Chi