RESEARCH DOSSIER / LONG-TERM AI
技术博客
Tylogi 的长时智能研究、模型训练和 SillyBench 评估闭环概述。本页面概述了 Tylogi 的研究方向。我们的核心是"长时智能":即人工智能能够在长时间的交互中,持续保持其身份、记忆、情感连贯性以及可用的上下文,而非仅在单轮对话中表现优异。
我们致力于探索如何将这些能力从理论转化为实际产品。这包括设计模型架构、公开记录研究过程中的关键决策,并构建评估体系,以衡量模型是否能随着时间推移变得更加稳定、沉浸且实用。
模型
qwen3-4b-tylogiorm 是一款专注于角色扮演(RP)的后训练模型,基于 Qwen/Qwen3-4B 构建。它面向那些更看重角色一致性、独特语气和叙事连贯性的用户,而非追求通用助手功能。
该模型的主要目标并非成为全能型前沿助手,而是更加聚焦和务实:让一个小模型在沉浸式角色扮演方面真正表现出色。
在本代码库所存档的 SillyBench 测试中,这种专业化使其性能相比未经调优的 Qwen3-4B 基础模型实现了巨大飞跃,并在角色扮演专项评估中,达到了与多个规模大得多的参考模型相竞争的水平。
SillyBench
SillyBench 是研究闭环中的评估层。它专为长上下文角色扮演模型设计,重点关注最关键的失败模式:如角色偏移、情感连贯性丧失、沉浸感中断、语言重复以及在多轮对话中的叙事崩溃,而非事实性问答的准确性。
其意义在于超越论文中的空泛宣称。该代码库包含了方法论说明、场景素材、基准数据、执行工具和操作界面,使基准测试结果能够持续指导后续的模型训练和产品决策。
在实践中,它帮助我们判断一个模型是否显得更具生命力,并且这种判断所依据的原因是可识别、可比较、可在未来回溯验证的。
浙公网安备33011002019019号