
LNN(ListenAI Neural Network)是聆思科技自主研发的端到端AI开发闭环系统,通过深度融合量化训练与推理部署技术,实现从算法原型到芯片落地的无缝衔接。系统核心由两大组件构成:
- linger:PyTorch生态下的轻量化量化训练插件(仅兼容PyTorch框架),通过最小化代码侵入实现QAT量化训练,在多数场景下可实现浮点模型精度无损压缩;
- thinker:专为量化模型设计的推理优化引擎,基于计算图自动压缩与芯片级算子融合技术,在满足内存约束条件下实现推理性能最大化。
目前,LNN已成功支撑聆思芯片在计算机视觉、语音唤醒、离线翻译等20余个AI场景的落地应用,覆盖DNN/CNN/RNN等经典网络结构,并深度适配流式Encoder-Decoder架构,尤其擅长优化裁剪版Transformer及其衍生注意力模型。
LNN工具链支持聆思科技旗下的VENUS、MARS、ARCS和VENUSA四个系列芯片平台。由于芯片底层架构的特性,各平台对模型规模与网络拓扑存在差异化约束,但开发者无需关注底层适配规则,因LNN工具链已内置自动化校验机制:当模型通过thinker组件的tpacker打包流程时,即代表其已满足所有平台兼容性要求,可无缝部署至目标设备运行。有兴趣可查看各平台的约束细节模型选择须知。


当前版本linger支持以下特性:
- 训练量化(QAT)技术方案
- 采用对称量化策略与Q参数量化模式
- 支持per-tensor逐张量量化方式
linger采用基于PyTorch的混合精度训练框架,通过对已收敛的浮点模型实施量化感知训练(QAT)。其核心机制在于在前向传播中插入量化-反量化操作层,实时模拟量化误差,并通过反向传播将梯度差异反馈至网络参数,驱动模型自适应修正权重以补偿量化损失。经少量迭代周期后,即可获得高精度量化模型。特别针对聆思LUNA系列芯片的整数运算特性,Linger深度定制了取整策略与算子实现,保证训练环境与芯片推理结果的严格一致性。

- 无侵入式集成:仅需在现有PyTorch训练脚本中导入Linger库,通过数行API调用即可完成量化算子替换,沿用原始训练流程即可启动QAT;
- 弹性训练配置:支持动态缩减训练轮次与数据量,兼顾效率与效果,显著降低量化适配成本
- PyTorch生态兼容:基于PyTorch原生算子扩展规范构建,开发者可自由扩展新型量化算子,灵活适配各类定制化量化需求;
- 模块化设计:提供标准化接口与开发模板,便于快速集成第三方量化算法。
- 训推一体闭环:前端对接Linger量化训练,后端直连Thinker推理引擎,实现量化模型从训练到部署的零损耗转换;
- 自动化部署套件:配套可视化工具链支持模型校验、编译优化与跨平台打包,达成“零代码”AI应用落地,确保端侧推理性能与训练指标高度一致。

thinker是LNN 的通用推理引擎及配套工具集,通过模块化设计实现从计算图到芯片部署的全链路自动化处理
thinker采用模块化架构设计,通过解耦推理流程构建高效执行体系。系统由两大核心组件构成:
- 离线工具链:主要承载计算图优化、权重转换、内存预分配等预处理任务,形成标准化中间表示。同时具备性能仿真、一致性比对等辅助功能
- 轻量级运行时引擎:专注高性能推理执行,通过静态内存管理与硬件抽象层实现跨平台部署
功能模块示意图

- 离线工具包丰富,上手简单,支持各种一键式操作,正常情况下只需指定待处理计算图路径即可
- 零代码集成方案:引擎封装标准API接口,提供典型调用范例,典型场景仅需3步调用即可完成模型加载-推理-结果输出全流程
- 提供专业结果对比工具,轻松实现模型训练效果与芯片落地效果对齐
- 双引擎协同机制:图优化器生成紧凑IR中间层,执行器仅保留最小必要运算单元,有效降低运行时负载
- 硬件亲和设计:执行器采用ANSI C编写,通过编译期链接选择适配目标平台,实现二进制级硬件优化
- 内存确定性保障:离线阶段完成全图内存拓扑分析,运行时采用静态内存池管理,消除动态分配开销
- 调试友好架构:单文件交付模式支持仿真/真实硬件环境秒级切换,异常定位效率提升80%
- 异构模型支持:完整覆盖CV/NLP/ASR领域主流网络,原生兼容ResNet/Transformer/LSTM等50+经典架构
- 动态计算图处理:支持多分支输入/变长序列/实时流式数据,具备自动Batch合并与算子重排能力
- 开放扩展接口:提供ONNX标准算子库(含32+量化类型),支持用户自定义算子注册与热插拔加载
- 跨平台统一性:源码级平台无关设计,通过编译脚本宏配置即可生成Linux/VENUS/ARCS/VENUA平台版本
