回答:
支持,理论上Zephyr SDK 中默认已支持一定范围的摄像头的驱动,可以直接使用,若没有对应的驱动则需要自己适配驱动。
另外聆思默认提供的离线视觉识别算法是基于配套摄像头来优化的,更换摄像头会影响视觉识别效果。
回答:
角度大小都是支持的,但是成像效果不同:
视角大 (如:90° - 110°),覆盖范围广,但会畸变。
视角窄 (如:50° - 60°),看到的区域窄,成像效果更接近人眼。
回答:
支持,但是需要注意的是:
回答:
CSK6MIX 的 WIFI 模组为 ESP32-C3-MINI-1 不支持外接天线,需要更换支持外接天线的 WIFI 模组 比如:ESP32-C3-MINI-1U


可能原因
I2C总线电路异常。
解决方法
取下摄像头与屏幕,检查引脚与插座是否有杂物,排除异常后重新安装。
可能原因
部分 Type-C 线仅支持供电,而不支持数据传输。
解决方法
更换为确保具备数据传输功能的 TypeC 线。
原因
32M Flash需要在Reset电路硬件设计上增加支持,NanoKit开发板未存在此设计,烧录完成后烧录器发出的硬件 Reset 指令无效。
解决方法
在NanoKit上验证32M Flash时需断电复位,进行产品硬件设计时,请咨询FAE了解此部分硬件设计注意事项。
可能原因
使用在线模组 WIFI 功能情况下,外部供电电流不足可能导致模组运转和 Jlink 运行异常。
解决方法
原因
目前仅支持2.4G频段的WIFI网络接入
解决方法
原因
不同手机屏幕亮度或环境光线会影响扫码识别
解决方法
解决方法
点击 1# 切换为数字输入键盘界面

解决办法
设置交互唤醒方式为“语音唤醒(多轮对话)"则实现主动打断功能
回答
初次使用需要设备进行初始化,请耐心等待~
可能原因
烧录 cae_esr.bin 时,没有把烧录地址修改为 0x600000
解决办法
首先,重新烧录最初的”小聆小聆“唤醒词的固件(llm_pic.bin),烧录地址为 0x0
然后,再把自定义唤醒词的固件烧录到地址0x600000即可
可能原因
使用 聆思AI语音定制平台 进行算法资源打包时,添加了命令词或多个唤醒词

解决办法
算法资源打包时,只保留一条唤醒词,然后重新打包烧录即可。目前 CSK6 MIX开发板仅支持更换唤醒词。

解决办法



回答
接收协议和发送协议的选项是早期版本设计中的遗留界面,在当前版本中并无实际功能。我们为了简化配置流程、提升用户体验,在后续的版本更新中已经移除了该显示界面,这不会影响您当前的使用。
可能原因
启动TF卡合集内的应用时会重新烧录固件,所以会覆盖掉唤醒词的固件吗,就导致唤醒词还原成”小聆小聆“了
解决办法
不再使用TF卡启动的固件,烧录最初的”小聆小聆“唤醒词的固件(llm_pic.bin),烧录地址为 0x00000
然后,再把自定义唤醒词的固件烧录到地址0x600000即可
回答
不再使用出厂默认的 TF 卡启动固件,直接烧录【语音+视图】功能的应用固件(llm_pic.bin),可参考文档《大模型多模态(识图 + 语音识别) 固件下载与烧录》进行烧录。
回答
首先,参考文档 《聆思 CSK6大模型语音视觉开发板接入AIUI技能实操(语音控制风扇开关)》把控制风扇开关的逻辑修改成使用函数play_prompt_sound()播放指定音频文件。
然后,可以参考文档 《替换唤醒词应答语》,把回复语音频一起打包到固件烧录即可。
回答
CSK6 开发板不支持传统的直接蓝牙配对连接,而是通过蓝牙配网的方式实现设备联网。开发板集成了ESP32 C3模组,支持蓝牙BLE连接,这为小程序配网提供了硬件基础。
详细的操作步骤请参考文档《语音交互与识图 功能体验》中的“配置网络及设备绑定”章节,该章节提供了完整的配网流程说明。
问题截图:

可能原因:
利用串口接入自建应用时,没有设置 secret_id
解决办法:
通过扫描二维码进行接入(扫码接入会自动设置secret_id)


通过串口发送命令 set secret_id 设置 secret_id
set secret_id cb09013f-xxx-xxx-xxx-e212b32f9218

回答
因为高质量文生图的生成时间较长,为了防止突然打断后续的语音交互,采用弹窗的方式来让用户选择是否显示图像结果。
需要将固件版本更新到 3.1.0 及以上,3.1.0 版本新增了弹窗提示功能。
建议参照文档《大模型多模态(识图 + 语音识别) 固件下载与烧录》更新最新固件。

回答
MIX开发板实现了多种 AI 应用,需要用到摄像头应用有:语音交互与识图、人脸识别、坐姿检测、头肩&手势识别、物品分类。
为了更好的演示功能(能够直接从屏幕中看到识别效果),需要将摄像头后置的应用有:语音交互与识图、物品分类

需要将摄像头前置的应用有:人脸识别、坐姿检测、头肩&手势识别

您可以尝试捏住摄像头左右晃动即可调整摄像头位置
回答
仅支持固件版本 3.1.0 及以上查看,如没有则是 3.1.0 版本以下,建议根据文档《大模型多模态(识图 + 语音识别) 固件下载与烧录》更新最新固件
下滑首页 --> 按齿轮图标 --> 点击应用 --> 显示固件版本号

回答
暂不支持,CSK6 MIX开发板采用 Zephyr RTOS 作为其操作系统。
回答
不支持基于 KEIL 进行开发,可以参考文档《获取大模型套件SDK》搭建CSK6 MIX开发板的开发环境。
回答
CSK6 MIX开发板的默认出厂烧录了TF卡应用加载固件。
如果您有TF卡读卡器的情况下,可以根据文档 《应用合集TF卡》 重新制作TF卡合集并烧录TF卡启动固件。
如果您没有读卡器的话,可以根据文档《大模型多模态(识图 + 语音识别) 固件下载与烧录》直接烧录 TF 卡内的应用固件。
回答
可以在文档 《应用合集TF卡》 重新制作TF卡合集,将合集中文件夹的编号修改成你想要的顺序即可。
比如:把 [001]LLM_pic 跟 [002]LLM_chat 调换顺序,把文件夹名字修改为 [002]LLM_pic 跟 [001]LLM_chat,然后重新插入 TF 卡即可

问题截图
头肩&手势检测应用(duomotai_ap/apps/hsd)中的下图所示的回调函数负责串口打印,示例运行过程中,每秒只是打印出来2次,也就是FPS=2, 但是屏幕显示的 FPS 是 7 左右,对应不上是怎么回事呢?

回答:
算法会输出多个识别结果,有时输出 4 个,有时输出 1 个,输出多个结果时会在同时打印到串口上。
看似是不一致的,实际上是一样的,都是每秒输出 7 个识别结果,也就都是 FPS 为 7 左右

更多关于头肩检测帧率的信息可以参考 这篇文档
回答:
为了集中资源并提供更优的性能与功能支持,原有的 LLM_chat 应用示例 已不再更新维护。
其核心的聊天交互能力已全面迁移并集成至最新的 LLM_pic 应用示例 中。
强烈建议您切换至 LLM_pic 示例进行测试和开发,该示例不仅包含了聊天功能,还提供了文生图以及识图功能,能为您提供更流畅的体验和更完善的技术支持。
回答:
CSK6 目前不适合也不支持在端侧部署和运行轻量级大模型(LLM),其主要瓶颈在于算力、内存等硬件资源与大模型的要求存在数量级差距
回答:
是的,离线 AI 算法需要授权文件,烧录到地址0xfff000
回答:
目前CSK6芯片不支持离线命令词功能。
MARS模组支持离线命令词功能,可查看相关的介绍文档:https://docs2.listenai.com/x/eI3K-GObW
MARS模组购买链接
回答:
可以通过串口进行通信,可以参考文档《实操给触摸一体机接入大模型语音交互》 接入扩展串口屏幕进行开发。
回答:
支持。
CSK-MIX开发板出厂的触摸显示屏分辨率 320 * 240 的触摸显示屏,屏显硬件(IC是ST7789V)接口为 SPI,触摸(IC是FT5336)硬件接口为 I2C。
出厂的接口一致即可,但是需要自行适配驱动。
回答:
不支持。
回答:
不支持。
回答:
撕掉镜头上的膜,如下图:

回答:
接入串口日志,在日志内搜索 "tts url"

有的,您可以编译SDK中的 apps/audio_recognition_online 应用。具体使用说明可参考SDK内的README.md。

编译命令为
lisa zep build -b csk6_duomotai_devkit apps\audio_recognition_online -p
编译结束后,使用软件 cskburn desktop 烧录 ./build/zephyr.bin 文件到开发板内

回答:
为保证语音交互质量,推荐使用AEC通道。它能有效消除扬声器声音对麦克风造成的回声干扰,确保在语音唤醒、识别等场景下的清晰度和准确性。

回答:
固件版本号在 3.1.3 及以上则接入小聆 2.0。
建议您参考文档《大模型多模态(识图 + 语音识别) 固件下载与烧录》直接更新最新固件即可。
回答:
CSK6-MIX开发板 目前不支持云端更新唤醒词的功能,如果您有更换唤醒词的需求,请参考文档《替换唤醒词》进行唤醒词更新