对LLM的使用过程常常会被自己「打脸」,有两个具体的例子。
一、工具层面
由于deepseek的大热,国内的LLM工具加速进入了群雄竞逐的时代。我最开始使用opencat,认为它虽然有缺点,但在ui美观度以及支持icloud同步方面做得很好。相比之下,我曾用过国外的typindmind,但发现它不仅吃相难看(付费授权本身价格高达99刀,然后超过10m以上数据的同步功能竟要价10刀/月),而且在用户体验上也不尽人意。就在我认为可以稳定使用opencat时,很快就有新的工具进入视野:老牌chatbox快速支持了硅基流动、火山引擎满血版本deepseek,有ios版本且对话体验流畅;新秀cherry studio有知识库,支持webdav同步且已宣布开发移动版本;而chatwise则能调用tavily甚至本地浏览器进行搜索,实现任意模型的联网检索,且ui美观度简直比opencat高一个量级;然后又回过头,发现以上这些功能,typingmind也已经逐步完善好了。也就是说,当你选择稳定使用一款工具时,不久就会有更符合实际需求的产品出现。
这种情况下,不应仅仅依赖某个单一工具,而应根据具体任务需求灵活切换,关键在于保证原始数据和记录无论在哪个工具中都能得到良好的保存,不影响后续分析。可以采用「按需选择、灵活切换」的方法,使工具始终为工作而服务,而不是被工具固化流程。
二、模型层面
在模型选择方面,我也经历过类似的调整。当deepseek r1发布时,我发现它在推理和文本生成上的表现与o1 preview相差无几,于是果断取消了chatgpt订阅,把节省下来的费用投入到更能发挥r1潜力的工具上。然而,深入使用后,我在flowith中对专业数据库进行分析时,发现实际结果显示,o1(而非o1 preview)的分析能力更为出色。对于数据分析和从灵感抽取来说,细微的生成差异往往十分关键。
还有常见的文本润色功能。r1在对文本进行润色时常常「想得太多」,大幅修改原文,使我不得不考虑是否应该退回使用v3版deepseek。而o1 preview同样作为推理模型,在应对「仅润色而非彻底改稿」的需求时表现得非常精准,输出的内容正符合预期。我还阅读到不少用户通过深度使用chatgpt deep research或o1 pro,可以在特定主题下生成结构完整、内容详实,甚至长达两万字的研究报告,以此成为快速阅读、吸收知识的利器,而deep research或是o1 pro是无法通过第三方软件接入的,只能选择付费订阅plus或是pro计划。
这种情况下,坦然决定接受LLM模型与工具对自己的「打脸」,以实际需求为导向,不固守某一款工具或模型,而是灵活地进行切换和比较。在传统笔记等方式中保存原始数据,再根据分析过程中遇到的问题选择更合适的辅助工具,并将结果记载回到原始笔记工具中。如此,能够确保记录和分析流程的连续性,同时也能迅速适应技术变革,帮助不断提高效率,而不是陷入工具更新换代带来的困扰。