由GPT-4想到的

从去年年末ChatGPT刚发布我就有关注，抓紧注册了账号并体验了一把，到现在仅仅几个月，随着GPT-4的推出，以及微软的诸多操作，AI的发展速度实在让人惊叹。最近也看了不少文章和项目，在此记录一下感受。

在GPT-4推出之前，关于3.5接口的项目已经数不胜数，能够想到的、不能想到的idea都已经被人实践并以几近疯狂的速度开发了出来，例如翻译软件、pdf阅读插件、视频内容总结等等。由于3.5并不支持多模态，因此使用ocr进行文字转换并包装上GPT接口的项目也多如牛毛。而随着GPT-4的发布，这类项目也迅速宣告终结，因为其本身支持图片的理解。

需要注意的是，当前99%的项目都只是个API Wrapper，并没有多少含金量，门槛极低。真正门槛高的是LLM（大型语言模型），是高质量的语料库。于是我开始思索GPT接下来会发展成什么样子。微软的 visual-chatgpt 给了很好的答复，如readme里开头描述的那样：

Visual ChatGPT connects ChatGPT and a series of Visual Foundation Models to enable sending and receiving images during chatting.

如图，我们可以使用自然语言从而达到图像处理的目的，这意味着交互模式发生了质的改变，也就是说，GPT不将局限于问答。或者说，一切想象都蕴含在了答里。GPT将不仅仅用于Chat，而会接入更多的软件，从而彻底颠覆传统的交互模式，例如微软刚刚发布的office+copilot。想象一下，你可以在剪辑软件里告诉AI你的想法，它会帮你完成剪辑，你可以不停地提修改意见，并最终达到满意的效果；你可以告诉建模软件你需要建哪些模型；你可以在IDEA里直接表述自己的想法，他将会帮你完成一整个后端项目而非此前的对话式coding......而至于传统的符号相关的如翻译、律师等等工作，都将面临巨大的变革。

不禁想起多年前老罗的TNT，罗永浩在发布会上按着Excel的某个cell，然后嘴里说出指令，文字就跃然屏上，这在当时看来极具创新精神的想法貌似将被彻底实现，并且超越。基于自然语言的交互模式究竟会发展到哪种地步，能够彻底实现多模态（输入输出语音、视频等等）会带了怎样的改变，这些实在是不得而知。个人能力在政治以及大量的资本面前都微不足道，我们能做的只有更好的prompt。

GitHub Actions 自动构建Electron多平台应用

文汇食记

COMMENTS (0)