cover
思考 #ChatGPT #OpenAI

由GPT-4想到的

Asea
2023-03-17 21

从去年年末ChatGPT刚发布我就有关注,抓紧注册了账号并体验了一把,到现在仅仅几个月,随着GPT-4的推出,以及微软的诸多操作,AI的发展速度实在让人惊叹。最近也看了不少文章和项目,在此记录一下感受。

在GPT-4推出之前,关于3.5接口的项目已经数不胜数,能够想到的、不能想到的idea都已经被人实践并以几近疯狂的速度开发了出来,例如翻译软件、pdf阅读插件、视频内容总结等等。由于3.5并不支持多模态,因此使用ocr进行文字转换并包装上GPT接口的项目也多如牛毛。而随着GPT-4的发布,这类项目也迅速宣告终结,因为其本身支持图片的理解。

需要注意的是,当前99%的项目都只是个API Wrapper,并没有多少含金量,门槛极低。真正门槛高的是LLM(大型语言模型),是高质量的语料库。于是我开始思索GPT接下来会发展成什么样子。微软的 visual-chatgpt 给了很好的答复,如readme里开头描述的那样:

Visual ChatGPT connects ChatGPT and a series of Visual Foundation Models to enable sending and receiving images during chatting.

如图,我们可以使用自然语言从而达到图像处理的目的,这意味着交互模式发生了质的改变,也就是说,GPT不将局限于问答。或者说,一切想象都蕴含在了里。GPT将不仅仅用于Chat,而会接入更多的软件,从而彻底颠覆传统的交互模式,例如微软刚刚发布的office+copilot。想象一下,你可以在剪辑软件里告诉AI你的想法,它会帮你完成剪辑,你可以不停地提修改意见,并最终达到满意的效果;你可以告诉建模软件你需要建哪些模型;你可以在IDEA里直接表述自己的想法,他将会帮你完成一整个后端项目而非此前的对话式coding......而至于传统的符号相关的如翻译、律师等等工作,都将面临巨大的变革。

不禁想起多年前老罗的TNT,罗永浩在发布会上按着Excel的某个cell,然后嘴里说出指令,文字就跃然屏上,这在当时看来极具创新精神的想法貌似将被彻底实现,并且超越。基于自然语言的交互模式究竟会发展到哪种地步,能够彻底实现多模态(输入输出语音、视频等等)会带了怎样的改变,这些实在是不得而知。个人能力在政治以及大量的资本面前都微不足道,我们能做的只有更好的prompt。

CC BY-NC-SA 4.0 Licensed

COMMENTS (0)

2025 AseaBlog

豫ICP备2022022909号