爆火的ChatGPT太强了!写代码、改bug,可取代Stack Overflow了
机器之心报道
机器之心编辑部
关于 AI 的问题,可以直接问 AI。
OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bug……
只要和它聊上几句,一会儿功夫它就能把问题给你解决了。例如用户要求:「ChatGPT 帮我解释一下文中正则表达式的含义。」ChatGPT:安排。密密麻麻的解释了一大段内容,应该是解释清楚了。
由于ChatGPT的性能过于优秀,网友们纷纷开始整新活,仿佛不把ChatGPT玩出百十个花样不罢休。更有人毫不夸张的说,这哪是个机器,这简直就是一个活脱脱的 Stack Overflow 啊。
显然,这位推特用户也有同样的感受「在短期内,我已经预见到一些网站将受到极大的威胁,Stack Overflow 就是其中之一。自从 GitHub Copilot 和现在的 ChatGPT 出现后,我使用网站的次数已经大大减少了。」
「我刚刚与 ChatGPT 就现代物理学的历史进行了大约 20 分钟的对话。如果我在高中和大学期间有这样一位老师……OMG。我认为我们基本上可以重新审视大规模教育的概念。我们所知道的大学将不复存在。」一位网友表示。
马斯克都忍不住说了一句:「ChatGPT 非常好。我们离强大到危险的 AI 不远了。」
编程问答机器
作为一种对话式大型语言模型,ChatGPT 最擅长的就是回答用户提出的问题,最关键的是 ChatGPT 具备与编程相关的基础知识。这就让 ChatGPT 成为类似于 Stack Overflow 的编程问答工具,只不过回答问题的是个 AI。
首先,ChatGP 可以轻松回答与计算机相关的问题:
另一方面,从网友的试用情况看,ChatGPT 在编程方面非常「聪明」,例如提问:「打印出一只大狗」,ChatGPT 就回答了一整段程序,该程序能用字符拼接成狗的形状:
当用户命令 ChatGPT 找出一段程序的 bug 时,它不仅可以清晰地描述 bug 及原因,还能自动修复 bug,写出一段正确的程序:
会考试的 ChatGPT
让模型去参加考试已经屡见不鲜,不知道 ChatGPT 参加考试的话表现会怎样。有人表示,ta 已经替大家试验过了,ChatGPT 通过了 2022 年的 AP computer science A 考试。最后得分 32 分,满分 36。
这门考试的难度等同于大学 CS(计算机科学)专业课第一学期难度,下面是考试内容的部分截图,看起来通过考试还是有些难度的。
https://gist.github.com/Gaelan/cf5ae4a1e9d8d64cb0b732cf3a38e04a
还有网友让 ChatGPT 参加了完整的 SAT 考试。SAT 全称为 Scholastic Assessment Test,也叫学术能力评估测试,与 ACT 考试 (American College Test) 相似,被称为「美国高考」,考试总分为 1600 分,分为阅读(400 分)、文法(400 分)和数学(800 分)三个部分,另有总分为 24 分(阅读理解 8 分,文章分析 8 分,英语写作 8 分)的作文(选考)部分。ChatGPT 拿到了 1020 分。根据美国大学委员会的数据,1020 这个分数段大概排在前 52% 的位置。
会编写游戏的 ChatGPT
让 ChatGPT 编写个小游戏不知道能不能用,对 ChatGPT 来说,这不是个事。有用户在不到一个小时的时间里,就从头生成了一个小游戏,最关键的是用户零编码,只需输入提示就可以。如果中间有问题,告诉 ChatGPT,它会帮你解决。
例如用户表示:为一款关于挖掘宝藏的游戏想出 5 个名字,名字的首字母拼写为 GPT。
ChatGPT:Gold Pit Treasure, Great Pit Treasure,Grand Pit Treasure,Grave yard Pit Treasure,Glittering Pit Treasure.
用户:我想启动一个名为 GPT(Graveyard Pit Treasure)的项目,这样我们就可以一起开发游戏了。我想使用实时视图,而不是使用 ecto。我应该使用什么命令?
ChatGPT:mix phx.new gpt —no-ecto —live
用户:我有一个叫 GPT 的应用。我们要做一款游戏。为这个应用程序写一个 liveview 模块,它有 3 个元素:标题需要写着「GPT: Graveyards, Pits & Treasure」;从 0 开始的 Gems 计数器;一个写着「Dig up the next grave」的按钮。当我点击按钮时,我要么获得 10 个宝石,要么掉进坑中死亡的几率是 50%。如果我死了,gem 计数器就会显示「You fell into a pit. You are dead。」
ChatGPT 给出了一个代码链接,然后给出了一些说明。
在之后的用户和 ChatGPT 的对话中,用户遇到的问题,ChatGPT 逐一帮助解决,最后用户生成了一个在线可玩的游戏,如下图所示。
此外,ChatGPT 虽是一个对话式的语言模型,它本身不能生成多模态内容,但我们可以把它看作一个中间模型,比如把 ChatGPT 和 Stable Diffusion 结合使用。
例如,有网友要求 ChatGPT 生成随机的艺术 prompt,然后把 prompt 作为 Stable Diffusion 的输入,结果生成了一副艺术性很强的画作。
这种不指定具体生成内容,只说明领域的内容生成方式或许能够打开 AIGC 的新思路。
当然,作为一个AI模型,ChatGPT 的性能还有提升空间,特别是对于各种具体应用。研究团队表示,后续将根据用户反馈继续改进 ChatGPT,避免该模型随机生成错误内容。
参考链接:
https://gist.github.com/Gaelan/cf5ae4a1e9d8d64cb0b732cf3a38e04a
https://twitter.com/davidtsong/status/1598767389390573569
国产ChatGPT又开源了!效果大幅升级,在手机上也可以跑
编辑:好困
【新智元导读】近日,元语智能团队又开源了一个ChatYuan系列大模型:ChatYuan-large-v2,支持在单张消费级显卡、PC甚至手机上进行推理使用。
刚刚,「国产ChatGPT」ChatYuan又发新版本了。
更新的ChatYuan-large-v2不仅支持中英双语,还支持输入输出总长度最长4k。
而这也是继此前PromptCLUE-base、PromptCLUE- v1-5、ChatYuan-large-v1 模型之后,元语智能再次推出大模型方向的研究成果。
开源项目地址:
https://github.com/clue-ai/ChatYuan
Huggingface:
https://huggingface.co/ClueAI/ChatYuan-large-v2
Modelscope:
https://modelscope.cn/models/ClueAI/ChatYuan-large-v2/summary
01 什么是ChatYuan-large-v2?
ChatYuan-large-v2是一个支持中英双语的功能型对话语言大模型,ChatYuan-large-v2使用了和 v1版本相同的技术方案,在指令微调、人类反馈强化学习、思维链等方面进行了优化。
ChatYuan-large-v2是ChatYuan系列中以轻量化实现高质量效果的代表模型,仅仅通过0.7B参数量可以实现业界10B模型的基础效果,并且大大降低了推理成本,提高了使用效率。用户可以在消费级显卡、 PC甚至手机上进行推理(INT4 最低只需 400M )。
同时,为了更好的提升使用体验,团队已经封装了工具,Chatyuan-large-v2实现了本地可运行,下载后可以直接在本地使用h5版本,进行网页交互。
02 v2有什么升级?
在chatyuan-large-v1的原有功能的基础上,v2模型进行了如下优化:
增强了基础能力:原有上下文问答、创意性写作能力明显提升。新增了拒答能力:对于一些危险、有害的问题,学会了拒答处理。新增了代码生成功能:对于基础代码生成进行了一定程度优化。新增了表格生成功能:优化了生成的表格内容和格式。增强了数学运算能力:对基础数学运算如加减法做了优化。扩展输入输出总长度:最大长度token数扩展到4096。增强了模拟情景能力:可以模拟多人对话或者具体场景,在情景下进行内容创作及上下文交互。新增了中英双语对话能力:新增了中英双语交互、英文创作、翻译等功能。拒答能力
计算推理
模拟情景
表格生成
代码生成
03 v2的局限性
由于Chatyuan-large-v1是一个轻量化的大模型,所以仍会存在一些局限和不足,请开发者知悉,包括:
对于推理、计算、代码生成方面基础功能基本实现,仍存在训练不充分的问题,在某些场景下会出现逻辑错误情况,如代码基本能够实现且具备注释能力,但不能保证精简通顺和准确,可视性还需优化。通用知识回答不够精确,事实性知识仍存在不准确的情况。上下文关联信息处理尚有不足。结语
总体而言,v2在上下文理解、内容生成、代码表格生成等方面,较v1开源模型有较大提升,仅仅通过0.7B参数规模即可实现行业内百亿参数规模的基础效果,大幅降低推理成本,提升了使用效率。
元语智能表示,团队会坚定的坚持开源路线,后续将持续开源更好更大的通用大模型,持续构建开源开发者生态,推动国内大模型开源发展,希望各位朋友批评指正。
产品内测邀请
除了本次开源ChatYuan-large-v2模型之外,元语团队正式开启KnowX产品内测,KnowX搭载了ChatYuan线上最新版本的大模型能力,在上下文理解、内容生成、代码生成、逻辑推理计算等方面表现优异,为实现版本的可靠、稳定及进一步优化,现已开启产品内测,名额有限,感兴趣的朋友可在下方链接中申请。
内测申请通道:
https://wj.qq.com/s2/11984341/e00b/
参考资料:
https://mp.weixin.qq.com/s/NahO52ZwFDjU0CMxfgRhQw