豆包 Doubao1.6 Vision,真的能PK ChatGPT O3吗。
我参与了模型内测,个人感受:
ChatGPT O3能做到的,豆包现在也都能做到,强!
列几个Use Case给大家感受下:
拍照检查作业
提示词:帮我检查孩子的默写作业内容对不对
模型会自动识别反转180度,识别文字内容并检查反馈。
血常规分析诊断
把去年孩子发烧咳嗽的血常规报告单发给豆包。
提示词:孩子最近一直发热咳嗽。
附件是血常规检查结果,解读下报告,分析可能是什么问题。
分析的不错,孩子当时确实是肺炎。
用药指导
提示词:
我女儿好像得了甲流,这个药应该怎么吃?每天吃几次,每次吃多少。孩子5岁,体重25公斤。
推理过程
酒单分析
让豆包读酒单,并推荐好喝的啤酒。
它会自动读取放大图片读取、理解内容。
书籍推荐
提示词如下
整理所有书名,根据这些书籍分析我的读书偏好,再推荐5本值得看的好书并给出理由。
白板手写识别并整理
提示词:整理成Markdown格式的笔记。并生成一个Mermaid图表解释。
生成的Mermaid图表:
推理回答过程
地理位置识别
这个Case真的让我这个钓鱼佬狂喜。
小红书只发图不发钓点位置,都可以试试了。
电器故障维修
按照提示找人清灰,搞定。
卡牌游戏选牌指导
提示词:这是炉石传说的什么版本?角色是什么职业,分析图片中的三张牌要如何选?用红框圈选出来
推理过程
作为多年炉石玩家,给的建议是靠谱的。
网页复刻
只需要给一个网页截图,输入提示词:
写一个完整的单HTML网页复刻给你的截图,并给出优化建议。
生成代码效果
布局还原很接近,只需要换上真实的图片就差不多了。
表单填写辅助
我计划9.22~ 9.26去美国San Jose 商务出差,基于签证信息,生成一个英文行程单。
推理过程
写在后面
豆包的视觉理解和推理,已经能应对大多数生活难题。
无论是拍照检查作业、医学报告分析,还是酒单推荐、白板手写识别,模型都能准确识别图片内容并给出有逻辑的反馈。
实际场景下,豆包不仅能处理标准化任务,还能应对生活中的复杂问题,比如地理位置识别、家电故障诊断、卡牌游戏选牌等。
能力已接近甚至部分超越主流国际产品,尤其在中文语境下表现突出。
虽然还存在细节上的优化空间。
但随着视觉理解和推理能力增强。
AI真的有可能成为我们的万能助手。
你最期待AI能帮你解决什么难题。
欢迎留言,一起脑洞。