茂名做网站,茂名网站建设,茂名网站制作

国内开发者看谷歌Gemini:虽陷“造假”争议,但它找到了超越OpenAI之路
业界新闻

国内开发者看谷歌Gemini:虽陷“造假”争议,但它找到了超越OpenAI之路

时间:2023年12月13日 21:48 来源:新世纪工作室 点击:
  距离谷歌推出自己的最强大模型Gemini已将近一周时间,不少国内AI公司都在试图探究,这款大模型到底具有多大的威力。
 
  和此前业内推出的很多大模型不同,谷歌Gemini此次绕开了文字环节,直接靠视觉和声音来理解世界,尽管其现场演示demo曾涉嫌造假和过分夸大能力。
 
  为了了解Gemini的出现会对OpenAI以及其他AI公司产生何种影响,界面新闻近日走访了多家头部生成式AI公司的业务负责人及开发者,他们认为Gemini的最大特色便是“原生”的多模态大模型。
 
  “理论上说,原生多模态比‘拼接’多模态大模型效果更好,因为后者在训练阶段极易遇到瓶颈。”循环智能的AI负责人陈虞君告诉界面新闻记者,由于目前还未深度使用过,Gemini的实际优势有待进一步了解。
 
  多位大模型初创开发人员表示,即便Gemini系列最大尺寸的Ultra尚未正式推出,Gemini已经在文本方面展示出和GPT-4同水准的能力。
 
  在Gemini的演示视频中,这个大模型仿佛可以实时观察人类的行为,并给予反馈,例如可以完美描述出一只鸭子从草图到填色的过程;可在换杯游戏中追踪纸团,辅助进行数学、物理的解题;能够辨别手势,做课堂动手类游戏互动,还可以重新排列行星草图。
 
  开发者们普遍认为,无论造假成分几何,Gemini已经展现出较强的理解、推理、创作和实时互动能力,实现了对OpenAI多模态模型GPT-4v的全面超越。谷歌的回应也基本被业界所接受,“所有用户提示和输出都是真实的,只是为了简洁起见进行了缩短。”
 
  三个月前OpenAI低调发布的GPT-4v能做多模态任务,例如理解和图像生成,但效果并不太好,并且,其关键的推理能力是和其他模型配合完成。而抽象推理能力本身,是大模型最为关键的能力。
 
  尹伯昊对界面新闻解释称,GPT-4v和Gemini是基于两种完全不同的训练逻辑,“GPT-4v它是一个近视眼,看东西不清楚,因此性能也不好,是典型的外挂式方案。Gemini则是把多个模态混合在一起训练。”
 
  但在一位多模态大模型公司算法负责人看来,Gemini应该还没有全面超越GPT-4,“在评测时,GPT-4和Gemini在文本生成上没有完全形成公平对比。”
 
  另有不少网友实测表示,Gemini Pro在以图搜物和精准搜图方面的能力吊打了GPT-4。对于这一情况,追一科技刘云峰认为,谷歌的搜索业务天然具有文字和其他模态对齐的数据,确实更利于训练原生多模态大模型。
 
  谷歌在人工智能领域的任何大动作都会解锁市场的新兴探索方向,但在Gemini发布之前,AI模型全面多模态化趋势已日渐明朗。
 
  早在3月GPT-4发布之初,OpenAI就表示将在该次迭代中加入多模态整合。9月开始,Runway、Midjourney、Adobe和Stability AI等明星公司陆续有多款多模态产品问世。
 
  国内方面,百度的文心大模型4.0在跨模态文生图领域有明显进展,国内公开融资最高的大模型初创智谱AI,其生成式AI助手智谱清言在视觉领域颇具优势。
 
  多位开发者都告诉界面新闻,多模态大模型是行业内公认的明确发展方向,不会因为谷歌的大动作而“幡然醒悟”,但Gemini的到来会刺激国内公司加速研发。前述多模态大模型公司算法负责人也指出了Gemini的局限性,“其在图像生成上的能力以及视频生成、图像生成上面的参考意义有限。”
 
  就目前来看,还很难得出Gemini全面超越GPT-4的结论,但谷歌成为OpenAI的最强对手已是不争的事实。其至少用Gemini证明了一个道理:任何多模态大模型都必须依赖大语言模型的训练过程,才能实现真正的多模态AI。
最新业界新闻
业界新闻推荐
产品价值观 Product values
随需而变的个性化需求产品开发理念;高用户体验、高技术含量的产品实现;稳定持续的售后服务保证每一个产品都能给客户带来持续的使用价值。
高端形象定位 High-end image positioning
与具有顶级发展潜力的企业合作,激发顶级的设计创作灵感,应用顶级的开发技术,追求卓越的产品开发管理、整体品牌营销、管理信息化的一站式整合应用,实现客户内心渴求的高端企业形象定位。
关于我们 | 联系我们 | 网站地图 | TAG标签 | 手机版
Copyright ©2024 新世纪工作室, All Rights Reserved