大模型持续更新
1.1 百川智能发布最新一代基座大模型 Baichuan 4
5 月 22 日,历时4个月打磨,百川智能发布最新一代基座大模型 Baichuan 4,并推出成立之后的首款AI助手“百小应”。
相较于前代Baichuan 3,迭代后的Baichuan 4在各项能力上均有极大提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%,在国内权威大模型评测机构SuperCLUE的评测中,模型能力国内第一。
此外,官方表示,Baichuan 4还具备行业领先的多模态能力,即文本和图像等多种元素对齐、交互的能力,并在各大评测基准上表现优异,领先Gemini Pro、Claude3-sonnet等多模态模型。
在Baichuan4的基础上,百川智能将搜索技术与大模型深度融合,推出懂搜索、会提问的AI助手“百小应”。百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索等搜索能力,能更精准地理解用户需求,为用户提供专业、丰富的知识和资源,还会在用户问题的基础上通过一系列提问来帮助用户明确自身需求,给出更精准的答案。
百川智能还宣布开放Baichuan4、Baichuan3-Turbo、Baichuan3-Turbo-128k、AssistantAPI四款API,所有开发者、企业用户均可登录百川智能开发者中心选择并接入相应API,便捷高效地体验百川智能新一代模型的强大能力。
1.2 微软新开源Phi-3系列三个模型
5 月 22 日凌晨,微软 Build 2024 开发者大会在美国西雅图召开,发布了有关 AI 技术,更有关 AI 带来的新工具。
小模型 Phi-3 家族上新!
先前,微软已发布Phi-3 mini版本,支持4k、128k上下文,能够在手机上运行,同时保持与大型模型如Mixtral 8x7B和GPT-3.5相媲美的性能。
这次发布会上,微软新开源Phi-3系列的三个模型:多模态Phi-3 Vision 4.2B、两个语言模型 Phi-3 Small 7B 和 Phi-3 Medium 14B。
Phi-3 Vision 4.2B 是Phi-3家族中的第一个多模态模型,结合了文本和图像视觉功能,以及对现实世界图像进行推理和从图像中提取文本并进行推理的能力。同时还针对图表和图解的理解进行了优化,可用于生成数据洞见和回答问题具有图像理解能力。Phi-3 Vision 4.2B 在benchmark数据集上性能超过 Claude-3 Haiku 和 Gemini 1.0 Pro V。
Phi-3 Small 7B 支持跨操作系统及云边端运行,在性能上与 Mixtral 8x22B 和Llama 3 70B 相当,目前优于Command R+ 104B和GPT 3.5。
Phi-3 Medium 14B 支持跨操作系统及云边端运行,性能上超越了 Mistral 7B 和 Llama 3 8B。
1.3 面壁智能发布MMiniCPM-Llama3-V 2.5,成为全球最强端侧多模态模型!
5 月 20 日,面壁智能推出了最强端侧多模态开源模型 MiniCPM-Llama3-V 2.5。仅用8B参数,击败了OpenAI的 GPT-4V 和谷歌的 Gemini Pro,而且,其 OCR 长难图识别刷新SOTA,图像编码速度暴涨150倍,成为全球最强端侧多模态模型!