本期推荐榜,涉及通用大模型及应用、api部署模型、ai绘图、ai图片处理、ai视频、ai搜索、音乐ai、ai写作、ai编程、智能体bot、办公ai、读音视频ai、数字人、ai浏览器、财经ai、ai-ppt等16个场景,国内外共88款ai。推荐榜,分为国外、国内版。国外版,大部分需要开启魔法,付费居多。国内版,直接使用,免费为主。阅读提示:
1)加粗,为重点推荐。
本月新进榜ai并不多,以ai视频应用、大模型补丁为主,下为详细名单。
7月18日,openai推出了一款小模型——chatgpt-4o mini。gpt-4o mini支持128k token的长上下文窗口,以及16k token的输出。在文本智能和多模态推理方面,gpt-4o mini的基准性能超过了gpt-3.5 turbo,甚至不输gpt-4。gpt-4o mini不仅性能强,价格也很「白菜价」,百万token输入价格15美分,百万token输出价格60美分。对于免费c端用户来说,即日起gpt-3.5已全面下线,转由gpt-4o替代。7月24日,meta发布新一代开源大模型llama 3.1。llama3.1共包含8b、70b和405b三个尺寸,能力全面提升,支持8种语言,最长上下文窗口达128k。其中超大杯405b包含了4050亿个参数,是首个“前沿级别开源ai模型”,也是近年来规模最大llm之一。在通用常识、可引导性、数学、工具使用和多语言翻译等广泛任务中,全面对标gpt-4、claude3.5 sonnet等先进闭源模型。7月25日,openai发布了ai搜索产品searchgpt。用户在输入框中输入问题,就可以搜索到经过整理总结、并结构化呈现的答案。并附有清晰的相关来源。https://chatgpt.com/search7月26日,智谱推出「清影」ai视频创作智能体,支持文生视频和图生视频,可在1分钟内生成清晰度1440x960的6s视频。无需预约申请,所有用户均可直接使用。生成后的视频,支持一键配乐。示例提示词:一艘帆船被海浪打翻,紧张刺激的镜头,电影质感,水平旋转镜头拍摄。7月30日,生数科技全面放开vidu,支持文生视频和图生视频,生成视频时长可选4s或8s,4s视频生成只要30s。不同于即梦、可灵、清影主要针对国内市场,vidu一上线就主打国际市场,会员充值需要用美元支付。7月25日,stable diffusion发布最新模型stable video 4d,可以将单个对象视频转换为八个不同角度/视图的多视角视频。https://huggingface.co/stabilityai/sv4d作为国内首个ai驱动的浏览器,360ai浏览器支持ai搜索、ai阅读助手、ai视频助手等功能,可以对在线视频进行总结,也可以对本地视频进行编辑。以ai视频助手功能为例,它可以提取视频字幕、总结视频看点、生成思维导图和ppt等。https://browser.360.cn/ai萝卜快跑是百度apollo推出的自动驾驶出行服务平台,可为乘客提供无人驾驶网约车服务。现阶段,我们很多ai应用都是软件智能,在硬件智能这块并不多,萝卜快跑是少见的物理智能应用。目前,罗卜快跑已在全国11个城市开放使用,分别是北京、上海、广州、深圳、重庆、武汉、成都、长沙、合肥、阳泉、乌镇。体验渠道:下载「萝卜快跑」app或是微信小程序打开萝卜快跑。1)kimi,定位生产力工具,适合打工人,c端体验和交互逻辑nice,支持20万上下文(200万较难申请,),擅长总结,支持各种diy玩法。2)文心一言4.0 turbo,于6月28日发布,比上一代更快,效果更好。与文心4.0一样,也是收费制(49.9rmb/月),不过新用户可以领取24小时的免费会员体验。使用网址:https://yiyan.baidu.com3)智谱清言。有丰富的智能体矩阵,从文本生成到ai绘图、ai视频以及提示词设计,清言已接近完成闭环产品设计。最近,我一直在用智谱清言辅助我写作,文字能力特别出色。使用网址:https://www.doubao.com4)腾讯元宝。7月1日,腾讯元宝上线ai深度搜索功能,可为用户提供结构化的深度回答,同步生成大纲、脑图和人物事件关系表格。依托公众号的内容源,腾讯元宝正在一点点变强。使用网址:https://yuanbao.tencent.com
上半年,国内大模型大打价格战,多家厂商都推出了免费或极低价的api模型。如deepseek、glm、qwen、文心、豆包、讯飞、混元等。1)deepseek-v2,由幻方量化旗下深度求索公司研发,性能全面比肩gpt-4,价格低到离谱。https://modelscope.cn/models/deepseek-ai/deepseek-v2-chat2)qwen(千问),开源版有72b和110b两版(720亿参数和1100参数),支持32k上下文,在一些指标上比llama-3-70b还强,中文场景全面赶超gpt-4。同时,通义还开源了视觉理解模型qwen-vl、音频理解模型qwen-audio以及代码专家模型codeqwen1.5。https://modelscope.cn/models/qwen/qwen1.5-110b-chat3)glm-4,由智谱ai研发,性能逼近gpt-4,超过llama-3,支持12.8万上下文。6月初,智谱开源了glm-4-9b模型。同时,也大幅下调了其他模型的价格。https://github.com/thudm/glm-44)文心大模型,5月,文心拿出两款模型lite(8k)、speed(128k),直接免费。6月28日上线的文心4.0 turbo模型,已支持api。千帆网址:
https://qianfan.cloud.baidu.com
5)moonshot模型。7月2日,moonshot模型公测上下文缓存(context caching),该技术可在api价格不变的前提下,为开发者降低最高 90%的长文本使用成本,显著提升模型的响应速度。
开发者地址:
https://platform.moonshot.cn
1)即梦dreamina,字节旗下剪映出品,免费,最像midjourney的国产ai绘图工具(详见)。出图质量还不错,但比较依赖提示词。体验网址:dreamina.jianying.com2)混元文生图,腾讯出品,首款开源的中文原生dit架构模型,支持中英文双语输入及理解,参数量15亿。
项目地址:
https://dit.hunyuan.tencent.com
1)可灵ai,由快手在6月发布,经过2个月的试用,目前已收费。可生成5-10s视频,支持图生视频和文生视频,支持首尾帧、视频延长,最长可续写2分钟(详见)。https://klingai.kuaishou.com2)清影,由智谱在7月底发布。支持文生视频、图生视频,1分钟即可生成6s视频,生成时间很快,无需预约,人人可用、无限次使用(详见)。3)即梦dreamina,支持文生视频和图生视频,支持首尾帧、运镜控制、视频延长,可生成3-12s视频,收费,比较擅长动效(详见)。https://dreamina.jianying.com主要推荐:memo ai,安装到电脑本地运行(支持win和os系统),可将youtube、播客、本地音频视频进行转文本、字幕翻译或合成新语音,也可以通过gpt来提炼内容,生成脑图、思维导图等。除了本地化的memo ai外。在线的大模型通义和讯飞,目前也支持音视频输入,ai总结。主要推荐:即创,抖音出品,可生成数字人视频,目前免费。https://aic.oceanengine.com1)秘塔ai搜索,开国内对话式ai搜索先河,用户量持续在增长,接近成为国产ai搜索一哥。2)天工ai搜索,也是ai对话搜索,支持一键生成内容大纲、思维导图、表格等,依托天工3.0大模型4000亿参数,产品很能打。主要推荐:skymusic,国内唯一公开、免费、简单易上手的ai音乐生成模型。使用网址:music.tiangong.cn,或下载天工ai智能助手 app。主要推荐:扣子,字节出品,简单易用、好上手,目前已支持豆包、moonshot、通义、minimax等模型,可发布到豆包、飞书、企微、公众号、掘金等平台。主要推荐:codeqwen,由阿里推出的智能编程工具,已开源,拥有7b参数,支持92种编程语言,支持64k上下文。https://modelscope.cn/models/qwen/codeqwen1.5-7b-chat/summary主要推荐:钉钉ai和飞书。2家公司已在自家产品里全面接入了ai。12、ai浏览器
主要推荐:360ai浏览器。提供ai总结、文档分析、ai写作、ai绘图、音频分析、视频分析(在线和本地皆可)等功能。
下载链接:
https://browser.360.cn/ai
1)百度文库ai。可根据主题直接生成ppt、上传大纲生成ppt和图生ppt,模板丰富,模板、字体和设计均支持自定义,文图匹配度较高。ppt生成,只是其中一个功能。除此之外,还有ppt生成、思维导图生成、研报生成、拍图生文、ai有声画本等。2)aippt,7月用户量位居国产ai ppt第一,达到了500多万。7月底,aippt还与kimi达成了战略合作。使用网址:https://www.aippt.cn主要推荐:问财和妙想。分别由同花顺和东方财富推出,适合投资人士使用,属于可用但没到好用的程度(详见)。问财网址:https://www.iwencai.com
妙想网址:https://ai.eastmoney.com
国外ai推荐
1)gpt-4o,由openai在5月发布,每天免费10次会话,输入、输出全面支持多模态,开启新的交互模式。5月来,不断成为大家对标的模型。2)claude 3.5 sonnet,由anthropic公司(由亚马逊投资,全面对标openai)在6月20日推出,是3.5系列的第一个模型,号称是迄今最智能的模型。从claude 3.5 sonnet与其他模型的对比可以看到,在推理、阅读理解、数学、科学和编码等基准方面,claude 3.5 sonnet均优于上一代模型claude 3 opus。在与gpt-4o的对比中,claude 3.5 sonnet除了数学稍微逊色外,其他得分都比gpt-4o高或者接近。
使用路径:claude.ai或claude ios。
1)llama3.1,meta出品,7月底迭代到了3.1版,支持128k上下文,提供8b、70b和405b三个尺寸,能力全面提升。其中超大杯405b包含了4050亿个参数,是首个“前沿级别开源ai模型”。https://llama.meta.com/llama-downloads2)gpt-4 turbo/4o mini。gpt-4 turbo依旧地表最强,api部署模型优选,不过价格也不便宜。如果考虑性价比,openai在7月推出了4o mini版,性能超过了gpt-3.5 turbo,甚至不输gpt-4。3)claude 3.5 sonnet,由anthropic公司(亚马逊投资,全面对标openai)在6月20日推出,是3.5系列的第一个模型,号称是迄今最智能的模型。基于chatgpt模型,集成进了微软的各个产品和服务,无论是microsoft系统、office软件还是edge浏览器,你都可以找到copilot助手。1)midjourney。7月31日,更新到了v6.1版,30美刀/月。每1版都在进化,md公认是出图质量最好的绘图ai。2)dall-e3,openai出品,虽然出图质量赶不上md,但是架不住免费。https://openai.com/index/dall-e-3
主要推荐:
1)fotor,一款在线图片编辑工具,核心功能是抠图。除了抠图外,fotor还提供图片编辑、滤镜和特效等图片处理需求。
使用网址:https://www.fotor.com
2)cutout pro,一款图像编辑软件,能够智能处理图片和视频,让背景去除、图像修复、平面设计和内容生成变得轻而易举。
使用网址:https://www.cutout.pro
3)seaart,一款ai绘画工具,内置了非常多的ai场景化小工具,可一键ai换脸和换背景,支持文生图、图生图、条件生图、ai画板等功能。
使用网址:https://www.haiyi.art
1)gen 3,由runway于6月29日推出,支持10s视频生成,电影质感,光影追踪细节丰富。生成速度很快,基本上只要1分钟。目前,gen 3是当之无愧的全球no.1。
体验网址:
https://app.runwayml.com/login
2)dream machine,由luma ai在6月12日推出,支持5s视频生成,支持首尾帧,发布即上线,免费使用。
https://lumalabs.ai/dream-machine3)pixverse国际版。一款由中国公司爱诗科技(前字节视觉技术负责人王长虎带队成立)研发的视频ai,正在国外风靡。主要技术目前还是文生图,再图生视频,支持6s视频生成。4)pika,由95后、华人、斯坦福“天才美少女”创建,可生成各种风格的3d动画、动漫、卡通和电影。对标runway的gen-2模型。1)coze国际版,字节出品,依托chatgpt,可轻松创建ai智能体。2)gpts,chatgpt官方智能体创建器,可根据gpt3.5/4.0创建个人智能体。主要推荐:perplexity,新型对话式ai搜索,需要科学上网。6月新上线了功能——pages,可将搜索结果转换为简洁明了的图文内容,比如文章、报告等。主要推荐:heygen,收费,49~150美刀/月。用户只需输入脚本,即可在几分钟内生成用于营销、沟通、销售、学习等的视频。heygen支持使用ai语音和口型同步为视频添加175种语言和地方方言,提供更加沉浸的体验。主要推荐:suno 3.5,可一键写歌(先通过其他ai完成歌词创作),需要科学上网,目前免费。suno升级到3.5版,可生成最长4分钟歌曲,歌曲结构有显著优化。主要推荐:alphafold 3,谷歌deepmind出品,可准确预测蛋白质、dna、rna以及配体等生命分子的结构。https://golgi.sandbox.google.com/about主要推荐:gamma,无需科学上网,可用qq邮箱注册,排版、配图质量较高,10美刀/月。往期榜单: