马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI

马斯克用行动反击开源自家顶级大模型压力给到OpenAI有意思的是,Grok-1宣布开源的封面图为Midjourney生成,可谓“AIhelpsAI”。一直吐槽OpenAI不open的马斯克,自然要在社交平台上含沙射影一番,“我们想了解更多OpenAI的开放部分。”Grok-1遵照Apache2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今,已经在GitHub上揽获6.5k星标,热度还在持续增加。项目说明中明确强调,由于Grok-1是一个规模较大(314B参数)的模型,需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628GBGPU内存的机器。此外,该存储库中MoE层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说,发布开源模型有助于社区展开大规模的测试和反馈,意味着模型本身的迭代速度也能加快。Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程:在宣布成立xAI之后,相关研究人员首先训练了一个330亿参数的原型语言模型(Grok-0),这个模型在标准语言模型测试基准上接近LLaMA2(70B)的能力,但使用了更少的训练资源;之后,研究人员对模型的推理和编码能力进行了重大改进,最终开发出了Grok-1并于2023年11月发布,这是一款功能更为强大的SOTA语言模型,在HumanEval编码任务中达到了63.2%的成绩,在MMLU中达到了73%,超过了其计算类中的所有其他模型,包括ChatGPT-3.5和Inflection-1。与其他大模型相比,Grok-1的优势在哪呢?xAI特别强调,Grok-1是他们自己从头训练的大模型,即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练,没有针对特定任务(如对话)进行微调;Grok-1的一个独特而基本的优势是,它可以通过X平台实时了解世界,这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据;3140亿参数的Mixture-of-Experts模型,其对于每个token,活跃权重比例为25%,这一庞大的参数量为其提供了强大的语言理解和生成能力。xAI此前介绍,Grok-1将作为Grok背后的引擎,用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。未来,长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。...PC版:https://www.cnbeta.com.tw/articles/soft/1424057.htm手机版:https://m.cnbeta.com.tw/view/1424057.htm

相关推荐

封面图片

马斯克开源大型语言模型 Grok-1

马斯克开源大型语言模型Grok-1Grok-1的权重和架构现已在Apache2.0许可证下发布在了github.com/xai-org/grokGrok-1是一个由xAI训练的3140亿参数专家混合模型(8个专家),给定输入上有25%的活跃权重。该权重为2023年10月预训练结束时的原始权重,这意味着此时没有针对任何特定对话进行微调。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

埃隆马斯克按承诺开源xAi的Grok模型 参数达314B允许商业性用途

埃隆马斯克按承诺开源xAi的Grok模型参数达314B允许商业性用途此前埃隆马斯克已经承诺将会把xAi公司开发的Grok人工智能开源,目前Grok已经在X/Twitter中上线,如果用户开通XPremium+订阅的话,则可以免费使用Grok。Grok主要目标是提供人工智能对话、编程开发、创意写作等,同时它可以实时连接X获取数据,例如查询某个X用户发布的内容等。此次开源的Grok模型参数高达314B,公开版本为314B参数的混合专家模型Grok-1的基础模型权重和网络架构,该版本来自2023年10月的一个检查点,之后没有经过针对任何特定应用例如对话方面的微调。许可证方面Grok-1采用Apache2.0许可证发布,该许可证允许商业用途,这意味着其他公司可以基于该模型分析、研究、重新发布其他模型。来源,地址:https://github.com/xai-org/grok-1频道:@kejiqu群组:@kejiquchat

封面图片

马斯克 xAI 公布大型语言模型 Grok

马斯克xAI公布大型语言模型GrokGrok是一款模仿《银河系漫游指南》的AI,因此几乎可以回答任何问题。它会机智地回答问题且有叛逆倾向,讨厌幽默的人可能不适合它。它还将回答大多数AI会拒绝的尖锐问题。xAI先是训练了330亿参数的原型模型Grok-0,接着在过去两个月训练出了Grok-1。初始版本上下文支持8192个token。未来将添加其它感官如视觉和听觉。预训练数据截至2023年第三季度,根本优势是可以通过X/Twitter实时了解世界信息流。推理和编码基准测试中:Grok-1强过GPT-3.5,弱于PaLM2(Bard)、Claude2、GPT-4。《2023年5月匈牙利全国高中数学考试》测试中(防止AI"背题"):1.GPT-4(68%)2.Grok-1(59%)3.Claude-2(55%)4.GPT-3.5(41%)5.Grok-0(37%)投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

OpenAI 抢先马斯克开源 Grok

OpenAI抢先马斯克开源Grok为了跟OpenAI叫板,马斯克承诺这周开源Grok,打那时起全网都在数着日子等模型。眼看临近最后一天,巨魔网友们突然发现,Grok的代码居然被OpenAI的GitHub账户开源了,定睛一看还遥遥领先马斯克三年!倒也没错,该Grok仓库已存在多年,源自2022年的OpenAI论文《Grokking:在小型算法数据集上超越过拟合的泛化》,虽然和xAI的大型语言模型Grok不是一个Grok,但确实是早于马斯克开源了一个Grok。github.com/openai/grok线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

Line日本总部本周宣布开源自家开发的日语大型语言模型(LLM)。

Line日本总部本周宣布开源自家开发的日语大型语言模型(LLM)。,可用于研究和商业用途,包含和个参数两个版本,均可在HuggingFaceHub上获取。,Line一直专注于大型语言模型HyperCLOVA,在2021年5月,Line首次公开了基于2040亿个参数训练的韩文版LLMHyperCLOVA,然后在11月公布了拥有850亿个参数的日语专用版本。此次公开的模型与HyperCLOVA是不同部门并行开发的。此次开源的模型团队指出,此模型是基于Line自家的日语大型Web文本进行训练的,使用了650GB数据集进行训练。研究团队还提供了本次公开的两个模型与Rinna-3.6B和OpenCALM-7B模型的准确度和困惑度(perplexityscore,PPL)比较数据。——

封面图片

Databricks 发布最大开源大语言模型 DBRX

Databricks发布最大开源大语言模型DBRX美国AI初创公司Databricks周三公布,该公司开发的通用大语言模型DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama2-70B、法国MixtralAI公司的Mixtral和马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX在30多种不同的最先进模型(SOTA)基准指标测试中,均优于前述三种大模型。DBRX使用混合专家架构(MoE),拥有16个专家模型,共1320亿参数。该模型使用3072英伟达H100GPU在12万亿个token的数据集上进行训练,最大支持32k的上下文窗口。同时,Databrick也开源了该模型经过指令微调(instructfinetune)的版本。——,

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人