马斯克用行动反击开源自家顶级大模型压力给到OpenAI

马斯克用行动反击开源自家顶级大模型压力给到OpenAI有意思的是，Grok-1宣布开源的封面图为Midjourney生成，可谓“AIhelpsAI”。一直吐槽OpenAI不open的马斯克，自然要在社交平台上含沙射影一番，“我们想了解更多OpenAI的开放部分。”Grok-1遵照Apache2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今，已经在GitHub上揽获6.5k星标，热度还在持续增加。项目说明中明确强调，由于Grok-1是一个规模较大（314B参数）的模型，需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628GBGPU内存的机器。此外，该存储库中MoE层的实现效率并不高，之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说，发布开源模型有助于社区展开大规模的测试和反馈，意味着模型本身的迭代速度也能加快。Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型，由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程：在宣布成立xAI之后，相关研究人员首先训练了一个330亿参数的原型语言模型（Grok-0），这个模型在标准语言模型测试基准上接近LLaMA2（70B）的能力，但使用了更少的训练资源；之后，研究人员对模型的推理和编码能力进行了重大改进，最终开发出了Grok-1并于2023年11月发布，这是一款功能更为强大的SOTA语言模型，在HumanEval编码任务中达到了63.2%的成绩，在MMLU中达到了73%，超过了其计算类中的所有其他模型，包括ChatGPT-3.5和Inflection-1。与其他大模型相比，Grok-1的优势在哪呢？xAI特别强调，Grok-1是他们自己从头训练的大模型，即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练，没有针对特定任务（如对话）进行微调；Grok-1的一个独特而基本的优势是，它可以通过X平台实时了解世界，这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据；3140亿参数的Mixture-of-Experts模型，其对于每个token，活跃权重比例为25%，这一庞大的参数量为其提供了强大的语言理解和生成能力。xAI此前介绍，Grok-1将作为Grok背后的引擎，用于自然语言处理任务，包括问答、信息检索、创意写作和编码辅助。未来，长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。...PC版：https://www.cnbeta.com.tw/articles/soft/1424057.htm手机版：https://m.cnbeta.com.tw/view/1424057.htm

在Telegram中查看

相关推荐

马斯克开源大型语言模型 Grok-1

马斯克开源大型语言模型Grok-1Grok-1的权重和架构现已在Apache2.0许可证下发布在了github.com/xai-org/grokGrok-1是一个由xAI训练的3140亿参数专家混合模型(8个专家)，给定输入上有25%的活跃权重。该权重为2023年10月预训练结束时的原始权重，这意味着此时没有针对任何特定对话进行微调。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

埃隆马斯克按承诺开源xAi的Grok模型参数达314B允许商业性用途

埃隆马斯克按承诺开源xAi的Grok模型参数达314B允许商业性用途此前埃隆马斯克已经承诺将会把xAi公司开发的Grok人工智能开源，目前Grok已经在X/Twitter中上线，如果用户开通XPremium+订阅的话，则可以免费使用Grok。Grok主要目标是提供人工智能对话、编程开发、创意写作等，同时它可以实时连接X获取数据，例如查询某个X用户发布的内容等。此次开源的Grok模型参数高达314B，公开版本为314B参数的混合专家模型Grok-1的基础模型权重和网络架构，该版本来自2023年10月的一个检查点，之后没有经过针对任何特定应用例如对话方面的微调。许可证方面Grok-1采用Apache2.0许可证发布，该许可证允许商业用途，这意味着其他公司可以基于该模型分析、研究、重新发布其他模型。来源，地址：https://github.com/xai-org/grok-1频道：@kejiqu群组：@kejiquchat

马斯克 xAI 公布大型语言模型 Grok

马斯克xAI公布大型语言模型GrokGrok是一款模仿《银河系漫游指南》的AI，因此几乎可以回答任何问题。它会机智地回答问题且有叛逆倾向，讨厌幽默的人可能不适合它。它还将回答大多数AI会拒绝的尖锐问题。xAI先是训练了330亿参数的原型模型Grok-0，接着在过去两个月训练出了Grok-1。初始版本上下文支持8192个token。未来将添加其它感官如视觉和听觉。预训练数据截至2023年第三季度，根本优势是可以通过X/Twitter实时了解世界信息流。推理和编码基准测试中：Grok-1强过GPT-3.5，弱于PaLM2(Bard)、Claude2、GPT-4。《2023年5月匈牙利全国高中数学考试》测试中(防止AI"背题")：1.GPT-4(68%)2.Grok-1(59%)3.Claude-2(55%)4.GPT-3.5(41%)5.Grok-0(37%)投稿：@ZaiHuaBot频道：@TestFlightCN

OpenAI 抢先马斯克开源 Grok

OpenAI抢先马斯克开源Grok为了跟OpenAI叫板，马斯克承诺这周开源Grok，打那时起全网都在数着日子等模型。眼看临近最后一天，巨魔网友们突然发现，Grok的代码居然被OpenAI的GitHub账户开源了，定睛一看还遥遥领先马斯克三年！倒也没错，该Grok仓库已存在多年，源自2022年的OpenAI论文《Grokking:在小型算法数据集上超越过拟合的泛化》，虽然和xAI的大型语言模型Grok不是一个Grok，但确实是早于马斯克开源了一个Grok。github.com/openai/grok线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

Line日本总部本周宣布开源自家开发的日语大型语言模型（LLM）。

Line日本总部本周宣布开源自家开发的日语大型语言模型（LLM）。，可用于研究和商业用途，包含和个参数两个版本，均可在HuggingFaceHub上获取。，Line一直专注于大型语言模型HyperCLOVA，在2021年5月，Line首次公开了基于2040亿个参数训练的韩文版LLMHyperCLOVA，然后在11月公布了拥有850亿个参数的日语专用版本。此次公开的模型与HyperCLOVA是不同部门并行开发的。此次开源的模型团队指出，此模型是基于Line自家的日语大型Web文本进行训练的，使用了650GB数据集进行训练。研究团队还提供了本次公开的两个模型与Rinna-3.6B和OpenCALM-7B模型的准确度和困惑度（perplexityscore，PPL）比较数据。——

Databricks 发布最大开源大语言模型 DBRX

Databricks发布最大开源大语言模型DBRX美国AI初创公司Databricks周三公布，该公司开发的通用大语言模型DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama2-70B、法国MixtralAI公司的Mixtral和马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX在30多种不同的最先进模型(SOTA)基准指标测试中，均优于前述三种大模型。DBRX使用混合专家架构(MoE)，拥有16个专家模型，共1320亿参数。该模型使用3072英伟达H100GPU在12万亿个token的数据集上进行训练，最大支持32k的上下文窗口。同时，Databrick也开源了该模型经过指令微调（instructfinetune）的版本。——,

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人