Transformer论文作者再次创业，特斯拉人形机器人Optimus二代亮相_汽车_新车_用车_养车_车主_汽车其他

Transformer论文作者再次创业，特斯拉人形机器人Optimus二代亮相-有驾

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社希望发现和投资非凡创业者（AlphaFounders），相信非凡创业者们在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

本图由“千象”（网址：www.hidreamai.com）生成

本周，我们观察到以下AI领域的新动向和新趋势：

1.Transformer论文主要作者Ashish Vaswani（一作）和Niki Parmar再创业，他们的公司Essential AI获5650万美元融资，主要做基于大模型的全栈型智能产品。

2.李飞飞联手谷歌，用Transformer生成逼真视频。这个模型叫W.A.L.T，Transformer的加入使得它在视频生成方面的连贯性和细节处理达到了极高水平。

3.特斯拉人形机器人Optimus二代发布，它具有与人类相似的行动能力，并能够自主对物体进行分类。

人工智能产品和技术的新突破

1.李飞飞和谷歌破局之作！用Transformer生成逼真视频，达到照片级真实感

李飞飞与斯坦福团队联手谷歌，开发了一种名为W.A.L.T的模型，他们成功将Transformer架构整合到视频扩散模型中，创造出了具有照片级真实感的视频。它在视频生成方面的连贯性和细节处理达到了极高水平。

W.A.L.T模型的核心在于使用因果编码器在共享潜在空间中联合压缩图像和视频，以及采用基于窗口注意力的Transformer架构来提高记忆和训练效率，这种结构使得模型能够根据自然语言提示生成逼真且时间一致的视频。

在实验中，研究者们使用了多种任务来评估W.A.L.T的性能，包括以类别为条件的图像和视频生成、帧预测、基于文本的视频生成等。结果显示，W.A.L.T在多个基准测试中均表现优异，尤其是在UCF-101基准上，其零样本FVD分数达到了当前最佳。

2.谷歌DeepMind最先进的视觉大模型Imagen 2发布，支持修补和扩图

谷歌DeepMind发布了其最新的视觉大模型—Imagen 2。它的核心特点在于能够根据用户的具体提示生成高质量、逼真且与用户提示高度一致的图像。

为了实现这一目标，谷歌DeepMind对Imagen 2的训练数据集进行了优化，增加了更详细的图像描述，进而更准确地响应用户的提示。这种增强的“图像-描述对”有助于Imagen 2更好地理解图像和文字之间的关系，提高对上下文和细微差别的理解。

Imagen 2在解决文本到图像工具常见问题方面也取得了显著进展，例如在渲染逼真的手和人脸方面，以及在保持图像没有干扰视觉的伪影方面。

除了生成高质量的图像，Imagen 2还支持修补（inpainting）和扩图（outpainting）等图像编辑功能，为用户提供了更多的创意空间。同时，为了降低文本到图像生成技术的潜在风险和挑战，谷歌团队在设计、开发和产品部署的各个阶段都设置了严格的防护措施，以避免生成有潜在问题的内容。

3.行动能力接近人类，特斯拉人形机器人Optimus二代上线

时隔一年多，特斯拉的人形机器人Optimus二代近日亮相。相比前代，它的亮点在于高度的灵活性和实用性。它能进行深蹲和舞蹈等复杂动作，表明行动能力已经非常接近人类。

2022年10月，Optimus首次亮相，当时，它的手运动自由度有27个，但还不能进行跳舞等复杂动作。到了2023年5月，Optimus已经具备了流畅行走和抓取物体的能力。9月，它进一步进化，能够自主对物体进行分类。

最新的Optimus二代在原有基础上做出了显著改进，它的身高约1.72米，能以大约8公里/小时的速度移动，行走速度提高了30%，重量减轻了10千克。其脚部设计模仿人类，具有铰接式脚趾和脚力/扭矩感应，使走路方式更加接近人类。此外，Optimus二代的手部设计也非常先进，拥有11个自由度，能够灵活操作并处理精细物体，如鸡蛋。

随着技术的不断进步，Optimus二代及其后续产品可能会在多个领域发挥重要作用，包括家庭服务、工业制造甚至是娱乐行业。

4.DeepMind新论文登Nature：困扰数学家几十年的难题，大模型发现全新解

DeepMind最近在《Nature》杂志上发表他们的最新研究成果—FunSearch，这种新方法可用于为数学和计算机科学问题寻找解决方案。

FunSearch的工作原理是将LLM与自动评估器配对，以防止产生幻觉和错误思路。通过在这两个组件之间来回迭代，最初的解决方案演变成了新的知识。这项工作是首次利用LLM在科学或数学的挑战性开放问题方面取得新发现。

FunSearch成功发现了数学中长期存在的开放问题—cap set问题的全新解决方案。

FunSearch证明，如果能防止LLM产生幻觉，那么这些模型的力量不仅可以用来产生新的数学发现，还可以用来揭示重要现实问题的潜在解决方案。DeepMind认为，对于科学和工业领域的许多问题，使用LLM驱动的方法生成有效和量身定制的算法将成为普遍做法。

5.Mistral AI的MoE开源大模型测试成绩超GPT-3.5，推理速度超快

Mistral AI的开源混合专家模型（MoE）Mixtral 8x7B在AI社区内广受关注，它在多个基准测试中表现优于Llama 2 70B和GPT-3.5。而因其MoE的特性，它处理每个token仅用12.9B参数，推理速度和成本与12.9B的密集模型相当。

Mixtral 8x7B采用了稀疏混合专家网络，是一个decoder-only模型。它的前馈块从8组不同的参数组中进行选择，使得其总参数量为46.7B，而非56B。

在实际测试中，Mixtral在TruthfulQA基准上的成绩为73.9%，在BBQ基准上显示出更少的偏见，在BOLD上展现了比Llama 2更积极的情绪。Mixtral 8x7B Instruct版本在MT-Bench上的得分与GPT-3.5相当，优于其他开源大模型。

Mistral AI已经上线API服务，提供三个版本：Mistral-tiny、Mistral-small和Mistral-medium。Mistral-medium在WinoGrande基准上的得分甚至超过了GPT-4。

6.GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了

OpenAI最近发布了一项重要研究，展示了如何利用较小的AI模型（如GPT-2）来监督和指导更大、更复杂的模型（如GPT-4）。这项研究由OpenAI的首席科学家Ilya Sutskever领导，旨在解决超级人工智能可能带来的风险和挑战。

传统的对齐方法依赖于人类的监督，但随着AI系统变得越来越复杂和创造性，人类可能难以对其进行可靠的监督。例如，超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码，即使是人类专家也很难理解这些代码。

OpenAI的研究提出了一种新的方法，即利用较小的AI模型来监督更大的模型。这种方法被称为“弱到强泛化”（Weak-to-strong generalization），意味着较弱的模型可以激发更强大的模型的能力，使其达到接近更高级别的性能。研究表明，15亿参数的GPT-2模型可以被用来激发GPT-4的大部分能力，使其达到接近GPT-3.5级别的性能，甚至可以正确地泛化到小模型失败的难题上。

然而，研究同时指出，用弱监督训练的强模型和用真实标签训练的强模型之间仍然存在很大的差距。这表明在没有额外工作的情况下，诸如基于人类反馈的强化学习（RLHF）之类的技术可能无法很好地扩展到超人类模型。

7.表格数学推理准确率达98.78%！UCLA推出全新「变色龙推理框架」

UCLA等机构最近发布了Chameleon推理框架，它的核心功能是通过LLM规划器生成自然语言程序，找到最佳工具组合，并依次执行这些工具来得出结论。

在科学问答任务ScienceQA和表格数学推理任务TabMWP上，它分别获得了86.54%的准确率和98.78%准确率。

Chameleon能够根据不同的输入问题，组合和使用各种不同的工具来完成相应的复杂推理。例如，在解决ScienceQA的任务时，Chameleon模型会为不同的问题生成不同的程序，以灵活组合各种工具，并按照一定的顺序执行它们，从而最终得出答案。

8.MIT斯坦福Transformer最新研究：过度训练让中度模型「涌现」结构泛化能力

斯坦福和MIT的研究人员最近的研究发现，Transformer模型在经过长时间训练后，能够获得结构性的泛化能力，这一现象被称为结构顿悟（Structural Grokking，SG）。这一发现颠覆了之前的认知，即Transformer模型难以有效捕捉句子的层级结构。

研究人员发现，SG现象在模型的深度上呈现倒U缩放，即中深度模型的泛化能力比非常深和非常浅的模型都要好。实验表明，通过对模型进行更多的扩展训练，普通的Transformer能够展现出层级结构。

研究人员训练了不同层数的Transformer语言模型，并对其进行了广泛的测试。结果显示，在所有数据集上，泛化性能在分布内准确率饱和之后的训练步骤中得到改善，有时甚至接近完美的准确率。此外，提前停止训练会导致泛化性能被严重低估。

人工智能初创公司的新融资

1.Transformer一作再创业，Essential AI获5650万美元融资，谷歌、英伟达AMD参与

官方网站：essential.ai

Transformer论文主要作者Ashish Vaswani和Niki Parmar创立的大模型公司Essential AI，近期获得了5650万美元的A轮融资，本轮融资由March Capital领投，谷歌、英伟达、AMD等科技巨头参与投资。

此外，参投该公司种子轮的Franklin Venture Partners、KB Investment和Thrive Capital也继续跟投。Thrive Capital是Essential种子轮融资的领投者，此前还参与过对OpenAI的投资。这轮融资使得成立不到一年的Essential AI的总融资额达到近6500万美元。

Essential AI是一家专注基于大模型的全栈型智能产品的初创公司，主要服务于企业用户。它的产品能够迅速学习企业的资料，并通过自动化耗时且单调的工作流程来提高生产力。例如，它们的技术将使数据分析师的工作效率提高10倍，并为商业用户提供工具，使他们自己成为独立的数据驱动型决策者。

目前，Essential团队包括两名联合创始人在内共有七人，在创立Essential AI之前，Ashish Vaswani和Niki Parmar与谷歌前AI总监David Luan共同创立了Adept AI（20亿美元估值独角兽）。Ashish和Niki退出Adept后，Essential AI的业务并不会与Adept产生直接竞争。

2.Replicate获a16z领投的4000万美元B轮融资

官方网站：replicate.com

近日，Replicate获得a16z领投的4000万美元B轮融资，参与方包括 NVIDIA旗下风投NVentures、Heavybit、红杉资本和Y Combinator。Replicate的投后估值为 3.5 亿美元，累计融资约5800万美元。

Replicate打造了一个开源的AI模型托管云平台，帮助中小企业实现模型的快速交付，用户可以在平台上部署，微调AI模型，还能根据业务量快速扩展自己的模型。它能提供自然语言处理的大模型，以及图片生成、图像修复、自动生成视频、自动生成音频、二次元生成等上千个AI模型。

随着NVentures的投资，公司也与NVIDIA达成协议，能获得更多的GPU，还与Coreweave和Google Cloud等多家云提供商进行合作。

在Replicate目前的30000名付费客户中，有Buzzfeed、Getty旗下的Unsplash等公司，以及Character AI 和 Labelbox 等初创公司。

3.马斯克的AI公司xAI完成1.347亿美元融资

官方网站：x.ai

本周二，马斯克的AI公司xAI在向SEC提交的文件中透露，公司正寻求10亿美元的股权融资，目前已售出1.347亿美元，并已就剩余的8.65亿美元资产“达成了一项具有约束力和可执行性的买卖协议”。

此前，xAI公布了他们对标ChatGPT的产品—Grok。它由Grok-1大模型来支撑，在推理，数学，编程等方面拥有不错的能力。

Grok提供专用的“趣味”模式、多任务处理、可分享的聊天和对话反馈。趣味模式赋予Grok独特的个性，使其能够以带有讽刺和幽默的方式进行更吸引人的对话。

它还通过独家访问X（原推特）及其实时的用户生成的帖子和信息来实现差异化，它能访问在X上发布的最新数据，并在用户询问实时问题时提供最新信息。

xAI由马斯克创立于今年 7 月，其背后的团队来自DeepMind 、OpenAI、谷歌研究院、微软研究院、特斯拉等顶级人工智能研究公司。团队成员曾参与并领导了该领域一些重大突破的开发，包括AlphaStar、AlphaCode、Inception、Minerva、GPT-3.5和GPT-4。

4.印度大模型公司Sarvam AI获Lightspeed领投的4100万美元A轮融资，Khosla Ventures参投

官方网站：www.sarvam.ai

位于印度的大模型初创公司Sarvam AI在种子轮与A轮融资中共筹集4100万美元。Lightspeed领投了A轮融资，并与Peak XV合作领投了种子轮。Peak XV和Khosla Ventures也参与了此次A轮融资。

尽管印度拥有发达的IT产业，也有很多印度裔创业者在硅谷创业，但印度本土并没有强大的大模型公司。Sarvam AI致力于构建支持印度语言、以印度语作为使用默认界面的大语言模型，以兑现在基础层进行创新和在巨大人口规模上部署AI的商业价值。这样针对性的市场定位要求公司改变现有开放模型的架构，并以自定义的方式训练。

同时，Sarvam AI还试图创建一个平台，为企业提供包括应用程序开发、渠道部署、日志观察和自定义评估在内的一站式LLM企业级解决方案，以针对性地满足印度市场需求。

Sarvam AI由Vivek Raghavan和Pratyush Kumar创立，两人之前曾在得到印度科技巨头Nandan Nilekani工作。Raghavan拥有卡内基梅隆大学博士学位；Kumar则拥有苏黎世联邦理工学院博士学位，还曾在微软研究院和IBM研究院任职。

5.自动化模具制造商Atomic Industries获1700万美元种子轮融资

官方网站：www.atomic.industries

近日，Atomic Industries获得由Narya Capital领投，Yamaha Motor Ventures、Toyota Ventures、Porsche Ventures、Impatient Ventures、Acequia Capital和8090 Industries参投的1700万美元种子轮融资。

Atomic Industries希望将工具和模具制造自动化，这是工业产品的关键步骤。

它的人工智能产品可以成为工具和模具的超高效设计引擎，几乎像是客户想要制造的产品与将要制造该产品的工具之间的翻译层。这让工厂工人也像软件工程师一样拥有生产力倍增器。

Atomic Industries成立于2019年，由Aaron Slodov、Austin Bishop和Lou Young Jr.联合创立。这个创始团队具有丰富的创业和产业经历，例如Lou Young Jr.曾先后担任零件生产商Linear AMS的业务总监、主席。

6.语音AI公司AssemblyAI获Accel领投的5000万美元C轮融资

官方网站：www.assemblyai.com

语音人工智能公司AssemblyAI完成Accel领投的5000 万美元C轮融资，Salesforce前联席首席执行官Keith Block、GitHub前首席执行官Nat Friedman、Daniel Gross、Insight Partners和Y Combinator参投。AssemblyAI目前总融资额为1.15亿美元。

AssemblyAI提供基于云的AI语音模型Conformer-2，它处理音频文件的准确度比上一代模型提高了近50%。

基于这个模型，AssemblyAI的产品可处理多种与音频有关的实际场景，例如转录演讲录音，并将转录的每个部分与相关演讲者相关联，且将文本组织成章节；帮助开发人员分析音频文件的内容，从记录中提取感兴趣的项目，例如提及竞争对手，并生成自动摘要。

Dylan Fox是AssemblyAI的首席执行官兼创始人，在创办AssemblyAI以前，他在思科担任高级软件工程师，专注于协作产品的机器学习。

7.数据隐私AI初创公司Mine获得Battery Ventures和PayPal Ventures共同领投的3000万美元B轮融资

官方网站：www.saymine.com

基于AI的数据隐私解决方案Mine完成3000万美元B轮融资。本轮融资由Battery Ventures和PayPal Ventures共同领投，Gradient Ventures、Headline、MassMutual Ventures、Nationwide Ventures、Saban Ventures参投。经过4轮融资，公司的融资总额达到4250万美元。

生成式AI的迅速普及凸显了数据隐私的至关重要性，数据隐私保护是任何公司和消费者都很关注的问题。

Mine致力于重塑个人和企业处理数据保护的方式：通过SayMine应用程序，个人可以回收他们的数据，深入了解他们的数字足迹。

在B2B方面，MineOS通过使用AI和独特的数据发现方法，使企业的数据流程无缝适应通用隐私标准。同时，通过使用更精确的风险度量来应用集成和数据治理工具，仅在合规性绝对必要的情况下进行操作，最大化节省资源。

Mine目前通过其独特的免费套餐产品为2000多位消费者客户提供服务，并为150多家企业客户提供服务，包括Reddit、HelloFresh SE、FIFA和Data.ai。

Mine由Gal Golan(CTO)、Gal Ringel(CEO)和Kobi Nissan(CPO)联合创立。他们拥有金融公司，IT公司和咨询公司的符合背景，对行业有深刻洞察。

8.提供人工智能课程辅导的Kyron Learning1460万美元A轮融资

官方网站：www.kyronlearning.com

近日，Kyron Learning获得由Global Silicon Valley Ventures领投的1460万美元A轮融资，Bill&Melinda Gates Foundation投资额外的85万美元融资，用于进一步构建K-12数学课程平台。

Kyron Learning利用AI支持的交互式视频更快捷地为学习者提供持续不断的学习辅导和解答。通过双向自由对话，学习者可以随时随地实时获得相关问题的解答，提高学习的效率。这一教育创新为教育资源匮乏的学习者提供了接触到高质量教学资源的机会。

Bill&Melinda Gates Foundation的85万美元用来构建Kyron Learning的K-12数学课程，研究交互式视频对学习环境的影响，更好地服务部分难以接触优秀讲师地区的学习群体。

Kyron Learning的CEO和创始人Rajen Sheth曾是Google Cloud AI的副总裁，作为AI领域的专家创办了这个具有公益性质的教学平台。

9.Rightbot获Amazon Industrial Innovation Fund领投的625万美元融资

官方网站：www.rightbot.com

AI卸货机器人公司Rightbot获得由Amazon Industrial Innovation Fund领投，Entrepreneur First, Flipkart Ventures, Morphosis Venture Capital, SOSV参与的625万美元种子轮融资。

尽管已经有传统机器人参与卸货，但它无法解决卸货中货物多样性和不可预测性的问题，目前传统的卸货仓储仍然大多依靠人工。

Rightbot的机器人在AI的驱动下，可以自动卸货卡车、拖车和集装箱船，大大缓解人工压力，它还可以使用吸盘技术更加稳定地利用传送带，机械臂，并配备摄像头方便监管。

Rightbot的创始人和CEO为Anurag Dutta，毕业于印度管理学院艾哈迈德巴德分校，有着数十年的机器工程经验，曾在Carlsberg India担任领导成员。

10.用AI辅助撰写投标书的AutogenAI获Spark Capital领投的3950万美元B轮融资

官方网站：autogenai.com

近日，AutogenAI获得3950万美元B轮融资，该轮融资由Spark Capital和Salesforce Ventures领投，Blossom Capital跟投了本轮融资。

投标申请书是公司开展业务过程中不可避免要进行的工作，但完成一份合格的投标申请书不仅需要雇佣专门的文书专家，起草投标书过程所耗费的时间也会耽误公司的业务进度，这一影响对于中小公司尤为明显。

AutogenAI的产品基于生成式AI，利用客户的文本和知识语料库来训练AI，以此来了解“客户的声音”和背后的知识。

它可以将撰写标书的时间花费，从几周时间缩短到几天，还可以支持为每个客户提供个性化的服务。

据公司统计，AutogenAI的服务将客户获得招标的概率提升了30%，标的总额已经超过了100亿美元，还将撰写招标书的各种成本整体降低了85%。

AutogenAI的创始人是Sean Williams，他毕业于剑桥大学，此前创立了职业培训公司Corndel。

本文由阿尔法公社综合自多个信息源，并在ChatGPT的辅助下写作，封面图片由Hidream.ai的Pixeling（千象）生成。

关于阿尔法公社

Transformer论文作者再次创业，特斯拉人形机器人Optimus二代亮相

全部评论（0）

热门推荐

Transformer论文作者再次创业，特斯拉人形机器人Optimus二代亮相

全部评论 （0）

热门推荐

全部评论（0）