• +1

在印度争夺人工智能独立性的内部动态

2025-07-07 17:25
来源:澎湃新闻·澎湃号·湃客
字号

结构上的挑战和该国的多种语言使得开发基础人工智能模型变得颇为困难。但政府迫切希望不落人后。

今年早些时候,在印度班加罗尔,阿迪西亚·科拉维(Adithya Kolavi)看到DeepSeek在全球范围内推出了其颠覆性的语言模型,感到既兴奋又认可。中国的技术在基准上可以与西方最好的技术媲美,但它是在更短的时间内用更少的资金建成的。

“我心想:‘这就是我们如何以更低成本实现颠覆的方式,’”印度人工智能初创公司CognitiveLab的20岁创始人科拉维说道。“如果DeepSeek能做到,我们为何不能呢?”

但对于索克特 AI 实验室的创始人、印度最早致力于开发基础模型的项目之一的架构师阿比谢克·乌珀瓦尔来说,这一时刻既令人欣喜,又有些苦涩。

乌珀沃尔的模型名为Pragna-1B,在资金微薄的情况下苦苦挣扎,而同时他看到全球的同行们筹集到了数百万美元的资金。这个多语言模型拥有相对有限的12.5亿参数,其设计初衷是降低“语言税”——即由于印度与美、中不同,需要支持多种语言而产生的额外成本。他的团队曾对该模型进行过训练,但资源有限意味着无法扩大规模。因此,他表示,该项目最终成为了一个概念验证而非实际产品。

“如果两年前我们得到了资助,很有可能就是我们开发DeepSeek刚刚发布的产品,”他说。

科拉维的热情与上沃尔的沮丧反映了印度人工智能构建者中各种情绪的交织。尽管印度是全球科技中心之一,但在本土人工智能领域的发展上,却远远落后于美国和中国等先进国家。这一差距的拉大,在很大程度上归因于印度在研发、机构和创新方面长期投资不足。此外,由于大部分人口没有使用同一种母语,训练语言模型的工作在印度比在其他地方复杂得多。

从历史上看,印度被称为软件行业的全球后台,印度的科技生态系统是本着服务至上的理念发展起来的。像Infosys和TCS这样的巨头们 成功 的 基础是高效的软件交付,但发明既没有被优先考虑也没有得到奖励。同时,印度在2024年的研发支出仅徘徊在GDP的0.65%(254亿美元),远远落后于中国的2.68%(4762亿美元)和美国的3.5%(9623亿美元)。从算法到芯片,发明和商业化深科技的肌肉从未建立。

在国防研究与发展组织(DRDO)和印度空间研究组织(ISRO)等政府机构中,确实存在一些孤立的世界级研究,但它们的突破很少扩展到民用或商业用途。印度缺乏像美国DARPA那样将冒险研究与商业路径连接起来的桥梁。同时,印度的许多顶尖人才移居国外,被更了解深层技术的生态系统所吸引,而关键是,这些生态系统也为深层技术提供资金。因此,当开源基础模型DeepSeek-R1突然展现出超越许多全球同行的表现时,这触动了人们的神经。这家中国初创企业的这一举动促使印度政策制定者直面该国在人工智能基础设施方面的落后程度,以及其亟需做出回应的紧迫性。

印度回应

2025年1月,在DeepSeek-R1发射10天后,电子与信息技术部(MeitY)开始征集印度自主基础模型的提案,这些模型是大型人工智能模型,可以适应各种任务。其公开招标邀请私营部门的云和数据中心公司为政府主导的AI研究预留GPU计算能力。

包括 Jio、Yotta、E2E Networks、塔塔、AWS 合作伙伴以及 CDAC 在内的供应商做出了回应。通过这一安排,MeitY 突然能够以补贴价格获得近 19,000 个 GPU,这些 GPU 来自私有基础设施,并被专门分配给基础 AI 项目。这促使众多公司纷纷提交提案,希望构建自己的模型。

两周内, 他们已经收到了67份提案 。这个数字在3月中旬增加了两倍。

今年4月,政府宣布计划在2025年底之前开发6个大型模型,以及针对农业、教育和气候行动等部门的18个额外的AI应用。最值得注意的是,它 聘请了 Sarvam AI 来构建一个针对印度语言和需求的700亿个参数的模型。

对于一个长期受限于有限研究基础设施的国家来说,事情以创纪录的速度发展,标志着雄心、才智和政治意愿罕见地融合在一起。

“印度可以在人工智能方面做Mangalyaan,”IIIT-Delhi的Gautam Shroff说,他指的是 该国的成本效益 ,以及成功的火星轨道器任务。

Jaspreet Bindra是专注于教授人工智能素养的组织AI&Beyond的联合创始人,他敏锐地捕捉到了其中的紧迫性:“DeepSeek很可能是印度发生的最棒的事情。它给了我们当头一棒,促使我们停止空谈,开始付诸行动。”

语言问题

为印度构建基础性AI模型所面临的最为根本的挑战之一,是这个国家极其丰富的语言多样性。印度有22种官方语言,数百种方言,以及数以百万计的多语言人口,这使得现有的大多数LLMs都难以应对印度所面临的问题。

虽然大量高质量的网络数据可用英语提供,但印度语言在在线内容中所占比例不到1%。缺乏像比丘里语和卡纳达语这样的语言的数字化、标记和清理数据,使得培训理解印度人实际说话或搜索方式的LLMs变得困难。

全局标记器将文本分解为模型可以处理的单元,但在许多印度文字上表现不佳,误解了字符或完全跳过一些。因此,即使将印度语言包含在多语言模型中,它们也常常被理解不良且生成不准确。

与OpenAI和DeepSeek通过使用结构化英语数据实现规模不同的是,印度团队通常从包含数十种印度语言的碎片化和低质量数据集开始。这使得训练基础模型的早期步骤更加复杂。

尽管如此,一群规模虽小但意志坚定的印度建筑从业者正开始塑造该国的AI未来。

例如,Sarvam AI 创造了 OpenHathi-Hi-v0.1,一个开源的印地语语言模型 展示 了 印度 AI 领域解决该国巨大语言多样性的不断增长的能力。该模型基于Meta的Llama 2架构,在400亿个印地语和相关的印度语言内容上进行训练,使其成为迄今为止最大的开源印地语模型之一。

Pragna-1B,来自Upperwal的多语言模型,进一步证明了印度可以 解决 自己的语言复杂性问题。训练了3000亿个标记只需250,000美元,它引入了一种称为“平衡标记化”的技术,以解决印度人工智能的独特挑战,使一个12.5亿个参数的模型能够像一个大得多的模型一样运行。问题在于,印度语言使用复杂的文字和凝集语法,通过使用前缀和后缀将许多较小的意义单位串联在一起来形成单词。与用空格分隔单词并遵循相对简单的结构的英语不同,印度语言如印地语、泰米尔语和卡纳达语通常缺乏清晰的词界,并将大量信息包装在单词中。标准的标记器难以处理这些输入。它们最终将印度单词分解为过多的标记,这使得输入变得过多,使模型更难有效理解意义或准确回应。

然而,借助这项新技术,“一个拥有10亿参数的模型相当于一个拥有70亿参数的模型,比如Llama 2”,尤伯瓦尔表示。这一性能提升在印地语和古吉拉特语方面尤为显著,在这些语言上,由于多语言训练数据的有限性,全球模型的表现往往不尽如人意。这提醒我们,借助巧妙的工程技术,小团队依然能够突破界限。Upperwal最终重新利用其核心科技,为22种印度语言开发了语音API,这是一个更直接的解决方案,更适合经常被排除在英语优先的AI体验之外的农村用户。

“如果通往AGI的道路是一百步的过程,那么训练语言模型只是第一步,”他说。

而在光谱的另一端,是那些有着更大胆目标的初创企业。Krutrim-2,例如,是一个 120亿个参数的多语言语言模型 优化为英语和22种印度语言。

Krutrim-2正试图解决印度的语言多样性、低质量数据和成本限制等具体问题。该团队构建了一个自定义的Indic标记器,优化了培训基础设施,并从一开始就设计了多模态和语音优先用例的模型,这在一个文本界面可能成为问题的国家中至关重要。

克鲁特里姆的赌注在于,其方法不仅将促成印度在人工智能领域的自主地位,还将提供一个适用于全球南方地区的AI模式。

除了公共资金和计算基础设施,印度还需要人才、研究深度和长远资本的制度支持,以产生具有全球竞争力的科学。

尽管风险投资仍不愿押注研究,但新的实验正在涌现。帕拉斯·乔普拉(Paras Chopra)是一位企业家,他曾创建并 出售 软件即服务公司Wingify,现在他正在个人资助Lossfunk,这是一个贝尔实验室风格的AI驻留项目,旨在 吸引 热爱开源科学的独立研究人员。

Chopra说:“我们在学术界或行业中没有榜样。所以我们正在创造一个空间,让顶尖研究人员可以互相学习,并拥有创业风格的股权上行空间。”

政府支持的押注于主权人工智能

印度人工智能雄心的最明确标志是 政府选择了 Sarvam AI来开发一个专注于印度语言和语音流利的模型。

这个想法是,它不仅能够帮助印度企业在全球人工智能竞赛中竞争,还能惠及更广泛的民众。“如果它成为印度生态系统的组成部分,就可以通过对话界面来教育数亿人,”宾德拉说道。

萨瓦姆获得了4,096个英伟达H100 GPU的访问权限,以便在六个月内训练一个拥有700亿参数的印度语言模型。(该公司此前曾发布过一个在10种印度语言上训练的拥有20亿参数的模型,称为萨瓦姆-1。)

萨瓦姆的项目以及其他项目都属于一项名为“印度AI使命”的更大战略的一部分,这是一项耗资12.5亿美元的国家级计划,于2024年3月启动,旨在构建印度的核心AI基础设施,并使先进工具更加普及。在MeitY的领导下,该任务的重点是支持人工智能初创企业,尤其是那些正在开发印度语言基础模型并应用人工智能于医疗保健、教育及农业等关键领域的企业。

根据其计算计划,政府正在向一组精选的印度初创公司部署超过18,000个GPU,其中包括近13,000个高端H100芯片,目前包括Sarvam、Upperwal的Soket Labs、 Gnani AI ,以及 Gan AI 。

该任务还包括计划启动一个全国性的多语言数据集存储库,在较小城市设立人工智能实验室,并为尖端技术研发提供资金。其更广泛的目标是,为印度开发者提供构建具有全球竞争力的人工智能所需的基础设施,并确保相关成果植根于印度以及全球南方地区的语言和文化现实。据印度AI首席执行官、MeitY官员阿比谢克·辛格称,印度在深度科技领域的整体推进预计在接下来的五年里将筹集约120亿美元的研究和开发投资。

这包括通过“印度AI使命”计划提供的约1.62亿美元,其中约3200万美元被专门用于直接初创企业资金。国家量子使命还将贡献7.3亿美元,以支持印度在量子研究领域的雄心。除此之外,2025-26年的国家预算文件宣布了一项12亿美元的深度科技基金母基金,旨在促进私营部门的早期创新。

剩下的近99亿美元预计将来自私人和国际来源,包括企业研发、风险投资公司、高净值个人、慈善家以及微软等全球技术领导者。

目前, IndiaAI 已经收到了500多份来自初创公司的申请,这些申请在健康、治理和农业等领域提出了用例。

“我们已经宣布支持Sarvam,另外10到12家初创公司将只为基础模式提供资金,”辛格说。选择标准包括获取培训数据、人才深度、行业契合度和可扩展性。

开门还是关门?

然而,印度AI项目并非没有争议。Sarvam是作为一个封闭模式构建的,而不是开源的,尽管它有公共技术根源。这引发了关于私营企业和公共产品之间适当平衡的辩论。

“真正的主权应植根于开放性和透明度,”人工智能政策专家阿姆兰·莫汉蒂说道。他提到了DeepSeek-R1,尽管其参数规模达到了2360亿,但仍被公开提供以供商业使用。

它的发布使世界各地的开发者可以在低成本的GPU上对其进行微调,创建更快的变体,并将其功能扩展到非英语应用程序。

“推出一个具有高效推理能力的开放权重模型,可以推动AI的民主化,”埃默里大学信息系统与运营管理助理教授韩城·曹表示,“这使得原本不具备庞大基础设施的开发人员也能够使用AI。”

然而,印度AI对公共资助的模型是否应该开源持中立立场。

“我们不想左右商业模式,”辛格说,“印度一直支持开放标准和开源,但这取决于团队。无论路线如何,我们的目标都是强大的印度模式。”

此外还有其他的挑战。5月下旬,Sarvam AI发布了Sarvam-M,这是一款针对10种印度语言进行了微调的240亿参数多语言大型语言模型,其构建基础是法国公司Mistral AI开发的高效模型Mistral Small。Sarvam的联合创始人维韦克·拉加万称该模型是“我们在为印度构建主权人工智能的道路上的一块重要垫脚石”。但该模型的下载量并不理想,头两天内仅有300次下载。风险投资人迪迪·达斯称此次发布“令人尴尬”。而问题不仅限于初期冷淡的接受度。印度的许多开发者仍难以获得GPU,而针对印度语言的AI应用的整体生态系统也仍处于萌芽阶段。

计算问题

计算资源短缺正逐渐成为生成式人工智能领域最显著的瓶颈之一,这不仅限于印度,全球皆是如此。对于那些仍严重依赖进口GPU且缺乏国内制造能力的国家而言,构建和运行大型模型的成本往往高得令人望而却步。

印度的大多数芯片仍然依赖进口,而不是在国内生产,大型模型的训练仍然昂贵。这就是为什么初创公司和研究人员都专注于软件层面的效率,这些效率包括更小的模型、更好的推理和微调框架,以优化在更少GPU上的性能。

“基础设施的缺失并不意味着创新的缺失,”曹说。“支持优化科学是在约束条件下工作的明智方式。”

然而,印度AI的辛格认为,由于新的政府项目和公私合作伙伴关系,基础设施挑战的趋势正在逆转。“我相信在未来三个月内,我们将不再面临去年看到的那种计算瓶颈,”他说。

印度也有成本优势。根据古普塔的说法,在印度建立超大规模数据中心的成本约为500万美元,大致为美国、欧洲或新加坡等市场成本的一半左右。这要归功于廉价的土地、较低的建造和劳动力成本,以及大量熟练的工程师。

就目前而言,印度在人工智能领域的抱负似乎与其说是为了超越OpenAI或DeepSeek,不如说是为了实现战略上的自主。无论其采用的方式是小规模的自主模型、开放的生态系统还是公私合作的混合型模式,这个国家都在押注于自己能够规划出一条独特的道路。

尽管一些专家认为,政府(对DeepSeek)的行动或反应是表演性的,符合其民族主义议程,但许多初创公司创始人感到振奋。他们认为,政府和私营部门之间日益加强的合作是克服印度在技术创新方面长期存在的结构性挑战的真正机会。

在去年的班加罗尔Meta峰会上,印孚瑟斯董事长南丹·尼勒卡尼呼吁印度不要盲目追求一个“亦步亦趋”的人工智能梦想。

“让硅谷的大佬来做吧,”他在谈到构建 LLMs 时说道。“我们将用它来创建合成数据,快速构建小型语言模型,并使用适当的数据训练它们。”

他认为印度应该优先考虑实力而非场面,这一观点受到了不同意见的接受。但它反映了一种更广泛的共识,即印度是否应该完全换一种游戏。

“试图主导堆栈的每一层都是不现实的,即使对中国来说也是如此。”Shobhankita Reddy,印度公共政策非营利组织Takshashila Institution的研究员说。“主导一个层面,比如应用程序、服务或人才,这样你仍然不可或缺。”

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2026 上海东方报业有限公司