数字在NLP模型中的意义令人惊喜(一)
NLP模型能够表示文本,那能够识别数字吗?本系列旨在介绍NLP模型中的数字表示,参考的是南加州大学在NAACL2021发表的文章:Representing Numbers in NLP: a Survey and a Vision
论文链接:https://arxiv.org/pdf/2103.13136v1.pdf
好久没有在公众号上更新文章了,希望能把阅读文章和总结的习惯继续捡起来。本文是 Numbers在NLP模型中的表示 综述的第一部分,后续还需继续更新。本文第一部分介绍的是测试各种模型计算能力的任务(模型的数学考试任务)和目前使用的方法,第二部分则是介绍各种模型是如何进行数字表达的(模型中的数字表示方法)以及目前使用的方法。
背景介绍
数字在自然语言中是很普遍的存在。日常交流中同样经常使用到数字,比如买菜的时候和大妈讨价还价,这时候你不但需要通过理解大妈的话揣测她心里的最低价位,还需要在心里对比自己的心理价位,并用话术使二者无限逼近。菜市场不愧是现代心理学和博弈论的实践战场。
如果让AI来和菜市场大妈讨价还价是否可能呢? AI目前对于自然语言中的纯文本理解已经达到了一个很高的水平,但是对于数字的理解水平还不太够。
以往的工作在文本预处理的时候把数字直接丢弃。BERT一类模型中用的BPE[1]和WordPiece[2]不会丢弃数字,但是会把数字拆开,比如1234->12-34或者1-234。
最近的一些工作指出了前人研究中对数字处理的不合理之处,比如在AI2提出的DROP问答数据集中,当答案是一个数字而不是一段文本时,BERT的表现变差了5倍[3]。但是如果把数字从sub-words level转换到word level,或者使用科学计数法表示数字,又能提升模型的效果[4][5]。那到底模型应该如何表示数字,以及如何判别模型识别数字的能力呢?
模型的数学考试任务
从认知科学的角度出发,本文介绍论文中提到的通过两个维度来设计测试模型计算能力的任务:
(1)程度;程度主要分为表示精确(Exact)的程度(birds have two legs)和表示大致(Approx)的程度(Jon is about 180 cms tall);
(2)单位;单位主要分为抽象(Abstract)单位(2+3=5)和现实(Grounded)单位(2个苹果+3个苹果=5个苹果)。对于抽象单位的数学任务很容易创建数据集,但现实单位的数字不同,因为它们的理解通常需要结合单词的上下文。比如“ I woke up at 11 ” 和 “ I earn $11 per month ”中的“ 11 ”就不是一个意思,需要结合上下文理解。
现有工作
表1根据测试任务的分类,分别作为横纵坐标整理了7类现有工作:
Simple Arithmetic(简单的算术):指的是单独对数字进行加法、减法等运算的任务。通过一些现有的语言模型[4][6]可以很方便的构建数据集。
Numeration(数值计算):指的是将字符串形式映射为其具体数值的任务。比如将string类型的19表示为float 19.0。该任务在NLP中通常使用相应embedding的freeze(static[7]和contextualized[8])结合基于线性回归分类作为probing task来验证模型相应的能力。
Magnitude:数量级比较。指的是一种判断两个(或多个)数字中哪个更大的能力。该任务同样可以建模为一个二分类任务[7][8],例如,给定23和32,选择标签1表示32 > 23。
AWP:算术应用题(AWP)是从学校教科书中获取的基本算术的数据,例如,“玛丽有两块饼干,她送了一块,她还剩多少?”。数学应用题的NLP数据集有很多[9][10]。
ExactFacts(客观事实):ExactFacts在计算中涉及常识,比如骰子有6面,鸟有两条腿。近似的数量感觉在这里没有什么用,因为像骰子有5张脸,鸟有3条腿这样的叙述实际上是不正确的。数字常识事实的两个最新数据集是Numbergame[11]和NumerSense[12](别问我是不是少了个b)。
Measurement Estimation:指的是心理学中的一项任务,受试者被要求在特定的维度上近似猜测物体的测量值,例如西瓜里的种子数量或手机的重量等等。VerbPhysics[13]是各种物理对象属性的二分类比较基准,例如,在大小的比较方面,ball<tiger。DoQ[14]是一个来源于互联网的数量分布数据集,可以作为测量语言模型估计能力的benchmark。MC-TACO[15]是特定于时间度量估计的数据集,例如,放假的时间跨度为几天/几周。
Numerical Language Modeling:数值语言模型是一种训练方式,类似于词汇的mask语言模型。其他任务可以建模为数值语言模型,例如,算术(2+3=[MASK])和测量估计(狮子的重量[MASK]磅)。在实践中,数值语言模型是指为未标记的、自然产生文本进行数值预测的任务。
Downstream Applications(下游应用):Dubey等人[16]基于数字检测推文中的讽刺现象。Chen等人[17]使用可替换的数字表示、数字理解和分类的辅助任务识别财务文件中的债权。同时应用简单的算术和数学文字问题作为辅助任务可以提高GenBERT [4]在DROP QA基准测试中的分数。
模型中的数字表示方法
本文介绍的表示方法仅限于编码(number->embeddings)和解码(embedding->numbers)两种。实验中采用的是BERT模型,并假设在BERT中存在一个独立的将词映射到embdding的过程。
本文将讨论两种表示方式:String-based和Real-based。String-based表示法看到的是string形式的数字;Real-based表示法会执行一些涉及真实数值的计算。
- String-based
默认情况下,语言模型将数字视为普通的字符串。然而,在字符串表示中,可以对数字做一些简单的修改:
- Notation。将字符串数字转换为阿拉伯数字、罗马数字、科学计数法亦或是英文等等。[18]专门研究了在语言模型中选择各种不同的表示法对简单算术任务的影响。
- Tokenization。通常的tokenizer会把非常见数字转换为UNK。BERT一类的模型的BPE和WordPiece通常会把数字拆分开。
- Pooling。由于单个数字现在可能经过tokenization后对应多个tokens,例如,100分成10-0或1-0-0。分析过tokenization的影响后出现了Pooling的方法。[19]研究了使用RNNs或CNNs将这些标记的embedding通过Pooling变成一个单一的embedding,然后再将其输入语言模型中。
- Real-based
该情况下,通常使用两种方式解析数字:
- Direction:从encoder端学习number的表示,[20]使用了一种独立于文本的embedding方法DICE来学习数字的embedding,从decoder端解析数字的时候学习数字表示,[21]从模型的各种参数分布中抽样出数字表示。
- Scale:受到认知科学的启发,有几种方法尝试在log运算(非线性)的度量中建模数字,即对要表示数字的对数进行数学运算。在对数缩放运算中,log(·)和exp(·)互为逆运算。本文在之后会讨论更多的放缩度量,如稳定对数尺度(stabilized log scale)[22]和可学习的度量[21]。
- Discretization(离散化):[8]指出对大范围的数字训练连续值函数实际上是不可行的。一些Real-based的方法先把数字分桶,再学习每个桶的embedding。桶里的数字可以是线性尺度的(0-10, 10-20, 20-30,…)或对数尺度(0.01-0.1, 0.1-1, 1-10 ,…),相应数字的embedding的映射表可以通过regular 交叉熵[7]或dense交叉熵[17]的方式学习。
现有工作
上一节在描述了数字不同的表示方式之后,又描述了以前工作中使用的一些String-based(字符串数字)和Real-based(真实的数字)的方法。下表将这些方法进行整理,前三列显示了它们在分类法中的位置。最后七列对应七个任务,每个单元格表示引入它的代表性工作。
上表是NLP中数字表示的概述:每一行都代表一种方法,按照的上一节的分类(字符串和实数形式)分成两部分,每个部分进一步细分为三个维度。最后七列对应于计算的七个子任务,按照精确和近似的不同粒度进行划分。这些单元格指向在给定任务(列)上使用给定方法(行)进行试验的代表性工作。
-
String-based methods
- Word Vectors & Contextualized Embeddings 典型的代表作有很多:word2vec,ELMo,BERT等等。它们都是将数字当做string处理。
- GenBERT[4] GenBERT是一个以预训练的BERT为编码器和解码器的问答模型。和BERT不同的地方在于,GenBERT的tokenizer会把数字切分为digit level,并在算术单词问题和简单算术的辅助任务上进行微调。
- NumBERT[5] NumBERT在一个修改过的数据集上从头开始训练BERT,数据集中所有的数字都被转换成科学计数法表示,即314.1表示为3141[EXP]2。NumBERT的tokenizer遵循的是科学计数法和subword-tokenization。
- DigitRNN[19], DigitCNN[8] 两个模型都将多位数看做单位数的组合,将每个数字的embedding集合到一个单独的表示完整数字的embedding中。两者都使用了RNN和CNN进行池化。
- DigitRNN-sci & Exponent (Embedding)[21] [21]使用了DigitRNN的一种科学符号变体(在表中称之为DigitRNN-sci),以及一种更简单的替代方法:指数嵌入。指数嵌入仅仅学习了embedding中的指数部分的查找,忽略了尾数部分。
-
Real-based methods
- DICE (Deterministic Independent-of-Corpus Embeddings)[20] DICE中设计了一个人工定义的数字编码器F,以保持两个数字的embedding之间的相对大小。对于两个标量i和j,F(i)和F(j)分别将其映射为对应的欧式距离。DICE不仅作为一种确定性的数字编码,同时也可以作为训练数字embedding的辅助损失函数。
- Value Embedding 其实最直观的数字编码器就是浅层神经网络(Linear)。浅层神经网络需要学习单一维度的数字到多维向量之间的映射关系。就像Transformer将位置编码融入到模型中一样。
- Log Value 除了在线性度量上的编码器外,还可以使用对数度量的编码器对数字的映射进行实验。[5]用对数值解码器对数字进行测量估计的实验,称之为RGR方法。
- Log Laplace 与RGR解码器的点估计输出相比,模型还可以用于参数化数字分布。某些上下文的向量可以用来参数化,例如,高斯分布或拉普拉斯分布的均值和方差。这种方式在估计大约数量的任务中是很有帮助的。
- Flow Laplace 数字解码器的表达能力可以通过简单的变换来扩展或缩小参数化不同的分布。[21]提出了一个具有更强的表达能力的解码器代替之前的对数放缩方法,模型能够自己学习相应的密度映射。
- MCC(multi-class classification) MCC是另一种输出分布的数字解码器,其输出结果通常是离散的:因为存在对数比例的数字分桶,比如1-10,10-100等等。先前描述的解码器要么输出点估计,要么输出单峰分布,因此无法对数字的真实多样性进行预测。举例一个MASK数字的预测问题:“我们在[MASK]下午去餐馆”,MCC能够更好的估计两个高可能性的值:一个午餐时间(比如下午1-2点),另一个晚餐时间(比如晚上7-9点)。
- Discrete Latent Exponent (DExp) DExp是另一种多可能性的分布,其中模型参数化了指数的多项分布(类似于MCC)。
- GMM(Gaussian mixture model) 另一种规避单模高斯或点估计的尝试是学习高斯混合模型。[19]通过对训练语料进行均值(μi)和方差(σi^2)的预训练来学习混合的K个高斯函数的混合模型。
- GMM-prototype 相似地,对训练语料进行预训练(EM/hard-EM),包括GMM的均值、方差以及混合权重πi。因此GMM和GMM-原型的区别在于,在固定了高斯混合物的均值和标准差后,GMM模型学习对每个个体数预测的混合权重πi进行预测,而在GMM-prototype中,πi是不变的,该模型学习了ei的embedding。
- SOM-prototype 实际上,GMM-prototype仅仅是利用混合高斯模型来推断原型,并得到加权wi。[22]尝试了另一种变体(Self-Organizing Maps),通过自组织映射识别原型类型的数字。
小结
本文介绍了数字在NLP模型中的各种表示方法。第一部分介绍了一些测试模型数学能力的测试方法,就像让模型参加数学测验,看看模型到底会些什么。还介绍了目前常用的测试方法。第二部分则是分类介绍了目前的模型通常是怎么表示数字的,一种是直接认为是纯文本,另一种则是将数字进行某些映射变成抽象的数字或向量。
参考文献
[1]Rico Sennrich, et al. Neural machine translation of rare words with subword units. ACL 2016.
[2]Yonghui Wu, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. 2016.
[3]Dheeru Dua, et al.DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. ACL 2019.
[4]Mor Geva, et al. Injecting numerical reasoning skills into language models. ACL 2020.
[5]Xikun Zhang, et al. Do language embeddings capture scales? EMNLP 2020.
[6]Tom B. Brown, et al. Language models are few-shot learners. 2020.
[7]Aakanksha Naik, et al. Exploring numeracy in word embeddings. ACL 2019.
[8]Eric Wallace, et al. Do NLP models know numbers? probing numeracy in embeddings. EMNLP 2019.
[9]Aida Amini, et al. MathQA: Towards interpretable math word problem solving with operation-based formalisms. NAACL 2019.
[10]David Saxton, et al. Analysing mathematical reasoning abilities of neural models. ICLR 2019.
[11]Swaroop Mishra et al. Towards question format-independent numerical reasoning: A set of prerequisite tasks. 2020.
[12]Bill Yuchen Lin, et al. Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-Trained Language Models. EMNLP 2020.
[13]Maxwell Forbes and Yejin Choi. Verb physics: Relative physical knowledge of actions and objects. ACL 2017.
[14]Yanai Elazar, et al. How large are lions? inducing distributions over quantitative attributes. ACL 2019.
[15]Ben Zhou, et al. Temporal common sense acquisition with minimal supervision. ACL 2020.
[16]Abhijeet Dubey, et al. “when numbers matter!”: Detecting sarcasm in numerical portions of text. NAACL 2019.
[17]Chung-Chi Chen, et al. Numclaim: Investor’s fine-grained claim detection. CIKM 2020.
[18]Rodrigo Nogueira, et al. Investigating the limitations of the transformers with simple arithmetic tasks. 2021.
[19]Georgios P. Spithourakis and Sebastian Riedel. Numeracy for language models: Evaluating and improving their ability to predict numbers. 2018.
[20]Dhanasekar Sundararaman, et al. Methods for numeracy preserving word embeddings. EMNLP 2020.
[21]Taylor Berg-Kirkpatrick and Daniel Spokoyny. An empirical investigation of contextualized number prediction. EMNLP 2020.
[22]Chengyue Jiang, et al. Learning Numeral Embedding. EMNLP 2020.
推荐阅读
-
反传销网8月30日发布:视频区块链里的骗子,币里的韭菜,杜子建骂人了!金融大V周召说区块链!——“一小帮骗子玩一大帮小白,被割韭菜,小白还轮流被割,割的就是你!” 什么区块链,统统是骗子 作者:周召(知乎金融领域大V,毕业于上海财经大学,目前任职上海某股权投资基金合伙人) 有人问我,区块链现在这么火,到底是不是骗局? 我的回答是: 是骗局。而且我并不是说数字货币是骗局,而是说所有搞区块链的都是骗局。 -01- 区块链是一种鸡肋技术 人类社会任何技术的发明应用,本质都是为了提高社会的生产效率。而所谓区块链技术本质不过是几种早已成熟的技术的大杂烩,冗余且十分低效,除了提高了洗钱和诈骗的效率以外,对人类社会的进步毫无贡献。 真正意义上的区块链得包含三个要素:分布式系统(包括记账和存储),无法篡改的数据结构,以及共识算法,三者互为基础和因果,就像三体世界一样。看上去挺让人不明觉厉的,而经过几年的瞎折腾,稍微懂点区块链的碰了几次壁后都已经渐渐明白区块链其实并没有什么卵用,区块链技术已经名存实亡,沦为了营销工具和传销组织的画皮。 因为符合上述定义的、以比特币为代表的原教旨区块链技术,是反效率的,从经济学角度来说,不但不是一种帕累托改进,甚至还可以说是一种帕累托倒退。 原教旨区块链技术的效率十分低下,因为要遍历所有节点,只能做非常轻量级的数据应用,一旦涉及到大量的数据传输与更新,区块链就瞎了。 一方面整条链交易速度会极慢,另一方面数据库容量极速膨胀,考虑到人手一份的存储机制,区块链其实是对存储资源和能源的一种极大的浪费。 这里还没有加上为了取得所谓的共识和挖矿消耗的巨大的能源,如果说区块链技术是屎,那么这波区块链投机浪潮可谓人类历史上最大规模的搅屎运动。 区块链也验证不了任何东西。 所谓的智能合约,即不智能,也非合约。我看有人还说,如果有了智能合约,就可以跟老板签一份放区块链上,如果明年销售业绩提升30%,就加薪10%,由于区块链不能篡改,不能抵赖,所以老板必须得执行,说得有板有眼,不懂行的愣一看,好像还真是那么回事。 但仔细一想,问题就来了。首先,在区块链上如何证明你真的达到了30%业绩提升?即便真的达到老板耍赖如何执行? 也就是说,如果区块链真这么厉害,要法院和仲裁干什么。 人类社会真正的符合成本效益原则的是代理制度。之前有人说要用区块链改造注册会计师行业,我不知道他准备怎么设计,我猜想他思路大概是这样的,首先肯定搞去中心化,让所有会计师到链上来,然后一个新人要成为注册会计师就要所有会计师同意并记录在链上。 那我就请问了,我每天上班累死累活,为什么还要花时间去验证一个跟我无关的的人的专业能力?最优做法当然是组织一个委员会,让专门的人来负责,这不就是现在注册会师协会干的事儿吗?区块链的逻辑相当于什么事情都要拿出来公投,这个绝对是扯淡的。 当然这么说都有点抬举区块链了,区块链技术本身根本没有判断是非能力,如果这么高级的人工智能,靠一个无脑分布式记账就能实现的话,我们早就进入共产主义社会了。 虽然EOS等数字货币采用了超级节点,通过再中心化的方式提高效率,有点行业协会的意思,是对区块链原教旨主义的一种修正,但是依然无法突破区块链技术最本质的局限性。有人说,私有链和联盟链是区块链技术的未来,也是扯淡,因为区块链技术没有未来。如果有,说明他是包装成区块链的伪区块链技术。 区块链所涉及的所有底层技术,不管是分布式数据库技术,加密技术,还是点对点传输技术等,基本都是早已存在没什么秘密可言的技术。 比特币系统最重要的特性是封闭性和自洽性,他验证不了任何系统自身以外产生的信息的真实性。 所谓系统自身产生的信息,就是数据库数据的变动信息,有价值的基本上有且只有交易信息。所以说比特币最初不过是中本聪一种炫技的产物,来证明自己对几种技术的掌握,你看我多牛逼,设计出了一个像三体一样的系统。因此,数字货币很有可能是区块链从始至终唯一的杀手应用。 比特币和区块链概念从诞生到今天已经快10年了,很多人说区块链技术在爆发的前夜,但这个前夜好像是不是有点过长了啊朋友,跟三体里的长夜有一拼啊。都说区块链技术像是90年代初的互联网,可是90年代初的互联网在十年发展后,已经出现了一大批伟大的公司,阿里巴巴在99年都成立了,区块链怎么除了币还是币呢? 正规的数字货币未来发展的形式无外乎几种,要么就是论坛币形式,或者类似股票的权益凭证等。问题是论坛币和股票之前,本来也都电子化了,区块链来了到底改变了什么呢? 所有想把TOKEN和应用场景结合起来的人最后都很痛苦,最后他们会发现区块链技术就是脱裤子放屁,自己辛苦搞半天,干嘛不自己作为中心关心门来收钱?最后这些人都产生了价值的虚无感,最终精神崩溃,只能发币疯狂收割韭菜,一边嘴里还说着我是个好人之类的奇怪的话。 因此,之前币圈链圈还泾渭分明,互相瞧不起,但这两年链圈逐渐坐不住了,想着是不是趁着泡沫没彻底破灭之前赶快收割一波,不然可能什么都捞不着了。 前段时间和一个名校毕业的链圈朋友瞎聊天,他说他们“致力于用区块链技术解决数字版权保护问题”,我就问他一个问题,你们如何保证你链的版权所有权声明是真实的,万一盗版者抢先一步把数据放在链上怎么办。他说他们的解决方案是连入国家数字版权保护中心的数据库进行验证…… 所以说区块链技术就是个鸡肋,研究到最后都会落入效率与真实性的黑洞,很多人一头扎进链圈后才发现,真正意义上的区块链技术,其实什么都干不了。 -02- 不是蠢就是坏的区块链媒体 空气币和区块链的造富神话,让区块链自媒体也开始迎风乱扭。一群群根本不知道区块链为何物的妖魔鬼怪纷纷进驻区块链自媒体战场,开始大放厥词胡编乱造。 任何东西,但凡只要和区块,链,分,分布式,记账,加密,验证,可追溯等等这些个关键词沾到哪怕一点点,这些所谓的区块链媒体人就会像狗闻到了屎了一样疯狂地把区块链概念往上套。 这让我想起曾经一度也是热闹非凡的物联网,我曾经去看过江苏一家号称要改变世界的“物联网”企业,过去一看是生产路由器的,我黑人问号脸,对方解释说没有路由器万物怎么互联,我觉得他说得好有道理,竟无言以对。 好,下面让我们进入奇葩共赏析时间,来看看区城链媒体经常有哪些危言耸听的奇谈怪论 区块链(分布式记账)的典型应用是*?? 正如前面所说,真正意义上的区块链分布式记账,不光包括“记”这个动作,还包括分布式存储和共识机制等。而*诞生远远早于区块链这个词的出现,勉强算是“分布式编辑”吧,就被很多区块链媒体拿来强行充当区块链技术应用的典范。 其实事实恰恰相反,*恰恰是去中心化失败的典范,现在如果没有精英和专业人士的编辑和维护,*早就没法看了。 区块链会促进社会分工?? 罗振宇好像就说过类似的话,虽然罗振宇说过很多没有逻辑的话,但这句话绝对是最没逻辑思维的。很多区块链自媒体也常常用这句话来忽悠老百姓,说分工代表效率提高社会进步,而区块链“无疑”会促进分工,他们的理由仅仅是分工和分布式记账都共用一个“分”字,就强行把他们扯到一起。 实际情况恰恰相反,区块链是逆分工的,区块链精神是号召所有人积极地参与到他不擅长也不想掺合的事情里面去。 区块链不能像上帝一样许诺他的子民死后上天国,只能给他们许诺你们是六度人脉中的第一级,我可以赚后面五级人的钱,你处于金字塔的顶端。
-
澎湃新闻对话腾讯丁珂:从 "治已病 "到 "治未病",企业需快速构建 "安全免疫力"--丁珂指出,对企业而言,安全不是成本而是生命线 丁珂指出,对企业而言,安全不是成本而是生命线,也是商业 "硬币 "的另一面。在数字智能化的新阶段,发展驱动安全建设已成为普遍共识,企业需要转变安全思维,从被动建设到主动防御,构建一套新的安全范式和框架,以更加积极、主动的安全观来提升数字安全免疫力,以 "治未病 "的理念取代 "治已病",前置安全,快速构建 "安全免疫力"。对 "已病",前置预判,及时应对处置安全风险,才能维护品牌价值,保障健康发展。 与此同时,安全建设还普遍存在 "不知道往哪投、怎么投 "的痛点。对此,腾讯安全提出,企业可以按照数字安全免疫模型的框架进行安全全局部署,重点在业务安全、数据安全、安全运维管理、边界安全、终端安全、应用开发安全等薄弱环节的关键领域注入 "免疫增强针"。 今年进入公众视野的AIGC还在产业化、产品化的过程中,但大量攻击者已经利用它生成攻击脚本、钓鱼邮件,甚至伪造身份进行诈骗。"人工智能本身是否安全,会不会让网络更不安全? 腾讯安全研究认为,AIGC的风险主要集中在 "无法解释 "和 "无法追踪 "的特点上,但这在技术上是能够找到应对方法的。丁珂谈到,AIGC作为生产力的巨大提升,确实会带来更复杂的攻防态势和更大的防御难度。但任何新技术都要经历这样的周期。而法律法规也会随着技术的演进而不断更新,使新技术的发展更加规范和健全。 丁珂认为,随着我国网络安全法律法规体系的不断完善,合规性将给企业推进网络安全带来很大的推动力,并很直观地展现在需求端。未来,伴随着数据要素市场的建立或企业对数据价值的挖掘,也将带动数据安全市场的快速增长。 对于腾讯安全的商业逻辑和运营,丁珂表示,不谋求建立竞争壁垒,而是期望与生态共同发展,腾讯安全希望通过能力开放,实现安全与业务相伴的生态模式。 谈到未来,丁磊表示,安全领域已经进入加速发展期,在蓝海中会持续关注很多新的业务领域,希望孵化出新的商业模式,腾讯安全团队也会持续关注并抓住机会做好产品。 以下为采访实录(在不改变原意的基础上略有删减): 冲浪新闻:当前,以人工智能、大数据等新技术为驱动的第四次工业革命正向纵深推进,给人类生产生活带来深刻变革。而互联网作为新技术的载体,面临的安全挑战不仅数量越来越多,形式也越来越复杂。从互联网安全从业者的角度,腾讯观察到近年来国内外网络安全形势发生了哪些变化?这些变化呈现出怎样的趋势?
-
41 个下载免费 3D 模型的最佳网站-使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 17. Clara.io Clara.io 是一个创建 3D 内容的全球平台,也是一个培养新 3D 艺术家的社区。Clara.io 提供+100,000个免费的3D模型,包括OBJ,Blend,STL,FBX,DAE,Babylon.JS,Three.JS格式,用于 Clara.io,Unity 3D,Blender,Sketchup,Cinema 4D,3DS Max和Maya。 使用说明:免费,标准和专业帐户仅供个人使用,如果您需要将 clara.io 用于商业用途,请与销售团队联系。 18. 3DExport 3DExport是一个市场,您可以在其中购买和销售用于CG项目的3D模型,3D打印模型和纹理。它提供15 +不同的3D格式供下载,如3DS MAX(.max),Cinema4D(.c4d),Maya(.mb,.ma),Lightwave(.lwo),Softimage(.xsi),Wavefront OBJ(.obj),Autodesk FBX(.fbx)等。它还提供15种不同的语言! 使用说明:免费下载仅供个人和非商业用途。 19. 3D Warehouse 3D Warehouse是一个开放的库,允许用户共享和下载SketchUp 3D模型,用于建筑,设计,施工和娱乐!任何人都可以免费制作,修改和重新上传内容到3D仓库,您可以找到任何您能想到的东西,如家具,电子产品,室内产品等。 使用说明:3D Warehouse中的所有模型都是免费的,因此任何人都可以下载文件以用于SketchUp甚至其他软件,如AutoCAD,Revit和ArchiCAD。 20. CadNav.com CadNav是CGI平面设计师和CAD / CAM / CAE工程师的在线3D模型库,我们提供超过50000 +免费3D模型和CAD模型下载。在CadNav网站上,您可以下载高质量的多边形网格3D模型,3D CAD实体对象,纹理,Vray材料,3D作品,CAD图纸等。 使用说明:免费下载仅供个人和非商业用途。 21. All3dfree.net 就像网站名称一样,它提供免费的3D模型,还包括Vray材料,CAD块,2d和3d纹理集合,无需注册即可免费下载。它是不断更新的,因此您可以查找或请求3DS,MAX,C4D,skp,OBJ,FBX,MTL等格式的模型。 使用说明:所有资源均不允许用于商业用途,否则您将承担责任。 22. Hum3D 自2005年以来,Hum3D帮助来自3多个国家的80D艺术家节省3D建模时间,并制作逼真的3D模型,用于电影,视频游戏,AR应用程序和可视化。所有模型均由首席3D艺术家进行验证,他们检查其是否符合专业要求和最新的3D建模标准。 使用说明:免费下载仅供个人和非商业用途。 23. Artist-3D.com 艺术家-3D 库存的免费 3D 模型下载按通用类别排序。它为人体解剖学、汽车、家具、火箭、卫星等模型提供 AutoDesk 3DS Max 格式。您还可以在浏览他们的网站时找到教程和类似类型的建模。 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 24. Free the models 就像本网站的标题一样,它为3d应用程序和3d游戏引擎提供免费的内容模型。您可以为您的任何项目找到许多有趣且有用的模型!它提供3ds,wavefront,bryce,poser,lightwave,md2和unity3d格式的模型。还有一个很棒的纹理集合,可以在您最喜欢的建模和渲染程序中使用。 使用说明:您从这里下载的所有内容都可以免费使用,除非它不能包含在另一个免费的网络或CD收藏中,也不能单独出售。否则,您可以在商业游戏,3D应用程序或渲染作品中使用它。您不必提供信用,但如果您这样做,那就太好了。 25. Resources.blogscopia 本网站由一家名为Scopia的公司创建。他们制作3D图像和视频,您可以找到许多为CGI工作的信息架构设计的模型,所有这些都可以在现实生活中使用。您可以免费下载它们,但是,如果您想一次下载它们,您可以支付 3 到 9 欧元。 使用说明:您可以免费下载模型部分的所有文件。每个压缩文件都包含您也可以在此处找到的许可证。基本上,您可以对文件执行任何操作。唯一的限制是不归属于Scopia的重新分发。 26.ambientCG 1000+公共领域PBR材料适合所有人!环境CG是使用许多不同的方法和资产类型创建的,例如照片纹理(PBR),贴花(PBR),图集(PBR),照片纹理(普通),物质存档(SBSAR),雕刻画笔,3D模型和地形。您可以在所有项目中*使用它们! 使用说明:在 ambientCG 上提供下载的所有 PBR 材料、画笔、照片和 3D 模型均根据知识共享 CC0 1.0 通用许可提供。您可以复制、修改、分发和执行作品,即使是出于商业目的,也无需征得许可。信用将不胜感激。 不要满足于平庸的大理石纹理 - 立即使用我们的免费PBR大理石纹理升级您的3D设计。 27.Pixar One Twenty Eight 这是一个提供官方动画行业经典纹理的网站:皮克斯,创建于 1993 年,该纹理库包括 128 个重复纹理,现在免费提供。 它包含您来到的纹理,包括砖块和动物毛皮。肯定会有一些你可以使用的东西。 使用说明:皮克斯动画工作室的《Pixar One Twenty Eight》根据知识共享署名4.0国际许可协议进行许可。即使出于商业目的,您也可以重新混合、调整和构建您的作品,只要您以相同的条款对新创作进行信用和许可。 访问数以千计的免费纹理并提升您的设计游戏 - 立即开始下载! 28. 3DXO 即使有近 620 个免费贴纸可供下载,3DXO 也不是最大的资源,但它的内容非常有用,不需要注册。无论是简单的墙壁或地板,还是一些奇怪的小东西,您都需要的纹理都可以在此网站上看到。 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 29. 3DModelsCC0 3DModelsCC0 与其他产品的不同之处在于它包含超过 250+ 个高质量 3D 模型,并且本网站上的所有内容都是免费的,完全是公共领域!使用我们的模型时无需信用或归属! 使用说明:为每个人提供完全免费的公共领域内容。 30.Sketch up texture club Sketchup Texture Club是一个非营利性的教育和信息门户网站,由3D社区的图像促进协会管理,特别强调面向学生和建筑和室内设计专业人士的可视化和渲染技术,以及所有正在学习3D可视化的人。 使用说明:您无需支付版税或使用费。纹理可以免费下载和使用。不允许将纹理作为竞争产品出售或重新分发,即使图像被修改也是如此。 31. FlippedNormals FlippedNormal 是一个提供计算机图形和 3D 资产的市场,您可以找到许多用于雕刻、建模、纹理、概念艺术、3D 模型、游戏资产或课程的高级资产! 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 32. NASA 3D NASA 3D网站是一个在线门户,提供与太空和各种NASA任务相关的大量三维模型和模拟。该网站是用户友好的,并提供有关每个型号的详细信息。该网站允许用户探索和下载几种不同格式的模型,包括 OBJ、STL 和 FBX,只需单击下载按钮即可。 使用说明: 要下载模型,只需单击模型页面上的下载按钮并选择所需的格式。 33. 3DAGOGO (Astroprint) 3DAGOGO 是一个提供广泛 3D 模型的网站,包括角色、车辆和建筑物。3DAGOGO 的独特功能之一是它专注于适合 3D 打印的模型,使其成为希望创建物理原型或模型的设计师的绝佳资源。要使用 3DAGOGO,设计师只需在网站上搜索他们正在寻找的模型类型,然后下载 STL 格式的文件。 使用说明: 要使用 3DAGOGO,只需搜索所需的 3D 模型类型并下载 STL 格式的文件。根据需要自定义模型,并确保在将其用于商业目的之前检查使用权限。 34. FreeCAD FreeCAD是一款了不起的3D建模软件,可让您在计算机上创建令人难以置信的3D设计。该软件可免费下载和使用,它提供了广泛的工具和功能,可用于创建用于各种目的的3D模型。 该网站易于浏览,您可以找到开始使用FreeCAD的所有必要信息。此外,该网站还提供一系列教程和指南,可帮助您了解 3D 建模的来龙去脉。 使用说明: 要下载模型,请访问网站并从库中选择所需的模型。该网站还提供了一系列使用该软件的教程和指南。 35. Pinshape Pinshape是一个提供一系列3D打印模型的网站。网站上提供的型号质量很高,因此您可以确保您的最终印刷产品看起来很棒。该网站提供了广泛的模型,包括从家居用品到小雕像和珠宝的所有物品。 但这还不是Pinshape所能提供的全部!该网站还允许用户上传和共享自己的3D模型。这意味着您不仅可以下载出色的模型,还可以通过分享自己的设计为社区做出贡献。此外,Pinshape 提供了一系列自定义选项,因此您可以调整和调整模型以满足您的特定需求。 使用说明: 要下载模型,请在网站上创建一个帐户,搜索所需的模型,然后单击下载按钮。该网站还为每种型号提供了一系列定制选项。 36.Yeggi Yeggi 提供了大量免费的 3D 模型,您可以下载各种格式的模型,例如 STL、OBJ 和 FBX。该网站易于使用,您可以按关键字、类别或特定网站搜索模型。 Yeggi 对于任何寻找 3D 模型的人来说都是一个很好的资源。它提供了大量的模型集合,从日常物品到复杂的机械,以及介于两者之间的一切。该网站的收藏量在不断增长,每天都有新的型号增加。 使用说明: 要下载模型,请在网站上搜索所需的模型,然后单击下载按钮。该网站还提供指向托管模型的原始网站的链接。 37. Open3DModel 来自开放3D模型的图像 Open3DModel具有各种类别的模型,包括建筑,车辆和角色。无论您需要建筑物,汽车还是人的3D模型,都可以在此网站上找到。 该网站易于浏览,您可以按类别或关键字搜索模型。每个模型都附带预览图像和详细信息,例如文件格式、大小和多边形数量。此信息可以帮助您选择适合您需求的模型。 使用说明: 要下载模型,请访问网站,从库中选择所需的模型,然后单击下载按钮。 使用最好的 3D 资产管理工具简化您的 3D 制作流程。立即试用它们,将您的 3D 项目提升到一个新的水平! 38. 3DExport 对于那些为其 3D 设计项目寻找 3D 模型、纹理和其他资源的人来说,该平台是一个很好的资源。该网站有大量模型可供选择,包括 3D 打印对象、游戏资产等。用户可以按类别、文件格式或价格范围浏览,以找到适合其项目的完美资源。此外,3DExport 还提供一系列教程和其他 3D 资源,以帮助用户提高技能并创建更令人印象深刻的设计。 使用说明: 要使用 3DExport,只需创建一个帐户并浏览可用型号。您可以按类别、格式和价格进行搜索,以找到所需的型号。找到喜欢的模型后,只需下载它并开始在您的项目中使用它。 39.Blend Swap Blend Swap是一个社区驱动的市场,提供与Blender软件兼容的各种免费3D模型。该平台允许用户共享和下载模型、纹理和其他资产,以便在他们的项目中使用。 使用说明: 创建免费帐户后,您可以浏览社区上传的大量3D模型。当您找到要使用的一个时,只需下载它并将其导入您选择的 3D 软件即可。 40. 3DShook 3DShook 是一个高级 3D 模型市场,提供一系列用于建筑、游戏等各个行业的高质量模型。该平台提供基于订阅的模型,具有不同的定价计划,允许用户访问一系列模型。 使用说明: 注册免费帐户后,只需浏览3D模型库,选择您喜欢的模型,然后以您需要的格式下载它们。 41. Smithsonian X 3D 史密森尼 X 3D 对于正在寻找历史文物和文物的高质量 3D 模型的设计师来说,这是一个独特的资源。该平台提供了大量3D模型,这些模型是根据史密森尼博物馆和研究中心中的真实物体扫描创建的。 使用说明:
-
数字在NLP模型中的意义令人惊喜(一)