九妖小说网

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

数据给ai“供能”的背后,还有这些关键问题(第1页)

咱们前面聊了数据是AI的“粮食”,没数据AI就玩不转,但光有粮食还不够——就像咱们做饭得考虑米新不新鲜、会不会浪费,AI用数据也得解决“数据从哪儿来”“数据干不干净”“能不能随便用”这些问题。要是这些问题没处理好,就算有再多数据,AI也可能“吃坏肚子”,甚至闯祸。接下来咱们就接着唠,看看数据给AI“供能”的背后,还有哪些不得不说的关键事儿。

一、数据从哪儿来?AI的“粮食”不是天上掉的

很多人可能觉得“AI用的数据,随便找一找就有”,但其实不是——要收集到足够多、足够相关的数据,可不是件容易事儿,得靠不同的“渠道”去“找米”,而且每个渠道都有自己的门道。

最常见的一种渠道,是咱们“主动给的”。比如你用社交软件发朋友圈、发评论,用购物APP下单、收藏商品,用导航软件查路线、记常用地址,这些行为都会产生数据,而平台会把这些数据收集起来,用来训练AI。就像你在外卖平台点了几次奶茶,平台收集到“你爱喝三分糖、去冰的奶茶”这个数据,AI就能给你推荐同类型的新品;你在短视频APP上总给宠物视频点赞,平台收集到这个数据,AI就会多推宠物内容给你。这些数据都是咱们在使用软件时,不知不觉“贡献”出去的,也是AI数据的重要来源。

还有一种渠道,是“专业团队专门采的”。比如要做一个能识别农作物病虫害的AI,光靠用户上传的照片不够——得有农业领域的团队,去田间地头拍不同作物(小麦、水稻、玉米)、不同病虫害(蚜虫、白粉病、锈病)的照片,而且得拍清楚病变部位、不同发病阶段的样子,还得标注好“这是小麦蚜虫病”“这是水稻白粉病”。这种数据专业性强,要求高,不能随便凑数,得花大量时间和人力去采集。之前有个做医疗AI的团队,为了训练AI识别肺癌,花了3年时间,从全国几十家医院收集了十几万张肺部CT影像,还得让医生一张张标注“这是良性结节”“这是早期肺癌”,可见多不容易。

另外,还有“公开数据集”可以用。行业里有些机构会整理好数据,免费或低价开放给大家用,比如咱们之前提到的ImageNet,还有用于自然语言处理的“中文维基百科数据集”、用于语音识别的“Common Voice数据集”。这些数据集就像“公共粮仓”,AI开发者不用自己从头收集,能省不少事。但这类数据集也有缺点——可能不够“贴合具体需求”,比如公开的语音数据集大多是标准普通话,要是想做一个针对某地方言的语音AI,还得自己额外收集方言数据。

总之,AI的“粮食”不是天上掉的,要么是咱们用户在使用中“贡献”的,要么是专业团队辛苦采集的,要么是从公开渠道获取后再加工的。每一份数据背后,都有不少人力和时间的投入。

二、数据得“干净”:不然AI会“学歪”

咱们做饭的时候,米要是有虫、有石子,得先淘干净才能煮,不然煮出来的饭没法吃;AI用数据也一样,得先把数据“洗干净”,要是数据里有错误、有杂质,AI学了之后就会“学歪”,做事情出错。

啥是“不干净”的数据?比如数据里有“错误标注”——本来是猫的图片,却标成了狗;本来是“用户不喜欢吃辣”的记录,却标成了“喜欢吃辣”。AI学了这些错数据,就会跟着犯错:看到猫的图片,会当成狗认;给不喜欢吃辣的用户,推荐超辣的火锅。

还有一种是“重复数据”——比如同一张猫的图片,在数据集中出现了100次。AI学的时候,会反复学这张图,误以为“猫就长这样”,等遇到其他样子的猫(比如无毛猫、三花猫),就认不出来了。这就像咱们学认字,要是只反复写同一个字的一种写法,遇到行书、草书的写法,就不认识了。

还有“偏见数据”,这个更麻烦。比如要做一个“招聘AI”,用来筛选简历,结果收集的数据里,大部分“优秀员工”的简历都是男性,女性简历很少,而且标注的时候,还把“女性”和“不适合加班”“不稳定”这些标签绑在一起。AI学了这种数据,就会产生“偏见”,筛选简历时会优先选男性,甚至直接把女性简历筛掉,这就造成了性别歧视,肯定是不行的。

之前国外就发生过这样的事:某公司用AI筛选求职者,结果发现AI对女性求职者很不友好,后来查原因,才发现训练数据里,过去十年录用的员工中男性占比很高,数据本身就有偏见,AI自然就“学歪”了。最后公司只能停用这个AI,重新清理数据。

所以,数据收集来之后,必须得“清洗”:先把重复的数据删掉,再把错误标注的数据改对,最后还要检查有没有偏见,尽量让数据更公平、更准确。这一步就像咱们做饭前淘洗米、挑拣菜,虽然麻烦,但必不可少——只有“干净”的数据,才能让AI学好,做事情不出错、不跑偏。

小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!

三、数据不能随便用:得保护“个人隐私”

咱们前面说,很多数据是用户“贡献”的,比如聊天记录、购物记录、定位信息,这些数据里藏着咱们的“个人隐私”——要是随便用,很可能会泄露隐私,比如有人用AI分析你的聊天记录,知道你家里的情况;用你的定位数据,知道你每天去哪儿、住在哪儿。所以,AI用数据的时候,必须得守规矩,保护好个人隐私,不能“乱用粮食”。

现在行业里有个很重要的原则,叫“数据匿名化”——就是把数据里能识别出“你是谁”的信息去掉。比如你的外卖订单数据,会把你的真实姓名、手机号、详细住址换成一串代码,只留下“某用户在某天点了一份麻辣烫”这样的信息。这样AI能学到“有人喜欢吃麻辣烫”,却不知道这个人是你,就不会泄露你的隐私。

还有“数据授权”——平台要收集你的数据,得先告诉你“要收集什么数据”“用来做什么”,你同意了才能收集。比如你第一次用某APP,会弹出一个“隐私协议”,里面写着“我们会收集你的位置信息,用于为你推荐附近的服务”,你点了“同意”,平台才能收集你的位置数据;要是你不同意,平台就不能收集。这就像别人要借你的东西,得先问你同不同意,不能随便拿。

热门小说推荐
天剑神狱

天剑神狱

天剑神狱情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的玄幻魔法小说,天剑神狱-叶问-小说旗免费提供天剑神狱最新清爽干净的文字章节在线阅读和TXT下载。...

我在东京当妖魔!

我在东京当妖魔!

上杉澈穿越到日本,发现自己可以抽卡化身历史传说中的妖魔和怪谈。并且世间的魑魅魍魉,在死后都能化作魂灰,为他下一次的抽卡提供助力。【笑般若】【阴阳寮评价:以恐吓儿童取乐的小妖,唯有肉身略强。不足为虑。】【……】【百目鬼】【阴阳寮评价:生有百目,虽幻梦摄人,却体魄不足。威胁尚浅。】【……】【姑获鸟】【阴阳寮评价:九首大妖,其火无物不焚,可化人身入世!威胁极高!】【……】【烛九阴】【阴阳寮评价:……】千年前坠入深渊的常世上浮,同人世间再次接壤,这本是属于妖魔与怪谈的黄金大世。自古以来的时代霸主跃跃欲试——十二冠位领命行走天下;酒吞童子携万里江山而来;青行灯妄图再次掀起百鬼夜行;战国大名们举旗动员军队……只可惜,同时身兼无数妖魔天赋的上杉澈睁眼,隔断阴阳。他摇头轻叹:“你们只知晓我如今的强大。”“却不知——”“有多少好兄弟化作一捧魂灰,倒在了我来时的路上。”...

魂穿抗日年代

魂穿抗日年代

重生在抗日年代,男主角林风带领自己的特战队和系统赋予的特殊技能和小鬼子展开了可歌可泣的斗争。为伟大的抗日战争作出了一份力。......

网游之风流骑士

网游之风流骑士

网游之风流骑士情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的侦探推理小说,网游之风流骑士-冷石-小说旗免费提供网游之风流骑士最新清爽干净的文字章节在线阅读和TXT下载。...

私密日记被发现了

私密日记被发现了

裴晓宇知道,自己完蛋了。 先生看到了他的日记,上面密密麻麻写满了这些年他是如何觊觎先生的美色、沉迷他的魅力,宛如一个变态。 先生问他:“什么叫连手指头都不放过!?” 裴晓宇:“对不起先生。” 先生不解:“什么又叫果然小一码的裤子最适合先生?!” 裴晓宇:“我错了先生。” 先生气急:“你色胆包天就算了!你他妈想*我是几个意思?” 裴晓宇冤枉,他解释:“不是的先生,您理解错了,是想您……我。” 先生震怒:“闭嘴!滚出去!” ———— 四年前,宋彦明留洋回国争家产 三房送来个打杂的,叫裴晓宇,怯生生,乖得很 裴晓宇:“少爷……” 宋彦明:“别这么叫我。” 裴晓宇吓得发抖。 宋彦明笑道:“叫我先生就可以。” 1、雅痞野心家*变态小白兔 2、架空民国 3、年上,年龄差10岁,直掰弯,洁党慎入 【预收求收藏】 退役刑警x酒馆老板 “游乐园”酒馆的菜单上有这样一句话 ——酒杯是世界上面积最小的游乐园 这是三十岁的江重远为自己建造的游乐园 学生时代的江重远是没人要的杂种、是变态同性恋,而裴牧是尖子生、是德智体美劳兼优的榜样,他们看起来没有任何交集 除了那个狼狈的恶作剧亲吻 在一个风很大的夜晚,裴牧走进了江重远的酒馆 江重远第一眼就认出了裴牧 他几乎每晚都来店里喝一杯啤酒,和以前一样,裴牧沉默、严肃、古板,且不认识江重远 小城的冬天太寂寞,夜凉如水,春宵一度 江重远醒来,看到裴牧坐在沙发上织围巾 “你干嘛?” “织围巾。” “大哥,我们是睡了,不是谈了。” 裴牧正色,“睡了就得谈,江重远,这次别想再耍赖。” 阅读指南: 1、HE,1v1,熟男恋爱 2、饮酒伤身,适当饮酒哦...

太子他厌世

太子他厌世

从废土末世穿越到了一方大陆皇朝太子身上,司元汲应该高兴的。 然……如果这个太子修炼天赋一般甚至废柴,偏偏还心比天高,暴戾唯我独尊,刚刚让皇室老祖逼了一个宗门顶级天骄成为他的“太子妃”,硬要让人服下逆天孕子丹,等于让人以命换子,让人从一代天骄成为折翅笼中鸟呢? 这……一看就是妥妥的反派啊。 尤其,刚穿越,就是洞房花烛夜……司元汲看着卸去高冷圣洁,染上艳丽无双的天之骄子,不由思考起一个问题。 吃,还是不吃,这是个问题。...