分享

生成式人工智能是新一波数据智能公司的催化剂

nettman 2023-4-25 22:39:43 发表于 总结型 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 831


还记得流行语“大数据”吗?它在云计算时代催生了许多成功的公司——例如 Snowflake、Databricks、DataStax、Splunk 和 Cloudera。但现在我们进入了人工智能时代,并且机器学习软件现在应该处于或接近“智能”(即使它容易产生幻觉——但是,我们不是吗?)。

因此,鉴于当前人工智能的繁荣,我们是否还需要对世界数据进行分类和组织的“大数据”公司?人工智能现在不能为我们做这些吗?

为了了解数据公司如何适应 AI 时代,我与Alation的联合创始人Aaron Kalb进行了交谈,Alation 将自己定位为“数据智能”平台,并推广一种称为“数据目录”的概念。这将“机器学习与人工管理”相结合,为企业创建自定义数据存储。

ChatGPT 与 2000 年代的 Siri 有何不同
在与前 Oracle 高管 Satyen Sangani 共同创立 Alation 之前,Kalb 曾在 Apple 从事 Siri 软件方面的工作。Siri 可能是第一个使用 AI 语言建模的主流软件应用程序。所以我问他,与 2000 年代后期的 Siri 相比,当前一代的生成式 AI 软件(例如 ChatGPT 和 Google Bard)有何不同。

“Siri 一开始的工作很困难,因为他们当时没有对话训练数据,”他回答道。“他们是第一个语音助手。” 用于训练 Siri 语言模型的语料库比当今大型语言模型 (LLM) 的训练数据小得多——Kalb 将 Siri 的训练数据称为“新闻语料库”。

除了相对较差的训练数据外,Siri 没有使用太多机器学习。Kalb 说 Siri 在使用时犯了很多错误,无论是语音转文本还是文本转意图。“我认为直到今天,Siri、Alexa、Cortana 和 Google Assistant 都在挣扎,”他补充道。

为什么人工智能会产生幻觉?
尽管如此,生成式 AI 也不是完美的。我问 Kalb,他如何看待当前影响 ChatGPT 和 Bard 等软件的幻觉(编造事实)问题。

Kalb 认为,对于生成人工智能的人类用户来说,这是一种“心理现象”,而不是软件本身的问题。

“对于许多类型的提示,它似乎真的是在理解提示并制定答案,然后将其转化为文字,”他在谈到 ChatGPT 和类似软件时说。“它是如此令人印象深刻。我们认为它具有理解力和真正的智慧。它实际上在做的是 [that] 它基本上是一个超级复杂的马尔可夫模型,它在说,嘿,下一个词是什么给定它之前说的词,之前的提示,然后是之前的整个互联网概率分布。 ”

他认为幻觉在某种意义上是“被迫”出现在人工智能软件上的,有时是因为人类的提示不够好。

“幻觉就像是,等等,你的逻辑已经发疯了!但是,事实上,它只是算法的产物 [...] 它具有所有可能接下来出现的单词的分布,并且它会选择一个具有一定统计随机性的单词。幻觉是当它到达一个非常不幸的地步时发生的事情,可以这么说;或者,根据提示,不知道该说什么。因此它被迫选择一些东西,或多或少是在黑暗中尝试。”

数据智能如何融入 AI 领域
那么什么是“数据智能”?Kalb 开始回答这个问题时指出,AI 和 BI(商业智能)的常见企业首字母缩略词都是“垃圾输入,垃圾输出”。

“因此,数据智能是 AI 和 BI 之前的这一层,它确保您可以找到、理解和信任正确的数据,以将其放入您的 AI 和 BI 中。”

他说,在这种情况下,从公共互联网上获取诸如 ChatGPT 之类的东西并将其引入企业是非常冒险的。他认为,在企业内部的人工智能系统使用数据之前,数据需要变得更加智能。

此外,他认为企业不需要 ChatGPT 和类似系统的“互联网规模”。这就是 Alation 的“数据目录”发挥作用的地方,因为它将“提炼”数据并为其提供“特定映射”。

他说,每个组织都有自己的术语——可能是行业术语,也可能是该公司特有的术语。

“这就是数据智能和数据目录的用武之地,”Kalb 解释道。“它有助于绘制组织中人们如何使用语言以及数据如何存储在数据库中的最后一英里。”

Alation 的软件自动执行将组织数据放入这些“数据目录”的过程,然后可以选择将这些数据输入生成人工智能系统(如果公司愿意的话)。

Kalb 解释说,数据智能“对于任何任务都是零步骤——无论是 [数据] 预处理,还是 ML 培训,或者只是制作电子表格并为股东大会进行分析。”

欢迎来到下一波大数据
到目前为止,我已经与 Cohere 和 Vectara 等生成式人工智能公司谈过他们对企业 IT 的愿景。两人都提到了员工能够与经过大型语言模型训练的 AI 进行对话的用例——本质上,IT 传统上称之为“知识管理”,但现在它以聊天机器人的形式出现。

不过,Kalb 提出了一个很好的观点:很大程度上取决于生成 AI 所训练的数据质量。他将数据智能视为 ChatGPT 与“拥有企业门户的梦想,您可以在其中用英语提出问题并获得有关您的业务的准确、可信赖的答案”之间的“缺失的一环”。

因此,正如云计算催生了大量有用的“大数据”公司一样,生成人工智能似乎很明显将成为下一波数据智能解决方案的催化剂。正如我今年关于 AI 所说的很多,请注意这个空间!


最新经典文章,欢迎关注公众号


加微信w3aboutyun,可拉入技术爱好者群

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条