为了了解数据公司如何适应 AI 时代,我与Alation的联合创始人Aaron Kalb进行了交谈,Alation 将自己定位为“数据智能”平台,并推广一种称为“数据目录”的概念。这将“机器学习与人工管理”相结合,为企业创建自定义数据存储。
ChatGPT 与 2000 年代的 Siri 有何不同
在与前 Oracle 高管 Satyen Sangani 共同创立 Alation 之前,Kalb 曾在 Apple 从事 Siri 软件方面的工作。Siri 可能是第一个使用 AI 语言建模的主流软件应用程序。所以我问他,与 2000 年代后期的 Siri 相比,当前一代的生成式 AI 软件(例如 ChatGPT 和 Google Bard)有何不同。
“Siri 一开始的工作很困难,因为他们当时没有对话训练数据,”他回答道。“他们是第一个语音助手。” 用于训练 Siri 语言模型的语料库比当今大型语言模型 (LLM) 的训练数据小得多——Kalb 将 Siri 的训练数据称为“新闻语料库”。
除了相对较差的训练数据外,Siri 没有使用太多机器学习。Kalb 说 Siri 在使用时犯了很多错误,无论是语音转文本还是文本转意图。“我认为直到今天,Siri、Alexa、Cortana 和 Google Assistant 都在挣扎,”他补充道。
为什么人工智能会产生幻觉?
尽管如此,生成式 AI 也不是完美的。我问 Kalb,他如何看待当前影响 ChatGPT 和 Bard 等软件的幻觉(编造事实)问题。