在德国汉堡郊区的一栋房子前,邮箱上涂了一个单词 LAION。LAION 代表 Large-scale AI Open Network,是高中教师 Christoph Schuhmann 的一个业余爱好项目。他在业余时间和一群志愿者建立了世界上最大的开源 AI 数据集。该数据集被 Google Imagen 和 Stable Diffusion 等用于训练文本图像模型。Schuhmann 常去 Discord 上的一个 AI 狂热者聚集的群组,当时 OpenAI 的第一代 DALL-E 模型刚刚发布,他既受鼓舞也感到担忧,担心这可能会鼓励科技巨头不开放数据。他和该群组的成员因此创建了一个开源数据集帮助训练文本图像模型 diffusion。仅仅三个月时间,他们发布了一个包含 4 亿对图像及其文字描述的数据集。今天这个数字超过了 50 亿,是世界最大的免费图像和文字描述数据集。当 Emad Mostaque 在 2022 年创建 Stability AI 时,他使用 LAION 训练了模型 Stable Diffusion,还雇佣了两位该组织的研究人员。一年之后,该公司的估值接近 40 亿美元,很大程度上要感谢 LAION 提供的数据。 Schuhmann 没有从中获得任何收入,他也没有兴趣这么做,他想要保持独立。
https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns