分类：站长笔记

虚拟人生记录，站长思维沉淀

为什么GPT-4o和Gemini Live会重新定义人机交互标准？
本周，OpenAI和Google发布了各自的新大模型产品：GPT-4o和Gemini Live。这两款产品通过多模态交互在使用体验上取得了重大突破，标志着人机交互的新标准。本文将深入探讨这两个新产品的核心优势及其在多模态交互上的应用，展望未来人机交互的可能性。

新品发布：GPT-4o和Gemini Live

就在这周的前几天，OpenAI和Google相继发布了新的大模型产品。虽然具身智能还未完全实现，但这两家公司在多模态交互上迈出了关键一步。

GPT-4o的核心优势

GPT-4o的发布引起了广泛关注，其主要有三个核心优势：
1. 使用门槛更低：免费开放、API价格减半、Mac版工具
2. 使用体验更好：速度翻倍、跨模态推理、自然对话
3. 使用场景更丰富：情绪感知、实时语音、视觉增强
其中最引人遐想的是“实时理解世界”的能力，包括对物理现实和人类情绪的理解。

Gemini Live的特点

在Google I/O开发者大会上，Google展示了名为“Gemini Live”的新体验。与GPT-4o类似，Gemini Live可以通过手机摄像头拍摄的照片或视频，查看用户的周围环境并对其做出反应，使交互更自然。

具身智能的三大特点

具身智能强调“感知—行动回路”，具有以下三个特点：
1. 多模态：能像人一样通过视觉、听觉、触觉等感官完成智能任务。
2. 环境交互：能根据环境的交互积累经验，构建不同模型产生不同智能。
3. 自主性：具备自主性，和人类的学习与认知过程一致。
尽管真正的具身智能还很遥远，但在多模态交互上，我们已经迈出了关键一步。

新的人机交互标准

CUI与LUI的局限性

大模型产品的交互方式通常是CUI（Conversational User Interface）或LUI（Language User Interface）。但这些方式并不一定是最好的交互方式。著名的用户体验设计大师唐·诺曼（Don Norman）曾提到，好产品的交互设计应满足六项基本原则：
1. 示能（Affordance）：物理对象本身就有的交互方式。
2. 意符（Signifiers）：提示用户可以采取什么行为。
3. 约束（Constraint）：限定可能的操作。
4. 映射（Mapping）：直观反映在物理位置上的关系。
5. 反馈（Feedback）：即时反馈，确认所有操作。
6. 概念模型（Conceptual Models）：简化的说明，告诉用户产品如何工作。
GPT-4o和Gemini Live的突破

GPT-4o和Gemini Live重新定义了大语言模型产品的交互设计标准，为我们带来了：
- 更即时的交互反馈：GPT-4o的响应速度快2倍，Gemini Live也支持实时打断。
- 更立体的交互方式：通过视觉、声音、语调理解用户的环境和情绪。
- 更情绪化的交互过程：在本能层、行为层和反思层表现得更自然生动。
多模态交互设计的新思路

多模态交互设计为我们提供了一种新的思路，可以将GUI、CUI/LUI和多模态结合起来，为特定场景设计交互方式。例如：
- 老师机器人：通过视觉和语音理解学生的需求，提供个性化的教学指导。
- 医生机器人：通过摄像头和传感器监测病人的状况，提供实时医疗建议。
- 教练机器人：通过视觉和语音分析用户的运动姿势，提供专业的运动指导。
这种多模态的交互方式，更符合唐·诺曼提到的交互设计原则，能够更好地满足用户的需求。

结语

GPT-4o和Gemini Live的发布，标志着人机交互的一个新阶段。它们通过多模态交互在使用体验上取得了重大突破，为我们展示了未来人机交互的可能性。无论是即时反馈、立体交互还是情绪化的交互过程，这些新技术都在重新定义大模型产品的交互标准。

未来，大模型产品应具备“看”的能力，通过视觉感知环境；“说”的能力，通过自然语言对话；“听”的能力，通过声音感知情绪；“记”的能力，通过长期交互形成记忆。这些能力将使大模型产品更智能、更人性化。
2024年5月19日
为什么微软Edge的AI主题生成器将成为个性化浏览的新潮流？
微软Edge浏览器即将推出的AI主题生成器将彻底改变用户的浏览体验。通过输入文本描述，人工智能将生成独特的图片和颜色主题，提供前所未有的个性化定制选项。本文将探讨这一创新功能的详细信息、潜在影响以及微软在AI领域的前瞻性应用。

一、Edge浏览器的新功能：AI主题生成器

微软一直在不断创新，以提升用户的浏览体验。近日，微软宣布将在Edge浏览器中增添一项全新的功能——AI主题生成器。这项功能将允许用户通过输入简单的文本描述，由人工智能生成一系列图片并供预览，最终将其设置为浏览器的主题。这个创新功能不仅标志着个性化浏览体验的新纪元，也展示了微软在人工智能领域的深厚实力。

1.1 AI主题生成器的运作机制

AI主题生成器的运作原理相对简单但却极具创新性。用户只需输入文本描述，例如“宁静的海滩”或“繁忙的城市夜景”，人工智能就会生成与描述相符的图片。这些图片不仅可以作为新标签页的背景，而且浏览器框架的颜色也会与图片的主色调相匹配，从而实现高度个性化的浏览环境。

示例代码块：
```
输入描述：宁静的海滩
生成图片：大海、沙滩、夕阳
匹配色调：蓝色、金色、橙色
```
1.2 现有AI技术的支撑

微软此前已经推出了功能强大的Designer人工智能图像生成器，这为即将推出的主题生成器提供了坚实的技术基础。通过借助现有的AI技术，新的浏览器主题生成器将能够实现令人惊艳的视觉效果，进一步丰富用户的个性化选项。

二、个性化浏览体验的新时代

个性化已经成为现代科技产品的重要趋势，而微软Edge的AI主题生成器正是这种趋势的体现。用户将能够享受到独一无二的视觉体验，因为生成的图片和配色方案将根据每个人的喜好和描述量身定制。

2.1 高度个性化的视觉体验

AI主题生成器不仅能够根据用户输入的描述生成独特的图片，还会自动调整浏览器框架的颜色，使其与图片的主色调相匹配。这种高度个性化的视觉体验，将使得每个用户的浏览器都独一无二。

无序列表：
- 个性化图片背景
- 浏览器框架颜色匹配
- 独特的视觉效果
2.2 适应不同用户需求

微软也考虑到了企业用户的需求，允许管理员选择禁用这项功能，以满足不同办公环境的需要。这一灵活性的考量，再次证明了微软在产品设计上的细致与周到。

数据表格：

用户类型功能需求灵活性选项

个人用户个性化图片和配色自动生成独特主题

企业用户统一的办公环境管理员可禁用主题生成功能

三、微软在AI领域的前瞻性应用

微软在人工智能技术上的持续创新和应用，已经展现出了其在这一领域的深厚实力。Edge浏览器的AI主题生成器只是其中的一个实例，而这一功能的推出也进一步展示了微软在AI技术应用上的前瞻性和创新能力。

3.1 从Designer到Edge的技术延伸

微软Designer人工智能图像生成器已经在用户中取得了良好的反响，而此次Edge浏览器的AI主题生成器无疑是这一技术的进一步延伸和应用。通过借助AI技术，微软不仅提升了用户的个性化体验，也展示了其在技术创新上的持续投入。

“微软通过在Edge浏览器中加入AI主题生成器，为用户提供了更加个性化和美观的浏览体验，展示了其在AI技术应用上的前瞻性和创新能力。”

3.2 未来的AI应用展望

随着AI技术的不断发展，未来我们可以期待微软在更多产品和服务中引入类似的个性化功能。无论是提高工作效率，还是提升用户体验，AI技术都将发挥越来越重要的作用。

有序列表：
1. AI驱动的办公自动化
2. 个性化的用户界面设计
3. 智能助手的广泛应用
四、总结：个性化浏览体验的未来

通过在Edge浏览器中引入AI主题生成器，微软不仅展示了其在提升用户个性化体验上的承诺，也证明了其在AI领域的强大技术实力。随着这项功能的推出，我们有理由期待微软将继续引领人工智能技术在浏览器领域的应用和发展，为用户带来更加智能和个性化的浏览体验。
2024年5月19日

用户类型	功能需求	灵活性选项
个人用户	个性化图片和配色	自动生成独特主题
企业用户	统一的办公环境	管理员可禁用主题生成功能

为什么选择从Google Drive和OneDrive导入文件到ChatGPT？

OpenAI的ChatGPT最近更新了一项重要功能，使用户能够直接从Google Drive和Microsoft OneDrive导入文件。这一功能对于提升工作效率和用户体验至关重要，特别是针对那些经常在ChatGPT上处理文档的用户。本文将深入探讨这项新功能的优势、具体操作步骤以及对用户的实际影响。

正文

OpenAI在5月17日宣布，ChatGPT现已支持从Google Drive和Microsoft OneDrive直接导入文件。这项更新适用于ChatGPT Plus、Team和Enterprise用户，且可在使用新的GPT-4o模型及旧模型时使用。通过这一新功能，用户可以更加便捷地处理和编辑各种类型的文件，如电子表格、演示文稿和文档。

新功能亮点

这项更新主要带来了以下几个亮点：

直接导入文件：用户可以通过点击界面底部文本输入栏左侧的小纸夹图标，直接从Google Drive和OneDrive导入文件。
全视图查看：在新界面中，用户能够以全视图形式查看电子表格文件，并实时与AI模型进行交互操作。
下载编辑后的文件：完成编辑后，用户可以直接从ChatGPT界面下载编辑过的电子表格或文档。
图表交互：用户现在可以在对话中自定义和交互式操作条形、折线、饼图和散点图。

为什么这项更新如此重要？

提升工作效率

在工作流程中，文件管理和编辑往往是耗时且繁琐的任务。通过直接从云端导入文件，用户可以节省大量时间，不再需要手动上传和下载文件。这对于需要频繁处理文件的专业人士来说尤为重要。

增强用户体验

全视图查看和交互式操作图表功能，使用户在编辑和查看文件时更加直观和高效。这不仅提升了用户体验，还使得复杂数据的处理变得更加简单。

安全与隐私保障

OpenAI在其博客中指出，不会使用ChatGPT Team和Enterprise客户的数据进行训练，而ChatGPT Plus用户可以通过数据控制选项选择退出训练。这一隐私保障措施，使用户在使用新功能时更加放心。

如何使用新功能？

下面我们详细介绍如何在ChatGPT中使用这一新功能：

授权账户：用户需要首先授权其Microsoft OneDrive或Google Drive账户。
导入文件：点击ChatGPT界面底部文本输入栏左侧的小纸夹图标，选择要导入的文件类型，包括电子表格、演示文稿和文档。
编辑文件：导入文件后，用户可以在全视图中查看并编辑文件，实时与底层AI模型进行交互操作。
下载文件：编辑完成后，用户可以直接从ChatGPT界面下载编辑过的文件。

使用场景

企业用户

企业用户可以利用这一新功能，轻松管理和编辑团队文档，无需在多个平台之间切换，提高工作效率和团队协作能力。

教育机构

对于教育机构来说，教师和学生可以通过这一功能，快速分享和编辑课程资料，提升教学效果。

数据分析师

数据分析师可以利用图表交互功能，实时分析和展示数据，提升数据处理和决策的效率。

使用Markdown格式编写文档

在使用ChatGPT进行文档编写时，充分利用Markdown格式可以提升文章的可读性和结构。下面是一些示例：

代码块

import openai

# 导入文件示例代码
response = openai.File.create(
  file=open("myfile.csv"),
  purpose='fine-tune'
)

粗体

重要概念和关键词可以使用粗体进行强调。

引用

“我们不会使用ChatGPT Team和Enterprise客户的数据进行训练，ChatGPT Plus用户可以通过其数据控制项选择退出训练。” – OpenAI

数据表格

功能	描述
文件导入	直接从Google Drive和OneDrive导入文件
全视图查看	以全视图形式查看电子表格文件
图表交互	自定义和操作条形、折线、饼图和散点图

列表

提升工作效率
增强用户体验
安全与隐私保障

结论

OpenAI为ChatGPT引入的新功能，将极大地提升用户在文档处理和编辑方面的效率和体验。这不仅为企业用户、教育机构和数据分析师提供了更为便捷的工具，也进一步体现了AI在实际应用中的巨大潜力。未来，随着更多功能的推出，ChatGPT将继续引领AI技术在各个领域的创新和应用。

2024年5月18日

为什么房地产沙盘模型成本这么贵？了解一下背后的秘密！
沙盘模型在房地产行业中扮演着重要角色，但其高昂的成本常常让人望而却步。本文将深入探讨沙盘模型制作过程中的材料、工艺和人工成本，揭示其为何如此昂贵。通过全面的解析，帮助读者了解沙盘模型制作的复杂性和价值。

引言

沙盘模型在房地产行业中有着举足轻重的地位。它不仅是项目展示的重要工具，更是购房者了解项目布局和环境的直观途径。然而，沙盘模型的高昂成本常常令人惊讶。那么，为什么沙盘模型制作这么贵？本文将带你一探究竟。

沙盘模型制作的复杂过程

前期准备

在开始制作沙盘模型之前，首先需要进行详细的前期准备工作。这包括：
- 资料收集：地形图、建筑平面图、立面图、剖面图等详细资料。
- 设计方案：确定模型的比例、尺寸和展示内容。
这些步骤不仅耗时耗力，还需要专业人员的参与，确保数据的准确性和完整性。

基础制作

底板制作

底板是沙盘模型的基础。常用的材料有木板、塑料板和泡沫板。底板的制作需要经过精准的切割和拼接，以确保模型的稳定性和美观度。

地形塑造

根据地形图，用泡沫板或石膏等材料塑造地形。这一步骤需要大量的手工操作，包括切割、打磨和上色，确保地形的逼真度。

建筑物制作

建筑主体

建筑物是沙盘模型的核心部分。根据建筑图纸，用塑料、木材或纸板等材料制作建筑物主体，并进行组装和粘接。这个过程不仅需要高度的精细度，还需要大量的手工操作和时间投入。

细节处理

建筑物的细节处理包括窗户、门、栏杆等部分的制作和安装。这些细节决定了模型的真实感和精美度，因此需要极大的耐心和技术。

景观装饰

沙盘模型的景观装饰包括绿化布置和道路铺设。使用模型树、草粉、树脂等材料布置绿化景观，再用塑料板或砂纸铺设道路。景观装饰不仅增加了模型的美观度，还增强了其真实性。

灯光效果

为了让沙盘模型更具视觉效果，常常会安装LED灯光系统。这不仅需要复杂的布线工作，还需要考虑灯光的效果和分布，增加了制作的难度和成本。

最后调整

在所有制作步骤完成后，需要进行全面检查和修整，确保模型的整体效果完美。最后，将模型进行包装，准备运输和安装。

沙盘模型制作的成本分析

材料成本

材料单价（元）总价（元）

底板材料 50-200 100-400

建筑材料 100-300 200-600

景观材料 50-150 100-300

灯光材料 50-100 100-200

人工成本

项目单价（元）总价（元）

设计费 1000-5000 1000-5000

制作费 2000-10000 2000-10000

总成本

综合考虑材料、人工、设备折旧等因素，一个普通的沙盘模型制作成本大约在3000元至15000元之间。复杂度高、细节要求多的沙盘模型，成本会更高。

影响成本的因素
1. 模型尺寸和比例：尺寸越大，所需材料和制作时间越多，成本也越高。
2. 细节要求：细节要求高的模型，需要更多的手工制作和细致处理，成本相应增加。
3. 灯光和动态效果：灯光和动态效果的加入，增加了模型的复杂度和制作难度，成本也会相应提高。
4. 制作周期：制作周期越短，需要投入的人工和设备资源越多，成本也会相应增加。
为什么沙盘模型值得投资？

尽管沙盘模型的制作成本较高，但从长远来看，这是一项值得投资的工作。
- 提升项目展示效果：一个精美的沙盘模型可以显著提升项目的展示效果，吸引更多潜在购房者的关注。
- 增强购房者信心：通过沙盘模型，购房者可以更直观地了解项目的规划和设计，增强他们的购买信心。
- 促进销售：优秀的沙盘模型能够帮助开发商更好地向购房者展示项目的优势，从而促进销售。
总结

沙盘模型的高昂成本源于其复杂的制作过程和精细的手工操作。从前期准备到最后调整，每一个环节都需要大量的时间和精力投入。尽管如此，沙盘模型在房地产行业中的重要性和价值不可忽视。通过了解其制作过程和成本构成，我们可以更好地理解为何沙盘模型如此昂贵。
2024年5月18日
ChatGPT 4o：为什么它能颠覆人机交互的未来？
本文探讨了ChatGPT 4o如何通过多模态交互、无延迟回复、多任务处理、情感分析等特性，颠覆传统人机交互方式。我们将深入了解ChatGPT 4o的独特之处，并展望未来人机交互设计的新方向。

多模态交互：未来人机交互的趋势

人机交互（HCI）是现代科技发展的核心领域之一。随着技术的不断进步，人机交互的形式也在不断演变。从早期的命令行界面，到图形用户界面（GUI），再到今天的语音交互和聊天机器人（chatbot），人机交互的方式变得越来越自然、直观。作为一名早期的AI产品经理，我在人机交互，特别是自然语言处理（NLP）相关产品和语音交互，以及智能助手的产品设计和交互体验设计方面有着浓厚的兴趣。今天，我想围绕刚刚发布的ChatGPT 4o，和大家探讨一下人机交互的未来。

1. 传统语音助手的局限性

传统的语音助手主要依赖于单一的语音输入和输出。然而，这种方式有其局限性，例如用户在控制智能家居设备时，常常需要同时借助智能手机或平板上的应用界面进行更详细的设置。这种单一的交互模式往往不能提供最佳的用户体验。

ChatGPT 4o：突破性的人机交互

今天，OpenAI刚刚发布了ChatGPT 4o，这是一次真正意义上的多模态人机交互的突破。作为一个久未发表文章的从业者，我对这个技术进步深感振奋，迫不及待地想和大家分享我的想法。

2. ChatGPT 4o的显著特点

ChatGPT 4o的演示效果令人惊叹。它不仅能够实现无延迟的回复，还可以自然地被用户打断，同时处理多个任务。具体来说，ChatGPT 4o具备以下几个显著特点：
- 无延迟回复：用户在与ChatGPT 4o互动时，几乎感觉不到任何延迟。它能够实时处理用户的输入，迅速给予反馈。
- 多任务处理：ChatGPT 4o能够同时处理多个任务，用户可以在一个对话中切换不同的话题，系统仍能保持连贯性。
- 视觉记忆与语言兼容：ChatGPT 4o可以结合视觉和语言输入，记忆用户之前的互动内容，并在适当的时候引用这些信息。
- 情感分析与TTS输出：ChatGPT 4o能够分析用户的情感状态，并通过文本到语音（TTS）技术输出合适的，带有情感的语音回应。
- 无延迟调用设备功能：ChatGPT 4o能够无延迟地调用手机摄像头和电脑桌面信息，增强了互动的实时性和灵活性。
新的人机交互设计方法

基于ChatGPT 4o的多模态效果，我认为未来的人机交互设计将彻底打破过去的设计理念。以下是我认为的三种全新的设计方法：

1. 无缝会话流

在传统的人机交互设计中，用户与系统的互动通常被划分为多个独立的会话（Session）。每次新的互动开始时，系统需要重新加载上下文信息，这不仅增加了系统的负担，也降低了用户体验的连续性和流畅性。未来的设计将注重无缝会话流，确保用户能够在不同的话题之间自由切换，而无需重新开始新的Session。

应用示例：
- 智能助手：用户可以在与智能助手的对话中无缝切换话题，例如从询问天气转到预定餐厅，系统能够记住用户之前的偏好和选择。
- 语音客服：用户在与客服机器人互动时，可以中途更改问题或需求，系统仍然能够保持连贯的上下文理解和响应。
- 教育和培训：在虚拟学习环境中，学生可以随时提出新问题或更改学习主题，而不影响学习进度和系统响应的连续性。
2. 多模态记忆系统

未来的多模态人机交互设计将更加注重系统的记忆和理解能力。系统能够记忆并理解用户的多模态输入（例如语音、视觉、触控），并在后续互动中智能地使用这些记忆信息，提升互动的个性化和精确性。

应用示例：
- 个人助理：系统能够记住用户的日常习惯和偏好，例如常用的通勤路线、喜爱的音乐类型等，并在适当的时候提供个性化建议。
- 医疗保健：系统能够记忆患者的健康数据和医疗历史，提供更加精准的诊断和个性化的治疗建议。
- 智能家居：系统能够记住家中每个成员的偏好和日常作息，自动调整灯光、温度、音乐等，营造舒适的居住环境。
3. 情感与上下文感知

随着AI技术的发展，未来的系统将更加注重情感和上下文的理解。通过综合分析用户的语言和非语言信号（如语调、面部表情、身体姿态等），系统可以提供更加贴心和人性化的服务。

应用示例：
- 心理健康支持：系统能够识别用户的情感状态，提供及时的心理支持和安慰，甚至建议专业的心理咨询。
- 早教/老年陪伴：系统能够感知孩子的情绪和学习状态，动态调整互动内容和方式，提升学习和陪伴效果。
- 电商助手：系统能够分析用户的情绪，提供更加个性化和 empathetic 的服务，提升客户满意度。
结语

虽然ChatGPT 4o的技术进步主要是整合现有的技术，但其交互体验和流畅度的实现并不容易。当年的iPhone也是整合了多种技术，却通过出色的设计和优化，带来了革命性的用户体验。

在此之前，我们很少见到如此出色的多模态交互效果展示，OpenAI在这方面依然领先了一大步。我相信，这次发布会引发的技术革命将导致新一波AI初创公司涌现，同时也会淘汰一部分无法跟上步伐的企业。

作为一名多年深耕人机交互的的AI从业者，我将持续关注这一领域的新动态，并与大家分享我的见解和思考。
2024年5月18日
使用纯C/CUDA进行LLM训练：探索llm.c项目
llm.c是一个使用简单、纯C/CUDA进行大型语言模型（LLM）训练的项目，不需要庞大的PyTorch或cPython库。本文将深入介绍如何通过llm.c快速入门并训练GPT-2模型，探索其高效的代码实现和训练过程，帮助开发者在简洁高效的环境中实现LLM训练。

介绍llm.c

llm.c项目的目标是通过纯C和CUDA代码实现大型语言模型的训练。与传统的使用PyTorch进行训练的方法相比，llm.c提供了一种更轻量级、高效的解决方案。项目中的代码整洁且易于理解，可以帮助开发者深入理解LLM的训练机制。

项目背景

llm.c选择了GPT-2作为第一个工作示例，因为它是现代LLM的先驱，首次将完整的LLM堆栈整合在一起。当前的主要目标是重现GPT-2模型。

快速入门

GPU版本（稳定版）

如果你有GPU设备并希望快速开始训练，可以按照以下步骤进行操作：
```
pip install -r requirements.txt
python prepro_tinyshakespeare.py
python train_gpt2.py
make train_gpt2fp32cu
./train_gpt2fp32cu
```
这些步骤将下载TinyShakespeare数据集，使用GPT-2分词器进行标记，并下载GPT-2权重，然后在C/CUDA中初始化并训练一个epoch。

GPU版本（最新优化版）

如果你希望以最快速度进行训练，可以使用以下步骤：
```
pip install -r requirements.txt
python prepro_tinyshakespeare.py
python train_gpt2.py
make train_gpt2cu
./train_gpt2cu
```
启用flash attention可以进一步加快训练速度：
```
make train_gpt2cu USE_CUDNN=1
./train_gpt2cu
```
可以根据GPU内存调整批处理大小，例如：
```
./train_gpt2cu -b 32
```
CPU版本

如果你没有GPU设备，也可以在CPU上进行训练：
```
pip install -r requirements.txt
python prepro_tinyshakespeare.py
python train_gpt2.py
make train_gpt2
OMP_NUM_THREADS=8 ./train_gpt2
```
在CPU上训练虽然较慢，但对于理解模型训练过程仍然非常有帮助。

多GPU训练

llm.c还支持多GPU训练，使用混合精度代码：
```
sudo apt install openmpi-bin openmpi-doc libopenmpi-dev
pip install -r requirements.txt
python prepro_tinyshakespeare.py
python train_gpt2.py
make train_gpt2cu
mpirun -np <number of GPUs on your machine> ./train_gpt2cu
```
详细的训练步骤

下载并标记数据集是训练模型的第一步。可以使用以下命令下载并处理TinyShakespeare数据集：
```
python prepro_tinyshakespeare.py
```
然后初始化并训练模型：
```
python train_gpt2.py
make train_gpt2
OMP_NUM_THREADS=8 ./train_gpt2
```
代码解析

训练脚本

训练脚本train_gpt2.c是实现LLM训练的核心文件。以下是一个简单的训练示例：
```
// 伪代码示例，展示如何初始化和训练GPT-2模型
#include <stdio.h>
#include "gpt2.h"

int main() {
    // 初始化模型
    GPT2Model model = gpt2_init("gpt2_124M.bin");

    // 加载训练数据
    int *train_data = load_data("data/tiny_shakespeare_train.bin");

    // 训练模型
    for (int step = 0; step < 40; step++) {
        float loss = gpt2_train_step(&model, train_data);
        printf("Step %d: Loss %.4f\n", step, loss);
    }

    // 保存模型
    gpt2_save(model, "gpt2_trained.bin");

    return 0;
}
```
CUDA优化

CUDA代码train_gpt2.cu进一步优化了训练过程，使用了混合精度和高效的CUDA内核。以下是一个简单的CUDA内核示例：
```
// 伪代码示例，展示一个简单的CUDA内核
__global__ void add(int n, float *x, float *y) {
    int index = blockIdx.x * blockDim.x + threadIdx.x;
    if (index < n) {
        y[index] = x[index] + y[index];
    }
}

int main() {
    int N = 1<<20;
    float *x, *y;
    cudaMallocManaged(&x, N*sizeof(float));
    cudaMallocManaged(&y, N*sizeof(float));

    // 初始化数据
    for (int i = 0; i < N; i++) {
        x[i] = 1.0f;
        y[i] = 2.0f;
    }

    // 执行CUDA内核
    add<<<(N+255)/256, 256>>>(N, x, y);
    cudaDeviceSynchronize();

    // 打印结果
    printf("y[0] = %f\n", y[0]);
    printf("y[N-1] = %f\n", y[N-1]);

    // 释放内存
    cudaFree(x);
    cudaFree(y);
    return 0;
}
```
多GPU训练

使用MPI和NCCL实现多GPU训练，可以显著提升训练速度。以下是一个简单的多GPU训练示例：
```
sudo apt install openmpi-bin openmpi-doc libopenmpi-dev
make train_gpt2cu
mpirun -np <number of GPUs> ./train_gpt2cu
```
实验与超参数调优

通过调整学习率和批处理大小等超参数，可以进一步优化模型训练。以下是一个简单的学习率扫描脚本示例：
```
#!/bin/bash

learning_rates=(3e-5 1e-4 3e-4 1e-3)

for i in {0..3}; do
    export CUDA_VISIBLE_DEVICES=$i
    screen -dmS "tr$i" bash -c "./train_gpt2cu -i data/TinyStories -v 250 -s 250 -g 144 -l ${learning_rates[$i]} -o stories$i.log"
done
```
结论

llm.c项目通过纯C/CUDA代码提供了一种高效、简洁的LLM训练方法，为开发者提供了深度理解LLM训练机制的机会。无论你是初学者还是有经验的开发者，llm.c都能帮助你在高效的环境中实现LLM训练。
2024年5月17日
探索Meta Llama 3：释放大语言模型的潜力
Meta Llama 3是Meta最新推出的大语言模型，提供从8B到70B参数的预训练和指令调优版本。本文将深入探讨如何下载、安装和运行Llama 3模型，帮助开发者快速入门并利用这项强大的技术进行创新。

什么是Meta Llama 3？

Meta Llama 3是Meta最新的大语言模型（LLM），旨在为个人、创作者、研究人员和企业提供强大的语言理解和生成能力。这个版本包含预训练和指令调优的模型，参数规模从8B到70B不等。Llama 3的发布标志着LLMs的又一次重大进步，为用户提供了更多的实验和创新机会。

下载和安装

要下载模型权重和分词器，可以访问Meta Llama网站并接受许可协议。请求通过后，你将收到一封包含签名URL的电子邮件。然后运行下载脚本并传入提供的URL开始下载。

前提条件

确保已安装wget和md5sum，然后运行以下脚本：
```
./download.sh
```
需要注意的是，下载链接在24小时后会过期，且有一定的下载次数限制。如果看到403: Forbidden错误，可以重新请求链接。

通过Hugging Face访问

你也可以在Hugging Face上下载模型，支持transformers和原生llama3格式。以下是从Hugging Face下载权重的步骤：
1. 访问其中一个仓库，例如meta-llama/Meta-Llama-3-8B-Instruct。
2. 阅读并接受许可。请求通过后，你将获得所有Llama 3模型的访问权限。
3. 从“Files and versions”标签下载original文件夹的内容，也可以通过命令行下载：
```
huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir meta-llama/Meta-Llama-3-8B-Instruct
```
1. 要与transformers一起使用，可以使用以下代码片段下载并缓存权重：
```
import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)
```
快速开始

你可以按照以下步骤快速开始使用Llama 3模型，这些步骤将让你在本地运行快速推理。更多示例请参阅Llama recipes repository。
1. 在一个包含PyTorch / CUDA的conda环境中克隆并下载此仓库。
2. 在顶级目录下运行：
```
pip install -e .
```
3. 访问Meta Llama网站并注册以下载模型。
4. 注册后，你会收到一封包含下载URL的电子邮件。你将在运行下载脚本时需要此URL。
5. 收到电子邮件后，导航到已下载的Llama仓库并运行下载脚本：
  - 确保授予下载脚本执行权限。
  - 在此过程中，你将被提示输入电子邮件中的URL。
  - 不要使用“复制链接”选项；手动从电子邮件复制链接。
6. 下载所需模型后，可以使用以下命令在本地运行模型：
```
torchrun --nproc_per_node 1 example_chat_completion.py \
    --ckpt_dir Meta-Llama-3-8B-Instruct/ \
    --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model \
    --max_seq_len 512 --max_batch_size 6
```
注意：
- 将Meta-Llama-3-8B-Instruct/替换为你的检查点目录路径，并将Meta-Llama-3-8B-Instruct/tokenizer.model替换为你的分词器模型路径。
- –nproc_per_node应设置为你使用的模型的MP值。
- 根据需要调整max_seq_len和max_batch_size参数。
推理

不同模型需要不同的模型并行（MP）值：

Model MP

8B 1

70B 8

所有模型支持最长8192个tokens的序列长度，但我们根据max_seq_len和max_batch_size值预分配缓存。因此，请根据你的硬件设置这些参数。

预训练模型

这些模型未针对聊天或问答进行微调。它们应该被提示，以便预期答案是提示的自然延续。
```
torchrun --nproc_per_node 1 example_text_completion.py \
    --ckpt_dir Meta-Llama-3-8B/ \
    --tokenizer_path Meta-Llama-3-8B/tokenizer.model \
    --max_seq_len 128 --max_batch_size 4
```
指令调优模型

微调模型针对对话应用进行了训练。要获得预期的功能和性能，需要遵循ChatFormat定义的特定格式：提示以特殊token开头，之后是一条或多条消息。每条消息以标签开头，角色可以是system、user或assistant，并以标签结束。消息内容在双换行\n\n之后跟随。每条消息的结束标记为 token。

你还可以部署附加分类器，以过滤被认为不安全的输入和输出。有关如何向推理代码中添加安全检查器的示例，请参阅llama-recipes repo。
```
torchrun --nproc_per_node 1 example_chat_completion.py \
    --ckpt_dir Meta-Llama-3-8B-Instruct/ \
    --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model \
    --max_seq_len 512 --max_batch_size 6
```
问题反馈

请通过以下方式报告软件“错误”或模型的其他问题：
- 报告模型问题：https://github.com/meta-llama/llama3/issues
- 报告模型生成的风险内容：developers.facebook.com/llama_output_feedback
- 报告错误和安全问题：facebook.com/whitehat/info
模型卡

请参阅MODEL_CARD.md。

许可

我们的模型和权重对研究人员和商业实体开放，并遵循开放原则。我们的使命是通过这一机会赋予个人和行业力量，同时促进发现和伦理AI的进步。

请参阅LICENSE文件以及我们的可接受使用政策。

常见问题

有关常见问题的解答，请参阅FAQ，我们将随着新问题的出现不断更新。

结论

Meta Llama 3通过提供从8B到70B参数的预训练和指令调优模型，为开发者和研究人员提供了强大的工具。无论是用于实验还是创新，Llama 3都能帮助你在语言模型的应用中实现更高的效率和效果。
2024年5月17日
什么是LangChain？打造上下文感知的推理应用：深入了解LangChain
在这篇文章中，我们将深入探讨LangChain，一个用于开发大语言模型（LLM）应用程序的框架。LangChain不仅提供了丰富的开源库，还简化了应用程序的整个生命周期，包括生产化和部署。本文将详细介绍LangChain的组件、用例及其在生产环境中的优势。

什么是LangChain？

LangChain是一个框架，专为开发由大语言模型（LLMs）驱动的应用程序而设计。它简化了应用程序的整个生命周期，从最初的开发到生产环境的部署。LangChain提供了丰富的开源库、生产化工具以及简便的部署选项。

LangChain的主要价值在于其组件和现成的链条。组件是模块化且易于使用的构建块，即使你不使用LangChain的其他部分，也可以独立使用这些组件。现成的链条则简化了高级任务的实现，使用户可以快速入门。

安装与快速开始

LangChain支持使用pip和conda两种方式进行安装：
```
pip install langchain
```
```
conda install langchain -c conda-forge
```
安装完成后，你可以通过以下简单示例快速开始使用LangChain：
```
from langchain.llms import OpenAI

llm = OpenAI(model_name="text-davinci-003")
response = llm("Translate the following English text to French: 'Hello, how are you?'")
print(response)
```
LangChain的主要组件

LangChain的组件主要分为以下几个模块：

? 模型I/O

模型I/O模块包括提示管理、提示优化、通用接口和模型输出工具。这些工具可以帮助开发者更好地管理和优化与LLMs的交互。
- 提示管理：包括创建、存储和管理提示。
- 提示优化：通过示例选择器来优化提示。
- 通用接口：提供与聊天模型和LLMs的通用接口。
- 模型输出工具：包括解析和处理模型输出的常用工具。
? 检索

检索模块涉及从各种来源加载数据、准备数据并在生成步骤中进行检索。主要包括文档加载器和检索器。
- 文档加载器：从不同的数据源加载文档。
- 检索器：检索和处理用于生成的相关数据。
? 代理

代理允许LLM自主决定如何完成任务。代理会决定采取哪些行动，然后执行该行动，观察结果，并重复这一过程直到任务完成。
- 标准接口：为代理提供标准接口。
- 代理选择：提供多种代理类型供选择。
- 端到端代理示例：完整的代理示例。
使用LangChain构建应用

❓ 问答系统

LangChain可以用于构建强大的问答系统，使用检索增强生成（RAG）技术。
- 问答系统文档
- 端到端示例：Chat LangChain
? 结构化输出提取

通过LangChain，你可以从非结构化数据中提取结构化输出。
- 结构化输出提取文档
- 端到端示例：SQL Llama2 Template
? 聊天机器人

LangChain还支持构建功能强大的聊天机器人。
- 聊天机器人文档
- 端到端示例：Web LangChain
LangChain Expression Language (LCEL)

LCEL是LangChain的基础，支持从简单的“提示+LLM”链条到最复杂的链条的无代码更改生产部署。它是一种声明性语言，用于组合链条。
- 概述
- 接口
- 原语
生产化与部署

LangSmith

LangSmith是一个开发者平台，让你可以调试、测试、评估和监控基于任何LLM框架的链条，并无缝集成到LangChain中。
- LangSmith文档
LangServe

LangServe是一个用于将LangChain链条部署为REST API的库。
- LangServe文档
生态系统
- LangSmith：用于追踪和评估语言模型应用程序的开发者平台，帮助你从原型到生产环境的转换。
- LangGraph：使用LLMs创建有状态的多角色应用程序，基于LangChain原语构建。
- LangServe：将LangChain可运行程序和链条部署为REST API。
结论

LangChain是一个功能强大的框架，简化了大语言模型应用程序的开发、生产化和部署过程。无论你是初学者还是有经验的开发者，LangChain都能为你提供丰富的工具和资源，助你快速构建和优化你的LLM应用程序。
2024年5月17日
为什么更换Ubuntu源？如何使用中文源替换Ubuntu源？
本文将详细讲解为什么要更换Ubuntu源，以及如何更换为中文源。你将学习到什么是Ubuntu源，更换源的具体步骤，以及使用中文源的好处。

Ubuntu是一款流行的Linux操作系统，许多开发者和普通用户都选择使用它。Ubuntu源是指软件包的下载地址，默认的源有时候会因为网络问题导致下载速度慢或者无法连接。因此，更换源尤其是使用速度更快的中文源成为了许多中国用户的选择。

什么是Ubuntu源？

Ubuntu源是指Ubuntu系统中的软件包下载地址。软件源（也称为仓库）包含了成千上万的已编译好的软件包，用户可以通过APT包管理工具方便地下载、安装和更新这些软件。Ubuntu默认使用的是官方源，但有时候这些源可能速度较慢，特别是在国内的用户会遇到网络问题。

“更换源可以大幅提高软件包下载和系统更新的速度，尤其是在网络状况不佳时。”

常见的Ubuntu源类型
1. 官方源：由Ubuntu官方维护，安全性和稳定性较高。
2. 第三方源：由其他组织或个人维护，可能包含一些官方源没有的软件包。
3. 镜像源：官方源的镜像，分布在世界各地的数据中心，可以显著提升下载速度。
为什么要更换Ubuntu源？

在中国，访问Ubuntu官方源经常会遇到下载速度慢或者无法连接的问题。更换为中文源可以有效解决这些问题，提高下载和更新速度。以下是更换源的几个主要原因：
1. 提高下载速度：国内的镜像源通常位于中国大陆，可以大幅提升下载速度。
2. 稳定性：本地源通常更稳定，不容易受到国际网络波动的影响。
3. 可用性：有些软件包在官方源上可能不完整或缺失，而本地源通常会及时同步更新。
如何更换Ubuntu源？

更换Ubuntu源其实非常简单，主要分为备份原有源文件、编辑源列表和更新源信息三个步骤。下面我们一步步进行操作。

1. 备份原有源文件

首先，我们需要备份当前的源文件，以防在更换源的过程中出现问题。可以通过以下命令完成备份：
```
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
```
2. 编辑源列表文件

使用你喜欢的文本编辑器（例如nano或vim）编辑源列表文件。以下是使用nano编辑器的示例：
```
sudo nano /etc/apt/sources.list
```
将文件中的内容替换为你选择的中文源。以下是一些常用的中文源：
- 阿里云源
```
deb http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
```
- 清华大学源
```
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-updates main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-backports main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-security main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-proposed main restricted universe multiverse
```
- 中科大源
```
deb https://mirrors.ustc.edu.cn/ubuntu/ focal main restricted universe multiverse
deb https://mirrors.ustc.edu.cn/ubuntu/ focal-updates main restricted universe multiverse
deb https://mirrors.ustc.edu.cn/ubuntu/ focal-backports main restricted universe multiverse
deb https://mirrors.ustc.edu.cn/ubuntu/ focal-security main restricted universe multiverse
deb https://mirrors.ustc.edu.cn/ubuntu/ focal-proposed main restricted universe multiverse
```
3. 更新源信息

完成源文件编辑后，保存并退出编辑器，然后运行以下命令来更新源信息：
```
sudo apt update
```
使用中文源的好处

下载速度更快

使用位于中国大陆的镜像源，下载速度通常会显著提升，尤其是对于大文件和系统更新包。

提高系统稳定性

本地镜像源由于地理位置优势，通常受到网络波动的影响较小，连接稳定性更高。

更多的软件包选择

有些第三方中文源会包含一些官方源没有的软件包，提供更多的选择。

常见问题及解决方法

源文件损坏

如果在编辑源文件的过程中出现错误，可以通过备份文件进行恢复：
```
sudo cp /etc/apt/sources.list.bak /etc/apt/sources.list
```
更新失败

如果在更新过程中出现错误，可以尝试更换其他的镜像源，或者检查网络连接是否正常。

软件包无法安装

有时候某些软件包可能在特定的镜像源中缺失，尝试更换镜像源或直接使用官方源。

结语

更换Ubuntu源对于提升下载和更新速度、提高系统稳定性有着重要的作用，尤其是对于国内用户来说。希望本文能够帮助你轻松完成源的更换，享受更快、更稳定的Ubuntu使用体验。
2024年5月17日

材料	单价（元）	总价（元）
底板材料	50-200	100-400
建筑材料	100-300	200-600
景观材料	50-150	100-300
灯光材料	50-100	100-200

项目	单价（元）	总价（元）
设计费	1000-5000	1000-5000
制作费	2000-10000	2000-10000

Model	MP
8B	1
70B	8

数据库监控工具2.0：全方位监控你的数据库健康状况

在现代数据驱动的世界中，数据库的稳定性和性能至关重要。为确保数据库始终运行在最佳状态，我们需要一款强大的监控工具。本文将介绍如何使用Tkinter和cx_Oracle库创建一个实时数据库监控工具。这个工具不仅可以实时显示数据库的健康状况，还可以定时更新监控数据，确保用户获取到最新的信息。

开始构建数据库监控工具

首先，我们需要导入必要的库：

import tkinter as tk
from tkinter import ttk, messagebox, simpledialog
import cx_Oracle
import threading
from tkinter.ttk import Treeview

这些库帮助我们构建用户界面、连接数据库以及实现多线程功能。

创建主窗口

我们使用Tkinter创建主窗口，并设置窗口的标题和大小：

class demo(tk.Tk):
    def __init__(self):
        super().__init__()
        self.title("数据库监控工具")
        self.geometry("1200x400")
        self.resizable(True, True)

添加笔记本卡片

为了更好地组织和显示信息，我们使用Notebook组件添加多个选项卡，每个选项卡对应不同的监控项：

        # 创建笔记本卡片
        self.notebook = ttk.Notebook(self)
        self.notebook.pack(expand=True, fill="both")

        # 创建查询卡片
        self.sttscx = tk.Frame(self.notebook)
        self.notebook.add(self.sttscx, text="监控事项")
        self.sttscx_list = Treeview(self.sttscx, columns=('c1', 'c2', 'c3', 'c4', 'c5', 'c6', 'c7'), show="headings")
        self.sttscx_list.pack(expand=True, fill="both")
        self._setup_treeview(self.sttscx_list, 7)

这里，我们通过Treeview组件显示数据库监控项，并使用_setup_treeview方法来设置列宽和标题：

def _setup_treeview(self, tree, col_count):
    for i in range(1, col_count+1):
        tree.column(f'c{i}', width=100, anchor='center')
        tree.heading(f'c{i}', text=f'事项{i}')

连接数据库

为了获取数据库信息，我们需要连接到Oracle数据库：

def connect_to_oracle(self):
    conn = cx_Oracle.connect(user='your_username', password='your_password', dsn='your_dsn')
    return conn

请确保替换示例中的your_username、your_password和your_dsn为实际的数据库连接信息。

获取和更新数据

我们通过fetch_data_and_update_tree方法从数据库中获取数据并更新到Treeview中：

def fetch_data_and_update_tree(self):
    conn = self.connect_to_oracle()
    cursor = conn.cursor()
    queries = ["SQL_QUERY_1", "SQL_QUERY_2", "SQL_QUERY_3", "SQL_QUERY_4"]
    treeviews = [self.sttscx_list, self.qrnrksxcx_list, self.jsydtj_list, self.wrksx_list]

    for query, tree in zip(queries, treeviews):
        cursor.execute(query)
        rows = cursor.fetchall()
        self._update_treeview(tree, rows)

    cursor.close()
    conn.close()

def _update_treeview(self, tree, rows):
    for item in tree.get_children():
        tree.delete(item)
    for row in rows:
        tree.insert("", "end", values=row)

定时刷新数据

为了确保数据的实时性，我们使用after方法实现定时刷新：

def refresh_tree(self):
    self.fetch_data_and_update_tree()
    self.after(5000, self.refresh_tree)

运行应用

最后，我们需要启动应用：

if __name__ == "__main__":
    app = demo()
    app.mainloop()

总结

本文介绍了一款实用的数据库监控工具，它不仅可以实时监控数据库的健康状况，还能定时刷新数据，确保用户获取到最新的信息。通过本文的代码示例，你可以轻松搭建自己的数据库监控工具，从而提升数据库的稳定性和性能。

2024年5月17日

分类： 站长笔记

新品发布：GPT-4o和Gemini Live

GPT-4o的核心优势

Gemini Live的特点

具身智能的三大特点

新的人机交互标准

CUI与LUI的局限性

GPT-4o和Gemini Live的突破

多模态交互设计的新思路

结语

一、Edge浏览器的新功能：AI主题生成器

1.1 AI主题生成器的运作机制

1.2 现有AI技术的支撑

二、个性化浏览体验的新时代

2.1 高度个性化的视觉体验

2.2 适应不同用户需求

三、微软在AI领域的前瞻性应用

3.1 从Designer到Edge的技术延伸

3.2 未来的AI应用展望

四、总结：个性化浏览体验的未来

正文

新功能亮点

为什么这项更新如此重要？

提升工作效率

增强用户体验

安全与隐私保障

如何使用新功能？

使用场景

企业用户

教育机构

数据分析师

使用Markdown格式编写文档

代码块

粗体

引用

数据表格

列表

结论

引言

沙盘模型制作的复杂过程

前期准备

基础制作

底板制作

地形塑造

建筑物制作

建筑主体

细节处理

景观装饰

灯光效果

最后调整

沙盘模型制作的成本分析

材料成本

人工成本

总成本

影响成本的因素

为什么沙盘模型值得投资？

总结

多模态交互：未来人机交互的趋势

1. 传统语音助手的局限性

ChatGPT 4o：突破性的人机交互

2. ChatGPT 4o的显著特点

新的人机交互设计方法

1. 无缝会话流

2. 多模态记忆系统

3. 情感与上下文感知

结语

介绍llm.c

项目背景

快速入门

GPU版本（稳定版）

GPU版本（最新优化版）

CPU版本

多GPU训练

详细的训练步骤

代码解析

训练脚本

CUDA优化

多GPU训练

实验与超参数调优

结论

分类：站长笔记