输入“/”快速插入内容

开发视角:《我每天是如何使用 ChatGPT 的(从科学家和开发者的视角)》

2024年1月23日修改
作者列举了他日常使用 ChatGPT 的用法
应用案例 - 编程和控制台工具
编写 ffmpeg/ImageMagick 命令行
写小段脚本(Python、Javascript)
编写正则表达式
用不同的语言/框架重写代码片段
制作 LaTeX 图表与表格
数据转换与可视化呈现
从图像和图表中提取数据
应用案例 - 语言、图像和知识
英语语法纠错
精简和重塑段落
将想法转化为文字
总结文章
总结 YouTube 视频
解释学习过程中遇到的错误
翻译
私人导师
生成图像 - 音乐封面
生成图像 - 灵感集和参考资料
创意头脑风暴 - 挑选标题和主题
知识库
作者的结论:
从我之前的描述中,你可能已经明白,我并不经常把大语言模型 (LLM) 当作搜索工具或知识库来使用。
我不会用它们来完整地自动处理一个任务,它们也不是我生活中的自动化工具。
我不依赖生成式 AI 来取代我的创造力。
我更喜欢与它们进行互动,我的决策和专注始终贯穿于这个过程。
大语言模型并没有让我一夜之间成为超级程序员。
那些认为大语言模型和自动化可以替代员工的 CEO 和 AI 界的意见领袖,我认为他们的想法很短视。
但是。
大语言模型给了我极大的快乐,我非常享受与它们的互动。
它们激发了我对所参与的每件事情的兴趣和热情 - 对我来说,它们不仅仅是一个工具或自动化的替代品,而是一个充满乐趣的助手,帮助我学习和进步。
至少在过去十年中,没有任何技术能像现在这样让我感到这么多快乐和敬畏。
虚拟现实?让人不适和恶心。增强现实?让你时刻被工作、通知和广告所困扰。加密货币?无用,滋生犯罪,充斥着欺诈。Web3?只不过是资本家的小把戏,试图将我们的生活完全商品化。过去的十年,我们见证了太多被过分吹噜的平庸技术。
但是,在我看来,AI 才是真正的下一个(或者说已经是当前的)重大飞跃。我现在所讲的只是大语言模型,还没提到机器学习已在计算机图形和视觉等领域带来的革命性变化。对我而言,大语言模型和生成式 AI 的魅力不在于商业或生产力,而在于它们的趣味性和愉悦感 - 是的,技术应该是有趣的,令人享受的。我想重温我七岁时的那种兴奋,当时我正在探索 DOS、Windows 3.11,学习 Turbo Pascal 编程,并且开始接触 Web 1.0,制作我的第一个“无用”HTML 主页。我们的价值不应该只是在于提高生产力和为资本增值。这也是为什么我坚信,应该发展和推广开源大语言模型,让全球每个人都能平等地接触这些技术(最好是在他们自己的本地设备上,不受任何公司的控制)。
尽管对大语言模型存在一些技术上和社会上的担忧和批评,我仍然保持乐观态度。这些问题看起来是可以解决的,而且这样做是值得的。大语言模型会继续进步,但即便它们不再有太大的变化,我也会满足于现有的模型,因为它们已经在很大程度上丰富了我的生活。我希望这篇文章能展示给你大语言模型的这些乐趣,并鼓励你以新的方式去体验和享受它们。
翻译原文:
作者:
bartwronski
我们都清楚互联网的运作方式——充斥着各种“爆款观点”,极端分裂的意见,恶搞和无知现象屡见不鲜。
最近,大家对于人工智能(AI)特别是大语言模型(LLMs)和生成式 AI(GenAI)都有各种各样的看法。我不打算在这里讨论那些借“淘金热”炒作自己的意见领袖、骗子、围绕 ChatGPT 套壳做生意的人,或是那些无知而贪婪的投资人——他们理应受到谴责,而且已经有人在谴责他们了。
对当前人工智能可能存在的问题,有许多合理的批评或讨论点,比如创作者权利和版权的边界、何为合理使用、许多职业可能面临的失业风险、一些工作自动化导致的“质量恶性竞争”、进一步自动化的垃圾邮件问题,或是某些单一企业对关键技术和信息的控制。我在这篇文章中也不打算去讨论或争辩这些问题;有些批评是合理的,我也同意,而有些则是基于误解、情绪化或夸大的,但这不是本文的重点。
然而,我确实想要回应并反驳一些特别是无知的批评。所谓的“无知批评”是什么?就是那些宣称大语言模型是毫无用处的“抄袭机器”、“胡言乱语生成器”等等的言论。这种批评显然是无知的,因为这些人明显没有真正尝试过使用它们。
这种说法是完全错误的。有时,这是出于恶意和单纯的负面情绪。有时,则是因为人们不理解大语言模型适合做什么,以及它们目前能够提供哪些帮助。或许有人尝试了一次,用错了方法,然后就将这一次不佳的体验笼统地推广到整个模型上。我在这里想要说服那些没有深入了解 ChatGPT Plus,无法想象它合法使用场景的人群。
我每天在专业和个人生活中都使用大语言模型,我发现它们是极好的工具——它们不仅提高了我的工作效率,更让我在使用技术时感到愉快和满足,经常让我会心一笑。
如果它们对我有帮助,那它们就不可能是无用的(除非我的经验毫无价值,那么你也就没必要读这篇文章了)。而那些怀着好意参与这类讨论的人会问我,“那么,你是怎么使用这些工具的呢?”因此,我查看了我过去一个月的 ChatGPT 使用记录,并将在这里列举一些用途。
首先,先来几点说明和免责声明
说明: 我是 ChatGPT Plus 的订阅用户。我认为这非常值得,因为大部分我下文将提到的应用在没有它的情况下效果并不理想。如果你对免费版本不满意,不妨试试 Plus 版本。我曾经对 ChatGPT 很失望,后来一位同事说服我尝试 ChatGPT Plus —— 对此我非常感激。🙂
说明: 如果你把大语言模型主要当做一个知识模型来使用,可能会感到失望。
说明: 有时候,仅仅提出一个问题是不够的。它更像是一种“对话式”的交流方式。
说明: 我的使用方式很基础。我不使用任何技巧或高级提示技术,对我介绍的使用场景来说这些并非必需。我就像对同事指示一样来编写命令,只不过有时会更加精确。
说明: 如果你认为程序或某人出现错误是不可接受的,那么你可能会感到失望。错误总会发生(但一经指出便会立即修正)。顺便问一句,如果你是这样的人,你怎么能信任自己或你的同事呢?
说明: 我最近开始使用 Github Copilot(目前仅限于个人使用,不涉及职业方面),并且尝试使用 perplexity.ai 来处理一些更专业的任务,如编程、研究特定话题,甚至是作为 Google 搜索的真正替代品。然而,由于我尚缺乏足够经验,所以不会在此详细讨论它们。不过,两者都显示出了很大的潜力!
免责声明和利益冲突披露: 尽管这篇文章充满了我的个人热情,但这完全是我的个人观点。我与 OpenAI 没有任何关联。我只是非常喜爱他们的产品,并认为每月花费 20 美元非常值得。我的确在实时计算机图形学的机器学习领域有所工作,但我的工作更倾向于传统方向 —— 比如用于数据压缩或图像去噪的小型模型,并非生成式 AI 或大语言模型。此外,作为附加说明,AI 的成功显然是我所在公司市场成功的一个重要推动力,所以我的观点可能带有一定的偏见。
说明: 这篇文章可能会不断更新和修改。
应用案例 —— 编程和控制台工具
编写 ffmpeg/ImageMagick 命令行
我对 ffmpeg 既有喜爱之情又有些许厌恶,因为它实在太万能、灵活并且强大了。不过,我对命令行一直不太在行;相比于使用控制台,我更偏爱直观的点击和图形界面。每次上网搜索如何执行基本操作,然后尝试着把各种选项组合起来,总是令人头疼。对于 ImageMagick 也是同样的问题。
但 ChatGPT 完全帮我解决了这些难题。回顾过去一个月的使用历史,我用它做了很多事情,从简单的“把 AAC/HEIC 文件转换成 WAV/JPEG”,到“把一张图片横切成两半然后纵向拼接”,乃至更复杂的任务,比如**“从这段音频中截取一个 30 秒的片段,从特定时间戳开始,然后把它放到一个符合 Instagram 故事格式和分辨率的视频中,并在视频中央放置一个正方形图片”**。ChatGPT 能生成所有必要的操作步骤和命令。
这真是太神奇了。它为我节约了好几个小时,还帮助我完成了一些我原本因懒惰不愿意尝试的创作。更棒的是,它还会解释每一个步骤和选项的用途,让我能够学习和理解这些操作。它不仅有趣,还富有教育意义,并且互动性很强。
我记得只有一次,它提出的解决方案出现了小错误。我向它说明了这个错误的具体情况,它立刻就对其进行了修正。
写小段脚本(Python、Javascript)
作为一名研究科学家,我每天都在使用 Python。不过,类似文件系统操作这样的任务,通常一个月才会遇到一次。至于 os.walkdir() 的文档,我估计已经翻看了无数次。至于处理 mp3 文件,可能一年才做一次。
现在,不再需要花费 15-30 分钟来编写一个脚本来处理文件夹中所有的 mp3 文件,识别出那些标题符合特定格式或包含特定词汇的文件,然后对它们重命名并复制到指定文件夹。我只需向 ChatGPT 提出问题,然后复制答案(阅读并核实它是否达到我的要求),运行它,通常这样就足够了。它还会推荐一些我不熟悉的库或包,比如读取 mp3 元数据的工具。
去年,我甚至写了一篇博客,介绍了我是如何使用 ChatGPT 来帮我编写一些 Javascript 代码的(因为我不懂 Javascript)。
我利用它编写了从 Spotify 下载播放列表歌曲标题、YouTube 播放列表和 HTML 页面的脚本。以前,我需要花费数小时来寻找并使用合适的库,往往还要学习新的概念。但有了大语言模型(LLM),这些问题都能一次性解决。它们甚至还会告诉我需要获取哪些开发者密钥,并为更复杂的应用提供了起点。
对于更小的任务,比如寻找匹配特定模式的文件,我现在不再使用“find”命令、Windows 查找或 Everything。对于文本处理,我也不去摸索编辑器的各种功能。我只需向 ChatGPT 提出我的需求,用自然语言描述,它就会生成 Python 代码 - 我可以看到以自然且人类可读的语法输出的 Python 结果。像 sed 和 find 这样的工具虽然在打字上很简洁,但它们为了适应控制台的有限列而设计(并不考虑可读性),因此长时间后看起来又丑又难懂(对我来说也难以使用)。但现在,当这些命令行/代码能被直接为我生成时,它们唯一的优势——简洁性——就不复存在了,没有什么能比得上 Python 的清晰、可读和易于修改的特点。
虽然有时候会出现一些错误,但我可以阅读并修正这些代码,或者继续与 ChatGPT 进行交互修改。正因为此,目前我并不追求“操作系统级别的自动驾驶”,而是更倾向于代码生成和亲自执行。
这是一个极大节省时间的方法。虽然有些人能够轻松自如地运用批处理命令和脚本,但我并非如此。这并不是因为我不会学习——我对这些东西还是相当熟悉的,只是如果我一个月只用它们一次,我就很容易忘记,需要重新来过。而且,顺便提一句,使用这个 ChatGPT 代码学习和复习,或是探索新知识,同样是一件非常有趣的事情,也颇为令人兴奋。
编写正则表达式
对于正则表达式的学习也是同样的情况。我已经学过好几次了(真的,哈哈),我能够解读它们,或者在有手册或 Regex 101 的帮助下编写一个新的正则表达式。但是,由于我每两个月才使用它们一次,我发现每次都需要重新学习。ChatGPT 为我提供了一个很好的起点。它还能逐步解释正则表达式的原理,这不仅是一个学习的机会,也帮助我复习了之前的知识。