Skip to content

记我是如何被一个原本想2天搞定的小想法折腾了大半个月的|想法篇

Posted on:January 28, 2024 at 03:00 PM

月初的时候刷到一篇小红书的图文,博主分享了他用 Mid-Journey 生成的特色图片。于是想搭个前端页面,通过 Dall·E 来实现更可控的效果,然而万万没想到,这个“坑”才刚刚开始……

为了避免过于混乱,还是把心路历程和技术方面趟的坑分两篇来写吧。这一篇专门记录过程中想法的演变,《记我是如何被一个原本想2天搞定的小想法折腾了大半个月的|技术篇》 这一篇会把 coding 过程中的一些沟沟坎坎记录一下。

一开始的想法其实很单纯

那天在刷小红书,看到一篇点赞和互动都比较多的博文,分享了几张用 Mid-Journey 做的图,都是如下的这种“可爱风格” Alt text

评论中很多人希望知道博主是怎么做的,甚至有直接找博主代做的,但是可能博主并不打算“接单”,对用到的 Prompts 也讳莫如深。

我也要试试,而且要做的更好

所以我当时想,这个效果确实挺好玩的,像手办玩偶一样夸张的人物比例,配上人物自己的社交信息,类似是一张电子名片。

但是仔细看下来还是有不少缺陷的,其中核心的我感觉就是 AI 自动生成的图片上,文字信息还是很难控制,往往会乱七八糟。

那是不是可以提供一个web app,既可以生成图片,又可以自定义背后的文字,然后把图片去除背景后二者放在一起,就可以实现更好也更方便的生成此类“电子名片”了?

而且,既然 Mid-Journey 能做,那 DALL·E 是不是也可以呢,毕竟它的 API 调用我已经比较熟悉了。于是我就先去 Coze 上创建了一个 bot,加了 GPT4V 和 DALL·E3 两个插件。然后开始“盘它”:

而且我发现 DALL·E 在这种风格的图片生成上还是非常擅长的,可能是训练时这方面的素材很多,对这个风格足够了解。

在 Coze 创建的 Bot 能够基本保证稳定输出后,我就去用 Python 直接调用 OpenAI 的 API 测试了一下,也没什么问题,于是 “Prompts Engineering” 算是顺利结束,过程还比较顺利。

Backend API 编程开始,纠结开始……

关于编程的具体过程我会在下一篇展开讲讲,这里只记录一下功能设计方面的心路历程。

  1. 因为要用 DALL·E-3 的 API,经过测试发现 TOKEN 的消耗还是要比文字的更快,所以不能再像之前开发 bisub —— 双语字幕制作工具 那样直接开放给大家使用,怕 TOKEN 烧不起;
  2. 所以还是需要加一下登录注册;那要不要加上用户 credits 的买卖和消耗管理?刚开始写代码时,心里绷着弦告诉自己还是别加了,MVP 不需要这个,但是实际开发过程中加上 credits 管理这个想法还是会时不时就冒出来,最后迫于时间精力有限,还是放弃了;
  3. 这个图片的生成是否是一次性的?是否要为用户提供相应的“增-删-改-查”?
  4. 如果要提供增删改查的话,图片要存在哪里?直接存在部署的“小弱鸡”上肯定吃不消;

前面几条算是在后端开发时一些细节方面的考量,接下来是最核心的”重头戏“:

  1. 这个图片生成的核心价值是什么?只是生成个图片?有什么用呢?如果感觉是电子名片,是否应该像 linkTree 那样,或者像即刻的“黄页”那样,为大家提供一个可部署、可访问的页面?

最后这个问题我想了好久,也直接导致逐渐从一开始的“玩票”到慢慢感觉心态“不对”了。为什么呢,这可能还要从我注册 Tinyforce.dev 这个域名开始说起。

在做独立开发这件事上,虽然我也还处在刚起步的阶段,还不是全职独立开发,但是通过跟几位朋友交流也发现,大家普遍都有同样的困惑和问题。在上一篇《一次 AI “知识付费” 后的复盘记录》 我曾提到过,一方面是独立开发的“独立”相应带来的是社交圈子的逐渐缩小和孤独感的日积月累;另一方面就是在过程中遇到各种问题时需要有人交流、有人指导;所以我当时注册 tinyforce.dev 这个域名的时候,其实是打算做成一个集独立开发的“经验记录”+“分享交流”+“合规指导”等等比较全面的一个平台。

于是在做这个“文生图”的想法过程中,慢慢倾向于放大其“电子名片”的黄页功能,后面转化成为 tinyforce.dev 这个独立开发交流平台的一个模块。

所以尽管后来砍掉了比如基于 2D 图片来生成 3D 模型并通过 Three.js 之类的来进行加载,实现人物的三维可交互;也砍掉了支持 Customize domain 等等功能;但是还是保留了其电子名片这个属性,而不仅仅是生成个图片那么简单。

想法这个东西其实挺奇妙的,它就诞生之初就像是一个小火苗,“小”但是“热切”,会让人有迫不及待地行动起来以成燎原之势;尽管我现在倾向于有新的想法后只是先记录到 Flomo,等过一段时间再回过头来看是否还有当初的想到这个“点子”时的激情,以此来避免“激情开发”、浪费时间;但是在过程中,想法又变成一粒种子,会生根、会发芽、会长出错综枝桠,需要定力和魄力来不断修剪,才能保证主干的茁壮成长。

因此,现在冷静下来再看这个项目,不是刚需、没什么特别、更无法赚钱…… 虽然开发过程中技术得到了磨砺,但是从投入精力来衡量,确实不是一个太值得的一个项目。

但是事已至此,一是安慰自己这个模块后面肯定用得上;二是放平心态,不再单纯功利性地看待它;

至少藉此机会认识了很多有趣的即刻朋友,也希望大家在 AI 探索的道路上能够多多交流、共同进步。