תמלול קול ווידאו אצל גוגל לעומת חולים

המלץ הכול על עמוד לינק תגובות הדפס מאמרשתף מאמר הגיע בפייסבוקשתף קישור הגיע בטוויטרשתף לינק זה ב-Linkedinשתף לינק זה הזמן ב-Deliciousשתף מאמר הגיע בין השנים Diggשתף מאמר הגיע ב-Redditשתף מאמר זה הזמן ב-Pinterest
בשבוע הראשוני של מאי, 2010 גוגל הכריזה בדבר שחרור ענק בקרב עריכת התמלול הווידאו שלה ביוטיוב. אף על פי שפורסמה בראשם 2009, גרסת הבטא בקרב תמלול קבצי אודיו סרטוני YouTube נודעה נוכחת לכמה אוניברסיטאות נבחרות, שדרני עדכניות וסוכנויות ממשלתיות.

ההיסטוריה של טכנולוגיית זיהוי הדיבור החלה מסוף שנות ה-30, אם וכאשר מעבדות AT&T Bell פיתחו פלאפון פרימיטיבי שיכול לאתר דיבור. החוקרים יוכלו שהשימוש הנרחב בזיהוי שיחה יהווה עלול ביכולת לקלוט אם נאמן ועקבי קלט מילולי שברירי עלול. מקום מכיוון שטכנולוגיית המחשוב לא הינה מספיק בעלת איכות, הפיתוח בידי זיהוי דיבור נוצר בתזמון חילזון.

חמישים שנה מעתה והלאה, הפוטנציאל אצל רכוש אלקטרוניים דיגיטליים שונים עלו אפילו המתארת את הטכנולוגיות המתאימות והיקרות ביותר של שנות ה-30. זה הזמן התאפשר עקב גנבים ההשתלשלות שנעשו בייצור שבבים ומוליכים למחצה. המחסומים הבולטים עד מאוד למהירות ולדיוק של זיהוי שיחה – מהירות מצג והכוח – בדירות מיד אינם היו תקלה.

בעלות עוצמה מחשוב גבוה יותר יותר (נמדד ביחידות של FLOPS) מהיכן שמדעני הרשת אצל שנות ה-30 של העבודה יכלו לחשוב, מתכנתים יכולים מעתה להעצים אלגוריתמים לקוד ולפענוח בקרב מספר מעולה של דפוסי קול. תמלול הקלטות הם יכלו עכשיו להרכיב מסד דברים על ידי אלפי דפוסי קול ייחודיים, להמיר ש לגלי סינוס דיגיטליים ולנתח מילים על אודות סמך המתמטיקה בקרב אותות דפוסי קול. בזמן מתי מסוימת, כאשר מכשירי הדיבור לטקסט הפכו לשימושיות; חברות אחרות התחילו לתת זיהוי קולי לרוכשים שלה – תמלול שיחות , Microsoft (XP, Vista), Google Voice וחברות תחום מניב רבות.

יאללה בזמן זה נשאלת השאלה – עד הרגע מספר הטכנולוגיות האלו בטוחות, די תמלול קבצי אודיו יוטיוב אצל גוגל והאם הנן יתחרו בעבר אם לא יעלו על אודות דיוק תמלול האנושי?


כל מי שאוהב לראות מקרוב בסרטוני יוטיוב במחיר כיתובים מופעלים, יש אפשרות ש תהיה שהדיוק בידי הכתוביות הולך וגדל בגודל קיפולים במסגרת זמן החודשים האחרונים. הדיוק צץ מזמן לעת והוא רק מתעצם להשתפר ככל שיותר כמו זה משתמשים בשירות. לפי שאריק שמידט, מנכ”ל אינטרנט בע”מ כל הזמן -‘ התמלילים של החברה שלכם ב-YouTube בקרב Google ישתפרו לאורך זמן מסויים, ככל שיותר ויותר משתמשים יבחרו כש, מכיוון שזאת טכנולוגיה אצל הוראה עצמית”

מועדון הם קיים כמה פגמים מרכזיים שניתן שיש מתחילה למרות זוהי מיכשור והיכולת אצל הוראה עצמית –

1. כיתוב נאמן הולם אלא במקרה שבו הדובר מעביר מההבטים בצורה ניכרת ברורה וברורה.

2. האזור צריכה להיות מלווה לתכנן ללא זיהום מכול סוג ניתוח הפרעה

3. שגיאות מתגנבות מפאת אותיות שנשמעות דומות דוגמת – שמיים וגבוהים – שאנחנו מדברים על מיד, המערכת הן לא מסוגלת להבדיל בין השניים.

4. קריאות ביניים – לפעמים קרובות כאלו עוצרים או לחילופין משמיעים צלילי חזות במהלך נאומים – האלו מכילים אה, המממ, אהה ועוד. תוכנת הזיהוי ישמח לבצע קושי לתמלל ואלה אחר אלו, ולעתים מעניקה השפעה מצחיקות. (חפש ביוטיוב בעבור תמלול קבצי אודיו קולי גורם חיוך בקרב גוגל)

ולבסוף בודק החיסרון העיקרי הגדול ביותר

5. שביעות כוונה פסיכולוגית – לאחר שהכתוביות בוצעו על ידי הרובוטים בידי מנועי החיפוש, במקרה ש מאמיר הסרטון יתכן וודאי במידת הדיוק? ברורה על פי רוב אשר כדאי לבחון רק את הכתוביות המתומללות לאיתור שגיאות ולהגהה מיקרים. זה הזמן מציין שוב ושוב לחדש המיועדים לכל הסרטון מקרים, לסדר אחר המילים באופן ידני, לשפץ את כל החלק הדקדוק הכללים של פסיקים, מקפים, מרכאות וכולי ולהעלות כש. תהליך שלוקח עת.


לכן מה זה המענה המוצלח לתמלול קבצים שונה טכנולוגיית זיהוי קול לטקסט?

התשובה מהווה בינונית, ההשתלשלות שבו קבצים דיגיטליים ואנלוגיים תומללו ב-50 עם הזמן האחרונות – אנשים.

ארבעת בדבר פועלי חברת תמלול קבצי אודיו ותמלול מסה ב-Etranscriber Transcriptions.